Sémantický web je projekt konsorcia W3C, který využívá metadata k zápisu konkrétních údajů týkajících se určitého předmětu, aby počítače mohly lépe zpracovávat informace na internetu. Tento plán ukládání dalších sémantických detailů by umožnil počítačům vykonávat více práce spojené s vyhledáváním, sdílením a kombinováním informací na internetu. Namísto pouhého předávání textu pro lidské čtení jde o to, aby data byla popsána tak, že je stroje rozumějí — například rozlišit, že „Praha“ je město, že má populaci a že leží v určité zemi.
Sémantický web je myšlenka vynálezce World Wide Webu Tima Bernerse Leeho. Chtěl, aby web intuitivněji odpovídal potřebám uživatelů. Sémantika informací a služeb je definována ve webovém ontologickém jazyce (OWL) a schématech RDF. Ty slouží k formálnímu popisu pojmů, termínů a vztahů v dané oblasti znalostí. Díky tomu mohou různé systémy sdílet a znovupoužívat informace bez nutnosti ručního mapování významů.
Myšlenka Tima Bernerse-Leeho byla následující:
- Web by měl obsahovat nejen dokumenty pro lidi, ale i popsaná data, která počítače dokážou interpretovat a kombinovat.
- Každý zdroj (pojem, entita, vztah) by měl mít jednoznačný identifikátor (URI), aby bylo možné na něj odkazovat a spojovat údaje z různých míst.
- Pomocí standardních modelů a jazyků (např. RDF, OWL) je možné formalizovat znalosti tak, aby na ně mohly pracovat vyhledávače, agenty a další aplikace.
Principy sémantického webu
- Jednoznačné identifikátory (URI): každý koncept nebo zdroj má unikátní adresu, která umožňuje navazovat odkazy mezi daty.
- Trojice (triples): data jsou modelována jako trojice subjekt–predikát–objekt (např. „Praha“ – „je hlavním městem“ – „Česko“), což vytváří graf znalostí.
- Otevřené vocabularies a ontologie: společné slovníky (např. definované v RDF/RDFS/OWL) popisují pojmy a jejich vztahy, aby různé systémy mluvily stejným jazykem.
- Linkování dat: propojení mezi datovými zdroji umožňuje kombinovat informace z různých domén (tzv. Linked Data).
- Strojová zpracovatelnost: metadata a formální popisy umožňují automatické inferování, vyhledávání a integraci dat.
Základní technologie
- RDF (Resource Description Framework): model pro reprezentaci informací ve formě trojic; základní stavební kámen sémantického webu.
- RDFS (RDF Schema): jednoduchý mechanismus pro definici tříd a vlastností (typů) v RDF grafech.
- OWL (Web Ontology Language): bohatší jazyk pro vytváření ontologií — umožňuje vyjadřovat složitější vztahy, omezení a logická pravidla.
- SPARQL: standardní dotazovací jazyk pro RDF grafy (analog SQL pro relační databáze), který umožňuje vyhledávat a vybírat data z trojic.
- Serializace: formáty pro zápis RDF — RDF/XML, Turtle, N-Triples, JSON-LD — které umožňují přenos a ukládání dat.
Jak to funguje (základní koncepty)
- URI: identifikují zdroje (osoby, místa, koncepty). Když dvě různé databáze používají stejný URI, jejich data lze bezpečně propojit.
- Trojice (subjekt–predikát–objekt): každý údaj je malá věta vyjadřující vztah mezi dvěma entitami nebo entitou a literálem.
- Graf: množina trojic tvoří graf, který lze dotazovat, vizualizovat a na jehož základě provádět inferenci (odvozování nových faktů).
- Ontologie: struktura definující třídy, vlastnosti a pravidla, které pomáhají strojům chápat význam dat a logické následky.
Serializace a přenos dat
RDF lze zapisovat různými formáty. Nejběžnější jsou:
- Turtle: čitelný pro člověka, často používaný při vývoji a dokumentaci.
- RDF/XML: původní formát založený na XML.
- JSON-LD: JSON-based serializace vhodná pro webové aplikace a API.
- N-Triples/N-Quads: jednoduché textové formáty vhodné pro zpracování velkých datasetů.
Dotazování a inference
- SPARQL: umožňuje klást dotazy na RDF grafy, sbírat výsledky, vytvářet pohledy nebo exportovat subsety dat.
- Reasonery: specializované nástroje (logické stroje), které na základě ontologií dokážou odvodit nové tvrzení, zkontrolovat konzistenci nebo klasifikovat entity.
Linked Data — čtyři principy
- 1) Používat URI jako identifikátory věcí.
- 2) Když je URI voláno, poskytovat použitelná data pomocí standardních formátů (RDF, SPARQL).
- 3) Používat standardní HTTP URI, aby bylo možné na věci odkazovat z webu.
- 4) Odkazovat na jiné URI, aby vznikla síť propojených dat.
Příklady použití
- Vyhledávače a bohaté výsledky: lepší indexace a přesnější odpovědi (např. knowledge graphy).
- Integrace dat: propojení veřejných dat (např. geodata, bibliografické záznamy, vládní data) z různých zdrojů.
- Personalizace a agenty: automatizované služby, které dokáží kombinovat informace a nabízet konkrétní doporučení.
- Semantické API: poskytování strukturovaných dat přes JSON-LD pro snadné použití v aplikacích.
Výhody a výzvy
- Výhody: interoperabilita, znovupoužitelnost dat, lepší automatizace a robustnější integrace mezi systémy.
- Výzvy: tvorba a údržba ontologií, kvalita a konzistence dat, škálovatelnost při velkých grafech, otázky soukromí a bezpečnosti.
Nástroje a úložiště
Pro práci se sémantickým webem existují tzv. triple-store (databáze pro RDF), SPARQL endpointy, reasonery (např. Pellet, Hermit), a řada knihoven a frameworků v jazycích jako Java, Python nebo JavaScript. Důležité je také používat standardní vocabularies (např. FOAF, Dublin Core, schema.org) pro lepší sdílení mezi datovými zdroji.
Jak začít
Pro první kroky doporučuji:
- Seznámit se s RDF a jeho zápisy v Turtle nebo JSON-LD.
- Prozkoumat existující ontologie a vocabularies, které se vztahují k vaší oblasti.
- Nainstalovat lokální triple-store a zkusit nahrát jednoduchý RDF dataset a dotazovat ho přes SPARQL.
- Postupně publikovat data jako Linked Data — zajistit stabilní URI a propojení na jiné veřejné zdroje.
Sémantický web není pouze sada technologií, ale i myšlení o tom, jak strukturovat a propojit znalosti tak, aby byly srozumitelné nejen lidem, ale i strojům. Standardy definované konsorciem W3C (RDF, RDFS, OWL, SPARQL) poskytují základy, na kterých mohou vznikat aplikace usnadňující vyhledávání, integraci a automatické zpracování informací.