Sémantický web je projekt konsorcia W3C, který využívá metadata k zápisu konkrétních údajů týkajících se určitého předmětu, aby počítače mohly lépe zpracovávat informace na internetu. Tento plán ukládání dalších sémantických detailů by umožnil počítačům vykonávat více práce spojené s vyhledáváním, sdílením a kombinováním informací na internetu. Namísto pouhého předávání textu pro lidské čtení jde o to, aby data byla popsána tak, že je stroje rozumějí — například rozlišit, že „Praha“ je město, že má populaci a že leží v určité zemi.

Sémantický web je myšlenka vynálezce World Wide Webu Tima Bernerse Leeho. Chtěl, aby web intuitivněji odpovídal potřebám uživatelů. Sémantika informací a služeb je definována ve webovém ontologickém jazyce (OWL) a schématech RDF. Ty slouží k formálnímu popisu pojmů, termínů a vztahů v dané oblasti znalostí. Díky tomu mohou různé systémy sdílet a znovupoužívat informace bez nutnosti ručního mapování významů.

Myšlenka Tima Bernerse-Leeho byla následující:

  • Web by měl obsahovat nejen dokumenty pro lidi, ale i popsaná data, která počítače dokážou interpretovat a kombinovat.
  • Každý zdroj (pojem, entita, vztah) by měl mít jednoznačný identifikátor (URI), aby bylo možné na něj odkazovat a spojovat údaje z různých míst.
  • Pomocí standardních modelů a jazyků (např. RDF, OWL) je možné formalizovat znalosti tak, aby na ně mohly pracovat vyhledávače, agenty a další aplikace.

Principy sémantického webu

  • Jednoznačné identifikátory (URI): každý koncept nebo zdroj má unikátní adresu, která umožňuje navazovat odkazy mezi daty.
  • Trojice (triples): data jsou modelována jako trojice subjekt–predikát–objekt (např. „Praha“ – „je hlavním městem“ – „Česko“), což vytváří graf znalostí.
  • Otevřené vocabularies a ontologie: společné slovníky (např. definované v RDF/RDFS/OWL) popisují pojmy a jejich vztahy, aby různé systémy mluvily stejným jazykem.
  • Linkování dat: propojení mezi datovými zdroji umožňuje kombinovat informace z různých domén (tzv. Linked Data).
  • Strojová zpracovatelnost: metadata a formální popisy umožňují automatické inferování, vyhledávání a integraci dat.

Základní technologie

  • RDF (Resource Description Framework): model pro reprezentaci informací ve formě trojic; základní stavební kámen sémantického webu.
  • RDFS (RDF Schema): jednoduchý mechanismus pro definici tříd a vlastností (typů) v RDF grafech.
  • OWL (Web Ontology Language): bohatší jazyk pro vytváření ontologií — umožňuje vyjadřovat složitější vztahy, omezení a logická pravidla.
  • SPARQL: standardní dotazovací jazyk pro RDF grafy (analog SQL pro relační databáze), který umožňuje vyhledávat a vybírat data z trojic.
  • Serializace: formáty pro zápis RDF — RDF/XML, Turtle, N-Triples, JSON-LD — které umožňují přenos a ukládání dat.

Jak to funguje (základní koncepty)

  • URI: identifikují zdroje (osoby, místa, koncepty). Když dvě různé databáze používají stejný URI, jejich data lze bezpečně propojit.
  • Trojice (subjekt–predikát–objekt): každý údaj je malá věta vyjadřující vztah mezi dvěma entitami nebo entitou a literálem.
  • Graf: množina trojic tvoří graf, který lze dotazovat, vizualizovat a na jehož základě provádět inferenci (odvozování nových faktů).
  • Ontologie: struktura definující třídy, vlastnosti a pravidla, které pomáhají strojům chápat význam dat a logické následky.

Serializace a přenos dat

RDF lze zapisovat různými formáty. Nejběžnější jsou:

  • Turtle: čitelný pro člověka, často používaný při vývoji a dokumentaci.
  • RDF/XML: původní formát založený na XML.
  • JSON-LD: JSON-based serializace vhodná pro webové aplikace a API.
  • N-Triples/N-Quads: jednoduché textové formáty vhodné pro zpracování velkých datasetů.

Dotazování a inference

  • SPARQL: umožňuje klást dotazy na RDF grafy, sbírat výsledky, vytvářet pohledy nebo exportovat subsety dat.
  • Reasonery: specializované nástroje (logické stroje), které na základě ontologií dokážou odvodit nové tvrzení, zkontrolovat konzistenci nebo klasifikovat entity.

Linked Data — čtyři principy

  • 1) Používat URI jako identifikátory věcí.
  • 2) Když je URI voláno, poskytovat použitelná data pomocí standardních formátů (RDF, SPARQL).
  • 3) Používat standardní HTTP URI, aby bylo možné na věci odkazovat z webu.
  • 4) Odkazovat na jiné URI, aby vznikla síť propojených dat.

Příklady použití

  • Vyhledávače a bohaté výsledky: lepší indexace a přesnější odpovědi (např. knowledge graphy).
  • Integrace dat: propojení veřejných dat (např. geodata, bibliografické záznamy, vládní data) z různých zdrojů.
  • Personalizace a agenty: automatizované služby, které dokáží kombinovat informace a nabízet konkrétní doporučení.
  • Semantické API: poskytování strukturovaných dat přes JSON-LD pro snadné použití v aplikacích.

Výhody a výzvy

  • Výhody: interoperabilita, znovupoužitelnost dat, lepší automatizace a robustnější integrace mezi systémy.
  • Výzvy: tvorba a údržba ontologií, kvalita a konzistence dat, škálovatelnost při velkých grafech, otázky soukromí a bezpečnosti.

Nástroje a úložiště

Pro práci se sémantickým webem existují tzv. triple-store (databáze pro RDF), SPARQL endpointy, reasonery (např. Pellet, Hermit), a řada knihoven a frameworků v jazycích jako Java, Python nebo JavaScript. Důležité je také používat standardní vocabularies (např. FOAF, Dublin Core, schema.org) pro lepší sdílení mezi datovými zdroji.

Jak začít

Pro první kroky doporučuji:

  • Seznámit se s RDF a jeho zápisy v Turtle nebo JSON-LD.
  • Prozkoumat existující ontologie a vocabularies, které se vztahují k vaší oblasti.
  • Nainstalovat lokální triple-store a zkusit nahrát jednoduchý RDF dataset a dotazovat ho přes SPARQL.
  • Postupně publikovat data jako Linked Data — zajistit stabilní URI a propojení na jiné veřejné zdroje.

Sémantický web není pouze sada technologií, ale i myšlení o tom, jak strukturovat a propojit znalosti tak, aby byly srozumitelné nejen lidem, ale i strojům. Standardy definované konsorciem W3C (RDF, RDFS, OWL, SPARQL) poskytují základy, na kterých mohou vznikat aplikace usnadňující vyhledávání, integraci a automatické zpracování informací.