Lemma je forma slova, která se používá jako heslo ve slovníku — tedy ta podoba, pod níž je lexém (významová jednotka) zapsán a popisován. V praxi jde o konvenčně zvolenou „citovanou“ podobu: u podstatných jmen je to obvykle singulár v 1. pádě (např. strom), u sloves infinitiv (např. být), u přídavných jmen mužský rod singuláru (např. dobrý). V hesle slovníku najdete základní tvar a informace o jeho skloňování či časování.

Lemma vs. lexém

Lexém je významová jednotka jazyka — abstraktní množina všech tvarů, které nesou jeden a ten samý základní význam. Lexém tedy zahrnuje všechny flexivní tvary a derivace spojené s tímto významem; lemma je konkrétní forma, kterou z toho množství vybereme jako reprezentanta do slovníku.

Příklad v angličtině: tvary run, runs a running jsou tvary téhož lexému, ale run se běžně uvádí jako lemma. Podobně v češtině tvoří tvary jsem, jsi, je, jsme, jste, jsou jeden lexém, jehož lemma je být.

Příklady z češtiny

  • Podstatné jméno: lemma pes reprezentuje tvary pes, psa, psu, psi, psů.
  • Sloveso: lemma psát reprezentuje tvary píšu, psal, psána atd.
  • Přídavné jméno: lemma mladý reprezentuje mladá, mladé, mladí apod.
  • Víceslovné jednotky: některé lexémy jsou víceslovné (např. frazémy). I ty mohou mít ustálenou citaci, např. dát si jako lemma pro slovní spojení „dát si kávu“.

Další důležité poznámky

  • Různé konvence: způsob volby lemma se liší podle jazyka a typu slovníku. V češtině jsou pro slovesa běžně používány infinitivy; v angličtině také infinitiv bez „to“ nebo základní tvar.
  • Homonyma a více hesel: stejný tvar může patřit do více lemmat, pokud má různý význam (např. zámek jako „hrad“ vs. „zavírací zařízení“ — dvě hesla/lemata).
  • Velká písmena: vlastní jména se v heslech obvykle uvádějí s velkým počátečním písmenem.

Lemmatizace v lingvistice a NLP

V počítačovém zpracování jazyka (NLP) se používá proces zvaný lemmatizace, který mapuje tvary slov v textu na jejich lemma. Na rozdíl od jednoduchého stemování, které často jen ořezává koncovky, lemmatizace bere v úvahu slovní druh a kontext, takže dokáže vrátit správný lemma i u nepravidelných tvarů.

Stručné shrnutí: lexém = abstraktní množina tvarů sdílejících význam; lemma = konvenčně zvolená citovaná podoba lexému, jak ji najdete v hesle ve slovníku.

Pro srovnání s angličtinou viz také příklad v angličtině, kde je lemma run reprezentantem lexému zahrnujícího runs, running apod.