Lemma je forma slova, která se používá jako heslo ve slovníku — tedy ta podoba, pod níž je lexém (významová jednotka) zapsán a popisován. V praxi jde o konvenčně zvolenou „citovanou“ podobu: u podstatných jmen je to obvykle singulár v 1. pádě (např. strom), u sloves infinitiv (např. být), u přídavných jmen mužský rod singuláru (např. dobrý). V hesle slovníku najdete základní tvar a informace o jeho skloňování či časování.
Lemma vs. lexém
Lexém je významová jednotka jazyka — abstraktní množina všech tvarů, které nesou jeden a ten samý základní význam. Lexém tedy zahrnuje všechny flexivní tvary a derivace spojené s tímto významem; lemma je konkrétní forma, kterou z toho množství vybereme jako reprezentanta do slovníku.
Příklad v angličtině: tvary run, runs a running jsou tvary téhož lexému, ale run se běžně uvádí jako lemma. Podobně v češtině tvoří tvary jsem, jsi, je, jsme, jste, jsou jeden lexém, jehož lemma je být.
Příklady z češtiny
- Podstatné jméno: lemma pes reprezentuje tvary pes, psa, psu, psi, psů.
- Sloveso: lemma psát reprezentuje tvary píšu, psal, psána atd.
- Přídavné jméno: lemma mladý reprezentuje mladá, mladé, mladí apod.
- Víceslovné jednotky: některé lexémy jsou víceslovné (např. frazémy). I ty mohou mít ustálenou citaci, např. dát si jako lemma pro slovní spojení „dát si kávu“.
Další důležité poznámky
- Různé konvence: způsob volby lemma se liší podle jazyka a typu slovníku. V češtině jsou pro slovesa běžně používány infinitivy; v angličtině také infinitiv bez „to“ nebo základní tvar.
- Homonyma a více hesel: stejný tvar může patřit do více lemmat, pokud má různý význam (např. zámek jako „hrad“ vs. „zavírací zařízení“ — dvě hesla/lemata).
- Velká písmena: vlastní jména se v heslech obvykle uvádějí s velkým počátečním písmenem.
Lemmatizace v lingvistice a NLP
V počítačovém zpracování jazyka (NLP) se používá proces zvaný lemmatizace, který mapuje tvary slov v textu na jejich lemma. Na rozdíl od jednoduchého stemování, které často jen ořezává koncovky, lemmatizace bere v úvahu slovní druh a kontext, takže dokáže vrátit správný lemma i u nepravidelných tvarů.
Stručné shrnutí: lexém = abstraktní množina tvarů sdílejících význam; lemma = konvenčně zvolená citovaná podoba lexému, jak ji najdete v hesle ve slovníku.
Pro srovnání s angličtinou viz také příklad v angličtině, kde je lemma run reprezentantem lexému zahrnujícího runs, running apod.