Het (verborgen) belang van het lidwoord in taaltechnologie.
In de Nederlandse taal zijn onze lidwoorden (de, het, een) een van de meest voorkomende woorden. Ze worden gebruikt om een zelfstandig naamwoord te introduceren en komen daardoor in vrijwel iedere zin wel voor.
Lidwoorden komen zodanig vaak voor in tekst dat makers van zoekmachinetechnologie deze woorden meestal als eerste wegfilteren of in het algemeen frequente woorden als minder belangrijk beschouwen (bijv. TF-IDF, BM-25 algoritmes). Immers heeft een zoekmachine als doel relevante en unieke documenten te vinden bij een zoekopdracht en woorden die in ieder document voorkomen helpen niet mee met het onderscheiden daarvan. Van chatbots tot classificatie algoritmes, lidwoorden sneuvelen vaak als eerst.
Maar zou het niet enigszins wat raar aanvoelen dat deze meest frequente, elementaire woorden in onze taal juist de minst belangrijkste zouden zijn in technologie? Gelukkig het tegendeel: in Natural Language Processing-technologie vormt het lidwoord een belangrijk puzzelstuk in de keten om robuuste zinsontleding mogelijk te maken. Enkele voorbeelden:
- Hoe kan je werkwoorden onderscheiden van zelfst. naamwoorden? Het lidwoord speelt hierbij een belangrijke rol (“het werk”).
- Hoe kan je herkennen of een zelfst. naamwoord enkelvoud of meervoud is? Het lidwoord speelt hierbij een belangrijke rol. (In het meervoud krijgen alle zelfst. naamwoorden het lidwoord ‘de’).
- Hoe kan je herkennen of een aanwijzend voornaamwoord (die/dit/dat/deze) verwijst naar een bepaald woord? Je raadt het wellicht al: het lidwoord speelt hierbij een belangrijke rol.
En dit is slechts een greep uit de rol die het lidwoord speelt in zinsverbanden.
Moraal van het verhaal: Het lidwoord vormt in de Nederlandse taal een belangrijke basis voor robuuste zinsontleding en werkt op veel aspecten door in een zin. De technische kracht: de- en het-woorden (de boom, het huis) zitten “ingebakken” in onze taal en wijzigen niet. Het foutief gebruik van een de/het-woord klinkt ook direct niet om aan te horen, denk aan “het fiets” of doorwerkend in verwijzingen “dat laptop”, au! Het is alsof we een tabel in onze hersens stampen met daarin dat het altijd “de fiets” moet zijn. En misschien is dit ook wel de indicatie dat deze juist een belangrijke basis vormt in het elementaire fundament van onze digitale taalarchitectuur, hoe onbelangrijk lidwoorden misschien technisch in eerste instantie lijken. En zelfs de meest baanbrekende AI-architecturen, kijken misschien stiekem toch ook een beetje naar patronen dankzij de lidwoorden.
Leve het lidwoord! ;)
