Het (verborgen) belang van het lidwoord in taaltechnologie.


In de Nederlandse taal zijn onze lidwoorden (de, het, een) een van de meest voorkomende woorden. Ze worden gebruikt om een zelfstandig naamwoord te introduceren en komen daardoor in vrijwel iedere zin wel voor.

Lidwoorden komen zodanig vaak voor in tekst dat makers van zoekmachinetechnologie deze woorden meestal als eerste wegfilteren of in het algemeen frequente woorden als minder belangrijk beschouwen (bijv. TF-IDF, BM-25 algoritmes). Immers heeft een zoekmachine als doel relevante en unieke documenten te vinden bij een zoekopdracht en woorden die in ieder document voorkomen helpen niet mee met het onderscheiden daarvan. Van chatbots tot classificatie algoritmes, lidwoorden sneuvelen vaak als eerst.

Maar zou het niet enigszins wat raar aanvoelen dat deze meest frequente, elementaire woorden in onze taal juist de minst belangrijkste zouden zijn in technologie? Gelukkig het tegendeel: in Natural Language Processing-technologie vormt het lidwoord een belangrijk puzzelstuk in de keten om robuuste zinsontleding mogelijk te maken. Enkele voorbeelden:

En dit is slechts een greep uit de rol die het lidwoord speelt in zinsverbanden.

Moraal van het verhaal: Het lidwoord vormt in de Nederlandse taal een belangrijke basis voor robuuste zinsontleding en werkt op veel aspecten door in een zin. De technische kracht: de- en het-woorden (de boom, het huis) zitten “ingebakken” in onze taal en wijzigen niet. Het foutief gebruik van een de/het-woord klinkt ook direct niet om aan te horen, denk aan “het fiets” of doorwerkend in verwijzingen “dat laptop”, au! Het is alsof we een tabel in onze hersens stampen met daarin dat het altijd “de fiets” moet zijn. En misschien is dit ook wel de indicatie dat deze juist een belangrijke basis vormt in het elementaire fundament van onze digitale taalarchitectuur, hoe onbelangrijk lidwoorden misschien technisch in eerste instantie lijken. En zelfs de meest baanbrekende AI-architecturen, kijken misschien stiekem toch ook een beetje naar patronen dankzij de lidwoorden.

Leve het lidwoord! ;)


Geplaatst 10-2023 in NLP

Eerdere posts

Het belang van context.

Ben je wel eens in een schoenenwinkel naar de kassa gelopen, waarbij de medewerker het gesprek startte met "Ik ben Sem, een behulpzame en vriendelijke assistent". Nee? Toch is dit gemiddeld hoe een gesprek start met een gemiddelde chatbot of voicebot. • (2023) Lees verder →

Guided Summaries

Vraag een LLM zoals ChatGPT of PaLM een lange tekst samen te vatten, dan rolt er een kortere tekst uit. Simpel en krachtig toch? LLM's zijn wat dat betreft wonderbaarlijke transformatie machines waar tekst zonder slag of stoot wordt omgezet. Maar deze stille transformatie zonder enige uitleg brengt ook beperkingen met zich mee. • (2023) Lees verder →

"Wat een wolf anders maakt dan een hond"

Een veelgebruikte toepassing van machine learning is het classificeren van data. Classificatie is automatisch herkennen of indelen van data in (voorgedefinieerde) categorieën. Dit kunnen bijvoorbeeld afbeeldingen zijn. • (2023) Lees verder →