Tekstverbanden verbeteren met wereldkennis


Stel ik leg aan een verzekeraar de situatie uit: “Ik ben met mijn auto gebotst […] De ruit heeft lichte schade opgelopen.” Dan begrijpen wij mensen dat met “de ruit”, “de ruit van de auto” wordt bedoeld en dat schade het gevolg is van de botsing. Taalbegrip tussen mensen komt uit begrip van de fysieke wereld en we weten hoe voorwerpen in de wereld zich tot elkaar verhouden en fysiek gedragen. Iedereen die een auto in zijn leven heeft gezien weet dat deze een ruit heeft en dat een auto kan botsen. Zodra we geboren worden beginnen we direct deze wereld te ontdekken. Woorden komen meestal zo’n 1 tot 1,5 jaar later. Taal is een toepassing op de fysieke wereld.

Om computers taal te leren is het essentieel “wereldkennis” mee te geven aan het systeem. Computers hebben niet de luxe gehad door een kamer te kruipen en tegen een tafel te stoten en die ervaring zelf op te doen. Hoe exact een dergelijk “world model” eruit ziet, is een groot vraagstuk en onderzoeksveld binnen de AI.

De afgelopen periode experimenteerden we veel met mogelijkheden voor het toevoegen van kennis van de fysieke wereld aan onze taaltechnologie, Voice Marker. Door de fysieke relatie tussen objecten beter in acht te nemen (bijvoorbeeld een deur is onderdeel van een huis) kunnen we complexe verbanden in tekst nog beter leggen. Daarbij is het vooral de kunst de fysieke verbanden zelf te leren.

Neem bijvoorbeeld de samenvatting in de afbeelding. Hier legt het systeem bijvoorbeeld de verbanden:


Het leggen van verbanden op basis van kennis van de wereld speelt een grote rol in taalbegrip van computers en onze doorontwikkeling richting Voice Marker III. Dergelijke verbanden hebben directe praktische toepasbaarheid in onder andere het maken van samenvattingen en het oplossen van lange vragen in Conversational AI. •

Geplaatst 12-2023 in NLP

Eerdere posts

Article Discovery: Schonere data door automatische artikeldetectie

In veel projecten met conversational AI en taalverwerking in het algemeen speelt content-aggregatie een belangrijke rol. De vaardigheid van een AI-systeem wordt beïnvloed door de content (data) die je in het systeem kunt stoppen en het is belangrijk dat dit kwalitatief en met structuur gebeurt. • (2023) Lees verder →

Het (verborgen) belang van het lidwoord in taaltechnologie.

In de Nederlandse taal zijn onze lidwoorden (de, het, een) een van de meest voorkomende woorden. Ze worden gebruikt om een zelfstandig naamwoord te introduceren en komen daardoor in vrijwel iedere zin wel voor. • (2023) Lees verder →

Het belang van context.

Ben je wel eens in een schoenenwinkel naar de kassa gelopen, waarbij de medewerker het gesprek startte met "Ik ben Sem, een behulpzame en vriendelijke assistent". Nee? Toch is dit gemiddeld hoe een gesprek start met een gemiddelde chatbot of voicebot. • (2023) Lees verder →