Richting een betere technische oplossing voor coreferentie in taal


Een belangrijk en uitdagend vraagstuk binnen Natural Language Processing is coreference resolution (coreferentie). Coreferentie is in simpele woorden gezegd het verwijzen naar hetzelfde in tekst.

Verwijzingen kunnen zich op vele manieren manifesteren en we gebruiken verwijzingen continu. Verwijzingen maken van losse zinnen een samenhangend verhaal en zijn essentieel voor taalbegrip. Het oplossen van coreferentie is daarom ook essentieel in onze missie.



Elementaire vormen van verwijzingen vinden plaats via aanwijzend voornaamwoorden zoals ‘die’, ‘dit’, ‘dat’ en ‘deze’. Aanwijzend voornaamwoorden kunnen verwijzen naar een enkel zelfstandig naamwoord, maar soms ook brede concepten. Vaak verwijzen we naar personen terug met ‘hij’ of ‘zij’. Verwijzing in tekst kan ook plaatsvinden in de vorm van synoniemen. Bijvoorbeeld een ‘huis’ en ‘woning’. Verwijzing kan ook plaatsvinden in de vorm van logische telling. Bijvoorbeeld “Een man en een vrouw uit Amsterdam ..” en daarna “Het tweetal ..”. Een andere belangrijke vorm van aanwijzing vindt plaats op wat kennis vereist over de persoon of ding en ook ons nieuwe verbanden leert. Bijvoorbeeld “Messi” en ‘De voetballer’, “Irene Schouten” en “De drievoudig olympisch kampioen” of “Elden Ring” en “Het spel”.

Verwijzingen kunnen dichtbij en veraf zijn. Dit duidt al op een verschil tussen ‘dit’ en ‘dat’ maar ook op verwijzingen die binnen de zin, buiten de zin en zelfs naar een andere paragraaf of gesprek verwijzen. Kortom, we verwijzen overal en op veel manieren.

In ons huidig onderzoek en ontwikkeling van Voice Marker II speelt coreferentie een essentiële rol. Met onze oplossingen voor coreferentie kunnen we de belangrijkste verbanden in tekst beter herkennen en leggen we een basis die de samenhang van een verhaal beter begrijpt om bijvoorbeeld een betere samenvatting te maken, een chatbot-gesprek beter te begrijpen en vooral ook meer kennis kan leren uit tekst op een gestructureerde manier. •

Geplaatst 01-2023 in NLP

Eerdere posts

LLM's en compute: De stand van zaken

Large Language Models (LLM’s) hebben in het afgelopen jaar interessante nieuwe eigenschappen laten zien in de NLP-industrie. LLM’s zijn tot stand gekomen met een zeer grote hoeveelheid data en in het bijzonder veel rekenkracht (compute). Het budget om deze modellen te trainen kan • (2022) Lees verder →

Timing in voicebots

Is jouw voicebot performant of ervaar je een gesprek als een trage satellietverbinding? In dat geval is het goed om eens de timing van de voicebot te optimaliseren. Met timing van de voicebot bedoelen we o.a. de reactiesnelheid, spreeksnelheid en rust tussen zinnen. • (2022) Lees verder →