Richting Voice Marker II


In onze producten speelt taal een belangrijke rol. Zo maken we het met onze taaltechnologie het mogelijk dat kinderen educatieve spelletjes kunnen spelen met hun stem via voicebots, zetten we met taal- en dialoogtechnologie websites om naar de meest uitgebreide leerzame chatbots en gebruiken we taaltechnologie om automatisch websites in compacte journaals of podcasts om te zetten en reduceren we zowel informatie-overload als schermtijd.

Taal, zowel in geschreven als gesproken woord, is naar onze mening een van de meest menselijke, natuurlijke interfaces waarmee we met digitale apparaten zouden kunnen interacteren. Maar taalbegrip is voor computers -die losstaan van onze fysieke werkelijke wereld- ook een van de meest ingewikkelde taken om op te lossen. Taal is complex en de meeste taalmodellen zijn beperkt transparant indien vragen niet begrepen worden. Dit leidt vaak tot beperkte interfaces en zowel frustratie bij gebruiker als maker, ondanks de kracht van het medium.

Een van de belangrijkste doelstellingen van afgelopen half jaar was daarom niet alleen een nieuw taalmodel te ontwikkelen dat een stuk van deze complexiteit kan wegnemen, vooral een model te maken dat echt robuust en explainable is. Ofwel een model waaraan we overal exact en ‘onder de motorkap’ kunnen bekijken waarom het model bepaalde verbanden legt. Want hoe beter we het begrijpen, hoe beter we het kunnen maken.

Onderweg, richting onze nieuwste taaltechnologie Voice Marker II, heeft ons doel, onderzoek en nieuw inzicht inmiddels geleid tot tal van innovaties waar we enorm trots op zijn en een half jaar terug niet konden bedenken. Zo maakten we grote stappen in het oplossen van co-referentie in de Nederlandse taal, wat een belangrijk aspect is om computers de samenhang van tekst te kunnen laten begrijpen. Dit helpt inmiddels in onze producten in het beter begrijpen van lange chatgesprekken en lange intents (uitgebreide vragen). Een andere innovatie is onze Streaming NLP-technologie die een enorme hoeveelheid complexiteit wegneemt van traditionele NLP, waardoor we de volgende stap in taaltechnologie makkelijker maker.

Hoewel deze innovaties van erg technische aard zullen klinken (en ook zijn), draait het erom dat de kinderen die leren van onze spelletjes, de klanten die met onze chatbots worden geholpen en gebruikers die journaals luisteren via onze Botreporter hier zo min mogelijk van merken: Want valt straks de achterliggende complexiteit niet meer op met het praten met een machine, dan hebben we de meest natuurlijke interactie bereikt. •

Geplaatst 03-2023 in Company

Eerdere posts

Streaming NLP

Traditionele Natural Language Processing (NLP)-systemen verwerken documenten op een gelaagde manier: In een zogeheten verwerkingsstraat ondergaat de tekst stap voor stap logische bewerkingen om tot het eindresultaat te komen, denk aan een rijtje dominostenen. • (2023) Lees verder →

Richting een betere technische oplossing voor coreferentie in taal

Een belangrijk en uitdagend vraagstuk binnen Natural Language Processing is coreference resolution (coreferentie). Coreferentie is in simpele woorden gezegd het verwijzen naar hetzelfde in tekst. Verwijzingen kunnen zich op vele manieren manifesteren en we gebruiken verwijzingen continu. • (2023) Lees verder →

LLM's en compute: De stand van zaken

Large Language Models (LLM’s) hebben in het afgelopen jaar interessante nieuwe eigenschappen laten zien in de NLP-industrie. LLM’s zijn tot stand gekomen met een zeer grote hoeveelheid data en in het bijzonder veel rekenkracht (compute). Het budget om deze modellen te trainen kan • (2022) Lees verder →