Streaming NLP


Traditionele Natural Language Processing (NLP)-systemen verwerken documenten op een gelaagde manier: In een zogeheten verwerkingsstraat ondergaat de tekst stap voor stap logische bewerkingen om tot het eindresultaat te komen, denk aan een rijtje dominostenen.

Een typische eerste verwerkingstap is tokenization, simpel gezegd het opknippen van tekst in afzonderlijke woorden of zinnen. Typische vervolgstappen zijn o.a. POS-tagging (zinsontleding) en NER (herkennen van persoonsnamen, plaatsen, bedrijven etc.). De gelaagde, stapsgewijze manier van verwerking lijkt de IT-processen in eerste instantie overzichtelijk en duidelijker te maken, maar voor taalbegrip nemen deze gelaagde structuren juist uitdagingen met zich mee. De kennis van iedere laag lijkt niet alleen van elkaar afhankelijk te zijn, maar ook wederzijds afhankelijk. Voor het correct opknippen van zinnen is bijvoorbeeld kennis nodig van namen: Bijvoorbeeld de punt in “Warner Bros. Games” luidt geen einde van de zin in. Kennis uit latere stappen is dus soms nodig in eerdere stappen en visa versa. De dominostenen zullen niet meer verder kunnen vallen. Vaak zien we daarom ook geheel afzonderlijke (en vaak onnodig complexe) modellen gebruikt worden voor de verschillende stappen, omdat in iedere stap additionele kennis nodig is.


Logisch redenerend hoe mensen taal verwerken zien we dat mensen taal real-time kunnen verwerken en begrijpen. Zodra ik het woord “Ik..” heb uitgesproken snapt de ander al deels welke richting mijn vraag op gaat. Sterker nog, versterkt door non-verbale signalen en externe informatie hebben we soms ook aan een paar woorden genoeg om elkaar te begrijpen. En daar houden we van.

Hierbij introduceren wij onze eerste Streaming NLP-technologie voor de Nederlandse taal, een nieuwe slimmere NLP-methode. Deze technologie doorbreekt niet alleen de traditionele NLP-verwerkingsketen, het maakt NLP processing mogelijk in de meest vroege stadia van de zin, direct vanaf de eerste woorden. Er vind in deze technologie ook directer overleg plaats tussen tokenization, POS en NER, resulterend in correctere en snellere verwerking. De technologie reduceert complexiteit en opent alle potentie voor real-time toepassingen, high performance en dus hoge volumes. De Streaming NLP-technologie zal in eerste instantie uitgerold worden in ons product Voice Marker II, waarna de technologie mogelijk een zelfstandig vervolg krijgt.

Meer weten over Voice Marker II en onze innovaties in taalbegrip? Neem contact op en/of volg ons!

Geplaatst 02-2023 in NLP

Eerdere posts

Richting een betere technische oplossing voor coreferentie in taal

Een belangrijk en uitdagend vraagstuk binnen Natural Language Processing is coreference resolution (coreferentie). Coreferentie is in simpele woorden gezegd het verwijzen naar hetzelfde in tekst. Verwijzingen kunnen zich op vele manieren manifesteren en we gebruiken verwijzingen continu. • (2023) Lees verder →

LLM's en compute: De stand van zaken

Large Language Models (LLM’s) hebben in het afgelopen jaar interessante nieuwe eigenschappen laten zien in de NLP-industrie. LLM’s zijn tot stand gekomen met een zeer grote hoeveelheid data en in het bijzonder veel rekenkracht (compute). Het budget om deze modellen te trainen kan • (2022) Lees verder →

Timing in voicebots

Is jouw voicebot performant of ervaar je een gesprek als een trage satellietverbinding? In dat geval is het goed om eens de timing van de voicebot te optimaliseren. Met timing van de voicebot bedoelen we o.a. de reactiesnelheid, spreeksnelheid en rust tussen zinnen. • (2022) Lees verder →