Auto NER
Het herkennen van persoonsnamen, bedrijven en locaties is een veelvoorkomende taak in natuurlijke taalverwerking (NLP). Deze taak wordt ook wel Named Entity Recognition (NER) genoemd. NER is niet alleen een lastige taak voor computers, het is een taak die vaak grote en met de hand gelabelde datasets vereist om een model te trainen dat namen kan herkennen. Handmatig gelabelde datasets zijn tijdrovend en vaak verre van schaalbaar. Wat doe je met nieuwe namen, of als je toch een andere indeling wilt maken. Ga je dan 100.000 regels tekst opnieuw doorlopen?
Om de uitdaging nog een stapje hoger te leggen: Voor Voice Marker, een taalmodel dat we hebben ontwikkeld om verbanden in tekst beter te begrijpen, willen we beschikking hebben over een up-to-date beeld van entiteiten in de Nederlandse taal. We willen bijvoorbeeld nieuws goed kunnen analyseren, en nieuws verandert continu.
Voor specifiek dit domein ontwikkelden we in Voice Marker een ‘auto NER’. Een systeem dat automatisch namen kan herkennen en labelen in tekst, zonder menselijke inbreng én met goede betrouwbaarheid. Of anders gezegd: platte tekst erin, een goede namendatabase eruit. Auto NER is een schaalbaar concept, waarbij we kennis van taal inzetten om automatisch verwijzingen naar namen te herkennen. Hiermee kunnen we niet alleen standaard entiteiten als personen, bedrijven en locaties leren, we kunnen ook veel gebruikte synoniemen herkennen in tekst. Denk bijvoorbeeld aan ‘ceo’ voor Elon Musk, of de ‘zoekmachinegigant’ voor Google.

–
Met auto NER heeft ons taalmodel een vers beeld van veelbesproken onderwerpen in de Nederlandse taal. Wil je meer weten welke innovaties Cornelistools B.V. ontwikkelt op het gebied van o.a. taal, AI en gamification? Neem contact op en/of volg ons!
Geplaatst 04-2024 in NLP