Auto NER


Het herkennen van persoonsnamen, bedrijven en locaties is een veelvoorkomende taak in natuurlijke taalverwerking (NLP). Deze taak wordt ook wel Named Entity Recognition (NER) genoemd. NER is niet alleen een lastige taak voor computers, het is een taak die vaak grote en met de hand gelabelde datasets vereist om een model te trainen dat namen kan herkennen. Handmatig gelabelde datasets zijn tijdrovend en vaak verre van schaalbaar. Wat doe je met nieuwe namen, of als je toch een andere indeling wilt maken. Ga je dan 100.000 regels tekst opnieuw doorlopen?

Om de uitdaging nog een stapje hoger te leggen: Voor Voice Marker, een taalmodel dat we hebben ontwikkeld om verbanden in tekst beter te begrijpen, willen we beschikking hebben over een up-to-date beeld van entiteiten in de Nederlandse taal. We willen bijvoorbeeld nieuws goed kunnen analyseren, en nieuws verandert continu.

Voor specifiek dit domein ontwikkelden we in Voice Marker een ‘auto NER’. Een systeem dat automatisch namen kan herkennen en labelen in tekst, zonder menselijke inbreng én met goede betrouwbaarheid. Of anders gezegd: platte tekst erin, een goede namendatabase eruit. Auto NER is een schaalbaar concept, waarbij we kennis van taal inzetten om automatisch verwijzingen naar namen te herkennen. Hiermee kunnen we niet alleen standaard entiteiten als personen, bedrijven en locaties leren, we kunnen ook veel gebruikte synoniemen herkennen in tekst. Denk bijvoorbeeld aan ‘ceo’ voor Elon Musk, of de ‘zoekmachinegigant’ voor Google.


Met auto NER heeft ons taalmodel een vers beeld van veelbesproken onderwerpen in de Nederlandse taal. Wil je meer weten welke innovaties Cornelistools B.V. ontwikkelt op het gebied van o.a. taal, AI en gamification? Neem contact op en/of volg ons!

Geplaatst 04-2024 in NLP

Eerdere posts

Beter samenvatten

“Maar ChatGPT kan toch samenvatten?”. Die vraag krijg je natuurlijk als je zelf geavanceerde samenvattingstechnologie ontwikkelt. Maar we zouden natuurlijk niet iets bouwen als het makkelijk met een andere tool oplosbaar is. Zou ons namelijk een hoop tijd schelen! • (2024) Lees verder →

Kleine handen dragen veel werk.

Large Language Models (LLMs) hebben de populariteit en inzet van AI een flinke boost gegeven, maar ook zien we dat LLMs nu worden ingezet voor taken waar het veel handiger is juist een klein toegespitst AI model in te zetten. Of eigenlijk de "saaie" AI toepassingen die we al jaren kennen. • (2024) Lees verder →

Tekstverbanden verbeteren met wereldkennis

Stel ik leg aan een verzekeraar de situatie uit: “Ik ben met mijn auto gebotst [...] De ruit heeft lichte schade opgelopen.” Dan begrijpen wij mensen dat met “de ruit”, “de ruit van de auto” wordt bedoeld en dat schade het gevolg is van de botsing. • (2023) Lees verder →