Article Discovery: Schonere data door automatische artikeldetectie


In veel projecten met conversational AI en taalverwerking in het algemeen speelt content-aggregatie een belangrijke rol. De vaardigheid van een AI-systeem wordt beïnvloed door de content (data) die je in het systeem kunt stoppen en het is belangrijk dat dit kwalitatief en met structuur gebeurt. AI-systemen bootsen gedrag uit data na, en rommelige of low-quality data zal je terugzien in het uiteindelijke gedrag van het systeem. In de AI-wereld spreken we ook wel van “garbage in, garbage out”.

Om te starten met AI hebben bedrijven op zich vaak geschikte content, bijvoorbeeld op hun website, maar minder vaak is bedrijfscontent in een mooie centrale database of kennisbank beschikbaar, laat staan te ontsluiten via een API.


En om het niveau nog een stapje hoger te leggen; Wat als je een AI-systeem hebt wat van veel willekeurige of vooraf onbekende bronnen van het web gebruik moet maken zoals Botreporter? Botreporter helpt uitgevers hun nieuws (alias “artikel-data”) te verzamelen en in audiovorm zoals een bulletin of newscast beschikbaar te maken. Hoe kan je dit snel en kwalitatief doen en bovengenoemde problematiek met content-aggregatie voor bedrijven vergemakkelijken? Hiervoor ontwikkelden we een slimme crawler (webrobot) met automatische artikeldetectie.

Een webrobot heeft als primair doel een webpagina op te halen, maar wat deze effectief maakt is dat deze daadwerkelijk het artikel automatisch kan ontsluiten uit de willekeurige bak van mogelijkheden in HTML. Hiermee kan onze crawler het AI-systeem van actuele en opgeschoonde artikel-data voorzien zonder de noodzaak tot centrale kennisbank of API. En andersom: wat als je nog geen centrale kennisbank hebt, maar deze sneller wilt creëren uit een dataset die uit HTML bestaat? Wederom kan smart crawling met artikeldetectie hier een uitkomst voor zijn. Inmiddels draait ons artikeldetectie-algoritme al bijna een jaar effectief en zien we het als een belangrijke factor in schaalbaarheid van AI-projecten. •

Geplaatst 12-2023 in Data

Eerdere posts

Het (verborgen) belang van het lidwoord in taaltechnologie.

In de Nederlandse taal zijn onze lidwoorden (de, het, een) een van de meest voorkomende woorden. Ze worden gebruikt om een zelfstandig naamwoord te introduceren en komen daardoor in vrijwel iedere zin wel voor. • (2023) Lees verder →

Het belang van context.

Ben je wel eens in een schoenenwinkel naar de kassa gelopen, waarbij de medewerker het gesprek startte met "Ik ben Sem, een behulpzame en vriendelijke assistent". Nee? Toch is dit gemiddeld hoe een gesprek start met een gemiddelde chatbot of voicebot. • (2023) Lees verder →

Guided Summaries

Vraag een LLM zoals ChatGPT of PaLM een lange tekst samen te vatten, dan rolt er een kortere tekst uit. Simpel en krachtig toch? LLM's zijn wat dat betreft wonderbaarlijke transformatie machines waar tekst zonder slag of stoot wordt omgezet. Maar deze stille transformatie zonder enige uitleg brengt ook beperkingen met zich mee. • (2023) Lees verder →