Article Discovery: Schonere data door automatische artikeldetectie
In veel projecten met conversational AI en taalverwerking in het algemeen speelt content-aggregatie een belangrijke rol. De vaardigheid van een AI-systeem wordt beïnvloed door de content (data) die je in het systeem kunt stoppen en het is belangrijk dat dit kwalitatief en met structuur gebeurt. AI-systemen bootsen gedrag uit data na, en rommelige of low-quality data zal je terugzien in het uiteindelijke gedrag van het systeem. In de AI-wereld spreken we ook wel van “garbage in, garbage out”.
Om te starten met AI hebben bedrijven op zich vaak geschikte content, bijvoorbeeld op hun website, maar minder vaak is bedrijfscontent in een mooie centrale database of kennisbank beschikbaar, laat staan te ontsluiten via een API.

En om het niveau nog een stapje hoger te leggen; Wat als je een AI-systeem hebt wat van veel willekeurige of vooraf onbekende bronnen van het web gebruik moet maken zoals Botreporter? Botreporter helpt uitgevers hun nieuws (alias “artikel-data”) te verzamelen en in audiovorm zoals een bulletin of newscast beschikbaar te maken. Hoe kan je dit snel en kwalitatief doen en bovengenoemde problematiek met content-aggregatie voor bedrijven vergemakkelijken? Hiervoor ontwikkelden we een slimme crawler (webrobot) met automatische artikeldetectie.
Een webrobot heeft als primair doel een webpagina op te halen, maar wat deze effectief maakt is dat deze daadwerkelijk het artikel automatisch kan ontsluiten uit de willekeurige bak van mogelijkheden in HTML. Hiermee kan onze crawler het AI-systeem van actuele en opgeschoonde artikel-data voorzien zonder de noodzaak tot centrale kennisbank of API. En andersom: wat als je nog geen centrale kennisbank hebt, maar deze sneller wilt creëren uit een dataset die uit HTML bestaat? Wederom kan smart crawling met artikeldetectie hier een uitkomst voor zijn. Inmiddels draait ons artikeldetectie-algoritme al bijna een jaar effectief en zien we het als een belangrijke factor in schaalbaarheid van AI-projecten. •
Geplaatst 12-2023 in Data