Beter samenvatten


“Maar ChatGPT kan toch samenvatten?”. Die vraag krijg je natuurlijk als je zelf geavanceerde samenvattingstechnologie ontwikkelt. Maar we zouden natuurlijk niet iets bouwen als het makkelijk met een andere tool oplosbaar is. Zou ons namelijk een hoop tijd schelen!


Ga je je verdiepen in samenvatten, dan merk je hoe complex het eigenlijk is. Wel eens aan anderen proberen uit te leggen hoe je eigenlijk een goede samenvatting maakt en welke stappen hierbij komen kijken?

De benchmarks zeggen het ook.

Uit benchmarks (arXiv:2305.18486v4) blijkt dat het ChatGPT nog niet gelukt is de huidige beste modellen te overtreffen op het gebied van samenvatten. En dan moet je begrijpen dat de benchmarks op Engels worden getest, de taal waarin ChatGPT zou moeten uitblinken. In het Nederlands is de brug nog veel groter.

ℹ️ Een belangrijke reden waarom Large Language Models als ChatGPT (Generatieve AI) moeite hebben met samenvatten is dat samenvatten in basis geen puur generatief vraagstuk is. Je kan niet direct starten met het genereren van tekst zonder te plannen hoe je de samenvatting tot een goed einde gaat brengen. Samenvatten is een meerstapsproces en vereist geheugen en redenatie, iets wat LLMs slechts in beperkte mate kunnen.

Kern, begrijpbaarheid en verhaallijn.

Een samenvatting moet de kern van het oorspronkelijke verhaal bevatten en hiervoor moet minder belangrijke informatie weggelaten worden. Maar de ingekorte informatie moet wel begrijpbaar blijven en terug te brengen zijn naar de oorspronkelijke boodschap. Een goede samenvatting zoekt de complexe belans tussen kern, begrijpbaarheid en verhaallijn.

Bestuurbare lengte

Puzzel je weleens op sociale media met de karakterlimiet? Je zal je tekst meerdere keren moeten teruglezen om te beslissen welke zinnen je weg wilt laten of korter wilt beschrijven. Samenvatten is een enorme uitdaging als je een bepaalde lengte wilt waarborgen.

Verklaarbare en controleerbare uitkomsten.

Een samenvatting met ChatGPT, werkt als een machine die tekst blindelings omzet. Je krijgt een samenvatting zonder uitleg en controle, wat beperkingen met zich meebrengt. In veel situaties is het juist belangrijk dat de samenvatting uitlegbaar en controleerbaar is. Als je de hele oorspronkelijke tekst moet teruglezen om de controle uit te voeren, gaat de tijdswinst van samenvatten verloren.

Voice Marker II is een systeem wat al deze problemen probeert op te lossen voor de Nederlandse taal, om samenvatten tot een hoger niveau te tillen. Met uitlegbare algoritmes zetten we deze technologie bijvoorbeeld in voor nieuwsmedia om tekst te comprimeren tot betrouwbare en hallucinatievrije berichten. Wil je meer weten over de inzet van Voice Marker? Neem eens contact op!

Geplaatst 02-2024 in NLP

Eerdere posts

Kleine handen dragen veel werk.

Large Language Models (LLMs) hebben de populariteit en inzet van AI een flinke boost gegeven, maar ook zien we dat LLMs nu worden ingezet voor taken waar het veel handiger is juist een klein toegespitst AI model in te zetten. Of eigenlijk de "saaie" AI toepassingen die we al jaren kennen. • (2024) Lees verder →

Tekstverbanden verbeteren met wereldkennis

Stel ik leg aan een verzekeraar de situatie uit: “Ik ben met mijn auto gebotst [...] De ruit heeft lichte schade opgelopen.” Dan begrijpen wij mensen dat met “de ruit”, “de ruit van de auto” wordt bedoeld en dat schade het gevolg is van de botsing. • (2023) Lees verder →

Article Discovery: Schonere data door automatische artikeldetectie

In veel projecten met conversational AI en taalverwerking in het algemeen speelt content-aggregatie een belangrijke rol. De vaardigheid van een AI-systeem wordt beïnvloed door de content (data) die je in het systeem kunt stoppen en het is belangrijk dat dit kwalitatief en met structuur gebeurt. • (2023) Lees verder →