Beter samenvatten
“Maar ChatGPT kan toch samenvatten?”. Die vraag krijg je natuurlijk als je zelf geavanceerde samenvattingstechnologie ontwikkelt. Maar we zouden natuurlijk niet iets bouwen als het makkelijk met een andere tool oplosbaar is. Zou ons namelijk een hoop tijd schelen!

Ga je je verdiepen in samenvatten, dan merk je hoe complex het eigenlijk is. Wel eens aan anderen proberen uit te leggen hoe je eigenlijk een goede samenvatting maakt en welke stappen hierbij komen kijken?
De benchmarks zeggen het ook.
Uit benchmarks (arXiv:2305.18486v4) blijkt dat het ChatGPT nog niet gelukt is de huidige beste modellen te overtreffen op het gebied van samenvatten. En dan moet je begrijpen dat de benchmarks op Engels worden getest, de taal waarin ChatGPT zou moeten uitblinken. In het Nederlands is de brug nog veel groter.
ℹ️ Een belangrijke reden waarom Large Language Models als ChatGPT (Generatieve AI) moeite hebben met samenvatten is dat samenvatten in basis geen puur generatief vraagstuk is. Je kan niet direct starten met het genereren van tekst zonder te plannen hoe je de samenvatting tot een goed einde gaat brengen. Samenvatten is een meerstapsproces en vereist geheugen en redenatie, iets wat LLMs slechts in beperkte mate kunnen.
Kern, begrijpbaarheid en verhaallijn.
Een samenvatting moet de kern van het oorspronkelijke verhaal bevatten en hiervoor moet minder belangrijke informatie weggelaten worden. Maar de ingekorte informatie moet wel begrijpbaar blijven en terug te brengen zijn naar de oorspronkelijke boodschap. Een goede samenvatting zoekt de complexe balans tussen kern, begrijpbaarheid en verhaallijn.
Bestuurbare lengte
Puzzel je weleens op sociale media met de karakterlimiet? Je zal je tekst meerdere keren moeten teruglezen om te beslissen welke zinnen je weg wilt laten of korter wilt beschrijven. Samenvatten is een enorme uitdaging als je een bepaalde lengte wilt waarborgen.
Verklaarbare en controleerbare uitkomsten.
Een samenvatting met ChatGPT, werkt als een machine die tekst blindelings omzet. Je krijgt een samenvatting zonder uitleg en controle, wat beperkingen met zich meebrengt. In veel situaties is het juist belangrijk dat de samenvatting uitlegbaar en controleerbaar is. Als je de hele oorspronkelijke tekst moet teruglezen om de controle uit te voeren, gaat de tijdswinst van samenvatten verloren.
–
Voice Marker II is een systeem wat al deze problemen probeert op te lossen voor de Nederlandse taal, om samenvatten tot een hoger niveau te tillen. Met uitlegbare algoritmes zetten we deze technologie bijvoorbeeld in voor nieuwsmedia om tekst te comprimeren tot betrouwbare en hallucinatievrije berichten. Wil je meer weten over de inzet van Voice Marker? Neem eens contact op!
Geplaatst 02-2024 in NLP