"Wie A zegt moet ook B zeggen"


Een zeer bruikbare en nuttige toepassing van taaltechnologie is het maken van samenvattingen. Dagelijks krijgen we zoveel informatie te verwerken dat er steeds meer behoefte komt aan het filteren en beknopter maken van informatie. Toegang tot beknoptere informatie helpt ons efficiënter keuzes te maken aan welke informatie we onze tijd moeten besteden. Denk bijvoorbeeld aan het besluiten of een podcast interessant genoeg is om volledig te luisteren.

Large Language Models hebben afgelopen jaar op samenvattingsgebied al zeer indrukwekkende resultaten laten zien, maar missen nog altijd een belangrijk punt: zekerheid. Een samenvatting waar je niet zeker kan zeggen of de belangrijkste onderwerpen in de samenvatting voorkomen, vermindert het aantal toepasbare use-cases drastisch, benadrukte Ilya Sutskever van OpenAI. Zonder menselijke controle kunnen dergelijke systemen een hoop misvattingen veroorzaken in samenvatting van bijvoorbeeld bedrijfskritische informatie of communicatie. Ga dus niet dom e-mails zitten samenvatten.

Samenvatten betekent informatie inkorten en daarmee zal je hoe dan ook minder belangrijkere informatie moeten weglaten. Maar wat is de definitie van belangrijkheid? Wat belangrijk is, is o.a. afhankelijk van de use-case, reeds aanwezige kennis van de gebruiker en is vaak persoonlijk. Het maken van een samenvatting van bijvoorbeeld een podcast, zodat je kan bepalen of er een (voor jou) interessant onderwerp voorbij komt, vereist een persoonlijkere strategie dan wellicht het samenvatten van een nieuwsartikel voor algemener publiek. Samenvatten is verre van een universeel toepasbare truc die op ieder type content is los te laten. Ieder type content vereist zijn eigen samenvattingsstrategie.

Samenvatten betekent ook informatie comprimeren, maar informatie is niet oneindig comprimeerbaar. Als je informatie weglaat moet de overgebleven informatie wel begrijpbaar blijven en terug te brengen zijn naar de oorspronkelijke boodschap. Richting consistentere samenvattingen ontwikkelden we hiervoor een samenvattingsstrategie die we “Information Pieces” hebben gedoopt;

Informatie, denk aan bijvoorbeeld de inhoud een artikel, is op te delen in kleinere stukjes informatie. Die kleinere stukjes informatie kunnen dubbel genoemd zijn, die makkelijk helpen bij het inkorten van een artikel. Maar die kleinere stukjes informatie zullen vooral complex gelinkt zijn: je kan niet midden in een samenvatting beginnen over een punt, wat een eerdere uitleg nodig heeft. Een zin als “Zij won onlangs een groot tennistoernooi” in een samenvatting vereist uitleg over wie “zij” en het “tennistoernooi” is. Kortom: Wie A zegt moet ook B zeggen. Information Pieces helpt ons meer consistentere en begrijpbaar blijvende samenvattingen te schrijven.

Wil je meer weten welke innovaties Cornelistools B.V. ontwikkelt op het gebied van o.a. taal, AI en gamification? Neem contact op en/of volg ons!


Geplaatst 06-2023 in NLP

Eerdere posts

Reductie in complexiteit

Een fascinerend aspect van de totstandkoming van de baanbrekende transformer architectuur (Google Brain team, 2017), sindsdien het dominante component in de huidige AI-revolutie, is het destijds streven naar meer eenvoud. • (2023) Lees verder →

Innovaties

Cornelistools B.V. is een techbedrijf waarbij innovatie een van de belangrijkste peilers is. Onze slogan is niet voor niks 'Next Generation Tools' omdat we met onze ontwikkelingen op het gebied van o.a. conversational AI willen voorlopen in relevante functionaliteit t.o.v. de huidige generatie producten. • (2023) Lees verder →

Richting Voice Marker II

In onze producten speelt taal een belangrijke rol. Zo maken we het met onze taaltechnologie het mogelijk dat kinderen educatieve spelletjes kunnen spelen met hun stem via voicebots, zetten we met taal- en dialoogtechnologie websites om naar de meest uitgebreide leerzame chatbots • (2023) Lees verder →