Tests en monitoring in een tijd van AI


Veel developers kennen wel de meme “It works on my machine ¯\_(ツ)_/¯”. Software die perfect op de ene machine werkt, kan op een net andere machine of in een veranderende omgeving compleet falen. Een belangrijke taak van IT bestaat daarom uit processen om een stukje software een zo robuust en lang mogelijke levensduur te geven. Denk hierbij aan o.a. versie beheer, dependency management, tests en stabiel afgebakende omgevingen als bijv. containers. Maar hoe zit dit als LLM’s steeds meer onderdeel gaan uitmaken van de werking van software?

Hierbij een recente paper (arXiv:2307.09009) die dieper in gaat op de verandering van gedrag en kwaliteit van (“dezelfde”) LLM services over tijd. Veel mensen hadden al grote veranderingen geconstateerd in GPT-3.5 en 4 en dit blijkt inderdaad zo te zijn. Of dit nu komt door versie verandering, of door dynamische of lerende aspecten in de LLM-architectuur, één ding is zeker: Het schrijven van een prompt die een juist antwoord lijkt te geven, is geen garantie voor een stabiele werking over tijd. Omgevingen zullen altijd veranderen.

Het bestaan van het vakgebied Prompt Engineering geeft aan dat LLM’s gevoelig zijn voor de manier hoe je een vraag stelt. We leren de vraag zo te stellen dat de LLM het goede antwoord geeft, maar is dit dan het benutten van de intelligentie van de LLM of de intelligentie van de maker van de prompt? Indien het maken van een prompt enige moeite heeft gekost om het juiste antwoord te genereren kan het zijn dat je op onvoorspelbaardere regionen van een LLM leunt, die in een volgende versie totaal anders kunnen zijn.

Als maker van Nederlandstalige taaltechnologie weten we daarom hoe belangrijk het is uitgebreide tests te schrijven om een zo goed mogelijk beeld te krijgen van de werking van een taalmodel of chatbot. Want hoe kan je overzien welke verbetering een regel code heeft op begrip van de overkoepelende Nederlandse taal? Hashtag uitdaging!

Tests en monitoring zijn essentieel voor toekomstbestendige software en in de tijd van LLM’s zal dit alleen maar belangrijker worden. Want hoe goed makers als o.a. OpenAI en Google hun LLM’s ook zelf doortesten, ze zullen je geen lijstje doorgeven welke veranderingen op jouw vragen van toepassing zijn. En taalbegrip laat zich lastig valideren. Zorg voor goede monitoring en tests!

Geplaatst 07-2023 in Conversational AI

Eerdere posts

"Wie A zegt moet ook B zeggen"

Een zeer bruikbare en nuttige toepassing van taaltechnologie is het maken van samenvattingen. Dagelijks krijgen we zoveel informatie te verwerken dat er steeds meer behoefte komt aan het filteren en beknopter maken van informatie. Toegang tot beknoptere informatie helpt ons efficiënter keuzes te maken aan welke informatie we onze tijd moeten besteden. • (2023) Lees verder →

Reductie in complexiteit

Een fascinerend aspect van de totstandkoming van de baanbrekende transformer architectuur (Google Brain team, 2017), sindsdien het dominante component in de huidige AI-revolutie, is het destijds streven naar meer eenvoud. • (2023) Lees verder →

Innovaties

Cornelistools B.V. is een techbedrijf waarbij innovatie een van de belangrijkste peilers is. Onze slogan is niet voor niks 'Next Generation Tools' omdat we met onze ontwikkelingen op het gebied van o.a. conversational AI willen voorlopen in relevante functionaliteit t.o.v. de huidige generatie producten. • (2023) Lees verder →