Tests en monitoring in een tijd van AI
Veel developers kennen wel de meme “It works on my machine ¯\_(ツ)_/¯”. Software die perfect op de ene machine werkt, kan op een net andere machine of in een veranderende omgeving compleet falen. Een belangrijke taak van IT bestaat daarom uit processen om een stukje software een zo robuust en lang mogelijke levensduur te geven. Denk hierbij aan o.a. versie beheer, dependency management, tests en stabiel afgebakende omgevingen als bijv. containers. Maar hoe zit dit als LLM’s steeds meer onderdeel gaan uitmaken van de werking van software?
Hierbij een recente paper (arXiv:2307.09009) die dieper in gaat op de verandering van gedrag en kwaliteit van (“dezelfde”) LLM services over tijd. Veel mensen hadden al grote veranderingen geconstateerd in GPT-3.5 en 4 en dit blijkt inderdaad zo te zijn. Of dit nu komt door versie verandering, of door dynamische of lerende aspecten in de LLM-architectuur, één ding is zeker: Het schrijven van een prompt die een juist antwoord lijkt te geven, is geen garantie voor een stabiele werking over tijd. Omgevingen zullen altijd veranderen.
Het bestaan van het vakgebied Prompt Engineering geeft aan dat LLM’s gevoelig zijn voor de manier hoe je een vraag stelt. We leren de vraag zo te stellen dat de LLM het goede antwoord geeft, maar is dit dan het benutten van de intelligentie van de LLM of de intelligentie van de maker van de prompt? Indien het maken van een prompt enige moeite heeft gekost om het juiste antwoord te genereren kan het zijn dat je op onvoorspelbaardere regionen van een LLM leunt, die in een volgende versie totaal anders kunnen zijn.
Als maker van Nederlandstalige taaltechnologie weten we daarom hoe belangrijk het is uitgebreide tests te schrijven om een zo goed mogelijk beeld te krijgen van de werking van een taalmodel of chatbot. Want hoe kan je overzien welke verbetering een regel code heeft op begrip van de overkoepelende Nederlandse taal? Hashtag uitdaging!
Tests en monitoring zijn essentieel voor toekomstbestendige software en in de tijd van LLM’s zal dit alleen maar belangrijker worden. Want hoe goed makers als o.a. OpenAI en Google hun LLM’s ook zelf doortesten, ze zullen je geen lijstje doorgeven welke veranderingen op jouw vragen van toepassing zijn. En taalbegrip laat zich lastig valideren. Zorg voor goede monitoring en tests!
Geplaatst 07-2023 in Conversational AI