LLM's en compute: De stand van zaken


Large Language Models (LLM’s) hebben in het afgelopen jaar interessante nieuwe eigenschappen laten zien in de NLP-industrie. LLM’s zijn tot stand gekomen met een zeer grote hoeveelheid data en in het bijzonder veel rekenkracht (compute). Het budget om deze modellen te trainen kan oplopen tot soms wel miljoenen euro’s. Het is daarmee niet voor iedereen weggelegd zelf LLM’s te trainen. Toch zijn er diverse trends die deze grote modellen bij een breed publiek brengen.

Steeds groter, steeds krachtiger
Large Language Models zijn vaak van transformers afgeleide taalmodellen zoals een GPT (Generative Pretrained Transformer). Gegeven een stuk tekst (de zogeheten prompt) is een GPT-model simpel gezegd in staat telkens het beste volgende woord in de tekst te voorspellen en zo zelf de tekst voort te zetten. Dit levert soms rare resultaten op, maar regelmatig ook verrassend geloofwaardige en correcte nieuwe teksten. Naast tekstgeneratie kunnen LLM’s ingezet worden voor allerlei NLP-taken en in bijna iedere NLP-taak toont een LLM verbeteringen ten opzichte van zijn kleinere voorganger.

Een belangrijke reden waarom LLM’s steeds groter gemaakt worden, is dat LLM’s zogeheten ‘emergent phenomena’ lijken te vertonen. Dit wil zeggen dat de modellen niet alleen steeds betere resultaten laten zien als ze groter worden, ze laten ook zien dat ze een geheel andere set aan taken kunnen uitvoeren dan alleen de taken waar ze oorspronkelijk voor ontworpen zijn. Google PaLM (4/2022), een taalmodel getraind met zowel 8B, 62B als 540B parameters (1B = 1 billion, 1 miljard), laat verrassend zien dat voor bepaalde NLP-taken de groei tussen 62B en 540B sneller toeneemt dan tussen 8B en 62B, ondanks de vrijwel gelijke schaalverhouding. Gezien het opschalen van taalmodellen een gunstige invloed heeft, groeit de interesse voor nog veel grotere taalmodellen.

Open-source LLM’s en toegankelijkheid
Een Large Language Model trainen vereist een extreem grote hoeveelheid data, computerkracht en energie (stroom), waar een aanzienlijk budget voor nodig is. Het gaat om superclusters met duizenden TPU’s en honderden terabytes, met een kostprijs van in de miljoenen. Dit maakt het zelf trainen van LLM’s niet rendabel voor ieder bedrijf. We zien daarom ook initiatieven die

De Franse Jean Zay supercomputer werd gebruikt voor het trainen van het BLOOM-taalmodel - Foto: Wikimedia Commons


Large Language Models hebben getraind en geheel open ter download beschikbaar stellen. Recente voorbeelden zijn hierin OPT-175B (Meta AI, 5/2022) en BLOOM (BigScience, 176B, 7/2022).

Het publiekelijk ter download openstellen van Large Language Models is vanuit wetenschappelijk oogpunt belangrijk. Het stelt meer researchers in staat de interne eigenschappen van LLM’s te onderzoeken, meer te leren over de interne werking en potentiële verbeteringen aan te dragen. Toch zal het directe gebruik op deze manier kleinschalig blijven. Hoewel voor inference -het uitvoeren van het model- minder rekenkracht nodig is dan voor training, blijft een aanzienlijk budget vereist. Het gebruik van modellen als OPT-175B of BLOOM vereist nog altijd een paar ton aan hardware of cloudkosten per jaar. Het prijskaartje en zijn onhandige grootte maken het gebruik van open-source LLM’s voor de meeste toepassingen onpraktisch.

De echte opmars en brede praktische inzet van LLM’s vinden plaats via toegankelijke Cloud-AI providers. OpenAI biedt GPT-3 tegen lage kosten aan via een simpele API en bereikt daarmee ieder willekeurig bedrijf en ook iedere student. HuggingFace is van plan een hosted versie van het BLOOM-taalmodel aan te bieden. Naar verwachting zullen steeds meer providers LLM’s centraal gaan aanbieden.

Risico’s
Het publiekelijk openstellen van Large Language Models brengt nieuwe zorgen met zich mee in het kader van responsible AI. Sinds de komst van steeds betere generatieve modellen zoals GPT-2 (2019) zien we dat het voor mensen steeds lastiger wordt om betrouwbaar synthetische tekst te herkennen en te onderscheiden van originele door mensen geschreven teksten. Large Language Models kunnen het met die generatieve modellen steeds makkelijker maken om natuurlijke tekst te genereren, dus ook misinformatie en spam. Hierop is steeds minder controle. LLM’s, open en gesloten, blijven ethische risico’s houden van het genereren van beledigende teksten, racisme en bias. De modellen zijn getraind voor tekstvoorspelling en missen veel kennis van de fysieke wereld en normen en waarden waarin we leven. De output van een LLM kan statistisch correct zijn, maar ook sociaal onwenselijk. Een LLM zet je daarom doorgaans in voor co-creatie, waarbij menselijke sturing nodig blijft.

Snellere hardware en efciëntere modellen
De voor AI-werktaken veelgebruikte GPU’s zijn eigenlijk ontwikkeld voor 3D en grafsche toepassingen. We zien deze vervangen worden door gespecialiseerde processoren, Tensor- en Neural Processing Unit’s (TPU en NPU’s). Een ander voorbeeld is het Amerikaanse bedrijf Cerebras dat de grootste chip ter wereld of ‘datacenter on a chip’ ontwikkelt. Cerebras vestigde in juni 2022 een nieuw record door een 20B parameter model te trainen op een enkel systeem. Voortgang in hardware wil waarschijnlijk niet zeggen dat iedereen alsnog een LLM zelf gaat trainen. Het zal vooral betekenen dat we nog grotere taalmodellen kunnen gaan verwachten tegen lagere kostprijs de komende jaren. Wat we in 2022 large noemen, zal over een paar jaar anders heten. LLM’s komen nu in het tijdperk van biljoenen (1T+) parameters. Aan de kant van de software zien we ook veelbelovende trends die in algoritmische efciëntie grote stappen maken door modelgrootte en kosten te verkleinen. De ecologische voetafdruk van OPT-175B was al 7x kleiner dan van GPT-3 en recentelijk introduceerde Amazon het AlexaTM 20B parameter model, ruim 8,5x kleiner dan GPT-3 terwijl het GPT-3 op enkele NLP-taken al overtreft.

Menselijke efciëntie nog lang niet bereikt
Het menselijk brein verbruikt gemiddeld zo’n 12 watt, niet meer dan zeg maar drie Raspberry Pi 4 computers. Dat grote taalmodellen met soms wel honderden tot duizenden zware TPU’s de efciëntie en zuinigheid van het menselijk brein nog lang niet benaderen, is duidelijk, laat staan dat ze intellectueel in de buurt komen. Tegelijkertijd zou het een enorme teleurstelling zijn voor het mystieke menselijke intellect, als dit te simuleren zou zijn op een enkele Intel-processor. •

Dit artikel was gepubliceerd in DIXIT Magazine - jaargang 19 - December 2022

Geplaatst 10-2022 in LLMs

Eerdere posts

Timing in voicebots

Is jouw voicebot performant of ervaar je een gesprek als een trage satellietverbinding? In dat geval is het goed om eens de timing van de voicebot te optimaliseren. Met timing van de voicebot bedoelen we o.a. de reactiesnelheid, spreeksnelheid en rust tussen zinnen. • (2022) Lees verder →