LLM's en compute: De stand van zaken
Large Language Models (LLM’s) hebben in het afgelopen jaar interessante nieuwe eigenschappen laten zien in de NLP-industrie. LLM’s zijn tot stand gekomen met een zeer grote hoeveelheid data en in het bijzonder veel rekenkracht (compute). Het budget om deze modellen te trainen kan oplopen tot soms wel miljoenen euro’s. Het is daarmee niet voor iedereen weggelegd zelf LLM’s te trainen. Toch zijn er diverse trends die deze grote modellen bij een breed publiek brengen.
Steeds groter, steeds krachtiger
Large Language Models zijn vaak van transformers afgeleide taalmodellen zoals een GPT (Generative Pretrained Transformer). Gegeven een stuk tekst (de zogeheten prompt) is een GPT-model simpel gezegd in staat telkens het beste volgende woord in de tekst te voorspellen en zo zelf de tekst voort te zetten. Dit levert soms rare resultaten op, maar regelmatig ook verrassend geloofwaardige en correcte nieuwe teksten. Naast tekstgeneratie kunnen LLM’s ingezet worden voor allerlei NLP-taken en in bijna iedere NLP-taak toont een LLM verbeteringen ten opzichte van zijn kleinere voorganger.
Een belangrijke reden waarom LLM’s steeds groter gemaakt worden, is dat LLM’s zogeheten ‘emergent phenomena’ lijken te vertonen. Dit wil zeggen dat de modellen niet alleen steeds betere resultaten laten zien als ze groter worden, ze laten ook zien dat ze een geheel andere set aan taken kunnen uitvoeren dan alleen de taken waar ze oorspronkelijk voor ontworpen zijn. Google PaLM (4/2022), een taalmodel getraind met zowel 8B, 62B als 540B parameters (1B = 1 billion, 1 miljard), laat verrassend zien dat voor bepaalde NLP-taken de groei tussen 62B en 540B sneller toeneemt dan tussen 8B en 62B, ondanks de vrijwel gelijke schaalverhouding. Gezien het opschalen van taalmodellen een gunstige invloed heeft, groeit de interesse voor nog veel grotere taalmodellen.
Open-source LLM’s en toegankelijkheid
Een Large Language Model trainen vereist een extreem grote hoeveelheid data, computerkracht en energie (stroom), waar een aanzienlijk budget voor nodig is. Het gaat om superclusters met duizenden TPU’s en honderden terabytes, met een kostprijs van in de miljoenen. Dit maakt het zelf trainen van LLM’s niet rendabel voor ieder bedrijf. We zien daarom ook initiatieven die
De Franse Jean Zay supercomputer werd gebruikt voor het trainen van het BLOOM-taalmodel - Foto: Wikimedia Commons

Large Language Models hebben getraind en geheel open ter download beschikbaar stellen. Recente voorbeelden zijn hierin OPT-175B (Meta AI, 5/2022) en BLOOM (BigScience, 176B, 7/2022).
Het publiekelijk ter download openstellen van Large Language Models is vanuit wetenschappelijk oogpunt belangrijk. Het stelt meer researchers in staat de interne eigenschappen van LLM’s te onderzoeken, meer te leren over de interne werking en potentiële verbeteringen aan te dragen. Toch zal het directe gebruik op deze manier kleinschalig blijven. Hoewel voor inference -het uitvoeren van het model- minder rekenkracht nodig is dan voor training, blijft een aanzienlijk budget vereist. Het gebruik van modellen als OPT-175B of BLOOM vereist nog altijd een paar ton aan hardware of cloudkosten per jaar. Het prijskaartje en zijn onhandige grootte maken het gebruik van open-source LLM’s voor de meeste toepassingen onpraktisch.
De echte opmars en brede praktische inzet van LLM’s vinden plaats via toegankelijke Cloud-AI providers. OpenAI biedt GPT-3 tegen lage kosten aan via een simpele API en bereikt daarmee ieder willekeurig bedrijf en ook iedere student. HuggingFace is van plan een hosted versie van het BLOOM-taalmodel aan te bieden. Naar verwachting zullen steeds meer providers LLM’s centraal gaan aanbieden.
Risico’s
Het publiekelijk openstellen van Large Language Models brengt nieuwe zorgen met zich mee in het kader van responsible AI. Sinds de komst van
steeds betere generatieve modellen zoals GPT-2 (2019) zien we dat het voor mensen steeds lastiger wordt om betrouwbaar synthetische tekst
te herkennen en te onderscheiden van originele door mensen geschreven teksten. Large Language Models kunnen het met die generatieve
modellen steeds makkelijker maken om natuurlijke tekst te genereren, dus ook misinformatie en
spam. Hierop is steeds minder controle. LLM’s, open en gesloten, blijven ethische risico’s
houden van het genereren van beledigende teksten, racisme en bias. De modellen zijn getraind voor tekstvoorspelling en missen veel kennis van de fysieke wereld en normen en waarden waarin we leven. De output van een LLM
kan statistisch correct zijn, maar ook sociaal onwenselijk. Een LLM zet je daarom doorgaans
in voor co-creatie, waarbij menselijke sturing nodig blijft.
Snellere hardware en efciëntere modellen
De voor AI-werktaken veelgebruikte GPU’s zijn
eigenlijk ontwikkeld voor 3D en grafsche toepassingen. We zien deze vervangen worden door
gespecialiseerde processoren, Tensor- en Neural Processing Unit’s (TPU en NPU’s). Een ander
voorbeeld is het Amerikaanse bedrijf Cerebras
dat de grootste chip ter wereld of ‘datacenter
on a chip’ ontwikkelt. Cerebras vestigde in juni
2022 een nieuw record door een 20B parameter
model te trainen op een enkel systeem.
Voortgang in hardware wil waarschijnlijk niet
zeggen dat iedereen alsnog een LLM zelf gaat
trainen. Het zal vooral betekenen dat we nog
grotere taalmodellen kunnen gaan verwachten
tegen lagere kostprijs de komende jaren. Wat
we in 2022 large noemen, zal over een paar jaar
anders heten. LLM’s komen nu in het tijdperk
van biljoenen (1T+) parameters.
Aan de kant van de software zien we ook veelbelovende trends die in algoritmische efciëntie grote stappen maken door modelgrootte en
kosten te verkleinen. De ecologische voetafdruk
van OPT-175B was al 7x kleiner dan van GPT-3
en recentelijk introduceerde Amazon het AlexaTM 20B parameter model, ruim 8,5x kleiner dan
GPT-3 terwijl het GPT-3 op enkele NLP-taken al
overtreft.
Menselijke efciëntie nog lang niet bereikt
Het menselijk brein verbruikt gemiddeld zo’n 12
watt, niet meer dan zeg maar drie Raspberry Pi
4 computers. Dat grote taalmodellen met soms
wel honderden tot duizenden zware TPU’s de
efciëntie en zuinigheid van het menselijk brein
nog lang niet benaderen, is duidelijk, laat staan
dat ze intellectueel in de buurt komen. Tegelijkertijd zou het een enorme teleurstelling zijn voor
het mystieke menselijke intellect, als dit te simuleren zou zijn op een enkele Intel-processor. •
Dit artikel was gepubliceerd in DIXIT Magazine - jaargang 19 - December 2022
Geplaatst 10-2022 in LLMs