Wat is een transformer?
Een transformer is een neurale netwerkarchitectuur die in 2017 werd geïntroduceerd door Google-onderzoekers in het paper "Attention is All You Need". Het is de bouwsteen van vrijwel alle grote taalmodellen die vandaag in gebruik zijn.
Voor een zakelijke lezer is de technische details niet essentieel, maar het principe wel: een transformer leert relaties tussen woorden en zinnen begrijpen door te leren "aandacht te geven" aan de relevante delen van een tekst.
Hoe een transformer anders denkt dan eerdere systemen
Vóór transformers gebruikten AI-systemen tekst sequentieel: woord voor woord, van links naar rechts. Dit werkte, maar had een fundamenteel probleem: de relatie tussen een woord aan het begin en een woord aan het einde van een lange zin ging verloren.
Een transformer lost dit op via het attention mechanisme: het systeem kijkt naar alle woorden tegelijk en bepaalt welke relaties er bestaan. "De bank die ik aanklikte was slecht bereikbaar" — de transformer begrijpt dat "bank" hier een website is en niet een bankinstelling, omdat het de hele context tegelijk verwerkt.
Wat dit betekent voor de prestaties van AI-tools
De transformer-architectuur is de reden waarom moderne AI-tools:
- Lange documenten begrijpen — context van duizenden woorden wordt in samenhang verwerkt
- Nuance herkennen — ironie, ambiguïteit en context worden correct geïnterpreteerd
- Coherente teksten genereren — elke volgende zin houdt rekening met alles daarvoor
- Vertalen, samenvatten en redeneren — complexe taaltaken die eerder onmogelijk waren
De schaalwet: groter is slimmer
Een interessante eigenschap van transformers is dat ze beter worden naarmate ze groter worden — meer parameters, meer trainingsdata, meer rekenkracht. Dit is de drijvende kracht achter de AI-wapenwedloop: GPT-3 had 175 miljard parameters, GPT-4 naar schatting meer dan een biljoen.
Voor zakelijke gebruikers betekent dit: de modellen waarmee u vandaag werkt, zijn aanzienlijk intelligenter dan die van twee jaar geleden, en die trend zet door.
Gerelateerde begrippen
- [[llm]] — taalmodellen gebouwd op transformer-architectuur
- [[tokens]] — de bouwstenen die een transformer verwerkt
- [[embeddings]] — hoe een transformer betekenis representeert als getallen
- [[fine-tuning]] — een transformer aanpassen voor specifieke bedrijfstaken