Wietse Hage
👤 SpeakerAppearances Over Time
Podcast Appearances
Zeg ik dat zo goed? Ja, je zegt het goed. En ik denk dat, wat jij begon natuurlijk met MS-DOS, die metafoor van de terminal. We hebben een soort regressie gemaakt in software, dat we ineens weer achter een terminal zitten met z'n allen. En wat je nu meer en meer gaat zien, en dat gebeurde eerst alleen aan het einde, dus toen kwam zo'n terminal op de achtergrond. En daar werd vlug nog even een dashboardje van gemaakt door Entropic met hun artifacts.
Gemini, dit is allemaal nog een... Nu gaan we echt wel richting... Hoe zeg je dat? Dit weten we nog niet. Daarmee bedoel ik... Er zijn allerlei theorieën aan het ontstaan nu over... Hoe kan het nou dat Gemini 3 zo goed is? Want...
Even voor de luisteraar, het was een aantal maanden geleden toen GPT-5 uitkwam, voelt langer geleden zelfs, maar toen GPT-5 uitkwam, was het verhaal, het idee van LLMs doortrainen met meer computerkrachten en meer parameters geven, meer datacenters er tegenaan gooien, is eigenlijk tot een soort maximum gekomen. GPT-5 is... Omdat die tegenviel bedoel je, in prestaties? Ja, GPT-5 valt tegen, eigenlijk omdat we tegen het plafond zijn gelopen, wat je dan in het
pre-training paradigm, oftewel... tijdens dat bakken van die modellen... geef je ze zoveel mogelijk data... en zoveel mogelijk computerkracht... en zo lang mogelijk laat je ze doorgaan. En daar zou je dan automatisch... betere modellen uit moeten krijgen. Werd toen gezegd... de pre-training era is over. Die hebben we uitgespeeld. Alles zit nu in post, oftewel... reasoning, dat kan je nog toevoegen hebben... waardoor je langer mag nadenken. Hij kan toolcalling gaan doen... en dan kan hij het internet op. En we moeten eigenlijk alle trucjes nu een beetje...
als die al getraind is, tijdens het uitvoeren van het model gaan doen. Dus je hebt de tijd dat je het traint op een datacenter. Die datacenters kunnen ergens midden in de woestijn staan. En dan is het model klaar. Dat wordt gedistribueerd naar de rest van de datacenters over de hele wereld. Die staan bij jou voor de deur het liefst, om de hoek. En daar voer jij dan dat statische broodje wat je gebakken hebt uit. Dus dat is eigenlijk post-training. Nu blijkt, en dat was ook het grote nieuws toen Gemini uitkwam...
Het is ze gewoon gelukt om weer in die pre-training tijd... een model te verbeteren. En het schaalt eigenlijk daar ook nog. Dus wat Google nu heeft is... en de voordelen van het doortrainen beter bakken... en de voordelen van beter omgaan met wat je gebakken hebt. Dus ze krijgen nu een soort dubbelwinst...
Dus de winst die OpenAI alleen nog maar aan het halen leek na trainen... heeft Google nu ook. Plus dat het hun ook nog gelukt is om te schalen tijdens het trainen. En hoe ze dat hebben gedaan is nu nog een beetje zoeken. Want dat is natuurlijk de magic. Dus er wordt met terugwerkende kracht een beetje geprikt. Maar om een beetje een concreter voorbeeld te geven... een van die textuele raadseltjes waar ik het net over had...
3D raadseltje. Dus het gaat over. Ik heb een bal op een tafel. Die rotte dan af in een mand. Ik draai die mand om. Een soort schogeltruc achter de tekst. Die tekst. Dat ga jij niet begrijpen waar die bal nog is.
Als jij niet ook eigenlijk een visualisatie kan maken in je hoofd. Zoals wij mensen dat doen. Om het trucje te kunnen doen, moet je het in je hoofd visualiseren. En dan kun je het raadsel oplossen. Noem het een wereldmodelletje, wat je dan moet hebben. En dus ik zag een tweet langskomen van iemand die zei... You sneaky bastards, zoiets stond er. Een van mijn tests waar ik overduidelijk zoek naar... Is er een wereldmodel aanwezig? Kan dit taalmodel...
innerlijk visualiseren hoe de situatie is van de goocheltruc die ik uitleg. Taalmodel kan innerlijk visualiseren. Je praat al stiekem niet meer over een taalmodel, maar over iets wat breder is. Het kan namelijk visualiseren. Ja, dus meer dan alleen maar tekst. Heeft het als het ware visualisatietokens? Kan het daar binnen, binnen een soort wereldje van 3D iets doen? En daar is nu dus de suggestie, dit weten we niet zeker...
dat Google een stukje wereldmodel aan het mee trainen is in Gemini 3... en dat waar je eigenlijk mee praat inmiddels wel veel meer is... dan enkel een multimodaal, omnimodaal tekstbeeldmodel... maar iets wat ook een beetje kan simuleren.
Want het is ook echt wel een belangrijk feit dat we wel zeker weten is, dit staat namelijk heel trots in de modelcard, dus dat is de pdf die Google dan ook publiceert met waar ze in een beetje vertellen, de benchmarks, maar ook wat ze anders hebben gedaan, niet teveel, want anders geven ze het weg aan de concurrentie dat ze zeggen.
Dit is een volledig nieuw model. Dit is niet Gemini 2.5 gefinetuned. Dit is niet een oude Gemini doorgenomen. We zijn helemaal opnieuw begonnen met alles wat we nu wisten. En dat is wat Gemini 3 is. Best wel een gok ook, maar het is goed gekomen. En ook op hun eigen chips, hè? Op Google chips.
Even een klein detail daarnaast. Goed dat je dit aanhaalt. Er is geen gebruik gemaakt van NVIDIA hardware. Dus we weten, dat staat namelijk heel trots in die pdf. De volledige trainingrun van dit model, dus het bakken van het brood, heeft plaatsgevonden op TPU's van Google zelf. Daar komt geen NVIDIA chip aan te pas. Dus als je je afvraagt waarom sommige mensen hun aandelen weer hebben verkocht, wie weet zat de tering. Geen idee hè. En wat betekent dit, dat Google dit kan zonder NVIDIA?
Nou, ik ben net gaan zoeken... dat kon ik niet goed veriferen... hebben ze hem alleen gebakken op hun TPU's... of draait hij nu ook op hun TPU's? Nou, wat ik er publiek over kan vinden is... hij draait ook op TPU's van Google... dus Nvidia is helemaal niet meer betrokken. Daar wordt wel bij gezegd... als iemand anders Gemini on-premise draait... of je doet Gemini bij Amazon bijvoorbeeld...
Slecht voorbeeld, maar je draait Jam&Am in een andere cloud. Het kan draaien op NVIDIA, maar het hoeft niet. Wat betekent dit dan? Dat Google eigenlijk binnen hun eigen ecosysteem de hardware onder controle heeft en kan bouwen die capabel genoeg is om een model op een snelheid met intelligentie te kunnen leveren zonder nog afhankelijk te zijn van de chips van NVIDIA. Dus ja, ik denk dat je wel afvalt wat dat betekent. Dat is flink.
Kijk, het was zo, we hadden de GPT's van deze wereld, dus Open AI's modellen, waar toen eigenlijk mensen gingen uitvinden van joh, als je die GPT nou gewoon iedere keer om een nieuw antwoord vraagt en je reigt al die antwoorden aan elkaar, krijg je dan niet een soort agents. Dus er zijn allerlei nieuwe, interessante, creatieve ideeën gekomen over hoe je taalmodellen kan inzetten.
Die creatieve ideeën zijn inmiddels meegetraind in het model waar we het net over hadden. Oftewel, als we weten dat ze gebruikt gaan worden op zo'n manier, kunnen we ze misschien alvast een beetje voorbereiden op die taak. Daar zijn allerlei wetenschappelijke papers over. Hoe zorg je nou dat een model niet in een deathloop komt bijvoorbeeld, dus dat het in een cirkel blijft hangen. Dat het langer in één stuk door kan werken, want dat is een...
Voorwaarden om taken van ons over te nemen. Zeker, zeker. Eigenlijk de lange autonomie van zo'n model. Dus dat is die meter benchmark waar het vaak over gaat. Hoe lang kan zo'n model een menselijke taak doen zonder dat wij hoeven in te grijpen? En is het resultaat ervan goed? Allebei belangrijk.
Dat wordt nu meegetraind in de modellen. Hoe zij het voor elkaar hebben gekregen, wat hier de mass success van is, is een goeie. Ik weet dat niet. Ik weet wel dat dit ook de trots was van de modellen van Entropic. Namelijk dat die agentic behavior zo goed was geworden in bijvoorbeeld Cloud Code. Het was overduidelijk voor programmeurs. Wauw, waar die vroeger helemaal wegliep of vastliep, kan die nu door.