Alexander Klöpping
👤 SpeakerAppearances Over Time
Podcast Appearances
Het hele internet is gebouwd op dat soort standaarden. En die zijn vaak ook spontaan ontstaan en later in een werkgroep gegooid. Alleen werkgroepen krijgen mensen vaak zenuwachtig van, omdat ze dan denken, nou daar gaat MCP. Als in, het staat nu voor altijd stil. Terwijl als het eenmaal een soort bureaucratisch, democratisch proces is binnen een stichting, kan MCP dan nog doorgroeien. Want toen alleen Entropic het deed, waren het misschien vijf mensen bij Entropic. Dat gaat een stuk harder. Ja, nu moeten ze hem overleggen.
Weer een belangrijke slag geslagen. Waarom is deze test zo moeilijk voor AI? Wat het idee is van François Collet... is dat taalmodellen, omdat het statistische modellen zijn... zijn ze echt goed in het gokken op iets wat ze al eerder hebben gezien. Maar wat onderdeel is van intelligentie, in ieder geval dat het hele debat is... kan je ook...
dingen die je hebt geleerd op A... toepassen op B. Dus kan jij een totaal nieuwe situatie... ineens ook begrijpen. Of in ieder geval pogingen doen... leren van die pogingen... en eigenlijk in het moment uitvinden... door experimenteren, wat bijvoorbeeld kinderen doen...
Gewoon een beetje rommelen ermee. Iets nieuws leren in het moment. Wat je eigenlijk doet is... je hebt al een stukje bestaande kennis... binnen een ander domein bijvoorbeeld. Of je hebt een eerdere versie van een puzzel gezien... die er een beetje op lijkt. Maar kan je dan ook de stap maken om te denken... maar wacht even...
Als ik hier een beetje mee ga rommelen, krijg ik het dan niet voor mekaar om al mijn eerder geleerde dingen, plus de nieuwe dingen die ik leer tijdens het puzzelen, toch die puzzel te kraken. En wat tot nu toe de eerdere modellen, of ze nou multimodaal zijn, dus dat ze mee kunnen kijken visueel of alleen maar tekst voorspellen. Soms werden de puzzels eerst omgezet in tekst, dan gegokt in tekst en dan weer terug. Je ging beschrijven wat de puzzel was om dan op te lossen. Ja, want die kon niet kijken, zeg maar.
Hij kon wel kijken om het te beschrijven, maar hij kon niet kijken om te denken. Kijk, precies. Ja, bizar. Inmiddels hebben we natuurlijk die omnimodellen of die multimodale modellen. Toen gingen die scores van Arc AGI 2 dus ook heel erg omhoog. Want je kon eigenlijk een soort bredere, tussen aanhalingstekens, intelligentie inzetten. Het was minder compressed ook.
Ja, precies. En niet alles... Kijk, die puzzeltjes zijn zo ontworpen. Eigenlijk expres. Het is alsof jij... een student in je klas hebt zitten als docent... die ontzettend goed antwoord geeft... waardoor heel de klas tegen hem of haar opkijkt...
Maar jij eigenlijk denkt... volgens mij weet je helemaal niks, man. Volgens mij zit jij gewoon heel slim... net op tijd te bluffen. En je blufft omdat je eigenlijk alle vragen van mij... al een keer hebt gezien. Je bent vorig jaar al in mijn lessen geweest. Maar als je dat dan weet... en je hebt die theorie... kan je natuurlijk vragen gaan verzinnen... waardoor die student door de mand valt...
En dit is wat de Arc AGI Challenge is. Hoe laat je een LLM door de mand vallen? En wetenschappelijk gezien is dat heel mooi, want volgens mij is wetenschap juist falsificeren. Dus je wilt constant eigenlijk jezelf uitdagen om te zeggen, ik heb iets gebouwd, want ze zijn allemaal best enthousiast bij Arc over AI modellen. Maar ook te zeggen, kunnen we niet puzzels maken waarop mensen heel goed zijn en AI's direct door de mand vallen? En dat gebeurde ook. Ja.
Dit zijn geen sukkels. Nee. Het zijn best wel slimme mensen, deze zes. Allemaal ex-DeepMind, ex-Google. Dus ze hebben gewerkt met de mensen die Google DeepMind... Sorry, Google Gemini ontwikkeld hebben. Ik wil er wel meteen bij zeggen. Je kan natuurlijk denken... Want even in een aantal stappen. Het Poetic Team heeft met z'n zes een harnas of scaffold gemaakt. Een soort exoskeleton om Gemini heen. Ja, zij gebruiken Gemini 3 Pro.
In het winnen van deze score. Het behalen van deze score. Is een combinatie van de vanille. Gemini 3 Pro. Oftewel die jij kunt gebruiken in de Gemini app. Niets aan aangepast. Maar je zou kunnen zeggen. Door heel slim te prompten. Ik ga straks uitleggen wat ik daarmee bedoel. Want dat doet het een beetje te kort. Maar te zeggen.
Geef ons dan maar gewoon wat iedereen krijgt in Gemini. En wij gaan zo slim om met Gemini, dat wij een veel hogere score kunnen halen dan Google zelf met hun eigen model lukt op Arc AGI 2. En dat is best wel bizar. En dat heeft dus een aantal implicaties waardoor ik dacht, dit nieuws mag toch wel wat groter uitgemeten worden. Dus we gaan nu ons best doen. Ja, daar hebben we het over. Maar wat hebben zij gedaan?
Wat ze eigenlijk hebben gedaan is. In eerste instantie nog zonder dat Gemini 3 Pro uit was. En dit maakt het heel boeiend. Want zij zeiden. Als poetics zijnde willen wij eigenlijk model scaffolds maken. Dus scaffolding is net als dat je een steiger om een huis heen zet. Dus je hebt het huis zelf. Dat is het model. En de steiger staat daar omheen als extra zeg maar. Dus je bent om het model heen extra features aan het bouwen. Je hangt als het ware ballen in de kerstboom. Dus je doet er iets bij. Dat je zegt.
Voor alle modellen willen we een scaffold maken... waardoor alle modellen sterker worden op hun eigen manier. Dus wat zijn ze gaan doen? Ze hebben GPT-120B, dus het open source model van OpenAI. Claude, maar ook Gemini 2.5 destijds... hebben ze een scaffold omheen gebouwd die werkt voor al die modellen. Ja, dus het is een soort superheldenpak dat iedereen aan kan trekken. Absoluut. En wat doen ze dan? In dat superheldenpak zitten een aantal onderdelen...
Wat heel belangrijk is, is dat wat we nu eigenlijk niet goed hebben, is test time compute. Dus dat houdt in, je hebt training, pre-training compute. Dus dat is alle computerkracht in datacenters die je inzet om de modellen te trainen, om ze te bakken. Dat is het bakproces van het model. Dat kost heel veel water, energie, noem het allemaal maar op. En data. En uiteindelijk komt daar dan Gemini 3 Pro uit. Daar gaat dit allemaal niet over. Nee.
Absoluut niet. Dat hebben ze ook eigenlijk een beetje afgesproken om te zeggen, daar gaan wij niet aan zitten. Laat dat de grote labs maar doen. Want wij krijgen eigenlijk het model als af aangeleverd en wij gaan het dan nog, we gaan nog een camperdak bouwen op dat busje, zeg maar. Geef ons maar dat busje, wij gaan er nog even mee door.
En de test time compute is eigenlijk dat je zegt... op het moment dat je met het model aan het praten bent... dan kun je ook nog computerkracht inzetten... om het model wat al af is eigenlijk nog extra kracht te geven. Dus even voor jouw beeld.
Je hebt trainen en je hebt inference. Ja, dat snap ik. En de inference is dus test time compute. Dat is het moment dat het model wat eigenlijk statisch is op dat moment. Je kan het niet meer aanpassen. Dat je het model nog de mogelijkheid geeft om na te denken. En dat denken, dat kost uiteindelijk computerkracht. Ja, dus dat knopje met extended thinking. En testing is eigenlijk wanneer je...
Je kunt oefenen thuis voor de toets... en je hebt het mondeling examen. Het mondeling examen is test time compute. Als in, hoe lang krijg jij van die docent... om na te denken over je antwoord. Maar je mag niet meer je boeken erbij pakken. Het is een beetje een maffe metafoor... maar ga er maar vanuit...
Je bent al voorbereid. Je hebt je prep al gedaan. Je mag trouwens nog wel je boeken erbij pakken. Maar dan moet je wel donders goed weten naar welke pagina je toe moet bladeren. Want je hebt maar vijf minuten. En het allerbelangrijkste is, om even terug te haken op die puzzeltjes. Want daar gaat het uiteindelijk over. Nu is het zo geweest dat Gemini 3 Pro krijgt die puzzel te zien. En die heeft dan eigenlijk twee shots. Dus je hebt twee pogingen om die puzzel te maken. En dan krijg je je cijfer.