Wietse Hage
👤 SpeakerAppearances Over Time
Podcast Appearances
Nou, er is sowieso een soort boycott oproep rondom ga weg bij ChatGPT. Dit is het Rutger Bregman verhaal. Ja, en ik denk dat dat mensen wakker heeft toen schudden van oké, zijn er nog meer AI's? Ja, precies, want AI staat nu echt gewoon standaard aan ChatGPT. Dat is AI voor veel mensen. Als mensen chat zeggen, dan bedoelen ze ChatGPT. Dat hebben ze ook wel goed gekoppeld op die manier natuurlijk. Maar er is nog veel meer.
We zijn inmiddels op Arc AGI 3, de derde versie van een verzameling puzzels. Ze zien er ook echt uit als visuele puzzels, soort IQ-testjes. IQ-testen voor AI. En mensen. En de eerste Arc AGI, toen die eigenlijk...
Gewonnen werd. Want het is een challenge. Je moet dan boven de x% voor mij 80% halen. Wij zitten dan op 80% als mens. Dus als je duizend mensen vraagt. Om die puzzeltjes op te lossen. Dan 80% kan dat. En als je dan boven die 80% komt. Met jouw AI model. Dan heb jij Arc AGI gewonnen.
Wij hebben altijd op die test volgens mij rond de 81% gezeten. Waarbij toen de eerste GPT's achtige modellen daarop getest werden, hingen ze een beetje rond de 3, 4%. Dus dat werd toen echt gezien als van nou, kijk eens hoe stom die modellen eigenlijk.
Ja, er is nog echt een flinke weg te gaan voor mensen die het hebben over wanneer wordt AI slimmer dan mensen. Nou, daaruit bleek het enorme gat wat ertussen zat. Ja, dan voel je me aankomen. Ineens, het was het 18 maanden later ongeveer, schoof dat balkje steeds verder omhoog en kropen die modellen. Dus er staat dan Claude tussen, de GPT, Gemini, alle bekende namen zeg maar, doen dan mee en die schoven omhoog.
Het was wel grappig, want toen Arc AGI dus gebied was, dat noemen ze dan saturation, dus dan op een gegeven moment alle modellen schoven omhoog en op een gegeven moment raakte hij dan allemaal de top van de grafiek. Die stonden op 100 procent. En dan is het klaar, zou je zeggen. Toen was het nieuws ook een beetje, dit is voor mij in de AI-tijd twee jaar geleden maximaal, van nou, dus nu hebben we AGI. Dat was een beetje een misvatting. Jij en ik hebben daar toen ook op gereflecteerd.
Wat we konden concluderen is dat de challenge gehaald was en dat er een nieuwe challenge moest komen. Toen kregen we Arc AGI 2. Toen scoorden ze weer allemaal alle bestaande modellen supermatig. Zelfs de topmodellen scoorden opeens weer belabberd waar mensen het eigenlijk prima bleven doen. Iedere keer als je diezelfde groep mensen of een nieuwe groep mensen voorlegt zitten die gewoon weer lekker te scoren rond die 80%. Juist.
Nou, Arc AGI 2 is inmiddels ook saturated. Dus dat was toen, dan zei ik, nou, dan hebben we nu het nieuws te pakken. Dus nu is er drie. Ja, en François Collet, een van de makers van de Arc AGI, de founders, die zei toen al, nee, jongens, alleen, die moest heel wat aan de media uitleggen, alleen twee is geslaagd. Ik moet blijkbaar betere puzzels verzinnen. Hoeveel van die puzzels wil die man nog maken? Nou, het idee is dat, toevallig heeft hij...
Die ook weer op moeten reageren nu. Want even voor de duidelijkheid. Hij heeft dus nu Arc AGI 3 uitgebracht. Hij met zijn hele onderzoeksteam. Geen van de modellen scoort hoger dan een procent. Zo intensief is het nog nooit geweest. Verder nog dan ooit. Het zijn nog complexere puzzeltjes. Waarbij nogmaals mensen uitstekend blijven scoren. Waar hij het dus nu van zegt. Luister. Op een gegeven moment kan ik geen puzzels meer verzinnen.
En dan is het klaar. Maar kan hij niet die moeilijke puzzels nu in één keer allemaal erin doen, in plaats van dat hij deze dansen iedere keer opnieuw moet doen? Nee, omdat je natuurlijk uiteindelijk... Kijk, we hebben te maken met een disharmonische intelligentie. Dus je hoort tien op wiskunde, of negen is inmiddels op wiskunde, en drie op taal. Ja.
Dus dan ga je druk op taal, als het ware. Je gaat zoeken naar waar de dalen zitten in de pieken... naast de pieken van een soort ruw landschap van intelligentie. Dus je gaat die dalen zoeken en op die dalen duwen... en daarmee iedere keer laten zien... hoe kan het nou dat ik een 16-jarig mens deze test kan laten doen... die er zo doorheen fietst. Hij zet ook altijd de prijs erbij. Dus wat het zou kosten in mensuren versus tokens. Dus dan is de mens vaak en slimmer en goedkoper. Die twee zijn allebei heel belangrijk...
En nu is het dus zo dat... Dit is een grappige discussie die hier ontstond. Er zijn al een aantal Arc AGI 3 puzzels eerder uitgebracht. Dat noemen ze de publieke puzzels versus de privépuzzels. Die publieke puzzels worden alvast uitgebracht... zodat onderzoekers en andere knutselaars er een beetje mee kunnen spelen. En ze ook zelf thuis kunnen maken, gewoon als mens. Toen was het al heel snel zo dat mensen het voor elkaar kregen om met AI...
toch die puzzels op te lossen. Daar moet ik wat uitleg bij geven. Die zijn dus met AI samen gaan zitten... hebben AI uitgelegd... luister, dit is hoe ik het zou doen... en het als het ware aan AI geleerd. En toen heeft AI een harnasje voor zichzelf kunnen creëren... om die specifieke puzzel op te lossen. Waar François Collin van zegt... luister, wacht even, hij moet niet...
Ten eerste moet hij niet jouw hulp krijgen. En ten tweede moet hij een harnas hebben wat hij voor zichzelf bouwt, wat op alle puzzels kan werken. Dus waar we nu naartoe aan het gaan zijn, is dat het mensen nog wel lukt om de AI's te helpen om de puzzels op te lossen. Maar uiteindelijk wil je dat de AI als het ware zichzelf kan helpen om specifiek voor die puzzels... Maar help me even de relevantie.
Dus we doen humanities last exam verzinnen. Dan doen we daar weer een test verzinnen. En op een gegeven moment zeggen we... Kijk, het is AGI, want het kan goed te testen. Maar wordt het wel voor hen steeds moeilijker om die testen te maken? Zit daar wel een soort van vooruitgang in? Of gaan we nog honderd jaar testen voorleggen aan die dingen? Nee, het allerbelangrijkste is...
Is dat je niet modellen wilt die goed worden in tests, in specifieke verzameling van tests, maar modellen die een totaal nieuwe test kunnen krijgen, die test kunnen bekijken, dan zichzelf kunnen upgraden terwijl ze de test moeten maken, om een manier te verzinnen, een eigen harnas te creëren om de test op te lossen.
alle toekomstige testen te kunnen maken. Ja, en wat ze dus met Daan heet, die test ook Arc AGI. Omdat zij zeggen, wij hebben de enige test... die constant laat zien dat je onze test alleen maar zou kunnen bieten... als je kunt generaliseren. En de dingen die je in de eerste twee testen hebt geleerd... meteen kunt omtoveren naar iets voor de derde test. En heeft hij een soort inschatting hoeveel van deze test nog moeten volgen? Zeven heeft hij volgens mij ooit in een interview gezegd. Wat grappig. We kunnen echt gewoon... Er is een routekaart.
Nou, en je zou kunnen zeggen dat... Kijk, uiteindelijk wat we nu zien gebeuren... met modellen en harnassen eromheen... dus die exoskeleton... Wat is het? Hoe noem je die man ook alweer? Die superheldenpak, een Iron Man pak. Ja, een pak klinkt meer als... Het moet een exoskeleton zijn, een Iron Man robotpak... waar die dan ingaat. Is dat wat wij nu nog doen... is AI in zo'n pak stoppen... en dat pak ontwikkelen we samen met AI voor AI. Dus Cloud Code bijvoorbeeld en Coworks... en allemaal van die pakken...
Maar uiteindelijk wil je natuurlijk dat AI zegt... wacht, ik zie hier een test, die kan ik niet oplossen. Ik ga voor mezelf een pak bedenken waardoor ik het kan oplossen. En dat betekent dus dat AI kan generaliseren... door zelf na te denken over... hoe moet ik dit totaal nieuwe probleem oplossen? Want iets wat mensen kunnen is in een nieuwe situatie gezet worden... waarin we nog nooit zijn geweest en toch daar kunnen presteren... is iets wat tot nu toe de modellen... en hij laat het nu weer heel mooi zien...
voor geen meter doen... want hij pakt letterlijk GPT 5.4 Pro... dat zou dan de crème de la crème moeten zijn... die niet eens voorbij een procent komt... om de test waar tieners gewoon goed op scoren. Dus ik denk dat... ik vind het belangrijk omdat... de test kwam gisteren uit... en ik was heel benieuwd... is het hem gelukt om weer iets te maken... van een puzzelverzameling... waar ze weer niet goed op scoren. En toen ze allemaal onder de procent scoorden... dacht ik, jeetje, hij heeft wel heel goed door... waar de gaten zitten...