Wietse Hage
👤 SpeakerAppearances Over Time
Podcast Appearances
Het zweeft gewoon in de ruimte. En nu komt daar dus een beetje een abstracte. Je zou het als een kunstvorm kunnen zien. Want even voor de luisteraar. Die pelika mag alleen getekend worden op basis van basisgeometrie. Dus hij mag geen plaatjes genereren. Zoals bijvoorbeeld nano-banana dat mag. Of advanced image generation. Er wordt uit een ander vaatje getapt. Namelijk dat hij alleen maar lijnen mag gebruiken. Hij mag geen foto maken. Want dat kan hij heus wel. Maar hij moet een soort van...
Ja, hoe moet je dat schematische tekening eigenlijk maken? Dat is moeilijker voor het ding blijkbaar. Geef de coördinaten en de radius van de cirkel maar van het wiel. En ga daar maar streepjes opleggen en met een bepaalde dikte. Dus je krijgt eigenlijk een soort stokjes en blokjes en balletjes. Maar goed, daarmee waren we er nog niet als ik dit vergeleek met de vorige plaatjes. Nee, maar ik bedoel, het is in dat opzicht op die pelikaanbenchmark...
Want dat is het. Die is niet saturated. Oftewel, we zijn er nog niet. Maar alle gaatjes die erin zaten bij de eerdere modellen. Dus de spaken zitten er niet op. Of die pelikaan zit op een vreemde manier op die fiets, et cetera. Want het kan natuurlijk eigenlijk niet een pelikaan op de fiets. Voor de duidelijkheid. Is dit wel weer een stapje vooruit? Ja, we zijn ook verwend. Want iedere paar maanden komt er een nieuw model uit. En iedere paar maanden wordt die pelikaan weer beter. Je moet hem vergelijken met de pelikaan van twee jaar geleden. Ja, precies. Dat is inderdaad niet om aan te zoenen.
Er is een call geweest naar mensen toe. Maak vragen waarvan je weet dat mensen ze goed doen. En waarin LLM's duidelijk door de mand vallen. En wij betalen jullie ook voor die vraag. Ze hebben deels een publieke dataset. Dus de vragen die kunnen meegetraind worden in het model. Maar ze hebben ook een private onderdeel van de Humanities Last Exam. Dus dan stuur je als het ware het model op als Google zijn. En dan ga je in privé dat doen. En dan krijgt Google de resultaten terug. En ook daar op het privé deel scoort Gemini 3 Pro. Dat is niet niks.
Het scoort 92% op de GPQA Diamond. Ja, het punt is dat eigenlijk in de grafieken... als je even uitzoomt, dus de staafdiagrammen moet ik eigenlijk zeggen... want het is natuurlijk leuk, 37,5% of 94, zoveel...
Het gaat erom dat er ongeveer 10, 15 tot 20 procent hoger... dat het model hoger scoort dan de vorige frontier models. Dus je ziet eigenlijk op alle gebieden... waar voorheen we de clouds van de wereld hadden, Opus 4.1... en de Gemini 2.5, het vorige model van Google, en GPT 5.1... dat eigenlijk alle drie...
dat daar een blokje van 15 tot 20% bovenop komt... in alle benchmarks tegelijk ongeveer. En dat is best wel een ding. En nu de Arc AGI 2 test. Dat is een beruchte intelligentietest voor AI Labs. Presteert die dubbel zo goed als GPT 5.1? Ja, waar dus François Collet, de maker van de Arc AGI Challenge... of in ieder geval degene die daar het meeste over publiceert en praat...
Die zei een soort voorzichtige tweet van... Ik ben wel onder de indruk. Want het idee van Arc AGI 2 was... Daarom is het nummer 2 en niet meer 1. Die eerste werd wel heel snel verslagen. Toen waren jij en ik ook een beetje onder de indruk. Ongeveer een jaar geleden volgens mij iets minder. Van jeetje, nu gaat het wel heel hard. Als het dan AGI zou moeten zijn. Dus hebben ze een tweede gemaakt. Waar alle gaatjes uit waren. Waardoor die zo makkelijk was. En ook die...
schuift nu maar gewoon weer door. En dat is best wel een... Dat was de enige waar ik naar keek. Hoe is het met Arc AGI 2? En ik ben best wel onder de indruk. Ja. Er zijn vrijwel geen benchmarks meer... lees ik, waar de gemiddelde mens... bij textuele taken beter presteert... dan Gemini 3 Pro. Wat betekent dat? Textuele taken? Nou, je hebt zeg maar... in heel veel van de benchmarks... heb je een balkje erbij staan... human level. Dus bij Arc AGI is human level... dan 89% bijvoorbeeld...
En dan zou je kunnen zeggen, oké, iedere keer als een benchmark voorbij human level gaat, dus het hoeft niet eens 100% te zijn, maar voorbij wat wij kunnen, dan gebeurt daar iets substantieels. Wat hier belangrijk is, is dat je natuurlijk de toppers hebt in benchmarks, dus de 100 beste wiskundigen van de wereld, kunnen dit als human level. Dus human level betekent niet altijd hetzelfde. Je hebt human expert level en human average level. Ja.
En op textuele taken, dus waarin tekst gemanipuleerd wordt. Dus niet plaatjes maken of plaatjes bekijken of 3D-werelden of robots besturen. Nee, tekst bekijken en manipuleren. Dus Humanities Last Exam bijvoorbeeld. Er zitten trouwens ook een paar plaatjes in. Maar goed, daar gaat het heel erg over. Wat is manipuleren? Is dat samenvatten? Is dat...
Nou, bijvoorbeeld Arc AGI 2, dat zijn allemaal IQ-puzzels. Dat zijn visuele puzzels. Dus dat is niet gebaseerd op tekst. Terwijl als er bijvoorbeeld een raadsel, een riddle in tekst is gekregen van een A4 lang. Daar zat ik ook heel erg op te letten toen die uitkwam. Er waren heel veel raadsels. En dan moet je je voorstellen, Kees heeft twee zussen. Eén daarvan is arts en die heeft ook een baby. Wij als mens trappen daar niet in. Die zijn ook moeilijk voor ons. Zeker.
Maar omdat het tekstmodellen zijn, verlies je die op een gegeven moment het draad. En dan kan je ze, en zelfs de zwaarste modellen die we hadden, vielen door de mand bij dit soort raadseltjes. En Gemini 3 blijkt ontzettend goed in die raadsels te zijn. Zo goed zelfs dat het beter is dan de gemiddelde mens op die raadsels, zolang het tekst is. En dat is wat anders dan, heel veel mensen hebben het vaak, als ik het hier zelf ook met mensen over discussieer, over PhD level of artificial super intelligence. Terwijl ik denk, nou als we systemen hebben die op,
die kunnen wat de gemiddelde Nederlander qua intellect kan... dan hebben we ook al iets te bespreken met elkaar. Snap je? Dus in plaats van wat de gemiddelde genie kan...
Ja, dus ik moet dat niet zien als de kwaliteit van tekst. Ik moet dat zien als de intellectuele puzzel die een tekst kan zijn. Precies dat, ja. En ik denk dat dat resulteert nu als een soort bijvangst in dat de teksten die die kan genereren over die puzzels of een samenvatting ook beter aan het worden zijn. Dat is natuurlijk wat met deze modellen wel vaker gebeurd is. Is dat je traint of A, B en C beter te maken en je krijgt er dan gratis D en E en F bij. Juist, ja, ja, ja.
Een 3D kookboekje eigenlijk, waar je doorheen kan bladeren, zeg maar. Dus dat is dan een websiteje. Juist. Dus eigenlijk de Cloud Artifacts feature, die kennen we al wel. Dus kleine widgets maken. Alleen Google heeft het hier ingetraind. Dat is sowieso wel een beetje een van de hoofdboodschappen rondom Gemini...
Google heeft heel goed gekeken, deep mind, heel goed gekeken... waar worden modellen nu voor gebruikt? En kunnen we eigenlijk die specifieke toepassingen... dus een mooie stijl voor een website of het creëren van mini-apps... meetrainen in dat model? En daar is hij dus nu ook echt stukken beter in geworden. Wat betekent dat, meetrainen in het model? Tot nu toe was het eigenlijk zo dat... bijvoorbeeld als je dan kijkt naar Cloud, die artifacts kan maken. Dus zo'n model kan software maken. En op een gegeven moment komt Entropic erachter...
terwijl jij dat vraagt aan de zijkant... alvast dat stukje software laten zien... en die artifact feature aan de zijkant... dan kunnen mensen dashboards maken en widgets. Maar die toepassing was niet helder... toen het model getraind werd. Dus toen het model eigenlijk uitgedaagd werd... tijdens de training...
om antwoorden te kunnen geven op bepaalde moeilijke vragen. En wat je kunt doen in de trainingsfase is zeggen... joh, jij gaat straks ingezet worden om kleine mini-apps te maken. We gaan jou ook duizend voorbeelden geven... van hele smaakvolle, goed gelukte mini-apps. En we gaan jou daar als het ware punten geven... als je dat beter doet tijdens het trainingsproces. Dus het is in plaats van dat je een heel...
breed model traint... waar je dan... als bijvangst mini-apps krijgt... ga je zeggen, omdat we toch weten... dat een groot deel van jouw output dat gaat zijn... gaan we je alvast een beetje helpen... om die goed te kunnen doen. En daar wordt dus nu ook al gezegd... de esthetiek die Gemini nu heeft... in het websitejes bouwen... die is er overduidelijk ingestopt... omdat de feedback van de eindgebruiker was... alles lijkt op elkaar en is lelijk. Ja, ja, ja.