Wietse Hage
👤 SpeakerAppearances Over Time
Podcast Appearances
Vaag over waar je nou uiteindelijk mee praat, want het is geen model meer, maar een systeem van modellen. Zorgt ervoor dat er nu heel veel, ja, een soort algeheel een gevoel heerst van het was even crappy als GPT 4.5 destijds. Ja.
Ik zou zeggen, en ik ga toch wel uit van benchmarks en wat ik zelf merk in mijn eigen softwareontwikkelingswerk, is dat gewoon niet waar. GPT-5 Pro, dat is het waarste wat je kan krijgen vanuit OpenAI. Ja, dat is gewoon een op zijn minst lineaire groei. Dus gewoon overduidelijk een 5 en niet GPT-4. Dus ik zit zelf veel meer in het kamp van, oké,
Als jij snapt wat modellen zijn en je weet welke modellen je kan aanroepen... en je bent dagelijks tegen de limieten aan het aanlopen geweest van eerdere modellen... dan was jij, dat waren Rick en ik ook toen die uitkwam, zeer zeker wel onder de indruk. Maar niet zo zenuwachtig, er staat een soort zweet op mijn rug onder de indruk... als bijvoorbeeld destijds met GPT-4. Dat was eigenlijk de grote lancering van taalmodellen voor de mainstream.
Dus ja, hadden ze het 4.6 moeten noemen? Ik denk het niet. Ik denk dat het gewoon commercieel gezien richting de massa met de uitrol naar alle free users van een zwaarder model een prima launch is geweest. Maar het helpt niet dat daarvoor het idee geschept is van oké,
of geschapen is van... nu gaat alles anders zijn. Ik zat wel echt die... want dat ze het in de zomer gingen lanceren... had ik al zoiets van... als het echt zo groot was geweest... hadden ze TechTember gebruikt. Dus toen dacht ik al van... en toen startte ik die livestream... en ik zat echt zo dat ik dacht... of na deze livestream ben ik echt wel... dat ik weer even een rondje moet gaan lopen... of het is een soort van lineaire progressie. En dat was die tweede. Ik hoefde geen rondje te gaan lopen. Ja.
Ja, en ik denk in dat opzicht dat het ook... Ik heb best wel wat mail gekregen van mensen die zeiden... Hoe zit het nou met AI op 2027? Dat is de AGI-aflevering die we hebben opgenomen. En waar je ook bij Eva over gesproken hebt. De scenario's dat er AGI, Artificial General Intelligence, zou zijn rond 2027.
En moesten die timelines nu ineens allemaal aangepast worden doordat GPT-5 tegenvalt, wat dan het narratief is. En die zijn dus niet aangepast, omdat eigenlijk waar 2007 het meest op gebaseerd is, is de meterbenchmark. Eigenlijk een benchmark om te zien hoe lang kan een agent, in dit geval GPT-5 in een loop, die iedere keer blijft doorgaan, kan die blijven opereren om een taak te doen en hoe lang is die taak dan?
En dan moet je, als ik dan zeg een taak van twee uur bijvoorbeeld, dan bedoelen we een taak waar een mens twee uur over doet. Zo'n systeem kan die taak doen in twintig seconden, maar het staat gelijk aan mensen, tijd, twee uur taak. En die hebben een lijn getrokken, eigenlijk een exponentiële lijn.
Waarin ze laten zien, dan verwachten wij eigenlijk om de zoveel maanden nieuwe modellen die het veel langer volhouden. En misschien op een gegeven moment zelfs een hele werkdag aan mensen taak. Dus acht uur aan mensenwerk zonder dat wij hoeven ingrijpen en hem op stop moeten drukken. Of dat hij weer gaat lopen of dat hij vragen heeft of dat hij zelf vastloopt. En daar was de voorspelling dat GPT-5-achtig model twee uur autonoom zou moeten kunnen werken.
Precies, en wat daarin gebeurt is dat het model dan eigenlijk het web even op moet en dan aan de hand van wat op het web gevonden wordt weer even gaat nadenken. Dan weer even wat bluffen, dan weer nadenken over het bluffen, dan toch maar weer even het web op. En daar zit een maximum aan als ik je goed begrijp. De hoeveelheid tijd die een model vandaag op dit moment in de tijd kan besteden aan zo'n taak.
Ja, en dat komt bijvoorbeeld doordat hij in een soort... Hoe zeg je dat? Rabbit hole verdwijnt. Die begint een kant op te zoeken die eigenlijk een dead end is. Dan zit jij als gebruiker... Ik zit ook wel eens mee te kijken in de reasoning trace. Dus hoe hij nadenkt. En dan stop ik hem gewoon. Omdat ik denk, ja, ik weet waar jij nu heen gaat. Ik heb hier zelf ook over nagedacht. Dit heeft geen zin. Dus je hebt het probleem van rabbit holes. Je hebt ook het probleem van loops. Op een gegeven moment gaat hij weer hetzelfde lopen onderzoeken. Omdat hij zijn eigen context window uitloopt. Krijgt hij een soort van...
Ja, precies. Dat soort goudvis die rondjes blijft draaien in de kom. Zijn geheugen is niet groot genoeg om te begrijpen dat hij iets al eerder heeft gedaan. Ja, dat heet dan een dead loop, zeg maar. Dus een soort dode loop waar hij in terecht komt. Dus eigenlijk wil je die systemen zo ontwerpen en die modellen ook zo trainen dat ze dead loops kunnen herkennen. Dat ze dead ends kunnen herkennen. En dit wordt blijkbaar beter met de tijd. Ja, want GPT-5...
Is dus heel erg specifiek getraind. Om beter agentic werk te kunnen doen. Wat eigenlijk echt vooral inhoudt. Dus het uitvoeren van meerdere taken. Ook het slicen van grote taken in sub-taak. Om die vervolgens achter elkaar uit te voeren. Te snappen wat je voor de ene taak nodig heeft. Blokkers. Welke data moet ik nog hebben? Oh, waar was ik ook alweer mee bezig? Zie het als een executieve functie van een algoritme. Dus tegenover gezellig van ADHD. Iemand die heel gefocust snapt. Ik heb nu te lang research gedaan. Even terug naar de boom.
Wat was ook alweer de opdracht? En daarop, Mieter is daar eigenlijk de sterkste benchmark in, want die probeert dus door taken te geven, te kijken hoe lang een model zonder externe, hoe zeg je dat, ingrijpen, kan door blijven werken.
Omdat dat eigenlijk gezien wordt als de kwalificatie die je moet hebben om Artificial General Intelligence te zijn. Want als jij acht uur, jij als in een algoritme, acht uur menselijk werk kan doen. Ook nog eens collega's aan kan sturen die acht uur menselijk werk kunnen doen. Dan zou je een klein bedrijfje kunnen runnen met enkel agents hè.
En daarmee zeg ik niet Project 2027 is waar. Nee, maar het is interessant. De verwachtingen hoeven niet bijgesteld te worden op basis van vibes. Dat is de kern van jouw verhaal. Precies, en ik denk dat het wel grappig is dat aan de ene kant er een terecht narratief is ontstaan. GPT-5 is tijdens de zomer gelanceerd. Het valt allemaal tegen. Sam Altman baalt er ook van. Waar is onze AGI? Even samengevat. En aan de andere kant is het, als je met de Project 2027 mensen gaat praten, joh, hoe zitten jullie er nu bij? Die doen een duimpje omhoog met all on track.
Nou, er ging een post rond op LinkedIn... van de provincies van Nederland uitgetekend... in een soort krijttekening of zo. En dan door Copilot, door GPT, whatever. Dat waren tekeningen van Nederland. Gewoon zwart-wit, zeg maar. Met een pen-drawing. Met de provincies erin. Met de provincies niet goed getekend. De provincies klopten ook niet, zeg maar. Er ging een hele discussie om. Van haha. Het was een soort gacha. Zo lijkt het een beetje op die volgorde van de provincies. Kan geen reet. En het interessante is dus... En ik denk...
Dit kan je cynisch lezen als Wietse, de AI-apologist. Maar geef me even, want volgens mij is dat niet helemaal waar. Ik zie die post en ik denk, wauw, dat die dat kan. Zo knap van het model. Dat denk ik. Met precies hetzelfde voorbeeld. Want? Nou, kijk, als jij in het oude paradigma van computers... waarin computers eigenlijk informatiesystemen zijn... waar je informatie in kan stoppen en uit kan halen...
Dan schrijf jij de provincies weg in een database. Die noem je provincies. En daarna vraag je, geef mij die provincies nou eens terug. En dan krijg je ze weer terug. Input, output. Typisch informatietechnologie. Niet per se heel spannend. Dat zijn dus feiten gestructureerd in gestructureerde data. In een formaat in een database.
Op het moment dat jij een hele bak data, in dit geval Wikipedia, Reddit posts, noem het allemaal maar op. Echt gewoon een hele berg rommel eigenlijk met inhoud. Maar het is een soort dozen vol met boeken. En dat ding moet maar gaan uitvinden wat interessant is. Dat is ongeveer hoe lui de training gegaan is, zeg maar. In ieder geval de eerste training van de modellen.