Wietse Hage
๐ค SpeakerAppearances Over Time
Podcast Appearances
Ja, ik denk dat het op dit moment een van de... Hoe zeg je dat? Het is heel prettig om de vooruitgang van deze systemen, om het maar even zo te zeggen. We hebben nu dus over klot 4,5. Ja, precies. En dat is dan een model plus een agentic harnas eromheen. Een agentic harnas? Ja, mooi hรจ? Ik heb persoonlijk nog geen agentic harnas in de kast te hangen. Ja, het is een vorm van scaffolding eigenlijk. Okรฉ, helder. En dus...
Vroeger, een jaar geleden, hadden wij het nog vaak over ruwe modellen die werden uitgebracht. Tegenwoordig komen die modellen met allerlei dingen eromheen naar buiten. En als Sora kwam met een app eromheen en een hele platform, komen nu vaak 4,5 is leuk, dan kan ik modelletjes switchen in mijn app. Maar je wil eigenlijk dat daar omheen nog wat meer gebeurt.
Als je daar een harnas omheen zet, kladkoot is bijvoorbeeld zo'n harnas. En dat harnas is goed aangepast op het model erin. Dus die twee snappen elkaar en kennen elkaar. Dus het harnas kent de krachten en de zwaktes van het model. En het model weet dat hij in een harnas gejaagd wordt later. Waarom is deze metafoor een harnas?
Wat bedoel je ermee te zeggen? Nou, dat woord scaffolding is heel abstract voor mensen, want dat is dan een soort van wat je om je gebouw heen zet als tijgers of zo. Terwijl een harnas is, als je een entiteit hebt, dan doe je daar een soort exoskeleton omheen, zoals Iron Man, die eigenlijk dat die soort van vanille, dat vanillemodel die niet zoveel kan, ineens armen en benen geeft. En de mogelijkheid om te programmeren en jouw computer aan te passen en Windows te starten en al die
Dus hier zit een soort developerharnas omheen, waardoor die een agentje kan spelen en op jouw computer bestanden kan aanmaken en dertig minuten lang zijn eigen werk kan blijven controleren, et cetera. Waarom zijn die dertig uur? Waarom is die dertig uur zo belangrijk? Omdat in veel van de scenario's die er gemaakt worden over wanneer gaat dit grote impact hebben op de samenleving, is een van de groot indicatoren
Kunnen deze modellen in een loop, dus ze roepen zichzelf steeds opnieuw aan en ze blijven proberen. En op een gegeven moment komen ze er zelf uit zonder dat wij iets over doen. Ja, het gaat de hele tijd fout. En de truc is dat hij dat kan constateren en dan zichzelf kan verbeteren en dan weer door kan gaan. Zonder dat hij een soort pad ingaat of no return. En of zelf kan herkennen dat hij in zo'n pad zit. Zegt ik ga nergens heen nu. Ik doe even drie stappen terug en ik ga weer verder. Zonder dat jij steeds op continue of check of ga terug hoeft te klikken. Ja.
Waarom is het zo belangrijk? Omdat op het moment dat je modellen in een loop... oftewel een soort agents met een harnas aan... 30 uur lang menselijk werk kan laten doen... dan kan je dat ook naast elkaar neerzetten. Groepjes daarvan maken die met elkaar praten. En dan is dat idee van wat we bij Eva hebben gedemo'd... van agentjes die samen iets voor Caricele maken... ineens veel dichterbij. Want dan kan je zeggen... ga maar een week aan werk doen samen. En pak maar...
Zeven boeken aan en mail zelf Carrie maar met feedback en verwerk het maar. Dus die dertig uur die nu in het nieuws kwam sprong er voor heel veel mensen die wat dieper in de materie zitten uit van jeetje is dat dan te generaliseren?
Buiten het programmeerharnas, groot vraagteken, weten we nog niet. Wat bedoel ik daarmee? 30 uur is leuk binnen deze programmeertaak, volledig geoptimaliseerd. Het is een heel goed model voor programmeren, et cetera, et cetera, et cetera. Maar is dat dan ook straks bijvoorbeeld 30 uur lang... iemands hele medische geschiedenis doornemen... om een persoonlijk medisch advies te schrijven... op basis van deep research van 30 uur? Dus buiten het domein van programmeren. Dit is nog een vraagteken...
Die scenario planners willen weten hoe lang deze modellen in het algemeen meerdere domeinen urenlang menselijk werk kunnen doen. Ja, die 30 uur is een mensenuur, niet een computeruur. Ja, dit is een hele belangrijke, misschien wel een van de belangrijkste boodschappen. Een soort van kattenlevens, hondenlevens of mensenlevens. Ja, of plantenlevens, die zijn heel traag. Bomenlevens, er zijn verschillende manieren van tijd.
Het bijzondere is van machinetijd, om het even zo te noemen, algoritmische tijd, is dat je die kunt versnellen door betere computers, dus meer datacenters, waar het hele ASML datacenter verhaal van vorige week over gaat. Oftewel, het zou zo kunnen zijn dat die 30 uur van klat plaatsvindt in 30 minuten. Als je er dan 30 van naast elkaar kan zetten, begin je als luisteraar wat meer te voeren. Jeetje, dit is wel een dingetje zeg.
Ja, nee, dat maakt het alleen nog maar heftiger... wetende dat dit computer... of dat dit de uren zouden zijn... die een mens ergens aan had besteed. En alle labs, alle grote frontier labs... OpenAI, Entropic, Google DeepMind... zijn dus heel erg aan het optimaliseren op benchmarks. Dus al die benchmarks waar we het al maanden over hebben...
Maar deze benchmark, de meter benchmark is dat, of een van de meter benchmarks is hoe lang kan een agent werken zonder dat de mens erbij hoeft te springen en resultaat leveren. Dat moet ook goed zijn. Daar wordt nu flink op geoptimaliseerd. Dus ik verwacht ook dat Gemini 3 vanuit DeepMind in de press release ook een 100 uur achtig ding gaat claimen. Omdat daar nu de grootste impact zit. Is dit nu het beste model om te programmeren?
Staat redelijk gelijk aan GPT-5 Codex. De op maat gemaakte versie van GPT-5 die goed is in programmeren. Gaan redelijk gelijk op. Maar weet wel dat Sonnet, want dit is niet Opus. Sonnet is vijf keer zo goedkoop als Opus. En ook nog is het twee keer zo snel geworden. Dus is het ook nog belangrijk geworden bij dit soort releases van modellen plus harnassen.
Ja, hoe goedkoop het is. En hoe snel. En hoe ze hier gekomen zijn. Ik las dat Klaus 4,5 zich bewust is van zijn eigen geheugen. Hoe zit dat? In softwareontwikkeling heb je zoiets dat heet garbage collection. Dat houdt eigenlijk in dat een laptop, een smartphone, whatever. Heeft een gelimiteerde hoeveelheid intern geheugen. Dat is eigenlijk het geheugen waar jouw document in zit. Als je hem nog niet hebt opgeslagen. Die moet dan ergens zijn. Dat is in het geheugen. Dat is niet je harde schijf. Even in oude termen. Niet je solid state.
is vaak een stuk kleiner ook, want het is veel sneller, maar daarmee ook veel duurder. Dat geheugen is dus duur en daardoor moet het gemanaged worden. Met elkaar niet onbeperkt dingen in. Nee, want op een gegeven moment loopt Word dan gewoon vast. Dus wat je eigenlijk wil, ik pak even de metafoor van Word, misschien voor het gemak. Je bent een boek aan het typen in Word en je bent zo gek dat je het niet tussendoor opslaat. Ook al doet hij dat automatisch, heb je dat uitgezet, want je bent een beetje maf.
Dan zit je op een gegeven moment op pagina 800. Dan kan de garbage collector zeggen... joh, pagina 800 is nu in beeld. De kans dat jij helemaal terug gaat scrollen naar 1 is vrij klein. Ik haal 1 even naar de harde schijf en uit het geheugen. Die moet wel ergens heen. Dat is eigenlijk het opruimen van het gelimiteerde gegeven. En misschien wel...
Jij hebt nog teksten daar staan, die heb je inmiddels al verwijderd. Die zitten nog onder undo. Je kan ze nog terughalen, maar je gaat niet meer meer dan 30 undo-stappen terug. Ik gooi ze gewoon weg. En dan ben jij pist, want je wil de 34 stappen terug. Maar goed, dat is garbage collection. Eigenlijk wil je dat de context window in jouw AI-model, wanneer jij aan het kletsen bent, dit is de frustratie van veel gebruikers van GPT-achtige apps, is dat ze zeggen, ik zit lekker uren te babbelen. En op een gegeven moment heeft hij een soort, noem het,
alzheimerachtige dingen. Namelijk, we hadden het ergens over aan het begin van het gesprek en hij verliest eigenlijk de track, zeg maar. Het grote geheel. Dat is letterlijk dat de context er aan de achterkant afvalt. Die valt buiten de window naar buiten. Dit is bij programmeren heel wezenlijk. Hij moet gewoon alles weten.
Ja, dat is een beetje gevaarlijk ook. En irritant. En ook best wel duur. Want daardoor moet je het iedere keer... Dus wat ze dan nu noemen... om nog een paar leuke termen te gooien... naast harnessing en scaffolding... is context engineering. Een taak voor een mens. Dachten we. Namelijk...