Alexander Klöpping
👤 SpeakerAppearances Over Time
Podcast Appearances
Dus Gemini, die ziet in die agentic loop, dus voor duidelijkheid, jij maakt die chat en dan zegt hij, voordat jij de chat hebt bekeken, zegt hij, oh, knopjes een beetje klein, die maak ik even groter. Maar je zegt chat een beetje verwarrend, maar je zegt dus, je bent een website aan het maken. Van een chat, ja, dat is een beetje een slecht voorbeeld. Laten we het gaan, een website. Dus je bent een Harry Potter website aan het maken met dat ding. Harry Potter soundboard, met knopjes. En normaal gesproken zeg je dan, het is lelijk, maak het mooier. Dan genereert dat ding code, dan druk je op apply.
En dan kun je dat in de browser zien. Ja, dan hopen dat het lukt, want jij bent degene die het te zien krijgt. Ja, precies. En nu zeg je eigenlijk, er is een soort van feedback loop toegevoegd, waardoor hij naar die website gaat kijken. Dat deed hij niet hiervoor, maar hij gaat naar de website kijken en daarop... En klikken. En klikken door de website. Oh, echt? Ja. En dan...
Wat zou je dan nog veranderen? Ja, wat denk je er zelf van? En dan zag je dus dat die pelikaan 5 tot 10% beter werd... als eigenlijk het model niet meer blind is. Dat is pretty much hoe het is. Browser blind, als het ware. Dit model heeft ogen gekregen om naar de browser te kijken... en neemt dat mee. Hij was gewoon blind aan het programmeren. Dat is misschien ook wel iets wonderlijks. Wij waren zijn ogen. Wij waren zijn ogen. Dat is toch eigenlijk heel knap... hoe ver het lieve computertje is gekomen. Dit is de juiste conclusie. Ja.
Er is daarnaast ook Gemini Agent gelanceerd. Dat rolt deze week uit voor ultra-gebruikers. Dus dat zijn mensen die 200 euro per maand betalen, denk ik. In ieder geval hoog bedrag en alleen in de Verenigde Staten. Maar ik wil het toch even over hebben. Want dit is een agent-achtige interface die bijvoorbeeld... Het ziet eruit als Gemini gewoon. Het is gewoon die chat-interface. Maar die kan agent-achtige taken doen. En het voorbeeld dat Google geeft is... organiseer mijn e-mail, je Gmail dus...
En dan checkt hij je inbox. En dan gaat hij antwoorden voorstellen bij al je e-mails. Drafts maken. Je draft loopt eigenlijk vol. Je draft loopt vol. Hij gaat e-mails organiseren, dus labels geven. Hij gaat, als er taken zitten in die e-mail, dus je baas heeft je een opdracht gegeven, of twee opdrachten gegeven, gaat hij dat ophakken in subtaken. Zeggen, klopt dit allemaal zo? En vervolgens dan acties voorstellen. En dan kan jij met een soort van duimpje omhoog of duimpje naar beneden, constateren of de
Stappen die dat ding voorstelt. Of je daarmee eens bent. En dan gaat hij het allemaal processen. Ja.
Ja, los het op alsjeblieft. Het is zo grappig, want wij praten al jaren over OpenAI en Google in de context van eigenlijk, het is heel knap wat OpenAI doet, maar als het stoomschip wat Google is, wat gewoon heel traag op gang komt al jaren, als ze dan eenmaal op gang zijn, dan moeten we er wel een hoop van verwachten, want niet alleen hebben ze hun eigen hardware, ze hebben hun eigen cloud infrastructuur.
Ze kunnen direct in search proppen, in YouTube, in Gmail, in Workspace. Miljoenen mensen krijgen het eigenlijk voor hun neus geschoven... zonder dat ze een app hoeven te downloaden. Dat is alleen al een Chrome waar OpenAI een alternatieve browser voor moet lanceren... om dan iets met die browser te kunnen doen. Google heeft dit allemaal al in de hele stack, zoals dat dan zo gaaf heet. Nou ja, bezitten ze eigenlijk alles. Ze hebben tijd, ze hebben geld...
Het is best wel een groot ding dus. Nee, ik hang aan je lippen, Wietse. Dat anti-gravity hebben we deze week trouwens in de AI Report getest. We hebben voor de grap gekeken hoe ver Gemini komt als je bijvoorbeeld een website laat nabouwen. En dan zie je dus letterlijk Gemini browser, zoals jij zegt, schermafbeeldingen maken, zijn eigen werk beoordelen, die code dan aanpassen en zo.
Onze redacteur Sean kon dat resultaat in real time volgen en dat eindresultaat was best oké, maar ze is ook kritisch. Dat ding kreeg veel errors wat misschien te maken heeft met de drukte, maar wat misschien ook zegt dat het allemaal nog in testfase zit en dat was erg frustrerend voor haar, maar ze had ook door dat dat ding...
Dat ding had door wanneer het errors tegenkwam en pakte na crashes ook de draad weer op. Hoe dat allemaal ging, lees je in de nieuwsbrief van deze week. En een review van Canvas, Gemini's interactieve interfaces builder. Waar het heel goed in is en waar het minder goed in is. En hoe je het maximale uit die tools haalt. Als je naar eareport.email gaat, kun je dat krijgen.
En dan nu iets heel anders. We praten vandaag met Pim de Witte. En Pim die is een 30-jarige Nijmegenaar, oprichter van Metal TV. En dat is een van s werelds grootste platformen voor het delen van video's uit computergames. En dan denk je waar hebben we het over? Maar dit is wezenlijk en dat zal zo dadelijk duidelijk worden.
Metal is dus een bedrijf wat al heel lang heel populair is, maar onder een hele specifieke groep mensen, namelijk gamers. Wij kenden het allebei niet, toch? Nee, zeker niet. Maar ik maak uit de omzet van dit bedrijf op dat het goed gaat met dat bedrijf, al heel lang. En dat dus wat gamers willen, is als zij een spelletje spelen, dat ze dan de videobeelden uit die games kunnen delen. Clipjes delen. Clipjes delen.
Dat doet hij al jaren en stiekem is hij doorgestoten naar werelds grootste plek om beelden uit games te kunnen klippen om met anderen te kunnen delen. En al die videobeelden die heeft Pim opgeslagen.
En wat blijkt nou? Dit is de missende schakel om world models te bouwen. En dat is een term die je al vaker in deze podcast hebt gehoord. Het is een soort van volgende fase van taalmodellen, waar taalmodellen tekst uitschrijven. Zijn world models goed in het begrijpen van alle details van de wereld? Zeg ik dat goed? Jazeker, wat je bijvoorbeeld nodig zou hebben om een auto rond te laten rijden.
Ja, dus een auto die zich moet navigeren door Amsterdam... en er rolt een bal over straat en dat die dan begrijpt... oh, er komt nu een bal aan, dus ik kan beter remmen... want er komt misschien een kind achteraan. Dan heb je weinig aan het lezen van Dostoevsky. Ja, jouw kennis over Dostoevsky is daar matig relevant voor. Dus wat een world model doet is...
Getraind op videobeelden om te kunnen dromen over hoe de echte wereld eruit ziet. Om te kunnen voorspellen wat er allemaal kan gebeuren in een wereld zonder dat je daar eerst video van hebt gezien. En dat noemen we generaliseerbare technologie. Dingen kunnen voorspellen op basis van beelden.
En al die AI bedrijven zijn bezig met world models. Omdat ze allemaal de vermoedens hebben. Dat dat nogal belangrijk gaat zijn voor autonomie van robots. In de breedste zin. Want je hebt het over auto's. Maar het gaat ook over drones. Het gaat ook over humanoids. We hebben het al in deze podcast hier heel vaak over gehad. En met taalmodellen komen we er niet van.
Maar dat botertje werd amper gebracht. Dus dat liet ook zien, dit is niet genoeg. Nee, dus Chachapiti en taalmodellen, de revolutie die eraan ten grondslag ligt, zijn niet genoeg, constateren we, om robots autonoom voor te bewegen in de wereld. En dat is wel een droom die de mensheid heeft, zou je kunnen zeggen. Nu is daar dus Pim uit Nijmegen, hecht ik eraan om te zeggen, die toevallig
Heel veel clippies verzameld heeft. Heel veel clippies heeft verzameld van games. En waarom zijn games, gamebeelden, wezenlijk of interessant voor het trainen van die worldmodels? Omdat het heel voorspelbare data is. Ja, het is ook prettig vaak vanuit hetzelfde perspectief opgenomen. Namelijk vanuit de speler, dus in de game. Heel stabiel camera shot. En die games zelf, dat zijn redelijk geconcentreerd.