Wietse Hage
👤 SpeakerAppearances Over Time
Podcast Appearances
is dat steentje. Hoe fundamenteel is het effect van dat steentje op die robot? Is dit 2,5 minuut extra doortrainen... op virtuele Genie 3 beelden van steentjes op de grond? Of is dit 20 jaar aan AI-paradigma's die moeten omgegooid worden? En ik denk dat mijn kijk hierop is... dat veel van de meer...
mainstream aanvallen op deze technologieën, met aanvallen bedoel ik kritieken, misschien een beter woord, terecht trouwens, prima, dat ik dan denk, en dat is ook een beetje de software engineer in mij, dat ik denk, ja, whatever. Ja, sorry, dat is gewoon, dat fixen we wel of zo. Dat is eigenlijk ook niet waar het voor gemaakt is. En dat kan klinken voor een projectmanager als een
Nou ja, dus eigenlijk doet Raoul Heertjes... en veel meer mensen om mij heen, gebruik ik nu even Raoul... maar doet een soort persoonlijke benchmark. Die is aan het benchmarken. Op basis van vibes. Ja, en die zegt dan... nou, ik maak me nog geen zorgen...
Terwijl ik denk, nou ja, je vraagt aan een systeem wat er niet eigenlijk voor ontworpen is, plus het feit met welke versie van dat systeem praten jij, ging dat via die autorouter, et cetera, et cetera. Want, even voor jouw beeld, toen GPT-5 net uitkwam, kreeg ik mail van mensen die zeiden, hij weet weer niet wat er in Blueberry het aantal R en B's is. Daar gaan we weer. Terwijl ik gewoon dacht, oh, hij roept waarschijnlijk gewoon 5 mini aan op de achtergrond, zonder reasoning, heel technisch.
Ja, en ik denk, ik wil nog wel even zeggen dat er zijn daadwerkelijke fundamentele limieten aan deze systemen, waar we echt nog wel jaren tot decennia... Ja, maar die staan niet in de krant. En dat is zo grappig, want alles wat in de krant komt, is op basis van, als ik jou goed begrijp, gezeik.
Ja, en ik moest ook even zoeken, want... Zoeken? Nou, zoeken naar de reden waarom. Want die image... Ik dacht, hij zit gewoon in Gemini. Dus eindelijk heb je een keer iets normaals gedaan. Namelijk, je gaat naar gemini.google.com en dan is het klaar. In plaats van allemaal ingewikkelde shit. Eigenlijk gewoon gebruiken. De reactie van heel veel mensen was, ja, maar dit was toch... Kijk, OpenAI heeft op een gegeven moment die... Hoe noemen we dat? Afbeelding genereren. Image generation verbeterd in GPT. Waardoor je die Ghibli-film dingetje kreeg.
En waardoor mensen ook kaartjes konden gaan maken. Text klopte ineens, niet meer zes vingers. Echt een enorme sprong. Wij hebben het daar ook over gehad. En dat creëerde ook in de media, bij de mainstream. Dat hebben ze bij OpenAI goed gevoeld toen. Waar wij dachten, maar dit is toch een klein stukje image generation. Een soort van 10% beter. Was voor gewoon heel veel gebruikers een enorme revolutie. Dat was een heel knappe move. Waarom? Testtijds van OpenAI.
Omdat ze de transformer, eigenlijk wat wij gewend zijn van hoe GPT, Generative Predictive Transformer, werkt, hebben gecombineerd met diffusie wat plaatjes maakt. De plaatjes die daarvoor werden gemaakt waren plaatjes waarin het nooit lukt om hetzelfde gezicht te houden. En als je dan zei ga zet het ervoor en erachter, dan kwam het er niet voor en erachter. Een hoop frustratie. Ja, het is onvoorspelbaar.
Ja, en nu merk je van, nee, wacht even. Dat ding begint echt te luisteren. Als ik zeg, die tekst moet erboven staan en er moeten hoofdletters zijn. En dan dat ding erachter en ervoor. Dingen als positie. Het is alsof je soms naast iemand zit die heel goed kan photoshoppen. Die je gewoon verbaal commando's kan geven. En het blijkt dus dat mensen eigenlijk gewoon AI Photoshop willen. Namelijk praten met Photoshop. Ja, maar natuurlijk. Ja, dan kan daar een bruidsuitnodiging, bruiloftsuitnodiging uitkomen. Tot en met, ik ben benieuwd hoe dit jurkje staat. Ja.
Wat maakt deze Nano Banana, de codename bij LM Arena, oftewel Gemini 2.5 Flash Image Van, whatever, maakt even niet uit. Wat maakt het nou zo bijzonder dat het ook zo'n combinatie is? Dus het is dezelfde truc als het ware die OpenAI gedaan heeft in die Ghibli-revolutie destijds, alleen dan weer een stuk beter. Hoe merk je dat dan? Meteen even een concreter voorbeeld die ik tegenkwam, die vond ik wel heel sterk.
Iemand had alle image generators getest, inclusief die van OpenAI, dus de state-of-the-art imagegen modellen, en gevraagd, doe mij een lasagne die met 500 graden drie dagen in de oven heeft gezeten. Als wij, jij en ik, ons dat voorstellen, is dat een verkold blok turf.
Ja, dat is niet best, toch? Nou, alle image generators maken daar een soort van... best wel smakelijk uitziende gebakken lasagne van. Want het is net als met dat glas wijn, half vol, half leeg. Die hebben nog nooit de verkolde lasagne gezien. Ja, er zijn niet zo heel veel foto's van verkolde lasagne in die trainingsdata. Dus wat moet je eigenlijk hebben? Een model dat...
verkolen en verbranden... en een oven begrijpt... om vervolgens het concept van... verkolen en lasagne samen te voegen... in een verkolde lasagne. En begrijpt dat dat bij 500 graden gebeurt. Ja, dus die moet eigenlijk begrijpen... tussen aanhalingstekens... wat vraag je nou eigenlijk echt? En kan ik me dat voorstellen? Wat doet dus die nanobanana... Gemini 2.5 Flash, whatever...
Die doet dus een heel mooi halve verturfde. Echt heel leuk. Maar in een oven waar allemaal rook in zit. Want ja, het is aan het verbranden al heel lang. Eigenlijk echt het plaatje wat je verwacht. Briljant gedaan. En dat lijkt dus voor...
Dat lijkt voor de meeste mensen die veel minder diep in deze technologie zitten. Iets heel kleins. Oké, cute, je gaat van gebakken kaas naar verkolde kaas. Who cares? Maar als je wat dieper in die materie zit, dan snap je... Wauw, om dat allemaal te begrijpen... en vervolgens al die subconcepten weer samen te voegen tot een nieuw concept... wat dat model nog nooit gezien heeft...
Ja, net als dat hij heel goed is in het bluffen van provincies die hij eigenlijk niet weet. Lukt het dit ding ook om wat hij nog nooit gezien heeft voor kolde lasagne toch te maken? Dat is wel iets groots. En een van de grotere dingen, en daarin lijkt het wel een beetje zelfs op VO3, het videomodel, is dat als jij bijvoorbeeld een plaatje hebt met twee lampen erin, dus twee spotsen en een studio, zoals wij hier zitten. Dus je hebt een paarse lamp en een meer warme gele lamp.
Daar heb je een foto van. En dan heb je een pet, gewoon een witte pet. Die heb je ook als foto. En jij zit dan bij die lamp. En op de ene kant van je gezicht schijnt paars. En aan de andere kant schijnt het gele licht, zeg maar het warme licht. En dan zeg je tegen dat ding, doe even die pet bij mij op. Dan reflecteert op de textuur van die pet ook die twee lichten. En dan denk je natuurlijk, duh. Terwijl, wauw. Hij is er niet van soort crappy ingefotoshopt. Nee, er wordt rekening gehouden, hoe dan ook, met dat...
De demo's die je nu allemaal online langs ziet komen... en we hebben in de nieuwsbrief ook een paar mooie voorbeelden zitten morgen...
Dan zie je dus deze details... die ook zo in die videomodellen ineens zijn gaan werken. Namelijk belichting, refractie door glas, regen... wat doet nattigheid op een trui. Al die effectjes zitten nu ook in die beeldgeneratiemodellen. Waardoor je dus in essentie nu... als jij één foto van jezelf hebt in een bepaalde ruimte... en een foto van honderd kledingstukken... daar gewoon 99,9% accurate staged foto's van kan maken... voor op een webshop.
Ik denk ook dat dit is zo'n gat tussen... En dat is de laatste keer dat ik het over die twaalf provincies heb. Het raakt me. Er zit zo'n gat tussen... Wat zit er in de ChatGPT-app? Wat een soort DOS-interface naar AI is? En welk model praat ik bij? En ik krijg twaalf provincies terug waarvan twee niet kloppen. Versus Alexander en Wietse die snappen dat er een Gemini-studio is. Ook nog eens mee hebben gelezen... Wat zijn echt een beetje de tricky detail-tests? En hoe kan je hem een beetje duwen en nudgen richting die genialiteit? En dat wij dan...