Wietse Hage
👤 SpeakerAppearances Over Time
Podcast Appearances
Maar op het moment dat die dan een toolcall zou kunnen doen... Ik leg hem even simpel uit en zeg... Wow, hier wordt volgens mij van iets van mij gevraagd... wat in de fysieke wereld gebeurt. Ik ga even in conclaaf met een wereldmodel... die normaal robotica doet. En ik denk dus dat je dan zal gaan zien... is dat ARC 2 gebied zal worden door een ensemble. En dan gaan mensen weer zeggen... Ja, maar er is veel te veel compute. Het is niet eerlijk. Het klopt helemaal niet. Jullie gebruiken een muziekmodel om dingen... Maar pak dat, het werkt. Tadaa. En dat is denk ik de grote discussie in...
AI land in de brede zin. Zijn we straks fundamenteel dingen. Zijn we AGI aan het bouwen. Omdat we snappen hoe het moet. Of zijn we gewoon net zoveel dingen in één doos bij elkaar aan het gooien. Tot we die benchmarks weer kunnen bieten.
De branding is een beetje ingewikkeld, omdat we inmiddels zijn we, ik zeg we, mensen die van modellen wisselen in de ChatGPT app, daar moet je wel intussen wisselen, zijn inmiddels gewend dat OpenAI als een soort Google jouw teams maken aanbiedt inmiddels. Daarin kregen we op een gegeven moment O1, dat was toen het eerste reasoning model, dat hebben we net toevallig besproken.
Toen kregen we de minis, oftewel kleinere versies ervan. Waarom zetten ze daar mini bij? Nou, dan weet je, ze zijn sneller, ze zijn goedkoper, maar ze zijn ook niet zo slim. Want ze hebben die struikjes als het ware geschoren, zeg maar. Die is korter geknipt, geproond.
Dan heb je de O1 zelf, dat was het middenmodel. En dan had je O1 High. Of eigenlijk, oké, dit wordt allemaal te verwarrend. Het komt erop neer, dit is een beetje irritant. Het is wel mooi dat je nu aan het proberen bent om de naamgeving van jouw modellen uit te leggen en daar niet uit komt. Dat vind ik wel mooi. Ja, dat is mooi. Kijk, want je hebt zeg maar de minis, die zijn klein. Dan heb je de met niks erachter, dat is het gemiddelde. En dan heb je de Highs en of de Pros.
Nou, dit is ook maar een beetje gissen voor ons als eindgebruikers. Hij weten we van wat het betekent. Namelijk, hij krijgt langer om na te denken. Pro zou hetzelfde in kunnen houden. Deels ook. Maar mogelijk zit er ook een zwaarder basismodel onder. Ja, hebben ze daadwerkelijk het model veranderd. Nou ja.
Dus wat hebben we nu? We hadden O1, O3, O4 Mini en O4 Mini High. Dat was de status quo de laatste weken. Nu krijgen we daar een nieuwe optie bij. En met we bedoel ik iedereen die 200 euro per maand betaalt. Laten we duidelijk zijn. Dus ik niet. Maar goed, die hebben nu een O3 Pro model. Waarschijnlijk een mix van High en een zwaarder base model eronder. Als ik een poging mag doen om dit samen te vatten...
Punt 1 is, als eindgebruiker, maar ook zeker als softwareontwikkelaar die AI in software stopt, was het tot nu toe, als je iets met reasoning wilde, het logisch om O4 Mini te gebruiken. Want anders werd het gewoon te duur. Dus de AI-ervaring die de meesten van ons hebben, en in de JetGPT-app, en in andere applicaties die OpenAI-achtige dingen integreren, is dat je was aan het praten met 4O of 4O4 Mini, oké?
Want dat is gewoon goedkoop. Ja, dus de klassieke goeie versus de nieuwe kleine. Gekastreerde kleine. En nu hebben we O3 op een prijsniveau wat zo interessant is voor ontwikkelaars... dat je hem eigenlijk kan drop-in replacen voor O4 Mini. En dat is wel een dingetje. Want eigenlijk was die O3 al best wel spectaculair. Sterker nog, dat is wat de Arc Challenge 1 destijds heeft verslagen...
Interessant detail. Ik heb dit niet geverifieerd, dus dat mogen de luisteraars doen, maar ik weet het vrijwel zeker. Als jij O3 wilt gebruiken, of via OpenAI zelf, of in OpenRouter-achtige tools eromheen, of in PoE.com, dan moet je daarvoor eerst een KYC doen. Ja, dat zag ik, ja. Ja, dus je moet laten zien wie jij bent door een soort test met een persona. Ja, op Pro te gebruiken, hè?
Voor mij zelfs O3, maar misschien sowieso O3 Pro, durf ik dit sowieso voor te zeggen. Maar ik zag dat, bij OpenAI moet je nu je paspoort laten zien voordat je een duur model mag gebruiken. Wat is dat dan? Nou, omdat jij zegt duur, maar ook krachtig. Oh, echt? Ja. Nee, serieus. Ze kijken gewoon of je ermee aan het spam maken bent. Wil jij met deze hele krachtige modellen praten of willen we weten wie je bent?
Ook als je een router gebruikt. Dus een tussenpartij. Ik zat te kijken, wat is dit nou voor iets geks? Ik ga mijn paspoort niet aan je laten zien. Dit kan je zien als een soort bizar rare marketing stunt. Van onze modellen zijn zo krachtig. Maar ik denk dat zij bij hun red teaming, dus het testen van hoe goed die modellen zijn, erachter kwamen, dit kunnen we niet eens open op het internet zetten. Maar goed, best wel even een dingetje. Ja.
Wij leven op dit moment in een wereld waarin er een substantiële groep mensen is die zegt... AI is een tool, het valt allemaal wel mee, het is een papagaai. Hier kan je niet eens een podcast over maken. Dan heb je een middengroep die zegt... Oeh, ik zie inderdaad wel wat toepassingen die heavy zijn. Ik vind het over het algemeen nog steeds wel een tool. Ik sta inmiddels een klein beetje open voor het idee dat er meer aan de hand is. Maar ach, dat zie ik een beetje als de middengroep. Ja.
En dan heb je de groep aan de andere kant van de bell curve die zegt, jongens, 2027, alles wordt anders. We hebben aliens zijn geland. Oké, even zo. Ja, de totaal geradicaliseerde mensen waar wij toe behoren. Nou, Wietse. Jij schaart jezelf in het tweede redelijke kamp. Nee, als het een naald is, zeg maar, zo'n nier op zo'n meter, zeg maar. Daar tussen, tussen twee en drie. Ja, daar wil ik mezelf wel zetten. En waar zit jij dan?
Dus dat is niet goed. Ik denk dat als we deze... want je legt eigenlijk in veel minder zinnen uit... ongeveer wat ik wilde benoemen. Want dat zie je ook terug in het O3 Pro debat. Als we hem weer verklein maken. O3 Pro komt uit. Daar wordt door de jongens die jij net aan had overgezegd...
We hebben exact dezelfde opdracht voorgelegd aan O3. En daarna aan O3 Pro. O3 deed een soort schattig EI-ding. O3 Pro gaan we inhuren als CEO. Bijna. We zaten met een open mond te kijken naar wat er uit die tekst. Ja, ze zeiden letterlijk what to cut. Mensen ontslaan op basis van...
En dan tegelijk, want ik heb dit ook gelezen. Nou, dan ga ik natuurlijk meteen en samen met Deep Research een soort van... Geef mij nou eens de kritieken dat ik weer land, zeg maar. Dat is ook even een tip voor de luisteraar. Als je meegaat in een van deze drie posities, zeg maar. En dan vooral de positie... Organiseer je eigen tegenkracht.
Absoluut, want dan kan je jezelf weer een beetje op de grond krijgen. En dan kan je ook jezelf bepalen welke argument je het meest serieus neemt. In het geval van O3 is het zo, er is in heel veel toepassingen niet zoveel aan de hand. Want daar helpt helemaal langer nadenken en meer data niet. In sommige vraagstukken, net als wat Apple in hun paper heeft bewezen. Soms blijft het gewoon bij een slecht gericht. Hij gaat niet opeens nieuwe dingen verzinnen omdat je hem drie uur laat nadenken ergens over. Nee.
Maar wat blijkt, en dat is dus nu... of dus, dat is inmiddels het moeilijke geworden... met die modellen met elkaar vergelijken. En daarom...
Zijn de benchmarks nog steeds belangrijk? Ik kijk er echt nog wel naar. Maar tegelijkertijd moet je misschien de term benchmark... een beetje gaan verbreden met de kwantitatieve benchmarks. Dus de grafieken die uit de labs komen de hele tijd... met het scoret die nu X of Y op die benchmark... versus de kwalitatieve benchmark. Vibechecks, LM Arena, hoe reageren mensen erop? Ik heb een hele specifieke test gedaan zelfs, zoals deze jongens. Die moet je ook meenemen, denk ik...