Luca
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
Das Thema steht schon eine Weile aus. Wärmepumpe kam ja jetzt erst an. Genau, und es steht eigentlich seit fast einem Jahr aus. Wir haben lange nicht mehr so State of the Union von Large Language Models. diskutiert hier im Podcast, wo wir uns ja so vor einem Jahr, anderthalb Jahren relativ intensiv in ein paar Sendungen drum gekümmert haben.
Und das hatte zumindest von meiner Seite aus auch durchaus einen Grund, weil ich den Eindruck hatte, dass wir so KI-technisch gerade durch so ein etwas langweiliges Tal geschritten sind im letzten Jahr, wo wenig Spannendes Neues passiert ist.
Und das hatte zumindest von meiner Seite aus auch durchaus einen Grund, weil ich den Eindruck hatte, dass wir so KI-technisch gerade durch so ein etwas langweiliges Tal geschritten sind im letzten Jahr, wo wenig Spannendes Neues passiert ist.
Ja, geplatzt würde ich nicht sagen, aber wir hatten halt, also die Historie war ja richtig losgegangen mit den LLMs, war es mit der JetGPT 3.5, damals im Herbst, was war es, 2022 glaube ich. Dann kam ein Vierteljahr später JetGPT 4 hinterher, die Bezahlversion, die sehr, sehr viel stärker war als die 3.5er.
Ja, geplatzt würde ich nicht sagen, aber wir hatten halt, also die Historie war ja richtig losgegangen mit den LLMs, war es mit der JetGPT 3.5, damals im Herbst, was war es, 2022 glaube ich. Dann kam ein Vierteljahr später JetGPT 4 hinterher, die Bezahlversion, die sehr, sehr viel stärker war als die 3.5er.
Die haben wir beide ja intensiv diskutiert und dann kam ein Jahr später die 4.0-Version raus und ziemlich zeitgleich begleitet von der 4.0-Mini-Version. Und von denen war ich beide sehr enttäuscht und die haben wir wirklich übersprungen hier.
Die haben wir beide ja intensiv diskutiert und dann kam ein Jahr später die 4.0-Version raus und ziemlich zeitgleich begleitet von der 4.0-Mini-Version. Und von denen war ich beide sehr enttäuscht und die haben wir wirklich übersprungen hier.
Haben die gar nicht diskutiert, weil mein Eindruck mit den ganzen Tests, die ich gemacht hatte, war, okay, die kann eigentlich nichts besser als die 4er-Version, im Zweifelsfall eher schlechter. Und die ist insgesamt sehr stark getunt gewesen auf Effizienz.
Haben die gar nicht diskutiert, weil mein Eindruck mit den ganzen Tests, die ich gemacht hatte, war, okay, die kann eigentlich nichts besser als die 4er-Version, im Zweifelsfall eher schlechter. Und die ist insgesamt sehr stark getunt gewesen auf Effizienz.
Was ja erstmal gut ist, wir wollen nicht mehr so viel Strom verbrauchen, aber in Bezug auf, okay, damit kann ich jetzt plötzlich Probleme besser lösen oder neue Szenarien mehr erschließen, das hat die 4o-Version eigentlich nicht eingelöst. Und jetzt ist vor ein paar Wochen der Nachfolger davon rausgekommen, nämlich O1 und O1 Mini.
Was ja erstmal gut ist, wir wollen nicht mehr so viel Strom verbrauchen, aber in Bezug auf, okay, damit kann ich jetzt plötzlich Probleme besser lösen oder neue Szenarien mehr erschließen, das hat die 4o-Version eigentlich nicht eingelöst. Und jetzt ist vor ein paar Wochen der Nachfolger davon rausgekommen, nämlich O1 und O1 Mini.
Und die Version, würde ich sagen, ist jetzt wieder ein sehr signifikanter Sprung besser als die Vierer-Version. Das wollte ich mal zum Anlass nehmen, hier mal ein bisschen den aktuellen Stand mal zu diskutieren und das ein oder andere Gedankenexperiment mit euch mal durchzuführen.
Und die Version, würde ich sagen, ist jetzt wieder ein sehr signifikanter Sprung besser als die Vierer-Version. Das wollte ich mal zum Anlass nehmen, hier mal ein bisschen den aktuellen Stand mal zu diskutieren und das ein oder andere Gedankenexperiment mit euch mal durchzuführen.
Und zwar schmeiß, ich gebe jetzt mal einen Link in den Chat rein und das könntest du bitte mal hier dann auf den Beamer werfen. Das ist jetzt ein Link zu einem zu einer Tabelle, die ich seit, ich glaube jetzt knapp zwei Jahren oder sowas, ein bisschen für mich privat pflege. Der Link dazu ist aber public.
Und zwar schmeiß, ich gebe jetzt mal einen Link in den Chat rein und das könntest du bitte mal hier dann auf den Beamer werfen. Das ist jetzt ein Link zu einem zu einer Tabelle, die ich seit, ich glaube jetzt knapp zwei Jahren oder sowas, ein bisschen für mich privat pflege. Der Link dazu ist aber public.
Wo ich so ein kleines Set an Fragen habe, die ich verschiedenen LLM-Versionen mal immer wieder vorwerfe, um zu gucken, so was tut sich denn da gerade so. Das ist im Moment jetzt so ein Set von zehn Fragen. Das fängt mit so einem fiesen Klassiker an, erstelle einen Satz, der auf dem Buchstaben S endet. Wo man normalerweise denken würde, das kann ja eigentlich nicht so schwierig sein.
Wo ich so ein kleines Set an Fragen habe, die ich verschiedenen LLM-Versionen mal immer wieder vorwerfe, um zu gucken, so was tut sich denn da gerade so. Das ist im Moment jetzt so ein Set von zehn Fragen. Das fängt mit so einem fiesen Klassiker an, erstelle einen Satz, der auf dem Buchstaben S endet. Wo man normalerweise denken würde, das kann ja eigentlich nicht so schwierig sein.
Mal kurz, kann ich diesen schwarzen Block hier rechts irgendwie loswerden? Ne, oben rechts, da wo dieser Person drauf ist, geh da mal drauf. Ah, okay. Also erstelle einen Satz, der auf dem Buchstaben S endet, wo man normalerweise sagen würde, das könnte jetzt echt sein. Das kann nicht so schwierig sein.
Mal kurz, kann ich diesen schwarzen Block hier rechts irgendwie loswerden? Ne, oben rechts, da wo dieser Person drauf ist, geh da mal drauf. Ah, okay. Also erstelle einen Satz, der auf dem Buchstaben S endet, wo man normalerweise sagen würde, das könnte jetzt echt sein. Das kann nicht so schwierig sein.
Aber das stellt also LLMs, so dieses von hinten denken quasi, eben doch vor sehr, sehr große Probleme. Das heißt also, selbst JetGPT-4 hat das nur per Zufall hinbekommen. Besonders dreist war hier die aktuelle Top-Engine von Meta, Lama 3.2. Die hat mir wirklich jetzt vor zwei Wochen die Antwort um die Ohren geworfen. Das ist eine Trickfrage.