Luca
đ€ SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
Wenn alleingelassen wird die Ziege den Kohl und der Wolf die Ziege fressen. Er muss die Ziege ĂŒber den Fluss bringen mit seinem Boot. Wie kann er das schaffen? So, und das, wenn du es bis hierhin halt dem Prompt stellst, passiert halt in nahezu allen, also in wirklich allen Modellen, auch in denen, die jetzt hier grĂŒn sind. Ich erklĂ€re gleich, warum die dann trotzdem grĂŒn sind.
Muss er nicht alle... Ja, ja, in dem Original-RĂ€tsel schon, aber nicht so, wie ich es hier frage. Ah ja, deswegen wundere ich mich. Das heiĂt, ich habe jetzt eine leichte Variation von einem bekannten Logik-RĂ€tsel. Also es geht nur um die Ziege sozusagen. Es geht ihm nur um die Ziege. Also man fĂ€hrt einfach die Ziege rĂŒber und ist. Genau, und ist ja völlig egal, was mit dem Kohl und dem Wolf ist.
Muss er nicht alle... Ja, ja, in dem Original-RĂ€tsel schon, aber nicht so, wie ich es hier frage. Ah ja, deswegen wundere ich mich. Das heiĂt, ich habe jetzt eine leichte Variation von einem bekannten Logik-RĂ€tsel. Also es geht nur um die Ziege sozusagen. Es geht ihm nur um die Ziege. Also man fĂ€hrt einfach die Ziege rĂŒber und ist. Genau, und ist ja völlig egal, was mit dem Kohl und dem Wolf ist.
Das Mission-Statement ist halt einfach nur die Ziege rĂŒberbringen. So, das schafft aber kein... Mir bekanntes auf dem Markt befindliches LLM. Also zu abstrahieren, okay in den Trainingsdaten, das war dieses nahezu identisch klingende Beispiel und den Unterschied zu finden, hier ist jetzt eine kleine Facette anders, achte darauf, kriegen sie von selber nicht hin.
Das Mission-Statement ist halt einfach nur die Ziege rĂŒberbringen. So, das schafft aber kein... Mir bekanntes auf dem Markt befindliches LLM. Also zu abstrahieren, okay in den Trainingsdaten, das war dieses nahezu identisch klingende Beispiel und den Unterschied zu finden, hier ist jetzt eine kleine Facette anders, achte darauf, kriegen sie von selber nicht hin.
Wenn du aber einen kleinen Zusatz hinzumachst. NĂ€mlich, wie kann er das schaffen? Und dann habe ich den Zusatz hinten dran. Lass dich nicht von Ă€hnlichen RĂ€tseln ablenken, sondern analysiere sehr genau, was in dieser Aufgabe wirklich gefordert ist. So, hier trennt sich jetzt die Spreu vom WeiĂen. Sehr freundlich formuliert fĂŒr einen.
Wenn du aber einen kleinen Zusatz hinzumachst. NĂ€mlich, wie kann er das schaffen? Und dann habe ich den Zusatz hinten dran. Lass dich nicht von Ă€hnlichen RĂ€tseln ablenken, sondern analysiere sehr genau, was in dieser Aufgabe wirklich gefordert ist. So, hier trennt sich jetzt die Spreu vom WeiĂen. Sehr freundlich formuliert fĂŒr einen.
So, aber you get the idea. Das heiĂt also, es ist jetzt gar kein Tipp wirklich, wie es zu lösen ist, sondern einfach nur die Aufgabe, vor allem dieser zentrale Satz, lass dich nicht von Ă€hnlichen RĂ€tseln ablenken, sondern schau, was ist hier eigentlich los. So und da sehen wir eben, dass auch die ansonsten ja schon wirklich gute GPT-4-Version immer noch falsch ist.
So, aber you get the idea. Das heiĂt also, es ist jetzt gar kein Tipp wirklich, wie es zu lösen ist, sondern einfach nur die Aufgabe, vor allem dieser zentrale Satz, lass dich nicht von Ă€hnlichen RĂ€tseln ablenken, sondern schau, was ist hier eigentlich los. So und da sehen wir eben, dass auch die ansonsten ja schon wirklich gute GPT-4-Version immer noch falsch ist.
Das heiĂt also, auch dieses eigentliche ehemalige Top-Modell schafft es nicht, trotz dieser zusĂ€tzlichen Anweisung halt sich weit genug von seinen Trainingsdaten zu entfernen an der Stelle. So, und das war eben der Moment, wo ich dann gemerkt habe, okay, hier ist bei O1 dann doch nochmal ein bisschen was passiert. Und bei O1 Mini, die bekommen das dann nĂ€mlich plötzlich hin.
Das heiĂt also, auch dieses eigentliche ehemalige Top-Modell schafft es nicht, trotz dieser zusĂ€tzlichen Anweisung halt sich weit genug von seinen Trainingsdaten zu entfernen an der Stelle. So, und das war eben der Moment, wo ich dann gemerkt habe, okay, hier ist bei O1 dann doch nochmal ein bisschen was passiert. Und bei O1 Mini, die bekommen das dann nĂ€mlich plötzlich hin.
Und ein neuer Contender, den ich wirklich nicht auf dem Schirm hatte, hier scroll nochmal nach oben, genau, Claude Sonnet 3.5, hat das in der Tat auch hinbekommen. Den hatte ich bisher ĂŒberhaupt nicht auf dem Schirm, dass das irgendwie eine gute LLM ist. Die sind relativ neu. Anthropic, also die.
Und ein neuer Contender, den ich wirklich nicht auf dem Schirm hatte, hier scroll nochmal nach oben, genau, Claude Sonnet 3.5, hat das in der Tat auch hinbekommen. Den hatte ich bisher ĂŒberhaupt nicht auf dem Schirm, dass das irgendwie eine gute LLM ist. Die sind relativ neu. Anthropic, also die.
So, jetzt machen wir mal einen kurzen Break. Wie kann man sich selber solche Testsets zusammenstellen und irgendwie ĂŒber verschiedene LLMs eigentlich testen? Weil es ist ja schon ein bisschen nervig, sich dort jetzt ĂŒberall irgendwie Accounts zu shoppen und zu schauen, okay, habe ich hier einen API-Zugriff? Brauche ich den ĂŒberhaupt? Muss ich dafĂŒr was zahlen, um an die guten Modelle ranzukommen?
So, jetzt machen wir mal einen kurzen Break. Wie kann man sich selber solche Testsets zusammenstellen und irgendwie ĂŒber verschiedene LLMs eigentlich testen? Weil es ist ja schon ein bisschen nervig, sich dort jetzt ĂŒberall irgendwie Accounts zu shoppen und zu schauen, okay, habe ich hier einen API-Zugriff? Brauche ich den ĂŒberhaupt? Muss ich dafĂŒr was zahlen, um an die guten Modelle ranzukommen?
Wie funktionieren die ganzen Frontends? Das ist ja alles ein bisschen nervig. So, und da gibt es einen Dienst, der einem das alles abnimmt, nĂ€mlich OpenRouter.ai. Habt ihr von dem schon mal gehört? Nein. SchmeiĂe ich auch gerade mal in die Shownotes rein. LLM Router and Marketplace.
Wie funktionieren die ganzen Frontends? Das ist ja alles ein bisschen nervig. So, und da gibt es einen Dienst, der einem das alles abnimmt, nĂ€mlich OpenRouter.ai. Habt ihr von dem schon mal gehört? Nein. SchmeiĂe ich auch gerade mal in die Shownotes rein. LLM Router and Marketplace.
So, das ist ein Dienst, der, ich glaube, so ziemlich sĂ€mtliche am Markt verfĂŒgbaren LLMs einem quasi durchtunnelt, sodass man mit einem einzigen Account die alle bespielen kann.
So, das ist ein Dienst, der, ich glaube, so ziemlich sĂ€mtliche am Markt verfĂŒgbaren LLMs einem quasi durchtunnelt, sodass man mit einem einzigen Account die alle bespielen kann.
Und man wirft als Einmalzahlung Geld auf diesem Dienst ab, beispielsweise jetzt 10 Dollar habe ich da mal reingeworfen und kann dann sÀmtliche Modelle, die da hinterlegt sind von sÀmtlichen Firmen quasi austesten und mit den Originalfeatures nutzen, bis halt die 10 Dollar weg sind.