Menu
Sign In Search Podcasts Charts People & Topics Add Podcast API Blog Pricing
935 total appearances
Voice ID

Voice Profile Active

This person's voice can be automatically recognized across podcast episodes using AI voice matching.

Voice samples: 8
Confidence: High

Appearances Over Time

Podcast Appearances

Freak Show
FS285 Gib den Maschinen eine Chance

Wenn alleingelassen wird die Ziege den Kohl und der Wolf die Ziege fressen. Er muss die Ziege ĂŒber den Fluss bringen mit seinem Boot. Wie kann er das schaffen? So, und das, wenn du es bis hierhin halt dem Prompt stellst, passiert halt in nahezu allen, also in wirklich allen Modellen, auch in denen, die jetzt hier grĂŒn sind. Ich erklĂ€re gleich, warum die dann trotzdem grĂŒn sind.

Freak Show
FS285 Gib den Maschinen eine Chance

Muss er nicht alle... Ja, ja, in dem Original-RĂ€tsel schon, aber nicht so, wie ich es hier frage. Ah ja, deswegen wundere ich mich. Das heißt, ich habe jetzt eine leichte Variation von einem bekannten Logik-RĂ€tsel. Also es geht nur um die Ziege sozusagen. Es geht ihm nur um die Ziege. Also man fĂ€hrt einfach die Ziege rĂŒber und ist. Genau, und ist ja völlig egal, was mit dem Kohl und dem Wolf ist.

Freak Show
FS285 Gib den Maschinen eine Chance

Muss er nicht alle... Ja, ja, in dem Original-RĂ€tsel schon, aber nicht so, wie ich es hier frage. Ah ja, deswegen wundere ich mich. Das heißt, ich habe jetzt eine leichte Variation von einem bekannten Logik-RĂ€tsel. Also es geht nur um die Ziege sozusagen. Es geht ihm nur um die Ziege. Also man fĂ€hrt einfach die Ziege rĂŒber und ist. Genau, und ist ja völlig egal, was mit dem Kohl und dem Wolf ist.

Freak Show
FS285 Gib den Maschinen eine Chance

Das Mission-Statement ist halt einfach nur die Ziege rĂŒberbringen. So, das schafft aber kein... Mir bekanntes auf dem Markt befindliches LLM. Also zu abstrahieren, okay in den Trainingsdaten, das war dieses nahezu identisch klingende Beispiel und den Unterschied zu finden, hier ist jetzt eine kleine Facette anders, achte darauf, kriegen sie von selber nicht hin.

Freak Show
FS285 Gib den Maschinen eine Chance

Das Mission-Statement ist halt einfach nur die Ziege rĂŒberbringen. So, das schafft aber kein... Mir bekanntes auf dem Markt befindliches LLM. Also zu abstrahieren, okay in den Trainingsdaten, das war dieses nahezu identisch klingende Beispiel und den Unterschied zu finden, hier ist jetzt eine kleine Facette anders, achte darauf, kriegen sie von selber nicht hin.

Freak Show
FS285 Gib den Maschinen eine Chance

Wenn du aber einen kleinen Zusatz hinzumachst. NĂ€mlich, wie kann er das schaffen? Und dann habe ich den Zusatz hinten dran. Lass dich nicht von Ă€hnlichen RĂ€tseln ablenken, sondern analysiere sehr genau, was in dieser Aufgabe wirklich gefordert ist. So, hier trennt sich jetzt die Spreu vom Weißen. Sehr freundlich formuliert fĂŒr einen.

Freak Show
FS285 Gib den Maschinen eine Chance

Wenn du aber einen kleinen Zusatz hinzumachst. NĂ€mlich, wie kann er das schaffen? Und dann habe ich den Zusatz hinten dran. Lass dich nicht von Ă€hnlichen RĂ€tseln ablenken, sondern analysiere sehr genau, was in dieser Aufgabe wirklich gefordert ist. So, hier trennt sich jetzt die Spreu vom Weißen. Sehr freundlich formuliert fĂŒr einen.

Freak Show
FS285 Gib den Maschinen eine Chance

So, aber you get the idea. Das heißt also, es ist jetzt gar kein Tipp wirklich, wie es zu lösen ist, sondern einfach nur die Aufgabe, vor allem dieser zentrale Satz, lass dich nicht von Ă€hnlichen RĂ€tseln ablenken, sondern schau, was ist hier eigentlich los. So und da sehen wir eben, dass auch die ansonsten ja schon wirklich gute GPT-4-Version immer noch falsch ist.

Freak Show
FS285 Gib den Maschinen eine Chance

So, aber you get the idea. Das heißt also, es ist jetzt gar kein Tipp wirklich, wie es zu lösen ist, sondern einfach nur die Aufgabe, vor allem dieser zentrale Satz, lass dich nicht von Ă€hnlichen RĂ€tseln ablenken, sondern schau, was ist hier eigentlich los. So und da sehen wir eben, dass auch die ansonsten ja schon wirklich gute GPT-4-Version immer noch falsch ist.

Freak Show
FS285 Gib den Maschinen eine Chance

Das heißt also, auch dieses eigentliche ehemalige Top-Modell schafft es nicht, trotz dieser zusĂ€tzlichen Anweisung halt sich weit genug von seinen Trainingsdaten zu entfernen an der Stelle. So, und das war eben der Moment, wo ich dann gemerkt habe, okay, hier ist bei O1 dann doch nochmal ein bisschen was passiert. Und bei O1 Mini, die bekommen das dann nĂ€mlich plötzlich hin.

Freak Show
FS285 Gib den Maschinen eine Chance

Das heißt also, auch dieses eigentliche ehemalige Top-Modell schafft es nicht, trotz dieser zusĂ€tzlichen Anweisung halt sich weit genug von seinen Trainingsdaten zu entfernen an der Stelle. So, und das war eben der Moment, wo ich dann gemerkt habe, okay, hier ist bei O1 dann doch nochmal ein bisschen was passiert. Und bei O1 Mini, die bekommen das dann nĂ€mlich plötzlich hin.

Freak Show
FS285 Gib den Maschinen eine Chance

Und ein neuer Contender, den ich wirklich nicht auf dem Schirm hatte, hier scroll nochmal nach oben, genau, Claude Sonnet 3.5, hat das in der Tat auch hinbekommen. Den hatte ich bisher ĂŒberhaupt nicht auf dem Schirm, dass das irgendwie eine gute LLM ist. Die sind relativ neu. Anthropic, also die.

Freak Show
FS285 Gib den Maschinen eine Chance

Und ein neuer Contender, den ich wirklich nicht auf dem Schirm hatte, hier scroll nochmal nach oben, genau, Claude Sonnet 3.5, hat das in der Tat auch hinbekommen. Den hatte ich bisher ĂŒberhaupt nicht auf dem Schirm, dass das irgendwie eine gute LLM ist. Die sind relativ neu. Anthropic, also die.

Freak Show
FS285 Gib den Maschinen eine Chance

So, jetzt machen wir mal einen kurzen Break. Wie kann man sich selber solche Testsets zusammenstellen und irgendwie ĂŒber verschiedene LLMs eigentlich testen? Weil es ist ja schon ein bisschen nervig, sich dort jetzt ĂŒberall irgendwie Accounts zu shoppen und zu schauen, okay, habe ich hier einen API-Zugriff? Brauche ich den ĂŒberhaupt? Muss ich dafĂŒr was zahlen, um an die guten Modelle ranzukommen?

Freak Show
FS285 Gib den Maschinen eine Chance

So, jetzt machen wir mal einen kurzen Break. Wie kann man sich selber solche Testsets zusammenstellen und irgendwie ĂŒber verschiedene LLMs eigentlich testen? Weil es ist ja schon ein bisschen nervig, sich dort jetzt ĂŒberall irgendwie Accounts zu shoppen und zu schauen, okay, habe ich hier einen API-Zugriff? Brauche ich den ĂŒberhaupt? Muss ich dafĂŒr was zahlen, um an die guten Modelle ranzukommen?

Freak Show
FS285 Gib den Maschinen eine Chance

Wie funktionieren die ganzen Frontends? Das ist ja alles ein bisschen nervig. So, und da gibt es einen Dienst, der einem das alles abnimmt, nĂ€mlich OpenRouter.ai. Habt ihr von dem schon mal gehört? Nein. Schmeiße ich auch gerade mal in die Shownotes rein. LLM Router and Marketplace.

Freak Show
FS285 Gib den Maschinen eine Chance

Wie funktionieren die ganzen Frontends? Das ist ja alles ein bisschen nervig. So, und da gibt es einen Dienst, der einem das alles abnimmt, nĂ€mlich OpenRouter.ai. Habt ihr von dem schon mal gehört? Nein. Schmeiße ich auch gerade mal in die Shownotes rein. LLM Router and Marketplace.

Freak Show
FS285 Gib den Maschinen eine Chance

So, das ist ein Dienst, der, ich glaube, so ziemlich sĂ€mtliche am Markt verfĂŒgbaren LLMs einem quasi durchtunnelt, sodass man mit einem einzigen Account die alle bespielen kann.

Freak Show
FS285 Gib den Maschinen eine Chance

So, das ist ein Dienst, der, ich glaube, so ziemlich sĂ€mtliche am Markt verfĂŒgbaren LLMs einem quasi durchtunnelt, sodass man mit einem einzigen Account die alle bespielen kann.

Freak Show
FS285 Gib den Maschinen eine Chance

Und man wirft als Einmalzahlung Geld auf diesem Dienst ab, beispielsweise jetzt 10 Dollar habe ich da mal reingeworfen und kann dann sÀmtliche Modelle, die da hinterlegt sind von sÀmtlichen Firmen quasi austesten und mit den Originalfeatures nutzen, bis halt die 10 Dollar weg sind.