Explain my like i am five: Die Grundlagen moderner SuchenWir, als User, erwarten heutzutage ziemlich viel von einer Suchmaschine. Es soll “magisch” verstehen, was wir eigentlich finden möchten. Egal ob wir das richtige Wort dafür nutzen (aka Synonym-Suche) oder ob der Begriff einen Tippfehler hat (aka “Meinten Sie …?”).Oft werden Tools wie Elastic- oder OpenSearch, Solr, Algolia und Co. für sowas eingesetzt, denn eine einfache Volltext-Suche mittels eines Wildcard-SQL-SELECT Statement reicht dafür nicht mehr aus. Doch was steckt eigentlich dahinter? Wie funktionieren all diese modernen Suchen eigentlich im Inneren? In dieser Episode geht es um die Grundlagen moderner Suchmaschinen. Wir schmeißen mit Begriffen wie Stemming, Homonyme, BERT, Stopwords, Inverted Index, Suffixbäume, N-Grams, Term Frequency-Inverse Document Frequency, Vector Space Model und Co um uns und erklären das ganze im “Explain me Like I am five”-Stil.Bonus: Wie Konzepte des Information Retrieval mit Bälle-Bädern erklärt werden.Das schnelle Feedback zur Episode:👍 (top) 👎 (geht so)FeedbackEngKiosk Community: https://engineeringkiosk.dev/join-discord Email: [email protected]: https://www.linkedin.com/company/engineering-kiosk/Mastodon: https://podcasts.social/@engkioskTwitter: https://twitter.com/EngKioskGerne behandeln wir auch euer Audio Feedback in einer der nächsten Episoden, einfach die Audiodatei per Email an [email protected]/explainlikeimfive: https://www.reddit.com/r/explainlikeimfive/Engineering Kiosk Episode #28 O(1), O(log n), O(n^2) - Ist die Komplexität von Algorithmen im Entwickler-Alltag relevant?: https://engineeringkiosk.dev/podcast/episode/28-o1-olog-n-on2-ist-die-komplexit%C3%A4t-von-algorithmen-im-entwickler-alltag-relevant/ElasticSearch: https://www.elastic.co/de/elasticsearchOpenSearch: https://opensearch.org/Apache Lucene: https://lucene.apache.org/Apache Solr: https://solr.apache.org/meilisearch: https://www.meilisearch.com/Alogolia: https://www.algolia.com/dHackerNews indexiert von Algolia: https://hn.algolia.com/Term Frequency-Inverse Document Frequency: https://de.wikipedia.org/wiki/Tf-idf-Ma%C3%9FBidirectional Encoder Representations from Transformers (BERT): https://en.wikipedia.org/wiki/BERT_(language_model)Engineering Kiosk Episode #116 KI unterstützte Software Entwicklung: Ein Reality Check mit Birgitta Böckeler von Thoughtworks: https://engineeringkiosk.dev/podcast/episode/116-ki-unterst%C3%BCtzte-software-entwicklung-ein-reality-check-mit-birgitta-b%C3%B6ckeler-von-thoughtworks/Learning to Rank: https://en.wikipedia.org/wiki/Learning_to_rankVector Space Model: https://en.wikipedia.org/wiki/Vector_space_modelInverted Index: https://en.wikipedia.org/wiki/Inverted_indexN-Gramm: https://de.wikipedia.org/wiki/N-GrammSuffixbaum: https://de.wikipedia.org/wiki/SuffixbaumTrie (Präfixbaum): https://de.wikipedia.org/wiki/TrieSprungmarken(00:00:00) Buzzword-Bingo bei modernen Suchen(00:04:40) Die Komplexität moderner Such-Systeme(00:05:55) Info/Werbung(00:07:00) Die Komplexität moderner Such-Systeme(00:09:58) Wie funktioniert High-Level eine Suchmaschine?(00:11:04) Verarbeitung der Such-Daten durch Tokens: Sprache, Stop-Words, Lemmatisierung, Stemming(00:20:53) Zahlen als Such-Wörter, Embeddings und Bidirektionale Encoder-Repräsentationen von Transformers (BERT)(00:29:34) Speichern der Daten mit einem Index: Invertierter Index und Suffixbäume(00:43:07) Daten wirklich finden durchs Ranking: N-Grams, TF/IDFrequency und Vector Space Model(00:59:54) Wie wählt man ein gutes Such-System aus?(01:04:20) Wie beeinflusst Generative AI die aktuellen Suchsysteme und Sucht-Grundlagen?HostsWolfgang Gassler (https://mastodon.social/@woolf)Andy Grunwald (https://twitter.com/andygrunwald)FeedbackEngKiosk Community: https://engineeringkiosk.dev/join-discord Email: [email protected]: https://www.linkedin.com/company/engineering-kiosk/Mastodon: https://podcasts.social/@engkioskTwitter: https://twitter.com/EngKiosk
No persons identified in this episode.
This episode hasn't been transcribed yet
Help us prioritize this episode for transcription by upvoting it.
Popular episodes get transcribed faster
Other recent transcribed episodes
Transcribed and ready to explore now
3ª PARTE | 17 DIC 2025 | EL PARTIDAZO DE COPE
01 Jan 1970
El Partidazo de COPE
13:00H | 21 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana
12:00H | 21 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana
10:00H | 21 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana
13:00H | 20 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana
12:00H | 20 DIC 2025 | Fin de Semana
01 Jan 1970
Fin de Semana