Menu
Sign In Search Podcasts Libraries Charts People & Topics Add Podcast API Blog Pricing

Edwin Rijgersberg

👤 Speaker
60 total appearances

Appearances Over Time

Podcast Appearances

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Dank je. Het zat eigenlijk al een tijdje in mijn hoofd, zo'n taalmodel. Misschien net zoals bij jullie, heb ik natuurlijk vorig jaar ChatGPT zien ontstaan. Ik was daarvoor ook al in de taalmodellen, in het toepassen van taalmodellen, wat er allemaal op staat. Maar met ChatGPT zag je echt dat er een soort van grens overging. Dit is toch echt een stuk beter dan wat we tot nu toe hebben gehad. Een hele gave toepassing.

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

En sindsdien heb ik eigenlijk zoiets van, ik wil weten hoe dat werkt, wat voor gave dingen kan je ermee doen, wat zijn de risico's daarvan. En natuurlijk de eeuwige interesse van, ik ben Nederlander, ik woon in Nederland, ik spreek Nederlands, hoe goed werkt dit allemaal in het Nederlands?

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Nou, ChatGPT, dat weten we allemaal, werkt best goed in het Nederlands. Maar dan kwamen natuurlijk ook veel open source modellen naar boven het laatste jaar. En daar zag je dat de focus toch meer lag op Engels, een beetje programmeercode en misschien een beetje Chinees. Nou, dat hebben we natuurlijk al vaker gezien in de machine learning wereld, want het Nederlands is een beetje een ondergeschoven kindje.

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Nou, er waren nog geen benchmarks voor. Dus het was vooral proefondervindelijk. Je pakt gewoon zo'n model, zo groot dat je kan draaien. Een tijdje terug waren dat de Lama-modellen 7 miljard parametres, 13 miljard parametres. Dat krijg je nog wel op een laptop of een goedkope GPU. Ja, je gaat er gewoon mee praten met die chatmodellen. En dan merk je, tenminste ik merkte, dat je af en toe best wel een conversatie kan houden.

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Maar dat die na een tijdje toch uitloopt op het Engels. Of dat het gesprek niet heel coherent is. Maar of dat er gewoon Nederlandse kennis ontbreekt in een model. Zoals wat? Ja.

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Nou, een collega van mij die heeft daar een goede test voor en dat noemt hij de Bassie en Adriaan test. Jullie zijn opgegroeid met Bassie en Adriaan neem ik aan. Dus als ik aan jullie de vraag stel van met wie trad clown Bassie altijd op?

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Acrobaat Adriaan. Acrobaat Adriaan, bam. Als je dat vraagt aan Mistral of aan Lama... dan krijg je wel iets terug, maar meestal niet Acrobaat Adriaan. Dat is een hele simpele test voor iets wat echt heel diep in onze cultuur zit... en dus ook in onze taal... wat die modellen gewoon niet weten, niet beraad hebben. Dus daaruit kon je al zien van... oké, hier is veel verbetering mogelijk. Maar dat is dus cultuur...

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Hoe breng je een taalmodel cultuur bij? Hoe doe je dat? Dat is het mooie van taalmodellen. Taalmodellen hebben een soort van intelligentie en die hebben ze geleerd door gewoon teksten te lezen en het volgende woord te voorspellen.

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

En door heel veel teksten te lezen en het volgende woord te voorspellen, zijn ze goed geworden in het voorspellen van het volgende woord. En je kunt je voorstellen, het is handig om een soort van wereldkennis te hebben om het volgende woord te voorspellen. Als ik zeg aan jouw vraag van de hoofdstad van Frankrijk is, en dan moet je het volgende woord laten vertellen, dan zeg je Parijs, omdat je dat hebt geleerd ooit.

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Dat is vrij triviale kennis. Maar als het moeilijker wordt. Stel je hebt de zin. Ik liep op straat. En ik schrok opeens heel erg. Want ik zag een zwarte piano.

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

En dan is naar jullie de vraag, wat is het volgende woord? Ja, ik zag opeens een zwarte piano... Vallen. Ja, vallen. Ja, dat is interessant dat je dat zegt. Want zeg maar, een klassiek taalmodel, een oud taalmodel, die zou geleerd hebben van, nou ja, een zwarte piano, wat doet die meestal? Die staat. Ja.

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Ja, als hij niet zo goed in zijn grammatica is, zegt hij misschien hij speelt. Nou, dat is dan fout, maar dat zijn woorden die je associeert met piano. Maar jij hebt in je hoofd, als ik op straat loop, ben ik niet gewend om een piano te zien. Ik schrok, dus ik heb ook nog iets onverwachts. En in jouw wereldmodel is het van, nou, wat heb ik gezien? Nou, ik heb blijkbaar veel cartoons gezien waar pianos naar beneden vallen.

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Ik heb het goede antwoord gegeven, Edwin, als ik het goed begrijp. Nou ja, er is geen goed antwoord natuurlijk, dat is het mooie. Maar het is wel het antwoord dat ik zou geven. Vallen, bungelen, dat soort antwoorden. En dat helpt dus als taalmodel om intelligent te zijn, om kennis te hebben over de wereld, om goed woorden te kunnen voorspellen.

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Daarmee leer je dus wereldkennis en soort van intelligentie tegelijk. En die zijn verstrengeld. Je kan niet een model eerst intelligent maken en hem dan Wikipedia leren. Maar die zijn verstrengeld. Dus hoe leer je dan zo'n taalmodel, Nederlandse taal en kennis en cultuur? Door hem gewoon heel veel Nederlandstalige teksten voor te schotelen.

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Die gaan over het algemeen, Nederlandstalige teksten, over dingen die wij hier in Nederland en België meemaken. Of die in onze cultuur zitten. Of die vertaald zijn uit andere talen. Dus de oplossing is eigenlijk heel simpel. Je neemt een taalmodel. Je voert een grote hoeveelheid een Nederlandse tekst om het volgende woord te voorspellen. En tada, hij wordt tegelijkertijd beter in Nederlands. En hij wordt beter in een Nederlands onderwerp. Ja, zodat Klaambassie van Acrobaat Adriaan onderscheiden kan worden. En wat heb je hem gevoerd aan Nederlandse teksten?

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Nou, dat was de grote uitdaging. Want ik ben natuurlijk in mijn eentje, het is een hobbyprojectje. En ik heb dus niet de mogelijkheid om hele grote hoeveelheden data zelf te gaan verzamelen. Dus ik heb gekeken, wat is er beschikbaar? Nou, ik heb eigenlijk twee grote bronnen gebruikt voor Geitje. Het eerste is het Nederlandse Gigacorpus. Dat is een dataset die kan je gewoon downloaden. Je kunt naar gigacorpus.nl gaan, dan kan je de torrent downloaden. Maar wie is die? Wie zit daar?

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Die is van Bob Lucas. Dat is ook een hobby projectje. Daar staat ook bij van. Ik heb die data verzameld. Ik denk dat het goed is voor een Nederlands. Om die dataset te hebben. Misschien wilde iemand wel een keer een model optrainen. Ik wilde wel een model optrainen. Was dat al eerder gebeurd?

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Ja, meerdere van dat soort fora. Kijk, het is natuurlijk een soort van een subset van een webcrawl, zeg maar. Als je het hele internet zou crawlen, dan krijg je ook al die fora mee. Maar ja, dat zijn gewoon de grote Nederlandstalige fora. Volgens mij zijn het er elf uit mijn hoofd. Je kunt een overzichtje maken, maar het zijn inderdaad de grote fora die je verwacht. Grappig hoor. En er zit ook bijvoorbeeld een Twitter-dataset zit daar ook bij.

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

Edwin, is dit een soort Common Crawl? Want dat is meer een grotere dataset in het Engels volgens mij, de Common Crawl dataset. Is dit dan een soort Nederlandse vergelijkbaar? Ik denk dat Gigacorpus iets specifieker uitgangspunten heeft genomen van ik wil deze en deze databronnen hebben. Maar om geitje te trainen heb ik ook gebruik gemaakt van een soort van Common Crawl, de zogenaamde MATLAB 400.

AI Report
Het Nederlandse taalmodel: GEITje ft. Edwin Rijgersberg | ✨ Poki

De naamgeving in het gebied is altijd feest. Matlab 400 is volgens mij door Google samengesteld uit Common Crawl. Uit allerlei versies van Common Crawl. In 400 verschillende talen. En daar komt die 400 vandaan. En een van die 400 talen is Nederlands.

← Previous Page 1 of 3 Next →