Leandro von Werra

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Também no Vale do Silício, todo mundo que quer treinar modelos atualmente está dependendo desses modelos chineses, porque se o seu negócio não é ser um laboratório de fronteira, mas talvez você queira fazer um modelo para uma aplicação específica, você quer treinar ou fazer o fine tuning do melhor modelo que existe para o seu caso de uso específico,

1821.248 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Que pode ser em ciência, por exemplo, com startups que também querem trabalhar com ciência de materiais, ou que querem construir um modelo que seja muito bom para responder perguntas relacionadas à saúde, por exemplo. Então, o que você quer fazer? Você quer pegar o melhor modelo disponível para fazer o fine tuning nele, porque ele é disponível e está bom para fazer aquele assunto. E os únicos modelos com os quais você pode fazer isso são os modelos abertos.

1838.562 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

E não teve muitos modelos ocidentais que realmente estão nessa linha de frente, né? Eu acho que o Nemotron é um bom esforço. Tem a AI2 que está fazendo os modelos OMO, que são um pouco menores. Mas, de um jeito geral, eu acho que tem uma demanda enorme por modelos abertos.

1862.086 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Sim, com certeza. Então, essa iniciativa do Small LM, como você chama a iniciativa, tudo começou um pouco como um projeto pequeno, como eu falei antes, geralmente a gente começa as coisas com pequenos experimentos e vê um pouco para onde as coisas apontam. Inicialmente, a gente começou experimentando com dados sintéticos. Isso foi por volta da época em que os modelos PHY da Microsoft foram lançados e tinha aquele paper, textbook, is all you need, esqueci o nome exato, mas essencialmente mostrando que

1905.337 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Se você treinar o seu modelo com pequenos conjuntos de dados sintéticos, que meio que simulam livros didáticos, então você consegue ter um modelo muito bom. E a gente pensou, isso é uma coisa interessante de experimentar. A gente pode meio que reproduzir os experimentos aqui, será que dá?

1933.028 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

e basicamente era uma equipe de duas pessoas nesse momento, era a Ludna, com quem eu trabalhei em modelos de código, e o Anton, que trabalharam juntos e construíram esse conjunto de dados sintéticos, que foi o primeiro Cosmopedia, o que já era bem desafiador por si só, o primeiro conjunto de dados em grande escala, totalmente sintético, que a gente construiu, e a gente precisava descobrir como fazer isso, em primeiro lugar, e então a gente treinou um modelo pequeno, que era o Cosmo,

1948.857 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Então, Cosmopedia era um conjunto de dados e o Cosmo era o modelo. E aí, à medida que a gente continuou experimentando, acabou que, se você quiser construir um modelo realmente bom, provavelmente faz sentido misturar um pouco de dados reais também, né? Não faz sentido ser uma coisa só puramente sintética. Então, num certo ponto, a gente pensou, talvez a gente pode tentar só construir o melhor modelo pequeno que seja possível de fazer, ponto final, ao invés de só fazer o melhor modelo em dados sintéticos.

1975.351 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

E a gente começou a fazer umas ablações e descobrir qual era o tipo de conjunto de dados que a gente ia usar. Em paralelo, tinha esse esforço também do Guilherme Wantenec, que trabalhou no FineWeb, que é um conjunto de dados de pé treinamento em escala da web. Então foi uma boa combinação dos dois. Meio que a gente tinha o treinamento de modelos pequenos funcionando bem,

2005 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

e tinha alguém que construiu um conjunto de dados de coisa da web que era realmente bom, então a gente experimentou um pouco de como treinar, de fato, o melhor modelo. A gente pegou o FineWeb, além de adicionar os outros pequenos de conjunto de dados ali, para experimentar um pouco a mistura, e a gente lançou, inicialmente, o SmallLM1. Quando foi isso? Quando foi isso? Acho que um ano e meio atrás, provavelmente. Sim, quase dois anos. 2024, eu fui ver a página. É.

2024.778 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

O tempo voa. Então, a gente continuou um pouco nesse espírito, tinha uma receita razoável, eu diria. Então, a gente dobrou a aposta e tentou descobrir como a gente poderia melhorar tudo. A gente construiu o Small LM2, que foi uma iteração principalmente do conjunto de dados e também dos experimentos na arquitetura.

2054.022 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

E aí, o Small Element 3 é meio que um modelo um pouco maior. Então, o 2, eu acho que tinha um modelo de 100 milhões, um de 300 milhões e um de 1 bilhão, 1 bilhão de parâmetros. E o 3 era um modelo de 3 bilhões de parâmetros. Então, a gente pegou tudo que a gente aprendeu do 2, iterou mais um pouco no conjunto de dados e rodou mais umas ablações. A gente colocou também um pouco mais de foco em como que a gente poderia tornar esses modelos realmente bons em tarefas de contexto um pouco mais longo.

2071.403 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Então veio o 3, que a gente fez o 3, que é o modelo de 3 bilhões, e na época em que a gente lançou, ele estava meio que no estado da AT, da fronteira de parede. Então, se você olhar para diferentes tamanhos de modelo, para o tamanho dele, ele era basicamente o melhor modelo que existia. Não, foi fantástico. A gente estava realmente usando, testando para os nossos modelos, usando como um benchmark também, então parabéns por isso.

2098.606 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Sim, eu acho que de fato o TRL começou há muito tempo, na verdade esse foi originalmente um projeto que eu fiz também para entrar em NLP. Foi logo antes da gente começar a trabalhar no livro e eu tentei implementar um paper da OpenAI que fazia aprendizado por reforço com modelos de linguagem, então era mais um projeto paralelo que foi revivido quando o ChatGPT apareceu e as pessoas ficaram super interessadas em como é que isso funcionava.

2161.229 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Quando se trata das coisas que mais importam, eu acho que quando eu converso com as pessoas que estão começando a entrar na área, eu acho que a coisa com a qual elas ficam mais animadas são as técnicas de aprendizado por reforço, porque eu acho que intelectualmente são as mais interessantes, tentar descobrir como que você pode

2185.799 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

aprender da forma mais eficaz, eficiente, a partir de sinais de recompensa, mas o que a gente descobriu é que, normalmente, você já consegue muito resultado a partir da fase de SFT. Então, normalmente, as nossas receitas também têm já uma espécie de estrutura em pirâmide, a gente gasta muito esforço primeiro em SFT, e eu acho que, normalmente, você já consegue, não sei, 75%, 80% do desempenho só se você curar um conjunto de dados em SFT de altíssima qualidade, e é intelectualmente muito simples.

2201.763 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

você só continua meio que o paradigma de pré-treinamento. Você só faz previsão do próximo token e tem a perda de previsão do próximo token, mas isso já te leva muito longe. A próxima coisa que normalmente a gente faz é o DPO, que fica meio que no meio entre aprendizado por reforço e SFT, onde você usa uma loss mais contrastiva. Você tem amostras pareadas com exemplos bons e ruins, e isso ajuda o modelo a distinguir entre isso aqui que eu tenho que fazer, isso aqui eu não posso fazer,

2228.56 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

que não é um tipo de sinal que você obtém só com SFT. No SFT, por conta da forma como essa perda é configurada, você só aprende, tá, é assim que eu tenho que fazer as coisas. Mas o modelo nunca discrimina, tipo, ah, esse foi um exemplo ruim, talvez eu tenha que evitar esse tipo de cenário. O DPO te dá isso.

2257.67 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Então, o GPRO, que normalmente a gente usa no final porque funciona relativamente bem, te dá meio que a cereja do bolo e pode deixar o seu modelo realmente bom em aplicações específicas, especialmente aquelas que você consegue verificar

2275.608 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Por exemplo, matemática, programação, você pode aumentar um pouco o desempenho, mas as pessoas normalmente subestimam o quanto você pode avançar só fazendo a curadoria, ajustando hiperparâmetros de um jeito agressivo no seu pipeline de fine tuning supervisionado antes de passar adiante, mas as pessoas estão sempre ansiosas, tipo, quero ir em frente, quero fazer RL, não quero gastar muito tempo fazendo as coisas meio chatas.

2289.547 View full episode →

IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Mas normalmente, até mesmo a nossa equipe de pós-treinamento, eles querem fazer hipotetizado por reforço, mas acabam gastando 80% do tempo na fase de Fire in Tuning Supervisionado e ficam sem tempo até para fazer a parte de Reinforcement Learning.

2311.4 View full episode →

Appearances Over Time

Podcast Appearances

Sign in to Audioscrape

Share this moment