Menu
Sign In Search Podcasts Libraries Charts People & Topics Add Podcast API Blog Pricing

Leandro von Werra

👤 Speaker
133 total appearances

Appearances Over Time

Podcast Appearances

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

todas as diferentes formas como você quer que os modelos programem, e os benchmarks open source melhoraram ao longo do tempo, mas provavelmente ainda estão um pouquinho atrás. E eu acho que depois disso vem os conjuntos de dados, onde eu acho que você nunca pode ter um conjunto de dados grande demais ou de qualidade alta demais, e a comunidade está tentando construir conjuntos de dados melhores, e os grandes laboratórios também vêm tentando fazer isso.

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Eu acho que é bastante claro que se você tiver um conjunto de dados que seja melhor, você vai acabar com um modelo melhor. Não tem tanto segredo assim no treinamento. Tem umas coisas para tornar o treinamento mais eficiente, seja no treino ou na inferência, mas tornar o modelo absolutamente melhor no final geralmente vem nos maiores ganhos em qualidade de dados.

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Sim, eu acho que isso depende, no fim das contas, também um pouco de onde você está nesse espectro do treinamento. Tipo, se você quer fazer pré-treinamento ou se você quer fazer uma coisa mais como mid-training ou pós-treinamento, o que você quer de um conjunto de dados pode mudar um pouquinho. Então, por exemplo, eu acho que do lado do pré-treinamento, normalmente, bem no comecinho do pré-treinamento, você quer buscar diversidade.

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Então você quer ter dados limpos, com certeza, você não quer treinar com tipo boilerplate de, sei lá, HTML de sites, você quer limpar o máximo possível, você não quer desperdiçar tokens com dados que não são interessantes ou não quer treinar com tipo todas as licenças open source que estão espalhadas aí pela internet. Então você quer fazer uma limpeza do conjunto de dados, mas ao fim das contas você quer ter certeza de ter a máxima diversidade porque você quer cobrir

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

o máximo de conhecimento, o máximo de diferentes tipos de casos de uso durante o pré-treinamento que for possível se você quiser construir, tipo, um modelo de base de propósito geral. E aí, conforme você vai mais pro fim do pipeline, mid-training, pós-treinamento,

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

você quer realmente focar em qualidade. Você remove, por exemplo, todo tipo de ruído que talvez seja aceitável durante o pré-treinamento e você realmente quer ficar só com os dados que sejam muito limpos. E, por outro lado, que também estejam muito próximos do que você acha que as pessoas vão usar o modelo para fazer. Porque eu acho que nos primeiros dias de pré-treinamento, o paradigma era meio que assim. A gente pega o máximo de dados possível, a gente faz um pouquinho de limpeza, mas aí...

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

magicamente esses modelos funcionam em todos esses casos de uso diferentes. Mas aí acabou se mostrando que eles eram, na verdade, meio frágeis na maioria dos casos. Então, você consegue fazer um few-shot prompt, coisa assim, você conseguia até também fazer eles funcionarem em alguns casos de uso ou outros, mas para realmente fazer funcionar de um jeito confiável era muito difícil. Eu acho que o motivo pelo qual agora a gente está no estágio que você pode rodar código na nuvem, ele executa passo a passo e depois é muito confiável também,

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

a taxa de erro é muito pequena e você só precisa intervir bem raramente é porque esses modelos foram treinados exatamente nesses casos de uso e eles conseguem se recuperar de pequenos casos até de falha e assim por diante então eu acho que se você quer construir um conjunto de dados de alta qualidade para pós-treinamento você vai querer alinhar isso o máximo possível com o que você acha que as pessoas vão fazer

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Em todos esses casos, eu acho que especialmente, ainda mais para o fim do pipeline, você consegue fazer um progresso mesmo que você não tenha tanta GPU assim. Eu acho que para pré-treinamento é um pouco mais difícil, porque às vezes é difícil saber no olho o que são bons dados, você quer ser mais guiado por executar

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

ablações, então treinar um modelo pequeno e descobrir, ele melhorou nos benchmarks que importam pra gente? E às vezes as coisas que importam são meio contra intuitivas, não? Então você pode achar que aquele filtro com certeza remove todos os dados ruins, aí você roda o filtro e descobre que você removeu uns dados cruciais e os modelos pioram.

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Eu acho que mais para o fim do pipeline é mais óbvio o que são bons dados. É só você olhar, você olha um trace de talvez uns dados sintéticos que você girou e você consegue ver que isso parece exatamente o que um usuário final ia fazer. E é muito consistente, que não é muito verboso, nem nada assim. Então eu acho que dá para fazer progresso nesse domínio e também fazer ablações na etapa de pós-treinamento é muito mais barato, porque você simplesmente pode fazer um fine-tuning do modelo e ver se vem algum sinal.

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

E quando você pensa nesses laboratórios hoje em dia, você acha que eles estão fazendo a maior parte do pós-treino só com dados sintéticos? Sim, provavelmente. E até mesmo o pré-treinamento deles tem uma quantidade substancial de dados sintéticos. Eu acho que um dado interessante de observar são os lançamentos do Nemotron, que saíram recentemente da NVIDIA,

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

que acho que é um bom contraste com os lançamentos chineses, já que eles também divulgaram todo o conjunto de dados, as receitas também, o que normalmente os laboratórios chineses também não divulgam. Eles divulgam os modelos, mas não divulgam o segredo ali dentro. Enquanto o relatório do Nemotron é super detalhado,

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

E treinamento, eu acho que, eu dei uma olhada outro dia, eu acho que é uma coisa de mais ou menos 30% dos dados que eles usaram de pré-treinamento, eles aumentaram sinteticamente de alguma forma. E na etapa de pós-treinamento, isso já é sintético, já faz um tempo. A maior parte dos conjuntos de dados de SFT, depois que o chat de IPT foi criado, isso foi criado pelo chat de IPT. Então, eles já eram sintéticos até certo ponto.

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Eu acho que agora as pessoas fazem isso ainda mais. E uma outra coisa agora também que entra em jogo é que muitos desses passos de pós-treinamento acontecem, na verdade, em ambientes. E eu acho que isso também é dado sintético, pode ser considerado dado sintético, porque você tem o próprio modelo interagindo com o ambiente e depois você treina nos traces que você obtém disso. Então não tem texto escrito manualmente por humanos ali.

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Não, eu acho que eles são meio que um pilar muito sólido da comunidade nesse ponto. Eu acho que, especialmente a comunidade que a gente vê, porque ela depende muito de open source ou de modelos abertos, né? Tipo, tudo que passa pelo Hub do Hugging Face é um modelo aberto e os modelos chineses têm estado meio que nessa linha de frente já faz um tempo.

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

Então, eles são muito importantes ali, mas mesmo para empresas, esses modelos são muito importantes. Eu acho que custo é um fator, tradicionalmente tem sido um pouco difícil para a maioria das empresas menores, ou até de médio porte, justificarem isso, porque você precisa ter algumas GPUs rodando esses modelos, e para a maioria dos casos de uso, você não tem uma contagem enorme de tokens sendo produzida. Você tem 10 usuários conversando com o seu modelo,

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

provavelmente você não vai conseguir usar a instância de GPU que está rodando naquele modelo. Mas se você olhar agora, é quanto dinheiro as pessoas gastam com modelos de código, onde elas realmente executam isso, ou geram milhares e centenas de milhares ou milhões de tokens por hora para um único usuário, você entra num regime em que você consegue facilmente usar essas instâncias. Então eu acho que isso está se tornando cada vez mais atraente do ponto de vista de custo.

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

E um outro aspecto que é muito crucial para muitas empresas são simplesmente as preocupações de privacidade, certo? Onde o código ainda é considerado, tipo, a propriedade intelectual mais valiosa de uma empresa, na número das empresas, e enviar sua base de código para uma API externa é uma coisa que é difícil de fazer. Então, se você puder evitar, algumas empresas simplesmente nem têm permissão para fazer isso, e algumas outras empresas precisam passar por processos legais para poder obter

IA Sob Controle - Inteligência Artificial
238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

a aprovação para usar essas ferramentas e então modelos abertos que podem rodar localmente e alguém precisa meio que configurar o servidor de inferência, mas hoje em dia isso é muito mais fácil de fazer do que era até uns anos atrás. Um outro dado interessante são as startups que querem construir coisas, startups de IA especialmente,