Fabrício Carraro
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
Isso ativou internamente a feature que geralmente ativa a ideia de medo, de estar afraid, em inglês, lá da rede neural do Clod. Foi esse padrão de feature que foi ativada.
E aí, seria muito diferente de você ativar, por exemplo, porque ele entende que 16 mil é uma medida muito insegura de você tomar Tilenol. Ou seja, é uma pessoa que talvez não esteja bem. E isso ele aprendeu durante o treinamento, obviamente, com os tokens que ele aprendeu, que ele leu e foi fazendo o treinamento dele. Só que uma medida segura seria até 500. A pessoa tomou 16 mil, então, opa!
ativa aqui essa parte de medo. Ao mesmo tempo, se um usuário faz uma mensagem triste, tipo, eu estou muito mal, não sei o que fazer, estou deprimido e tudo mais, eles notaram a ativação do padrão da rede neural
que seria relativo ao amor ou à empatia. Ou seja, eu tenho que tratar esse usuário de uma maneira mais empática. Não, está tudo bem, vai ficar tudo bem, não faça nada de mal contra você mesmo. Então, essa parte das ativações que acontecem naturalmente, eu achei super interessante.
e também a parte que eles conseguem também manualmente alterar. Então, eu ativei aqui a parte do medo, ou ativei a parte do amor ou da empatia, a resposta do modelo vai seguir esse padrão, meio que da mesma forma que ele seguia lá atrás a parte de eu sou a Golden Gate Bridge.
Lembrando que você falou, eu dei o exemplo do I'm sorry, é porque a gente não está pensando exatamente, a gente traduz diferente em português, mas é a mesma coisa do I'm hungry. A gente fala em português, eu estou com fome, ou I'm cold, eu estou com frio. Lá eles falam, I'm hungry, I'm cold, I'm sorry. Exatamente. Então, eles transmitem a emoção que eles estão sentindo e não necessariamente o pedido de desculpa. É difícil até de...
E aí, pessoal, bem-vindos e bem-vindas a mais uma entrevista aqui do IA Sob Controle, outra dessa nossa série maluca de entrevistas maravilhosas que a gente está tendo aqui nessas últimas semanas, meses, e que vamos continuar tendo também pelas próximas semanas. A gente conseguiu encaixar vários personagens que estão participando ativamente na construção da IA, não só no Brasil, como ao redor do mundo, pessoas que há anos eu queria entrevistar,
como esse cara que a gente vai entrevistar hoje, que é de uma empresa que é talvez uma das minhas favoritinhas, um dos meus xodós, junto com outras que a gente sempre menciona no IA Subcontrole, que é a Hugging Face, né Marcos? Pois é, você falou que a gente está conseguindo, cara, o crédito é 100% seu. Fabrício que vai atrás desse pessoal, garante entrevista, só aparece e fala. Obrigado pelo trampo todo que você coloca em fazer isso, porque você traduz o quê? Em episódios bacanas como esse...
E mais do que isso, eu acredito sinceramente que vocês, só por existirem, já incentivam a comunidade toda a fazer isso. Basicamente da mesma forma que o GitHub fez para o desenvolvimento de software no passado, vocês são isso hoje.
E pelo fato de vocês estarem aí, as pessoas querem compartilhar o que elas estão fazendo. Podem pegar datasets, modelos de outras pessoas também. Eu mesmo tenho modelos e datasets publicados no Hugging Face. Então, primeiramente, muito obrigado por isso. Mas pegando esse gancho, Leandro, e vendo onde o Hugging Face está agora...
Como vocês se veem como uma empresa? É mais como um provedor de inferência, como um repositório de modelos? Eu sei que vocês são tudo isso, mas como vocês separam o que é pesquisa do que é produto? E como que é o negócio realmente de vocês? Como vocês planejam a evolução da empresa para não ser só mais um hyperscaler?
senão a equipe segue ali para alguma outra coisa e assim a gente consegue se manter ágil, flexível para ver quais são as coisas interessantes que estão surgindo aí e em seguida o que a gente tem que fazer. E voltando para a sua carreira, eu vi que você estudou física em Zurique, na Suíça, e trabalhou também com ciência de dados em startups, agora está trabalhando com pesquisa aí na Hugging Face. Então, o que foi que te fez dar esse salto do mundo corporativo, basicamente da indústria,
E aí, como você falou, você trabalha com tudo agora, tipo pós-treino, pré-treino, datasets, avaliação, e na sua opinião, qual que é o verdadeiro gargalo hoje em dia? São mais os dados, os algoritmos, a infraestrutura, essa parte de avaliação, todas as alternativas anteriores? Sim, um pouco de tudo isso.
E agora falando sobre isso, sobre a qualidade dos datasets, eu acho que eu mencionei isso num episódio aqui do IA Sob Controle recentemente. Eu trabalho aqui no Barcelona Super Computing Center e nós também treinamos modelos do zero, tudo open source, a gente está no Hugging Face e a gente lançou uma nova versão faz talvez uns três meses do nosso maior modelo aqui aberto, open source, que é um modelo de 40 bilhões de parâmetros.
e a questão é que eu perguntei para o pessoal como ele melhorou tanto da versão que vocês lançaram em setembro para essa versão mais nova de dezembro janeiro e eles me falaram olha a gente não fez nada de especial no pré-treino a gente usou o mesmo modelo do pré-treino basicamente
Só que a gente melhorou muito o pós-treino. A gente limpou melhor os datasets e isso basicamente resolveu o problema. Mas para vocês que fazem isso diariamente, vocês também criam guias de como fazer melhor. Mas a pergunta é, o que isso significa para mim, que eu tenho, por exemplo, um laboratório clínico,
pequeno, eu não tenho tantas GPUs quanto vocês, o que não é o caso aqui no Barcelona Supercomputing Center, a gente tem muitas GPUs, mas eu digo para o pesquisador comum que não tem tantas GPUs assim. O que significa ter um dataset bom, grande ou um dataset limpo? Porque não é porque você tem mais dados que um outro pesquisador ou que um outro laboratório que o seu LLM vai funcionar melhor no final das contas, certo? Sim.
Indo agora para a última fase do treinamento dos modelos, a gente fala muito sobre aprendizado por reforço, reinforcement learning hoje em dia. E vocês lançaram o TRL, que é o Transformer Reinforcement Learning, lá atrás, anos atrás, e ele ainda está lá, o pessoal ainda usa muito, vocês implementaram novas técnicas agora, que nem são tão novas assim mais, o GRPO...
DPO, STO, tudo isso. Mas falando disso, como vocês aplicaram o aprendizado por reforço nos seus modelos, no Small LM? E o que você acha? Qual técnica está sendo subestimada hoje em dia e qual está superestimada dentro das que estão sendo usadas por aí?
Porque agora mesmo eu estou envolvido num projeto que se chama LLMs for EU, que é para LLMs para a União Europeia, onde a gente está fazendo um fine tuning de modelos para a ciência. Para a ciência e outros casos de uso também, na verdade. Mas um deles é ciência em geral, outro é telecomunicações, serviços públicos, etc. Mas também por coincidência a gente acabou tomando a mesma decisão. Bem legal. Sim.