Leandro von Werra
👤 SpeakerAppearances Over Time
Podcast Appearances
Sim, com certeza. E talvez antes de entrar nisso, tem também uma piada na história da origem da Hugging Face, como ela começou, como você mencionou, meio que como uma empresa de um chatbot, que originalmente a Hugging Face estava fazendo pequenos modelos, chatbots, para aplicativos de mensagens. E agora a gente virou uma espécie de empresa de IA open source, enquanto a OpenAI fez o caminho oposto, onde ela começou como uma empresa de IA open source e agora é principalmente uma empresa de chatbot.
Então, a razão pela qual a Hugging Face começou e até os seus próprios esforços de pesquisa já estavam lá. Tinha um esforço de pesquisa quando a Hugging Face trabalhava com chatbots só para entender quais são as técnicas de ponta que alimentam a construção dessas aplicações. Mas agora, como a Hugging Face virou uma plataforma de IA open source, a motivação para fazer pesquisa é um pouco diferente.
O motivo pelo qual a gente começou a fazer a nossa própria pesquisa e treinar os nossos próprios modelos é principalmente porque a gente quer meio que estabelecer as ferramentas para todo o ecossistema para que todo mundo possa ser um Frontier Lab. Então a missão, a nossa missão, é um pouco diferente dos outros laboratórios de fronteira. A gente está num nível meio meta, a gente está tentando permitir que as outras pessoas consigam treinar
esses modelos com mais facilidade. E um jeito de fazer isso é fazendo nós mesmos. Assim a gente pode descobrir quais são todas as espécies das receitas secretas que entram aí no treinamento desses modelos e poder abrir tudo como open source. A gente não quer ser um frontier lab.
E normalmente a gente nem treina modelos muito grandes, a gente tenta treinar modelos menores que permitam que a gente descubra as partes mais interessantes, mas a gente foca mesmo principalmente nos artefatos ao redor do modelo, que é liberar os datasets necessários. Hoje em dia quase nenhuma empresa tem interesse em liberar esse conjunto de dados. É meio que o molho secreto, é bem conhecido como é o molho secreto dos modelos de linguagem, como são mesmo os conjuntos de dados que tenham alta qualidade.
a gente libera essas receitas. Então, um exemplo é quando o chat GPT apareceu, ninguém sabia o que precisava fazer para o modelo base ter um bom modelo de chat, todo mundo sabia que a OpenAI provavelmente estava usando o aprendizado por reforço, mas exatamente como eles faziam isso não era conhecido. E meio que a equipe de pós-treinamento do Hugging Face começou com a ideia de que a gente tinha que descobrir como fazer a mesma coisa e como transformar os modelos de base da comunidade em modelos de chat.
Assim, tem mais modelos de chat, poderia ter mais modelos de chat no geral. E meio que a visão de longo prazo, ou a motivação de por que a Hugging Face tem uma equipe de pesquisa, é que a gente está no ecossistema fornecendo os blocos de construção para que as outras pessoas construam modelos que sejam incríveis. Então, no longo prazo, isso vai retroalimentar todo o ecossistema open source também, e também o hub todo do Hugging Face, onde mais pessoas estão compartilhando os modelos.
e até agora isso tem funcionado bem. Tem mais de, acho que agora são 2 milhões e meio de modelos disponíveis no Hugging Face para as pessoas compartilharem, e se você olhar um pouco para a história dos modelos de linguagem, nem sempre foi claro que esses modelos de linguagem abertos iam ter um papel importante. Teve uma espécie de inverno num certo momento em que depois da abertura inicial do BERT e dos próprios modelos primeiros de IPT, depois do chat IPT,
meio que todo mundo se fechou. O Google parou de liberar modelos, a OpenAI não estava liberando mais nada, e aí os modelos de YAMA meio que reavivaram tudo um pouco. E agora também a gente tem modelos chineses muito fortes, por exemplo, que também tem os da NVIDIA, que estão fazendo open source também, mas nem sempre foi claro que teria um componente aberto nesse ecossistema de LLMs, então a gente tenta manter essa chama acesa, por assim dizer.
Sim, essa é uma boa pergunta. Eu acho que a forma como a gente nos vê é um pouco como eu falei, como um facilitador dentro da comunidade. Então a gente está tentando entender quais são as coisas mais valiosas para a comunidade que a gente possa oferecer. E no começo as pessoas estavam compartilhando os modelos em Google Drive, então o Hub nosso de modelos foi uma coisa útil e meio que padronizou o compartilhamento de modelos para o mundo inteiro.
e depois a gente trabalhou em conjuntos de dados e eventualmente nos spaces para hospedar demos também e poder fornecer computação, inferência. No ecossistema atual, eu acho que é importante permanecer muito flexível e observar um pouco para onde as coisas estão indo.
Então é muito difícil pra gente dizer que vai ser um sistema de IA daqui a dois anos, vai ser assim ou vai ser assado. Então a gente vai construir em direção a isso. E eu acho que é a mesma coisa no lado de pesquisa. A gente não tem um plano de longo prazo pro próximo ano, pros próximos dois.
em que você diga, tá, esses são os marcos que a gente quer alcançar daqui pra frente. A gente tenta permanecer muito ágil no sentido de tentar entender quais são as coisas mais úteis que a gente pode fazer agora, e talvez tenha um objetivo geral de médio prazo, de ser útil construir certas coisas um pouco maiores,
mas principalmente experimentar bastante. Então, para mim, por exemplo, dentro do Hugging Face, não é uma empresa grande, uniforme. De certa forma, é muito mais uma combinação de muitas pequenas startups. Então, mesmo na equipe de pesquisa, a gente tem equipes menores. Normalmente, a gente não gosta de ter equipes muito maiores do que quatro ou cinco pessoas, e elas vão experimentando. E se o experimento tem sucesso, a gente redobra, dobra a aposta, a gente aumenta o tamanho da equipe.
para a pesquisa open source em inteligência artificial. Sim, eu acho que foi meio... Olhando para trás, pode até parecer um salto muito grande de uma coisa para outra, mas passando por isso pessoalmente, eu sinto que foi mais uma evolução contínua das coisas que eu vinha fazendo.
Então, quando eu estava estudando física, por exemplo, no final dos meus estudos ficou claro para mim que eu não queria permanecer na física em si, porque eu sentia que, por um lado, a academia e a física não pareciam uma coisa super colaborativa, e tinha um pouco de amargura também na academia de física, que eu não gostava muito, e a natureza colaborativa era um pouco ausente.
E, ao mesmo tempo, eu via os primeiros sinais de vida em IA, com a DeepMind lançando, por exemplo, as demos dos jogos de Atari, e eu já estava, na época, fazendo bastante física mais numérica, então eu senti que a transição da física numérica para machine learning era meio que um salto pequeno, mas era um salto lógico. E já tinha pessoas na diversidade fazendo coisas assim, então eu encontrei algumas delas e fiz uma mudança de direção durante esses meus estudos.
E depois disso, eu fiquei pensando onde que eu poderia conseguir no primeiro emprego, fazendo alguma coisa como machine learning e tentar entrar nesses laboratórios como DeepMind. Parecia um salto muito grande até. Quer dizer, eu até tentei, mas foi meio difícil, não tendo tanta experiência. Sim, exatamente. Eu acho que muitas pessoas tentam.
E eu acho que agora essas empresas são maiores e talvez até tenha mais oportunidades, mas ao mesmo tempo também virou uma coisa muito mais competitiva, já que tem mais pessoas que estão estudando isso, então é meio que uma faca de dois gumes. Então eu pensei que se eu fosse para alguma startup fazendo data science,
eu poderia aprender mais habilidades. Naquela época, Data Science e Machine Learning ainda eram meio próximos, agora eles parecem bem mais distantes, então eu fui fazendo pequenas mudanças de carreira de uma forma iterativa, fazendo Data Science numa startup, depois numa empresa de seguros,