Leandro von Werra
👤 SpeakerAppearances Over Time
Podcast Appearances
eu venho dormindo um pouco melhor continuamente. E eu acho que agora é seguro dizer que os modelos abertos e fechados simplesmente vão coexistir. Eu não estou dizendo que os modelos fechados vão desaparecer completamente ou que os modelos abertos vão desaparecer completamente. Eu acho que os dois têm um lugar nesse ecossistema e você pode usar os dois para diferentes casos de uso e também para diferentes pessoas. As pessoas têm essa tendência de tentar reduzir tudo a uma escolha entre uma coisa...
Eu acho que o ChatGPT foi um ponto, mas quando o GPT-4 saiu, se você olhar os scores da LMCIS na época, o GPT-4 estava no topo, muito à frente. Tinha rumores de que era tão caro que não estava claro se alguém ia conseguir alcançar a OpenAI de novo. E agora, se você olhar o leaderboard do LMCIS ou qualquer outro benchmark, é muito intercambiável. Claro, o Cloud talvez atualmente seja um pouco melhor em código, talvez o Codex seja um pouco melhor, talvez o Gemini seja melhor em matemática,
mas eles estão muito próximos entre si para a maior parte dos casos de uso e é muito difícil até notar a diferença.
e as coisas podem mudar em dois meses, tipo, quem quer melhor agora, talvez amanhã um outro laboratório lance um checkpoint novo do modelo que vai ser melhor em código do que o Cloud ou do que o Codex, e eu sinto que esse é o cenário ideal, onde os grandes laboratórios competem entre si para se tornarem melhores e os melhores, e isso é muito difícil para eles, mas é muito bom para o consumidor, porque no fim você obtém os melhores modelos e não fica com um monopólio, o que eu acho que é um bom ecossistema de forma geral. Exatamente.
Sim, eu acho até que tem uma razão técnica para isso ser verdade, e eu acho que é porque a destilação é muito eficaz. Então, quem quer que consiga uma vantagem, todo mundo vai destilar de uma forma ou de outra a partir deles. E é tipo, se você pergunta para os modelos sobre a identidade, ou alguém fala, o modelo fala, eu sou o GPT, daqui a pouco alguém fala, eu sou o Deep Seek, isso só mostra que todos os modelos foram treinados a partir de todos os outros modelos.
Então sempre que alguém avança um pouquinho para frente, no pior dos casos, as pessoas conseguem alcançar só destilando esses modelos. E isso também é uma outra razão pela qual os modelos menores ficaram muito melhores, porque isso meio que se propaga, já que os laboratórios de fronteira destilam uns dos outros e então os modelos menores destilam dos modelos maiores e você meio que equaliza
Sim, essa é uma boa pergunta. Eu acho que pra gente, o que mais chama a nossa atenção sempre é quando as pessoas já trabalham em projetos semelhantes aos nossos e também fazem trabalho aberto. Então, eu acho que uma das melhores formas de, quero dizer, ser notado por nós, mas o mais legal é que você também é notado por outros laboratórios todos, é construir coisas muito legais em aberto. E tem muitas histórias em que as pessoas constroem um benchmark legal,
ou um modelo legal, ou um conjunto de dados legal, ou uma aplicação legal, e elas acabam ficando um pouco famazinhas no Twitter, e depois entram, fazem um contrato, entram para um grande laboratório ou na Hugging Face. Teve todo o speedrun, por exemplo, ano passado, o cara principal que estava no speedrun de treinamento dos modelos pequenos acabou indo para a OpenAI. Então, eu acho que essa é, no geral, uma ótima estratégia. É tipo tentar construir uma coisa muito interessante, um projeto legal,
E uma outra coisa que eu acho que está se tornando cada vez mais importante é que, lá nos primeiros dias, você conseguia se virar construindo exemplos legais, mas meio que todo mundo estava construindo exemplos parecidos. E era meio que, eu ajustei esse modelo nesse conjunto de dados, publiquei meu notebook de Júpiter. Eu acho que agora o que ajuda muito mais é se você consegue se especializar de alguma forma.
Então, eu acho que é bom ser generalista em algum nível, mas também é bom se você for especialista, pelo menos em um nicho. Então, eu acho que se você quer construir uma carreira na indústria nesse momento, é sempre bom ter um conhecimento amplo de tudo o que está acontecendo, mas ajuda muito se você consegue mostrar, por exemplo, que você é muito bom em otimizar inferência, ou que você entende muito bem
de como fazer treinamento distribuído, então talvez tentar encontrar coisas que você possa combinar um pouco dos dois, onde você tenha um pouco de amplitude em algum nível, mas também aprofunda bastante no outro nível, também pode ser uma especialização, que você diz tipo, eu estou super animado com modelos de matemática, então vou realmente mergulhar fundo e entender como todos esses benchmarks funcionam, quais são os truques todos para tornar os modelos realmente bons em matemática,
ao invés de dizer que você ajustou 100 modelos em 100 conjuntos de dados diferentes e são todos ok, mas não fica tão claro qual é o valor.
Leandro, muito obrigado por compartilhar o seu tempo com a gente, compartilhar o seu conhecimento com a gente. E para quem quiser, talvez, continuar essa conversa direto com você, para onde o pessoal vai? Eu acho que o lugar mais fácil para me encontrar é no X ou no Twitter, é LVWERRA. E, basicamente, a mesma coisa no LinkedIn. Eu acho que esses são os melhores lugares para entrar em contato comigo.