Fabrício Carraro
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
talvez não seja a fundação, talvez seja só um andaime por fora mesmo. E eles falaram, beleza, o rope, tudo isso, é muito legal, é extremamente útil, até imprescindível, por enquanto, para usar durante o treinamento do modelo, só que quando a gente quer extrapolar para contextos maiores, para aumentar essa janela de contexto dos modelos,
ele acaba sendo uma coisa desnecessária, porque ele acaba travando muito e acaba ficando muito caro computacionalmente para aumentar isso aí para sequências muito longas, porque a atenção, que é aquela parte da arquitetura do modelo que ela consegue ver todas as partes da frase ao mesmo tempo, basicamente, e saber qual é mais importante para mim agora, ela cresce com um custo quadrático. Então é muito caro, muito custoso isso.
E aí você fazer isso para aumentar o tamanho da janela de contexto do modelo, acaba ou custando demais ou acaba faltando dado que seja realmente longo e limpo. Então eles falaram, putz, vamos tentar remover isso daí, tirar, tratar esses embeds posicionais como só o andame mesmo. Então a gente faz o treinamento normal do LLM usando o ROPE,
e no final a gente remove o andame a gente remove os embeds posicionais a gente faz uma recalibração curtinha ali usando o mesmo comprimento original pra tentar recuperar essa performance do modelo base mas aí a gente vai fazer esse treinamento pra aumentar a janela de contexto dos modelos sem ele
E aparentemente funciona. Eles falaram que os resultados que eles conseguiram foram muito impressionantes, repetiram em várias escalas, eles fizeram ali um modelo pequenininho primeiro, de meio bilhão de parâmetros, sendo treinado em 16 bilhões de tokens, que são números bem pequenos comparando com os modelos que a gente tem aí hoje em dia. E eles pegaram ali um checkpoint usando o Rope, depois de 400 bilhões desses 16 bilhões de parâmetros,
removeram os positional embeddings e continuaram por mais 2 bilhões de parâmetros. Então, só no finalzinho. E usando, isso aqui é a técnica drop, né? E ele igualou a perplexidade final do rope no contexto original e superou um baseline que foi treinado sem os positional encodes desde o início. Beleza, isso é só um teste pequeno ali, um modelo de meio bilhão de parâmetros.
E aí eles foram pegar outros modelos, também pequenos, mas para fazer mais testes. Pegaram o Small LM, lá da Hugging Face, a versão pequenininha de 360 milhões de parâmetros, bem pequena, e uma também pequena de 1.7 bilhões.
e treinaram em até 1 trilhão de tokens, que aí já começa a ser um número interessante. Um parâmetro de comparação para vocês, o GPT-4, por ali, é falado que ele foi treinado em torno de 15 trilhões de tokens. Então aqui, 1 trilhão de tokens já começa a ser uma coisa interessante.
E falou que treinando esses modelos do Small LM, essa recalibração ali no final, usando a técnica DROP e a recalibração, recuperou 95% da performance com menos de 5 bilhões de tokens. E usando mais tokens ainda, ele passa o modelo base. E no que interessa mesmo para eles, que é o contexto longo, o DROP venceu muito, muito, muito de longe
nesse teste de agulha no palheiro superando as técnicas que usam o Rope e outros Positional Encodings e ali usando o Small LM, esse modelo superou até 10 vezes mais comparando com abordagens anteriores, esses Ropes alternativos
E eles também testaram com um modelo maiorzinho, que foi o Lhama 2, não o 3, o Lhama 2, de 7 bilhões de parâmetros, recalibrando só 20 bilhões de tokens, bem pouquinho, que é 0,5% do pré-treino, de 4 trilhões de tokens, e eles conseguiram manter a performance base do modelo e melhorou muito a questão de resumos em longo contexto, de análise de qualidade em longo contexto. Ou seja, é uma coisa que não necessariamente está 100% pronta,
Mas, nesses modelos que eles testaram, o maior deles sendo o de 7 bilhões do Lhama 2, é um potencial absurdo e que, se isso realmente se provar, tende a mudar o modo como modelos, como LLMs são treinados até agora, que está todo mundo treinando com andame achando que é fundação e todo mundo vai agora tentar tirar esses andames.
Esse aqui fez bastante barulho na comunidade de pesquisa em inteligência artificial nessa semana, inclusive aqui no Barcelona Computing Center, eu criei ali um tópico específico para o pessoal discutir, e eles ficaram falando, mas como que isso é possível? Isso aqui é real? Vamos fazer teste? Vamos começar aqui um treinamento usando isso daqui? Então, fez um bom bafafá aqui, e para quem se interessa, para quem é da área de pesquisa, eu acho que é uma leitura obrigatória dessa semana.
Muito legal. E um último estudo aqui é o Latent Action World Models, modelos de mundo, que eu venho falando já há algum tempo. O Pedro Jengo também falou lá no episódio da retrospectiva, que é o presente barra futuro próximo da pesquisa em inteligência artificial. Para quem está entrando no PHD, talvez valha dar uma olhada nesses World Models, porque eles podem potencialmente substituir LLMs no futuro a médio prazo.
Isso, quem acha, não sou eu, é o Ian LeCun, um dos papas, um dos godfathers da inteligência artificial. Enfim, esse paper veio lá da meta, inclusive, onde ele estava até recentemente, o Ian LeCun, que basicamente é que eles treinaram ali modelos de mundo, world models,
que tentaram aprender diretamente a partir de vídeos naturais que estão ali sem nenhum rótulo de que ação está rolando em cada momento, para tentar ver se ele conseguia prever melhor o futuro, entender a física do mundo e tudo mais. Por quê? Quando a gente vai treinar um modelo desses...
de vídeo, mesmo imagens. O Pedro Gingo falou muito bem sobre isso lá no episódio. A parte de anotação é chatíssima, é caríssima, porque você precisa ter uma pessoa... Imagina uma imagem, uma imagem sozinha aqui, eu no meu quarto. Quantas coisas você vai ter que anotar? Você vai ter que anotar, tipo, só olhando aqui, eu tô vendo o Marcos aqui na câmera do quarto dele, vou ter que falar, olha...
Tem uma pessoa que tem fones de ouvido e está usando, ele tem barba, ele está usando uma camisa preta. A camisa preta tem um leve amassado aqui ao lado da gola. O microfone é o microfone daqueles que vem da parte esquerda da tela, mas que ele não está vindo de baixo. Ele aparece de baixo, mas ele está pendurado, vindo de cima. Tem um papel de parede no fundo, enfim. É uma descrição para uma imagem micro. Agora imagina uma imagem da natureza. Agora imagina um vídeo que tem 24, 60 frames por segundo.
Isso é exponencial e é impraticável praticamente. Então a ideia deles é isso, tentar treinar esses modelos de mundo sem anotação, só passando os vídeos e vendo o que ele tira do conhecimento que ele consegue pegar da base que ele tem e gerar a partir disso.
E aí eles treinaram junto isso um modelo que eles chamaram de dinâmica inversa, que vai tentar inferir uma ação latente a partir do passado e do futuro, e aí o modelo de mundo, que é prever o futuro a partir do passado e dessa ação atual, a ação latente, a ação que está ocorrendo agora.