Fabrício Carraro
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
Muito engraçado, recomendo que todo mundo veja, é muito bom, assisti sim, sou fã. É bem legal e tem uma empresa lá, a ideia deles, um cara desenvolve um algoritmo de compressão e ele vai vendo como construir uma empresa a partir disso, aí vem os fundos de investimento querendo investir, aí vem as empresas querendo comprar a partir deles, eles tentam desenvolver startup e tudo mais. É essa a ideia básica do seriado, divertidíssimo.
E foi lançado pelo Google agora o Pied Piper, que é o produto compressor que eles usam. Tirando a brincadeira, o Google lançou uma ferramenta chamada TurboQuant, que é um algoritmo, na verdade, que faz exatamente isso, comprimir memória para IA, para o foco com uso em IA.
para reduzir muito ali o uso do Cave Cash, que é usado durante o treinamento, a inferência, mas sem perder o desempenho. E eles falaram que utilizando esse TurboQuent, eles conseguiram diminuir o consumo em pelo menos seis vezes. Isso não é pouca coisa, é muita, muita coisa.
Falaram que eles combinaram duas técnicas ali, uma que é a PolarQuant e a outra que é o QJL, para compactar esses vetores de altíssima dimensão com uma eficiência maior e com um erro muito menor, que é para treinar muito mais rápido e com muito mais eficiência os modelos de IA e também de fazer a inferência neles em alta escala.
Por enquanto, isso ainda está em fase de pesquisa, mas eles falaram que vão apresentar o paper oficial agora na conferência ICLR, que vai acontecer no Rio de Janeiro, agora, daqui a um mês, finalzinho de abril, eu vou estar lá no Rio de Janeiro. Eu não vou estar na ICLR, mas eu vou estar na IPEX, que é um outro congresso que vai rolar no mesmo tempo. Talvez eu dê um pulo lá para conhecer, se alguém estiver lá no ICLR, a gente pode ir de noite num barzinho com o pessoal, já vou encontrar lá o Pedro Gengo, que a gente comentou aqui no começo do episódio,
Outras pessoas também da pesquisa em IA. Vai ser muito legal. Mas é uma notícia bem interessante, bem relevante para quem é da área de pesquisa em IA e em computação em geral também. Boa. E Fabrício, sabe quem está usando o modelo, o Gemini 3.1 Flashlight? Quem está?
E eu tenho uma boa notícia que não está na pauta, Marcos, mas que eu percebi utilizando o aplicativo do Gemini, eles finalmente me ouviram para mudar o modo como funcionava ali o modo de ditar de voz, aquele que você...
liga o microfone, você faz uma pergunta pra ele, em vez de fazer por texto, você faz por voz. Que, no chat GPT, é excelente. Você liga ali, você fala o que você quer, depois você aperta quando terminar, e ele, como tem o contexto inteiro, ele já sabia o que tinha que corrigir e tudo mais, e te dava uma versão final do texto que era praticamente perfeita. E o do Gemini, ele ia fazendo palavra por palavra, num modo, assim, whisper streaming, que ele ia tentando adivinhar cada palavra. Só que você tá na...
que na 50ª palavra, a palavra 4 talvez está errada, ele não tem como mudar, porque ele está mudando a 50ª. E ele não pegava o contexto das anteriores. E era muito ruim, muito ruim mesmo. E eles mudaram, finalmente, um pedido meu antigo. Eu tinha falado, literalmente, mandado e-mail para as pessoas do Gemini sobre isso.
E eu notei que essa semana agora tá funcionando dessa maneira, que você começa, você fala, e aí você, quando termina, você manda, e aí ele já pega uma coisa um pouco mais construída. Não manda tudo assim, palavra por palavra. Parabéns pro time de produto aí do Gemini, que aceitou as minhas propostas.
que tem uma galera louca para fazer bobagem e quem usou isso no Cloud CLI pode ter até passado por um problema. E seguindo, o Google finalmente lançou ferramentas de migração para quem quiser migrar da concorrência do chat GPT ou do Cloud para o Gemini, você vai poder importar ali as suas conversas, seus históricos, as suas memórias pessoais,
sem ter que começar uma nova relação com um novo agente. É uma coisa que a gente tinha comentado, acho que semana passada ou retrasada, que o Claudio também tinha implementado. O Google viu, gostou da ideia e implementou para o Gemini. Essa aqui é rapidinha. E uma outra que eu achei interessante... Lembra que a Apple...
perdeu a batalha das IAs antes de começar, basicamente, né? Ele nem largou. Por W.O. É, por W.O. praticamente. E aí eles assinaram um contrato com a Google, DeepMind, para usar os modelos de M.I. dentro ali da carangueja, como o Marco sempre fala, dentro da Apple Intelligence, que eles tinham dado o nome, mas não tinha nada rodando realmente por trás. E agora, a notícia que saiu, que eu achei bem curiosa, interessante, é...
é que a Apple está usando destilação no modelo Gemini Pro para criar umas versões menores e seguras para usar no telefone. Para quem não sabe, destilação é quando você tem um modelo professor e você quer treinar um modelo aluno com base...
em como esse modelo professor responde. Isso é feito ali com base nos logits, basicamente. Você congela o seu modelo professor. Eu estou fazendo isso atualmente, inclusive, aqui no Barcelona Supercomputing Center. Eu peguei um modelo professor que é o nosso de 40B, o Alia 40B.
E eu fiz um pruning, que é você podar partes da rede neural para fazer uma versão menor de 20 bilhões de parâmetros. E aí depois, só que essa versão menor está meio que zoada, porque você cortou um monte de pesos dessa rede neural. Então, se você fosse só rodar ela assim, não funcionaria. Então, o que você faz depois é fazer uma destilação.
baseada nesse modelo professor, nesse novo modelo prunado, podado aluno, que é um modelo, pode ser menor, pode não ser, no meu caso é um modelo menor, mas você pega conjuntos de dados, datasets, pode ser até os mesmos que o modelo professor foi treinado, ou pode ser outros, e você dá-lhe a pergunta e vê
qual que é a resposta que ele geraria, quais são os vetores de probabilidades, os logits, eu fiz até um post sobre logits no LinkedIn faz umas duas semanas, o link vai estar aqui na descrição também, mas ele vai dar ali, essa palavra aqui, esse próximo token,
está com uma probabilidade alta. Esse daqui está com uma probabilidade baixa. E ele faz isso para todo o vocabulário daquele modelo, seja lá, tipo 200 mil tokens. E aí ele vê, tá, é assim que o modelo professor responderia, então eu vou treinar o modelo aluno para responder dessa mesma maneira. E aí você tenta passar os conhecimentos de um modelo maior, 40B no meu caso, para um modelo menor, 20B no meu caso, e para ele não perder muito dessa inteligência.
E aí eles estão fazendo isso usando os modelos Gemini, ou seja, a Apple autorizada, tá no contrato deles ali, que eles estão autorizados a fazer modelos menores, destilando o Gemini maiorzão, pra rodar ali um Gemini Apple, Gemini seja lá o que for, como eles vão chamar isso daqui, e ele vai ser o modelo que vai controlar essa Apple Intelligence.