Fabrício Carraro
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
Era muito comum, no último mês mais ou menos, você notar que, putz, o Cláudio está fora do ar agora por não sei quantas horas e voltava depois de três horas que o pessoal consertava. Ou seja, eles estão sangrando em GPU e provavelmente em dinheiro também. Não sei afirmar se em dinheiro realmente eles estão.
Mas pelo menos no uso dos planos, eu acredito que sim. Na API, eu não consigo afirmar, talvez até tenha alguma coisa lucrativa ali, mas na questão do uso dentro de um plano ali, seja de 20 dólares, de 100, de 200 dólares, com certeza eles estavam sangrando e até por isso cortaram, limitaram esse uso do Cloud ou do Cloud Code, seja em horário de pico, mas também fora de horário de pico, tornando ele inutilizado.
E também teve a questão da mudança de discurso. Eles falaram por alguns dias, 3, 4 dias, falando que é um bug interno que a gente está tentando ao máximo consertar e vai voltar ao normal. E aí passa 3, 4 dias a falar, então, não, não era um bug. Vocês são o problema, basicamente.
Eu acho interessante que eles escolhem o Texas. Eu sei que é por causa de incentivos fiscais e tudo mais, mas data center é uma coisa que é interessante você ter num lugar frio. Vai pro Wisconsin, vai pra Montana, não pro Texas. Pra ser justo, neva no Texas.
Mas não na maior parte do ano. Tipo, três dias, né? Então, quanto a isso, eu concordo. É 100%... E a média de temperatura, né? Sim, sim, sim. E também é um lugar que está com problema hídrico, né? O Texas. Sempre teve. É muito mais complicado. Exato. Mas indo agora, mergulhando no Google...
Por causa daquela notícia que a gente falou na semana passada sobre o novo algoritmo, o TurboQuant, uma notícia que, sendo verdade, sendo real, sendo aplicada, ela tende a mudar muito como a gente vai construir datacenters ou como a gente vai usar os datacenters que já estão construídos.
porque é basicamente um algoritmo que promete melhorar em até seis vezes a eficiência do treinamento de modelos de IA por causa da compressão que ele faz. A brincadeira que a gente foi foi do Pied Piper, que é o algoritmo de compressão lá da série Silicon Valley, que criou uma empresa, uma super startup. É uma pesquisa muito interessante do pessoal do Google, só que ainda vai ser aberta ao público agora no ICLR, que vai rolar no final do mês agora de abril,
aí no Rio de Janeiro, inclusive. E por causa disso, as ações das empresas fabricantes de chip caiu bastante, perdeu 100 bilhões em valor de mercado por causa disso. Isso sendo verdade, essa pesquisa, quer dizer que os centros, os data centers de IA, vão precisar de muito menos memória, muito menos GPUs,
do que o mercado estava projetando. Então empresas ali como Michael, SanDisk, Western Digital, Seagate, caiu muito, muito as ações de todas elas. Mas também é aquela coisa, o mercado reagindo muito alucinadamente, muito rapidamente a uma notícia específica, no longo prazo isso vai recuperar, porque a gente vai cada vez sempre precisar mais
de memória, de data centers, de GPUs e tudo mais, para rodar não só o que a gente tem hoje em dia, não só treinamento de modelos de Java, mas outras coisas, outros sistemas que vão subir por causa do advento da IA, da IA generativa sendo utilizada dentro deles.
Essa é uma notícia que é só coisa de mercado, mas conversa com uma coisa que a gente falou na semana passada. Outra do Google foi que eles anunciaram o modelo Vio 3.1 Lite. Os modelos Vio são aqueles modelos de geração de vídeo do Google
E era carinho, agora a versão 3.1 Lite é uma versão um pouquinho mais barata pra ser usada em longa escala. Você usar num comercial que você vai fazer, você usar pra gerar vídeos, inclusive, ali no YouTube, no YouTube Shorts, alguma coisa no seu Instagram, no seu Reels...
Você consegue gerar a partir de texto ou a partir de imagens. Qualidade até 1080p, que já é um HDzinho ali. E o custo é metade do preço do View 3.1 Fast. Já está integrado na API do Gemini, já está integrado no YouTube Shorts, já está integrado no Google Fotos. Bem bacana. E eles nessa semana também tiveram muita notícia de vídeo do Google. Isso poderia ter sido o próprio cantinho multivídeo dele.
eles lançaram a nova família de modelos open source Gemma. O Gemma 4, a gente tinha o Gemma 3 que estava disponível desde o ano passado ali, em alguns tamanhos diferentes, o maior deles era de 27 bilhões de parâmetros, rodava em uma GPU sozinho, se você quisesse, o menor deles, se não me engano, era o de 1 bilhão de parâmetros e
E tinha outros ali no meio, de 4, de 12 e tudo mais. Agora lançou a nova família Gemma 4, que ele é muito mais inteligente, muito mais poderoso. Os modelos são multimodais, então eles entendem áudio, entendem vídeo.
E eu acho que a notícia mais legal disso é que eles vêm com a licença Apache 2.0, que é uma licença que diz basicamente, você pode fazer o que você quiser com esses modelos open source, você pode retreinar ele, você pode fazer um fine tuning, você pode vender, ter uso comercial e não precisa pagar nada de royalties pra gente, nem nada...
Faz o que você quiser. Se vir aí, está aberto para a comunidade. Eles foram treinados em cima da receita do próprio Gemini e vem com quatro tamanhos diferentes inicialmente. O de 31 bilhões de tokens denso, que é a rede neural inteira para prever o próximo token, a próxima palavra. O 26 bilhões MOE, que é o Mixture of Experts, que é aquela mistura de especialistas. Ele só ativa 4 bilhões de tokens.
a cada passada ali, não ativa a rede neural inteira, ou seja, ele não é denso, ele é esparso. E tem dois menorzinhos, que é o Effective 4B e o Effective 2B, 4 bilhões e 2 bilhões de parâmetros, respectivamente, para você rodar local no seu laptop, no seu celular, alguma coisa assim. Só que melhor do que eu falar sobre isso, a gente trouxe aqui o nosso amigo aqui do IA Subcontrole, Gus Martins,
Muito obrigado e parabéns por esse lançamento que foi o maior lançamento aí do pessoal open source dessa semana e talvez até um dos maiores desse ano. Você olha os benchmarks lá dos modelos GEMA, principalmente do maiorzinho deles de 31 bilhões de parâmetros.
Ele compete com modelos 2, 3, 4, 5, 10 vezes maior do que eles em alguns casos de uso. É bem, bem legal mesmo. E se você deve estar usando agentes open source aí na sua empresa, acho que vale muito você testar os modelos Gemma, principalmente esse maiorzão aí de 31 bilhões de parâmetros e comparar nos seus benchmarks internos. Muito bom e parabéns para o pessoal da DeepMind.