Fabrício Carraro
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
também dessa galera do Gemma lá do Google, modelos abertos, foi o Translate Gemma. A gente comentou do lançamento da OpenAI lá em cima, o ChatGPT Translate, que talvez poderia estar utilizando ou um LLM ou um modelo específico de tradução. Esses aqui são modelos específicos de tradução, como esses que eu comentei que a gente tem aqui no Barcelona Supercomputing Center.
modelos da família baseados no Gema 3, só que específicos para tradução, com três versões, três tamanhos diferentes, 4 bilhões de parâmetros, 12 bilhões e 27 bilhões, que são os mesmos tamanhos dos modelos base do Gema 3.
e que eles são capazes de traduzir até entre 55 idiomas com alta eficiência, segundo eles. Eles falaram que, por exemplo, o modelo de 12 bilhões de parâmetros do Translate Gemma, ele bate e muito na frente o modelo de 27 bilhões de parâmetros padrão base do Gemma 3, sendo um modelo com menos da metade do tamanho.
E o modelo de 4B também rivaliza com modelos que são muito maiores que deles. Talvez não exatamente com o de 27B do Gema 3, mas com modelos muito maiores que eles que você consegue rodar esse 4B, como eu falei, num celular ou no seu laptop sem problema nenhum. E está disponível ali para você baixar no Hugging Face, no Kegel, na Vertex AI, no Google Studio também. Então vai lá e comenta com a gente se você usou para alguma coisa e no seu trabalho, quem sabe.
Eu também estou bem otimista, até porque isso é uma coisa que tem muito a ver com o que é a memória hoje em dia dos modelos, dos modelos não, mas da plataforma, do chat GPT, que é uma coisa que no começo eu também estava um pouco relutante, mas que eu gosto que ela exista.
porque tem várias coisas que agora ela sabe sobre mim, que eu peço pra ela, faz um e-mail aí, ela já bota, tipo, uma coisa tonta, mas ela já bota, tipo, assinado, Fabrício Carraro, por exemplo, coisas bobinhas assim, e coisas que não são tão bobas, sei lá, quero rodar um código aqui no terminal, só que ela sabe que eu uso Windows, então ele já me dá a versão pra eu rodar no PowerShell, em vez de eu rodar ali no Linux, alguma coisa assim.
Então, são coisas que acabam sendo bem úteis. Só que isso daqui, tendo acesso, em teoria, a todos os seus e-mails, a todos os seus dados de uso de YouTube, vai ser uma coisa, tende a ser uma coisa até mais profunda se eles conseguirem fazer bem. Claro que, novamente, é um exemplo que eu sempre dou. A gente está na época do 14-bis, da aviação.
Então não dá pra gente esperar uma coisa que seja 100% perfeita já de cara. E tem gente que quer que seja 100% perfeita já de cara por questões de segurança, por muitas questões que vale discutir, em algumas questões tem que ser seguro, tem que não ter vazamento de dados, esse tipo de coisa, concordo 100%.
Ao mesmo tempo, eu aceito algum tipo de não ser uma maravilha do mundo que vai saber todos os seus dados ou que vai saber te dar a resposta perfeita pra você nesse primeiro momento. Que vai ser aquele primeiro momento que você vai testar e vai ser tipo, meh. Mas que daqui a dois anos, daqui a três anos, pode ser uma ferramenta muito legal. Então, eu aprovo o Personal Intelligence aí do Gemini e eu me conectaria. Eu conectei o meu Gmail já no Gmail, no ChatGPT, por que eu não conectaria no Google? Então,
Que mundo, não? Alguns comentários, algumas surpresas até. Eu estava refletindo sobre isso e exatamente comparando as empresas, a OpenAI, a Anthropic, a XAI, que seriam as outras opções que ela teria. A Apple desenvolveu a coisa em casa que aparentemente já jogaram a toalha, como eu falei lá no começo do programa.
Pelo menos por enquanto. E até, lembrando, a galera que era boa de LLMs, desse tipo de coisa, da Apple, foi pra Meta Super Intelligence Labs por contratos de 10 milhões, 100 milhões de dólares, 1 milhão de dólares lá do Zuckerberg. Um dos caras da Apple foi lá por 1 bilhão, 2 bilhões, um valor absurdo assim. Então é gente subaproveitada mesmo. Não sobrou ninguém lá, basicamente, na Apple. Então eles falaram, tá, não vai rolar aqui dentro de casa.
E aí, eles colocarem o Gemini, que é um produto do Google, eu pensei, por que o Google faria isso? Porque eles têm a linha de celulares Pixel, eles poderiam agora, assim, colocar a coisa na mesa e falar, olha, a Apple, os celulares Apple ali, isso aí é uma coisa...
Anos 2000, 2020, 2030, são celulares Pixel com inteligência artificial embutida. Então, por um lado, me surpreende muito eles falarem, não, vamos dar aqui o nosso modelo melhor, Gemini. Claro, vai ser uma versão dele, mas de qualquer forma, que seja uma versão do Gemini 3 Flash, já é excelente, já é maravilhoso. E é uma coisa que a Apple não conseguiria colocar a curto prazo, a não ser que fizesse um contrato específico com as outras empresas.
E é isso o ponto. Eles talvez falarem, tá, a OpenAI não quer, o Google não quer, vamos pra XAI, vamos pra Antrop, eles fariam com alguém esse contrato, porque eles têm a grana pra fazer esse contrato com alguém. E o que eu imagino que o Google pensou foi, vamos conseguir o desconto aí do Google Search em vez do Safari, pra gente ter que pagar menos dinheiro anualmente aí pra Apple nos nossos acordos. Então a gente...
dá uma coisa para eles que eles iam conseguir esse uso, essa funcionalidade de qualquer forma, mas com dinheiro, dando dinheiro para outra empresa, a gente pega aqui, dá uma coisa boa para eles, mas que talvez não seja o top de linha nosso, e eles vão poder fazer fine tools, eles fazem o que eles quiserem com isso.
Falando também do Vio 3, 3.1, na verdade, que a gente está aqui, o modelo de geração de vídeos lá do Google, eles tiveram algumas melhorias, que agora você vai poder transformar imagens que estão ali em formato retrato, formato vertical, vamos dizer assim, em vídeos verticais, porque todos esses modelos sempre tinham problemas. Mesmo os de imagens, a gente reclamava muito lá do Nano Banana original,
ou da OpenAI também, do ChatGPT Image, que eles geravam o que eles queriam. Você pedia para ele gerar formato vertical, retrato, ele só gerava tudo um por um, ou tudo paisagem, landscape, ou o contrário, ele basicamente te ignorava. E agora você vai poder fazer isso de uma forma um pouco mais consistente, ele vai te obedecer melhor, que era uma coisa que o NanoBanana Pro já faz maravilhosamente, agora veio também.
para o modelo de vídeo, para o Vio 3.1, e também melhorou a ferramenta de Ingredients to Video, que é quando você coloca algum objeto ali, alguma imagem inicial, e ele vai conseguir manter isso, ter uma continuidade maior no vídeo gerado ali, de personagem, de objeto, de cenário, de textura e etc. Ele também vai ter Upscaling agora para 4K, que é uma coisa bem legal para quem produz esse tipo de vídeo digital,
de uma maneira um pouco mais profissional, e também melhorou a qualidade no 1080p, que é um vídeo bom, um vídeo HD básico, mas que vai ser muito útil. E agora isso vai estar tudo já integrado ao app do Gemini, no YouTube Shorts e no YouTube Create. Então para quem gera vídeos no YouTube também vai poder utilizar os serviços do Vio 3, só lembrando que ele está disponível nas contas pagas do Gemini.
Faz sentido, porque os modelos utilizados aí no AI Overview não é um modelo top de linha, não é o Gemini 3 Pro, eu imagino, tá? Porque tanta pesquisa por dia, eles iam perder muito dinheiro, iam sangrar absurdamente. Então eu imagino que seja um modelo menor, por exemplo, o Gemini 3 Flash, ou o 2.5 Flashlight, algo nesse sentido, que é um modelo bom pra resumir, pra buscar coisa online, mas não exatamente pra essa coisa. Então, exatamente o que o Marcos falou, ele não pode alucinar, teria que ser o melhor top de linha, e como não é, eles decidiram tirar do ar.