Fabrício Carraro
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
em vez de ele te dar já diretamente os sites que você vai querer pesquisar, ele te dá primeiro ali no topo aquela resposta direta ali com inteligência artificial, e agora você não pode continuar, ele te dá uma resposta única, e se você quer continuar a resposta, você não poderia atualmente. Agora você vai poder continuar diretamente ali usando o AI Mode, que é a outra aba que tem ali do lado esquerdo, e também uma outra novidade com isso,
eles mudaram o modelo que é o padrão, que até agora eles ainda estavam nos modelos da família 2.5, imagino que fosse o Flash, porque são muitas pesquisas por dia, se fosse o Pro eles iam queimar ali GPU, TPU na verdade, mas agora passamos para a família Gemini 3, que também imagino que seja o Gemini 3 Flash, lembrando que ainda está em
prévia, pode ser usado ele é o modelo padrão quando você abre ali o Gemini no modo rápido, mas ele ainda oficialmente via API é Gemini 3 Flash Preview ele não é o Gemini 3 Flash apenas, em breve eles devem estar alinhando ainda um pouquinho os detalhes ali no final, mas outras novidades aqui na busca são essas
Com certeza. Sobre essa notícia aí dos modelos que transformam de 2D para 3D, eu acho que pode ter a ver com o World Models também. Essa questão que é o novo foco de pesquisa do Yann LeCun e de muitas empresas que estão com essa ideia de World Models e da parte da robótica também até pode influenciar. Que, se você quer saber um pouquinho mais dessa parte de visão computacional, escute a nossa entrevista da semana passada, retrasada, não passada.
com a Marcela Carvalho, que ela deu uma aula e ela trabalha exatamente com isso, a questão do 3D para o 2D, depois de volta para o 3D, foi uma aula de visão computacional bem interessante. Uma outra aqui do Google é que a partir de agora, o Google Fotos passou a permitir que os usuários escrevam ali em texto como eles querem transformar uma imagem, uma foto ali,
para vídeo, dando mais controle no movimento que a pessoa, o animal, o objeto vai fazer, efeitos. Antes só tinha umas opções automáticas que você podia pré-selecionar. Agora não, você pode usar um prompt, basicamente. Vai ter umas sugestões de prompt que ele mesmo vai te dar, mas outras você mesmo vai poder escrever. Só que, por enquanto, isso só é restrito a usuários que têm mais de 18 anos e não está disponível para todo mundo, todos os celulares, nem para todas as regiões do mundo.
Mas o que é legal é que eles estão usando o VIO ali por trás disso, então já tem a questão de adicionar o áudio também junto ali nessa foto que você está transformando para vídeo. Você coloca um áudio, uma pessoa gritando, cantando, essa coisa que inundou as redes sociais aí nos últimos, vamos dizer, 3, 4 meses, e está pronto para publicação, que você pode mandar diretamente para alguém ou compartilhar nas suas redes sociais.
Eu acho um big deal esse alfagenome, da mesma maneira que foi o alfafold lá para proteínas, esse alfagenome aqui para o genoma humano, para prever, por exemplo, mutações no DNA que possam causar câncer nas pessoas. Eles fizeram bastante barulho sobre esse lançamento. Ele já existia, na verdade, só que ele não estava liberado e agora eles finalmente liberaram para cientistas, para o público poder utilizar e publicaram. Virou a capa da revista Nature, por exemplo. Então,
É um potencial big deal que vai virar um documentário da Good Mind daqui a quatro anos, cinco anos, igual foi o do Alphafold agora e vai dar mais prêmio Nobel ali para o Hassabis, para o Jumper, para quem for ali que está trabalhando com isso dentro da Good Mind.
Parabéns, assim, meus parabéns mesmo pra eles. E um outro big deal, Marcos, que saiu agora, foi lançado, disponibilizado essa semana, também já tinha, já existia, né, já tinha sido anunciado antes, é o Genie 3, né,
que foi disponibilizado com acesso ao público. Para quem não sabe muito bem do que a gente está falando, o Gini 3, ele é basicamente uma ideia de, em vez de você dar um prompt ali para ele gerar, como o Nano Banana faz, gerar uma imagem, ou como o Vio faz, que ele gera um vídeo,
você gera um mundo jogável, interactuável. Então você gera ali, por exemplo, eu quero estar numa cidade medieval com uma guerra acontecendo ao redor de mim e um castelo na minha frente. Ele vai demorar um tempinho ali e ele vai gerar isso, vai gerar como se fosse uma foto. Ele usa, inclusive, o poder do nano-banana para gerar essa imagem inicial, vamos dizer assim, que você pode ir mexendo.
Só que depois que você dá o ok, ele vai gerar o mundo e você pode interagir com esse mundo, ir para frente, para trás, como se fosse um joguinho mesmo. E ele vai gerando esse mundo em tempo real. Deixa eu repetir isso. É importante. Ele vai gerando...
o mundo em tempo real a 24 frames por segundo. Nem precisa de sete dias. Ou seis e descansar no sétimo. Exatamente. Imagina o Nano Banana Pro. É o Nano Banana, na verdade, mas que ele vai gerando 24 imagens do Nano Banana por segundo. Porque se você for pensar, um vídeo são vários frames sendo gerados ali por segundo, sendo passados, na verdade...
para você, para a câmera, por segundo. Só que o que o Dini faz é gerar, é criar do zero essas pequenas alterações da movimentação que você está fazendo, indo para frente, para trás, voando, nadando ali. Tem vários, vários exemplos que o pessoal já compartilhou. A gente vai deixar aqui na descrição. Eu vou fazer um post sobre isso porque...
é de explodir a cabeça mesmo, as capacidades, as possibilidades disso que você tem, e ele te deixa também alterar, fazer prompt no meio de tudo isso, então você está ali no mundo medieval, você fala, não, agora eu quero que passe do meu lado o Gengis Khan com uma horda de cavaleiros Dothraki do Game of Thrones, ele vai rodar ali e vai passar do seu lado daqui a poucos segundos o Gengis Khan com uma horda de Dothraki do seu lado, e um dragão da Daenerys Targaryen,
Seja lá o que for. Então é tudo em tempo real. É muito, muito impressionante. E isso aqui me faz pensar que a gente está finalmente no ponto que o...
quando começou todo esse papo de metaverso, de VR e tudo mais. Agora sim a gente está num ponto que, com isso sendo disponibilizado publicamente, você pode literalmente fazer o que você quiser, fazer por voz. Então, em vez de ter que digitar o prompt, você vai falar e usar um whisper ou algo similar para pegar o seu prompt do que você está mudando, o mundo onde você está agora.
E você transformar isso num jogo, num second life da vida, ou finalmente num próximo passo que é numa coisa útil. Por enquanto é só uma coisa de pesquisa. Não é útil pra gente no mundo real, não é um produto. É só pra você estar ali como uma prévia de pesquisa do que já é possível hoje em dia e que a DeepMind criou isso novamente.
Palmas, palmas de pé. Só que tem o porém. Só está disponível para usuários do Google AI Ultra, que é o plano de 250 dólares por mês. E também, novamente, só nos Estados Unidos. Ali disponível através do Google Labs, para você fazer esses testes, ver como é que funciona.