Fabrício Carraro
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
a minha chamada. E depois eles começaram a fazer acordos com alguns atores, né? A gente comentou isso aqui nos meses passados, desde o lançamento do Sora, do aplicativo do Sora, inclusive. Mas aqui, por exemplo, tinha um vídeo do Brad Pitt lutando contra o Tom Cruise. Uma luta, assim, que você tinha o áudio da luta, tinha as vozes deles conversando, e eles falando sobre o Jeffrey Epstein, tipo, um defendendo o Jeffrey Epstein. Uma
Piadinha tipo de mal gosto assim, desse tipo. Pra viralizar, né? É, pra viralizar exatamente. Mas que a qualidade era excelente. Esse modelo, o Seedance 2.0, ele é um modelo multimodal. Então você consegue mandar pra ele texto, né? Ele consegue entender o seu prompt. Você consegue mandar pra ele ali no prompt, junto, imagens pra ele usar pra criar os vídeos. Você consegue mandar áudios como exemplo pra ele criar o vídeo. Então um áudio da sua voz, quem sabe? Pra você ter um avatarzinho.
E vídeos, próprios vídeos você consegue mandar. Ele entende tudo isso ali, então ele é totalmente multimodal e ele consegue manter essa consistência multimodal. Você consegue mandar ao mesmo tempo até 9 imagens, até 3 vídeos ou até 3 áudios e ele entende e consegue usar isso para gerar o vídeo de até 15 segundos ali na saída.
uma resolução alta de 2K, não é 4K ainda, mas é 2K, então já é bastante alta, HD. E eles falaram que a ideia é usar no cinema mesmo. Sendo a empresa por trás do Douyin, do TikTok, olha quantos vídeos eles têm ali, acesso para eles usarem e treinarem os modelos de vídeo dele. Então é praticamente...
o mesmo poder de datasets ali que o Google tem com o YouTube, que a Meta tem também com o Instagram, que a OpenAI não tem exatamente de uma maneira legal. É, fizeram aquele acordo com a Disney lá que...
Ninguém deve estar satisfeito. É, exatamente. Talvez a gente veja daqui para frente e tudo mais, né? Mas enfim, é excelente, excelente mesmo esse modelo. Está viralizando, mas não está aberto para a gente ainda. Só para pessoas que têm acesso a uma conta especial lá, usuários selecionados, usuários VIP, de uma conta específica de A lá da ByteDance. Mas é claro que a gente espera que muito em breve esteja disponível também
mais amplamente para você usar, assinar o serviço deles, da ByteDance, na verdade, e usar o modelo C-Dance, ou via API também, para quem quiser brincar um pouco. E a gente vai ver se eles vão manter isso de você poder usar rostos de celebridades, fazer o que você quiser, ou não, se eles vão começar a limitar. E como que os Estados Unidos, barra Hollywood, barra todos, essas empresas vão lidar com isso.
Se eles vão, talvez, querer começar a processar a ByteDance pelo uso indevido da imagem deles, esse tipo de coisa, né? Cenas pros próximos capítulos, mas eu acho que é a notícia que mais fez barulho essa semana. Boa. E eu vou instituir uma coisa aqui, ó. A gente já tá no cantão da China, né? E vamos falar sobre quem?
Com certeza. E outra empresa chinesa que vem se destacando muito nos últimos tempos é a Zipo AI, ou Z.AI, que eles têm os modelos GLM. Eles tinham os modelos GLM 4.5, 4.6, 4.7, modelos open source, assim como os modelos QEM da Alibaba. E eles lançaram...
um novo modelo eles estão lançando com muita frequência aqui novos modelos o GLM 5 então mudou do número principal ali de 4 agora foi para o 5 finalmente e eles estão prometendo um modelo praticamente estado da arte open source você pode baixar você pode retreinar pode fazer o que você quiser
E olhando ali nos benchmarks, realmente ele fica próximo dos modelos de estado da arte que a gente está vendo por aqui. Ele ainda está atrás do Gemini 3 Pro, ainda está atrás do GPT 5.2. Ele é comparável ao Cloud Opus 4.5 em alguns benchmarks. Então, por exemplo, no SWE Bench Verified, que é de programação agêntica,
Ele fica ali atrás do Claude, atrás do GPT, mas levemente à frente do Gemini. No Humanity's Last Exam, que eu comentei agora há pouco, do Gemini, ele fica à frente do Claude, mas atrás do GPT e do Gemini. No tal quadrado bench, ele fica ali basicamente no mesmo nível. Fica à frente do GPT 5.2, atrás do Gemini e do Claude. Então, basicamente, a gente pode falar que todos são estado da arte, todos estão mais ou menos no mesmo nível.
Mas esse aqui é aberto, é open source, você pode baixar, você pode retreinar, você pode fazer o que você quiser, rodar na sua máquina local. E ele é um modelo bem maior do que os anteriores. O GLM 4.5 tinha 355 bilhões de parâmetros, era um modelo já grande, mas vamos dizer, não tanto assim. Comparando o DeepSeq, é um modelo de 671 bilhões de parâmetros. Então era metade do DeepSeq original.
E essa nova versão, ele foi para 744 bilhões de parâmetros, indo além, maior, uma rede neural maior do que a própria do DeepSeq, esse concorrente, só que ele usa, obviamente, a arquitetura de mixture of experts, mistura de especialistas,
onde é como se fossem várias subpartes que são ativadas ao mesmo tempo. Você não ativa a rede neural inteira, só uma parte específica dela, por exemplo, para a programação, uma outra parte para a escrita criativa, uma outra parte para problemas de matemática e assim por diante. Não é exatamente isso, não é mais uma visão...
de alto nível seria isso, e só 40 bilhões dos parâmetros são ativados ao mesmo tempo. Além disso, eles aumentaram o pré-treino do modelo original. O modelo, o GLM 4.5, tinha sido treinado com 23 trilhões de tokens, ali as palavras do universo que eles pegam na internet, de livros, de tudo mais, dados sintéticos também. Esse daqui, o GLM 5, foi de 23 trilhões para 28.5 trilhões.
Então é um modelo muito mais poderoso e eu imagino que seja isso principalmente na questão multilingüe, porque esses modelos chineses geralmente focam mais no inglês e no chinês e não performam tão bem em outras línguas. Então eu imagino que esse crescimento tenha muito a ver com isso, de atender outros idiomas também. E eles usaram na arquitetura o DSA, que é o Deep Seek Sparse Attention. É um paper que a Deep Seek publicou ali de como eles estão treinando os modelos dele com a atenção não focando
em tudo, uma atenção meio que global, mas uma atenção esparsa, que ela só presta atenção em algumas partes ali. Bem interessante esse paper que a gente comentou alguns meses atrás, e eles já usaram isso para treinar essa nova versão do GLM5. Além disso, ele deixa você gerar arquivos .doc, arquivos PDF, arquivos de Excel também. E lá na plataforma da Z.AI,
Você consegue criar agentes usando a inteligência do GLM5 já por trás dos panos. E você consegue inclusive usar ele no Cloud Code. Você baixa o Cloud Code e ali nas configurações você consegue alterar o modelo. Em vez de usar o modelo Cloud Opus 4.6, ele é compatível. Então você consegue assinar uma conta ali da ZAI
e falar, eu quero usar o GLM5 aqui porque ele é muito mais barato, por exemplo, do que o Opus 4.6. Na API, por exemplo, o Opus 4.6 custa 5 dólares por milhão de tokens de entrada, se for menos de 200 mil tokens, ou se for mais, custa 10 dólares. E na saída, ele vai de 25 dólares, se for menos de 200 mil tokens, por milhão de tokens. Desculpa pela sopa de letrinhas, mas é confuso mesmo, mas enfim...