Fabrício Carraro
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
Mas algum tempo atrás era piada o que era divulgado versus a performance que tinha. Era absurdamente diferente. Não vou falar quais modelos naturalmente. Mas assim... É insuspeito.
Teve gente falando assim, cara, 88% no negócio lá, sei lá, pegar um caso, né, Hillman e Wall, né, GDPQA. Quando a gente foi atestar, era 61%, era 58%, e era 61%, assim...
Sendo legal, sabe, que se pegar a média tava 58, uma coisa do tipo, sabe? Essas coisas aconteciam pra caramba. Outra coisa que acontecia, que a gente viu muito, era o pessoal botar um modelo pré-treinado para a prova. E aí quando você pegava o modelo geral que tava sendo utilizado, já era outra coisa.
Outra coisa que a gente viu, o pessoal bota o modelo para fazer a prova, mas não a prova. Esse foi o caso da Manus AI. A Manus AI divulga uma performance, mas na verdade está escrito em letras pequenininhas. Performance na amostra da prova, não é na prova.
E a amostra da prova, você tem o resultado. Então, tem uma série de detalhes que, primeiro de tudo, a gente precisa entender. Que modelo é bom para quê e por quê? Então, essa primeira camada. Dessa primeira camada, a gente consegue ter quase como a visão mesmo do produto. A nossa visão é o seguinte. Quando a gente foi fazer um ensaio estatístico sobre a capacidade do modelo gerar resultado profissional, a capacidade geral foi muito baixa. De todos os modelos, foi muito baixa.
foi nível de que a gente fez o teste para marketing, para vendas, para operações, isso aqui sem nenhum tipo de feedback de ser humano. Então, quando a gente deixava o modelo melhorar, a gente falava assim, refine-se, sem dar nenhuma dica. Tenta melhorar o que você... Tenta trazer a sua melhor versão analisando criticamente, mas a gente não dava uma dica. O modelo analisa, analisa, analisa e não sai no lugar. Então, o ponto interessante que a gente notou é que mesmo quando a gente aumenta a camada de prompts ou de reasoning,
trazendo mais perguntas para o modelo, mais prompt, ou seja, consumo mais de token, a melhora dele é tão pequena que fica dentro do desvio padrão da margem de erro. Ele não melhora em si. Agora, quando você faz o sanity check do modelo com outros modelos, como a base de treinamento são completamente distintas, ele consegue agir quase como um ser humano. Um pegando o ponto de vista que o outro modelo não tinha. E aí você consegue dar alguns saltos
notórios de performance. Na nossa visão, essa análise, primeira camada de avaliação, segunda camada de análise de dados entre os modelos, que modelos interagem melhor com o outro.
Isso é muito interessante. Tem modelo que, se você botar os dois modelos para conversar junto, eles alucinam de um jeito que parece conversa de bêbado. É bizarro. Sério, juro. Você não pode botar aqueles dois modelos para conversar, que eles viajam. Tem modelos que juntos performam maravilhosamente bem. E fica assim, cara, o melhor modelo para gerar vídeo no Kling é o modelo tal. O cara gera um prompt perfeito. Parece que foi treinado com o knowledge base do Kling. É uma coisa insana.
Segundo ponto aí para a gente é a camada da interação dos modelos. Terceiro ponto, o histórico da pessoa, cara. Isso é uma coisa que a gente percebeu que é lunática. A gente fez uma arquitetura absurda em termos de evolves. Quando chegou lá na ponta, muita avaliação do cliente estava boa, tal, tal, tal, tal, tal. A gente começou a pegar, pô, essa avaliação aqui não está legal, isso aqui não está legal. Tem uma parcela dos clientes que não estão gostando do resultado. Por quê?
Quando a gente for avaliar, acredite se quiser, a melhor performance, tecnicamente, não é o que o usuário acredita que é a melhor performance. A gente notou uma série de coisas. A gente notou que o usuário que está começando, ele julga o resultado pelo tamanho da resposta. Às vezes uma resposta é maravilhosa em dois parágrafos e ele fala, não, o outro me deu cinco páginas. Isso é uma resposta horrível.
mas ele julga pela quantidade. Então, a terceira camada é customização para o gosto. Cara, esse dilema para áudio, vídeo e imagem é surreal de complexo, porque você pode achar que uma imagem é linda e o usuário olhar e falar, nossa, horrível, é muito gosto. Então, a otimização para esse gosto pessoal é complexo. E uma última camada que é o economics, né?
Não adianta, você vai lá e bota o Opus, o cara faz um programa maravilhoso em um prompt e fala, ah, mas me custou 500 créditos, né? Eu falei, cara, tu fez um programa em 500 créditos, 500 créditos dá literalmente 50 centavos, né? Mas é caro, né? Eu falei, por que tu fez um programa com 50 centavos? Então, o economics fala alto também. Então são essas quatro camadas, tipicamente, sabe?
Cara, então, na verdade, isso tem dois pontos aí, né? Primeiro, como é o coração do IP da plataforma, não tem muita coisa que eu possa abrir. Mas eu posso te passar a resposta teórica do assunto, que ela é muito boa. Inclusive, tem isso numa aula que eu falo da universidade, tem a universidade da IA dentro da TES, que é o seguinte. Quem tenta dizer qual o melhor modelo para marketing, qual o melhor modelo para lá, normalmente está esquecendo de um fator fundamental na IA.
A prediction não é temática. A prediction é por prompt. E o prompt varia... Só para você ter uma ideia, eu boto o mesmo prompt duas vezes, se eu tenho um seed diferente, naturalmente, eu tenho uma amostra inicial para prediction diferente, a resposta pode variar absurdamente. Quem faz EVOL percebe. Você pega assim, eu vou botar um modelo para fazer uma prova. O modelo faz a mesma prova. Uma hora ele performa 60%, outra hora ele performa 78%.
O mesmo modelo, por conta da seed. Então assim, normalmente quando a galera fala que o... Ah, esse modelo é melhor pra marketing, esse modelo... Cara, é furada. Te garanto que é furada. Por que que é furada? Primeiro, ah é? E qual é a variação de performance em tempo verbal? Tempo verbal impacta pra caramba. Dependendo da forma como você fala, expressa, um modelo pode performar absurdamente melhor do que o outro. Na mesma área de conhecimento.
Segundo, gírias, presença de gírias. Terceiro, pontuação, histórico. Histórico, você está no meio da conversa, você está no início da conversa, uma coisa é um prompt que eu dou no primeiro item da conversa, outra coisa é um prompt que eu dou um pouco mais para frente. Presença ou não, por exemplo, de engenharia de prompt naquilo. Então, tem tanta coisa que impacta na resposta, só para dar uma ideia para vocês. Uma época a gente fez um experimento, a gente chamou de The Gaia Research.
Gaia para General AI Agents. Então, a gente fez um experimento que era o seguinte, a gente queria provar que a multimodalidade, inclusive leve, era melhor do que o modelo robusto. E a gente pegou modelos desatualizados, antigos mesmo, e leves, só que trabalhando junto.
e botamos para competir com os modelos mais robustos que tinha. Ah, lançou o Glock 4. Ah, qual é o preço do output do Glock 4? Ah, é 20 dólares, não me lembro, recordo de cabeça, mas é 20 dólares, 15 dólares por milhão. Qual é o custo dos três modelos rodando ao mesmo tempo? 3,78 dólares. Está bem mais barato.
A gente botou para fazer os evolves. Os três modelos juntos performaram bem melhor do que o GROK, do que o GPT da época, que era o lançamento do 5. Três modelos leves juntos conseguindo performar melhor. Então, tem uma série de coisas que impactam. Eu diria para você, diria para todos os ouvintes do podcast, a maior parte da galera...