Fabrício Carraro
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
é a construção do agente. Então, dentro da TAS, a gente tem a possibilidade de o cara construir um agente, inclusive orquestrando esses modelos dinamicamente na instrução. Então, se o usuário quiser, ele pode construir um system prompt para um agente dele com múltiplos modelos. Então, ele pode, dentro do system prompt, ele pode fazer o seguinte, receba o prompt, no system prompt isso, receba o prompt do usuário, aí aparece para o usuário no chat, aparece primeiro um pequeno formulário,
E o cara dá, digamos, sei lá, ele joga uma imagem. Esse é o caso de sucesso que a gente tem com a reserva, inclusive. A reserva começa, a gente... Não sei se vocês chegaram a saber desse caso, mas boa parte do e-commerce hoje da reserva, das imagens do produto, é feito na Tess. E aí os modelos que estão lá são...
IA, não são pessoas reais. São feitos através desse agente da tese. Então como é que é um agente? É super simples. Eles botam uma imagem como input. Quando essa imagem entra, isso ainda ali no processo inicial dinâmico de instrução. Essa imagem
ela gera uma máscara, passa para o manhã para analisar a posição, o prompt para a geração do modelo é dinâmico a partir do visual inicial, porque eu posso ter uma foto só da cabeça, eu posso ter uma foto de longe. Então se eu faço um prompt genérico e a foto é só da cabeça e o prompt fala do braço, ele bota um braço na cabeça. Então tem uma série de detalhes que você tem que fazer. Então você tem que construir na sua camada de treinamento, da instrução mesmo, você tem que fazer um negócio dinâmico.
Então, tudo isso dá para fazer na construção de agentes da tese. Então, o resumo é memória, a construção dinâmica do agente e o modo agêntico. O modo agêntico é um projeto que a gente está lançando agora. Então, no modo agêntico é um pouquinho diferente. No modo agêntico, eu tenho uma camada de modelos interagindo com um volume muito maior. Já teve casos de 90 agentes serem chamados em uma mesma conversa,
E aí eles vão fazendo a inferência e se precisar voltar, graças a Deus inclusive a inferência caiu pra caramba, mas se precisar voltar pro cliente ele pode parar e falar, olha, isso aqui é meu planejamento, topa. Aí você só precisa literalmente dar um check e ele segue a partir dali. Isso inclusive foi uma observação que a gente viu em relação a Manos. Um dos problemas da Manos é que às vezes ela...
inferia um mundo de coisa e não parava. E aí gerava um resultado, às vezes, muito distante daquilo que você queria e consumia muito crédito. Ali no nosso modelo, a gente trabalhou para que se precisar dar um pequeno check de, opa, gostou desse planejamento? Pode seguir? É o modo agente que ele consegue fazer isso, que ele consegue simular possíveis feedbacks do usuário.
Então, essas são duas perguntas ótimas, na verdade. Aliás, eu estou adorando participar do podcast, porque 99% das pessoas que falam de ar não sabem se é para comer ou passar no cabelo, né? Vamos ser sinceros. Cara, isso é muito bom, cara. Bom ver que o papo é alto nível, isso é ótimo.
Mas vamos lá, primeiro na questão do overfitting. Você ficaria chocado em saber como a performance não é tão aglutinada quanto a gente imagina. A gente imagina que 3, 4 modelos performam maravilhosamente bem. Não é.
não é nem mesmo dentro da OpenAI. Aliás, não sei se vocês sacaram, OpenAI, quando lançou os primeiros modelos, divulgava performance em 30, 40, às vezes 50 benchmarks. O que aconteceu que nos lançamentos recentes só divulga 5? Parou de fazer? Não quer mostrar que é fantástico em tudo? O que aconteceu? Bom, aconteceu um dilema chamado, a gente sabe, de catastrophic forgetting. O esquecimento catastrófico acontece quando você entende que, apesar de você aumentar
os parâmetros de treinamento, o modelo começa a se esquecer de coisas que ele já sabia antes. Então a gente pegou casos onde o ChatPT 4.0 era muito melhor do que o 5. Não era pouco melhor, era muito melhor do que o 5. Então assim, a gente começou a entender que mesmo dentro de uma única vertical OpenAI, vamos falar somente de OpenAI, modelos antigos, para alguns casos, performavam muito melhor.
melhor, por conta do esquecimento catastrófico. Às vezes você aumenta muito a base de treinamento. ChatBT 4.5, entre aspas, um fiasco do 4.5, foi muito por isso. Se aumentou muito a base de treino, acabou se esquecendo de uma série de coisas bem básicas. Então, quando a OpenAI
ela meio que se dobra e fala, a partir de agora eu não vou mais trabalhar com os meus modelos abertos, eu vou fazer um roteador, que aí no roteador você não vê o que está sendo utilizado. Isso foi a OpenAI meio que mostrando para o mundo, que ela falou, cara, deixa eu mostrar aqui para você só a minha nova versão 5.2, se por trás eu estou usando o modelo que eu quiser, o problema é meu, o que importa é que eu vou trabalhar para te trazer mais qualidade.
E aí ela pode se dar ao luxo de ter vários modelos especializados, trabalhando em vários detalhes. Então, o ponto que a gente percebeu, que não é tão aglutinado quanto parece. Aliás, tem modelos pequenos, performando sensacional, assim, incrivelmente para diversas áreas, que, assim, OpenAI, provavelmente o Cloud e tal, que é mais verticalizado ainda, performam muito abaixo.
Mas lembrando sempre, entre aspas áreas, porque se você às vezes tem uma conversa longa, ou como eu falei, o prompt às vezes tem um modelo que é muito sensível à qualidade do texto. Esqueceu vírgula, fez um texto mais ou menos, a IA já não entende direito o que você está passando, já mete o pé pelas mãos. Então a questão linguística ainda esbarra em alguns modelos
Vamos falar assim, não, né, tier 1. E a tua primeira pergunta qual era? Desculpa, querido. Era a questão que quando os dois entram em conflito muito, um conflito muito grande, quem tá certo? Então, depende muito da configuração, né? Se o usuário fizesse manualmente, que a gente chama de construção de supermodelos, né?
vai ser o modelo que ele colocar como orquestrador. Isso, na tese, ele pode decidir. Então, eu posso, na tese, criar um agente que, dentro desse agente, eu vou ter, sei lá, três, quatro, cinco subagentes, eles vão trabalhar nas tarefas e, no final, esse orquestrador é o cara que analisa e dá o veredito. Então, isso pode ser manual, mas também pode ser dinâmico. O dinâmico é o que nós estamos lançando agora no nosso modo alto, que a gente sempre vai selecionar um grupo de três agentes
sendo que esses três agentes trabalham com até 25 operações. Então, no final, pode ser 75 operações por tool. Então, por tool, o que eu quero dizer é que dá para fazer muito mais em relação a search e coisas do tipo. Então, nesses casos, a IN vai ser regida pela nossa IP. Aí a gente vai botar
Para aquela matéria, digamos, para uma área e para um momento, a gente vai prever qual o melhor modelo. Então, nesse projeto que a gente vai lançar agora, a primeira fase é um planner, uma IAD planner, que orquestra quais modelos vão entrar e qual modelo vai ser esse que vai ter o guardião ali para falar isso é melhor ou aquilo é melhor.
E essa decisão é muito matemática, a gente basicamente rodou muito teste e viu qual era a melhor posição dos modelos, alguns modelos criticando são espetaculares, mas na palavra final só fazem besteira. Então a gente na matemática escolheu alguns modelos específicos para ser esse cara que dá a arbitragem final, vamos falar assim, o juiz ali.