Fabrício Carraro
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
E eles estão tentando estudar como que regular esse conteúdo da informação dessas ações que estão ocorrendo agora. E o resultado mais interessante que eles tiraram é que as ações atuais, as ações latentes, que sejam contínuas, mas muito regularizadas, elas conseguem capturar a complexidade de uma ação do mundo real de uma forma muito melhor do que ações discretas via quantização. Traduzindo isso daqui, é basicamente...
representar o que aconteceu ali no vídeo como um sinal contínuo ali de números, mas com alguns limites para ele não decorar o futuro, você consegue descrever as ações reais e os movimentos futuros de uma maneira muito melhor do que você colocar ali de uma forma discreta, de uma forma quantizada, de uma forma ali que você tem poucos códigos fixos. Fazer isso de uma maneira fixa acaba sendo rígido demais e aí o vídeo acaba tendo pouca diversidade e não dá conta de aprender tudo que está no ambiente.
Então esse é o conhecimento, o resultado maior que eles tiraram daí. E eles falam muito mais sobre isso, para quem quiser, se interessa por World Models, o paper está aqui na descrição, mas é um outro que, novamente, para quem está na área de pesquisa, pesquisa mais focada não no agora,
mas daqui a 5, 10 anos, pode ser muito interessante entrar nessa área, e a Meta é uma das empresas que está fazendo um dos melhores trabalhos nesse sentido, muito por causa do Yann LeCun que estava lá, e agora imagino que a Mi, a empresa nova do Yann LeCun, também será uma empresa que vai fazer ótimos trabalhos nessa área.
mensal, né? Dada essa introdução, quer explicar certo agora o que vocês fazem? Claro, claro, claro, sem problema. Olha, a gente tem uma plataforma que é voltada para a colaboração dos modelos, é um conceito um pouco diferente. Acho que no mundo de IA existe, sem sombra de dúvida, a vertical da agregação e colaboração, sendo que na agregação existem muitos players no mercado e
majoritariamente brigando muito pela questão de quantidade de integrações versus preço, então o jogo de preço é muito sensível, e do outro lado existe a briga de horizontal e vertical, então o TES é uma plataforma voltada para colaboração nos modelos, que são pouquíssimas plataformas hoje no mundo, então
Como a gente tem a Manos AI, tem o Cursory, o Lovable, já numa outra linha mais verticalizado, mas ainda assim, né? São plataformas que não se limitam só a integrar modelos, mas trabalham rotineiramente para que os modelos melhorem a comunicação entre si, né? Então, para que o ChatGPT, dentro dessa plataforma, possa performar melhor do que nele mesmo.
Então, por exemplo, isso acontece quando você permite um chat IPT comunicar com o Clóide, quando os modelos podem conversar entre si, você consegue levar o dilema de performance para um outro patamar. Exemplo de benchmarks que dá para se aplicar. Então, assim, é quase isso que você falou, mas o único ponto que eu pôria aí que é mais voltado para a colaboratividade do que uma simples agregação, que é um mercado já, assim, na nossa visão, muito lotado.
Então, basicamente, seria um agentão com todos os modelos ali plugados, algum orquestrador por trás disso que vai escolhendo qual faz melhor o quê. É, exatamente. Eu entendo, assim, vamos lá, eu comecei minha carreira de IA já tem quase 20 anos, já tem 17 anos, então eu não entrei no mundo da IA por conta do hype, por conta de tudo estar acontecendo, comecei como pesquisador na UFRJ, publiquei alguns artigos acadêmicos, então IA foi um assunto que
A minha segunda empresa de IA é um assunto que sempre me atraiu, uma coisa que eu realmente larguei minha faculdade para trabalhar com isso. Então eu tenho uma visão da IA um pouco mais matemática do que... Por isso que, de fato, a visão agêntica para mim da IA, colaborativa, é uma visão que é o único caminho da minha forma de enxergar, matemático inclusive, para uma performance nível profissional.
Eu acho que a agregação ela é muito bacana no sentido de ajuda muita gente que às vezes tem que gastar muito dinheiro com muitas plataformas então de fato ajuda. Mas ela é um dilema quase que de patamar de qualidade inferior mesmo porque um agregador tem dois tipos de agregadores tem os agregadores ilimitados estão os limitados os limitados costumam resolver de boas maneiras.
o jogo, e a galera mais ilimitada vai usar uma série de subterfúgios normalmente para conseguir dar uma IA, que tipicamente é muito caro você dar uma IA, é limitado o pessoal para dar por 100 reais, 80 reais, acaba fazendo uma série de coisas. Então a sua análise de uma espécie de agentão está correta, é isso, quase como um Generic AI Agent, o GAIA, a sigla GAIA.
Então, só para dar uma ideia, em 2019 eu dei uma palestra dizendo porque que em cinco anos as pessoas iam estar trabalhando com algum tipo de assistente de ar, e na época isso foi publicado, o pessoal falou, você é maluco, você tem aquele negócio falando de carro voador, na cabeça das pessoas era meio carro voador, mas para a gente que já está no métier, vamos falar, a gente tem uma visão de ar...
E IA é uma coisa meio inevitável, eu larguei a faculdade porque para mim IA era uma forma mais elegante de se calcular muitos problemas matemáticos, então não era tipo metaverso que naturalmente depende de uma mudança de paradigmas da sociedade e das pessoas, mas é isso. Então assim, a visão agêntica começou, vamos falar assim, começou com o orquestrador da TES, que é um projeto que já tem quase 10 anos,
Então, lá atrás eu tinha, na minha cabeça, até para uma questão matemática, quando a gente pensa em modelagem de inteligência artificial, você nunca resume a um modelo de treinamento, né? Então, dá para entender de uma maneira muito clara que se a gente quiser analisar vision, se você quiser fazer um trabalho de geração de imagem, de vídeo,
você vai precisar de modelagens distintas, né? Então, na minha cabeça, vamos falar assim, a multimodalidade sempre foi uma coisa muito natural. E quando a gente ia para o mercado, não encontrava. Muitas das coisas que a gente foi atrás de fazer foi até antes de surgirem muitas das plataformas que estão aí. Então, assim, eu diria para você o seguinte, a gente começou primeiro a desenvolver a nossa,
Depois surgiram vários desses frameworks. A gente tentou implementar, não tivemos os resultados desejados por uma série de questões muito técnicas. Algumas questões, por exemplo, relacionadas à performance, outras relacionadas a grau de alucinação, interações multiagênticas. Em várias dessas plataformas, a gente às vezes queria restringir o volume de trocas e, de repente, a IA já estava batendo um papo de já era o trigésimo agente chamado na conversa.
Eles falaram, cara, calma, não precisa. Era quase como só um bom dia. O cara começou a pirar ali na cabeça. Então, tipo assim, nos nossos testes, a gente não conseguiu ter o equilíbrio que a gente precisa, que o nosso caso é muito específico. Então, o nosso caso não é um caso de conversa, não é um manhado dia a dia, tanto que 30% dos nossos clientes
Só assinantes de chat IPT, a gente não se vê concorrendo com o chat IPT. A TESA foi criada para o público profissional, 100% profissional. O cara que precisa entregar mais resultado. Então, por exemplo, a gente faz revisão de benchmarks de VAL toda semana. O chat IPT novo, o 5.1, quer dizer, agora tem o 5.2, mas a versão de novembro, estava batendo 73% na baseline do MMLU Pro.
E isso é a baseline mesmo dele, não a upper band, que normalmente é o que é divulgado. Então assim, quando a gente bota uma interação de multimodal, a gente já consegue elevar essa pontuação para 88%, upper bound de 92%. Então assim, como eu preciso desenhar uma solução mais para o profissional, muitos dos dilemas ali acabam não sendo, estou falando da questão da interação agente, que acaba não batendo do jeitinho que a gente precisa.