Fabrício Carraro
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
Você bota o código, se o código rodar e der a resposta certa, ali dos testes unitários, deu certo, está tudo certo. Ou um problema de matemática que tem uma resposta única, numérica, você sabe como chegar nessa resposta, você sabe como calcular isso, então é fácil você definir essa política aí e especificamente para essas tarefas de matemática e de programação, você tem essa recompensa que ela é verificável. Então fica muito mais fácil definir essa política. Mas para outros tipos...
de dados que não são matemáticos e programação, é muito difícil fazer isso. E é isso que eles tentam abordar aqui. A gente falou sobre um paper que tentava abordar Reinforcement Learning também nos estudos da semana passada. É um tema, como eu falei, bem quente na pesquisa de IA. E esse novo aqui, o pessoal da ETH Zurich, eles falaram basicamente que a motivação foi que, nesses ambientes verificáveis, como o da programação,
O sistema dá um feedback de texto mesmo, que é muito rico, tipo o erro de execução, quando não deu certo, o teste que falhou, comentário do avaliador, mas que esse sinal é desperdiçado. Eles jogam fora essa informação, basicamente. E para explorar essa informação, eles propuseram esse paper aqui e colocaram um método que eles chamaram de SDPO, Self-Distillation Policy Optimization. Então, otimização de políticas...
através da autodestilação. Destilação é um tema que a gente abordou também no episódio da semana passada, que é quando você tem um modelo pai que vai gerar respostas ali a partir de prompt e você usa esse modelo pai, esses dados gerados pelo modelo pai para treinar um modelo filho, que pode ser uma rede neural muito menor, por exemplo. Então aqui a ideia é basicamente essa.
Isso aqui vai ser self-destillation, a auto-destilação, o próprio modelo gerando dados para ele mesmo. Então ele vai ser o seu auto-professor, ele gera uma resposta, ele recebe um feedback positivo ou negativo, ele reavalia essa saída condicionada, esse feedback, e vai ajustando as probabilidades internas para tentar chegar mais próximo dessa outra versão.
E com isso, esse feedback de texto que o modelo tinha dado, ele consegue pegar isso e aprender no nível de Tolkien mesmo. Não precisa de um professor externo, de um outro modelo professor. Ele mesmo consegue ser o professor dele mesmo. E não precisa de um outro modelo de recompensa também.
ele mesmo consegue tirar essa informação dali. E nos experimentos, eles falaram que conseguiram resultados excelentes de eficiência e desempenho, comparando com essas outras técnicas que eu mencionei, que são o estado da arte hoje em dia. Então, em tarefas de raciocínio científico,
e também de uso de tools, de ferramentas agênticas, essa técnica, o SDPO, superou uma versão melhorada do GRPO, aquele de PSIC que eu comentei, que é um dos mais usados hoje em dia, chegando ali na diferença na curácea de 69% do SDPO novo contra 64% do GRPO melhorado, e aprendendo 10 vezes mais rápido até em alguns casos.
E na questão de programação competitiva do Live Code Bench, o SDPO conseguiu quase 49% de acurácia contra 41% do GRPO e usando quatro vezes menos gerações para chegar nesse resultado. E ele também gera respostas mais curtas, mais concisas, fica mais fácil para fazer esse treinamento.
A conclusão foi basicamente que vale a pena usar isso para treinar modelos cada vez maiores e também que essa capacidade de autocorreção retrospectiva do próximo modelo parece ser uma coisa emergente, uma habilidade emergente com o aumento do tamanho do modelo.
E eles falam que eles acham que modelos maiores iriam se beneficiar cada vez mais dessa técnica de usar o SDPO em vez do GRPO. Enfim, paper bastante técnico para quem é da área de pesquisa. Com certeza vai ser muito interessante. Link na descrição. Maravilha. Junto com todo o resto do que a gente comentou aqui. Eu acho, Fabrício, que pela segunda semana seguida conseguimos deixar o episódio com menos de duas horas. Eu considero isso uma vitória.
Lá, na sede, na base, onde nascem muitas das coisas que a gente está comentando aqui, semana após semana. E Marcos, hoje, no dia de gravação desse episódio, eu acabei de vir da sede de uma dessas empresas aqui no Brasil para vir aqui no escritório da Alura, no estúdio, para gravar o episódio. E, muito provavelmente, essa pessoa falou que vai ajudar a gente a estar lá. Excelente. Então fica o spoiler críptico aqui para vocês.
E aí, Marcos? E aí, galera? Voltando aqui hoje para mais uma entrevista para falar de novo sobre educação, sobre inteligência artificial e com uma novidade, um novo co-host aqui, eventual, que vai participar com a gente aqui, volta e meia, o Lucas Omeltek, que é gerente de marketing lá na PM3. Como é que você está, Lucas?
E Pedro, você comentou sobre essa questão de como avaliar os alunos, se vai ser uma prova oral ou alguma coisa nesse sentido. Nesse quesito, a gente pode pensar, beleza, para aulas presenciais, é uma coisa que você está ali mais ou menos na sala de aula, o aluno está sentado por uma hora, duas horas fazendo a prova.
Você consegue, entre aspas, vigiar ele ali, então não muda muita coisa, vamos dizer assim, mas o que muda realmente é para aulas online ou esse tipo de atuação, um mestrado, um PHD, eu estou fazendo atualmente, por exemplo, um mestrado online.
E eu tô tendo que ativamente utilizar a IA como você mencionou, né? Durante os estudos, pra... Putz, será que tá faltando alguma coisa? Pra revisar algum ponto que eu não entendi muito bem? Ou eu fiz um projeto que eles mandaram e eu falo, putz, será que eu poderia adicionar isso aqui pra tornar isso melhor e ir atrás dessa coisa?
mas tem também, por exemplo, provas que são online, vamos dizer assim, no site mesmo, que eu conscientemente tenho que falar, ok, eu não vou usar o GPT, eu não vou copiar e colar ali, porque eu vou ter a resposta e não vai adiantar de nada, basicamente. E aí a ideia seria essa, fazer prova com câmera, com professor um a um, prova oral mesmo,
E tem um contexto também, só para colocar aqui, não que eu esteja defendendo isso no Brasil ou no mundo, mas eu acho que muita gente não sabe. Eu fui para a Rússia muitas vezes faz muitos anos, tive contatos com pessoas russas e lá, tanto na escola quanto na faculdade, é prova oral. Então você estuda ali, por exemplo, para matéria de jornalismo, de marketing, de engenharia,
E aí você chega lá na hora, chega todos vocês, sua sala inteira de 40 alunos, 60 alunos, 100 alunos, você vai, entra na sala um por vez, você pega um papelzinho, tem lá tipo 100 papeizinhos em cima da mesa do professor, você pega um, que vai ter uma pergunta, e você tem que ou responder oralmente, ou ir lá na lousa, se for alguma coisa matemática, e fazer ali uma pergunta aleatória na frente do professor. Só de escutar isso já me dava um tremelique, assim, um ataque cardíaco.
Eu sei que na Itália também era assim, não sei se ainda é, mas o exame de maturitá, que é como se fosse o Enem lá, quando você termina o ensino médio, para você ganhar o diploma que você conseguiu aprender o suficiente, passar no ensino médio, no Brasil a gente não tem isso, você termina, passa nas matérias e acabou. Não, lá você tem que passar ainda pelo exame de maturitá, que meio que equivale ao Enem, mais ou menos, isso aqui é mais curto, eu diria, que uma das fases é essa, você vai lá numa banca de três a cinco professores,