Fabrício Carraro
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
Aquilo que você fazia até seis meses atrás mudou o jeito de fazer. Então você está de novo no começo da sua carreira em como continuar fazendo isso de agora em diante, mas de uma outra perspectiva, de uma outra abordagem sem ter que digitar e tudo mais. Era mais ou menos essa a ideia. Mas eu acho que é muito interessante esse ponto e eu venho sentindo isso em mim mesmo algumas vezes, não tão frequentemente, mas em algumas vezes, que o que ele fala, está gerando um ganho real de...
5 vezes, 2 vezes, 10 vezes... Não importa... Mas que isso aí da exaustão... Eles chamaram até de... The AI Vampire... O vampiro da AI... Que ela te suga de alguma maneira... Que você sempre tem ideias novas... Eu sempre estou com 10 mil ideias... Mas antes... Ah, não tenho tempo... Depois eu boto... Botava no backlog...
E agora eu coloco ali no Cloud Coda, agora eu coloco ali no Google Anti-Gravity, agora eu mando para o meu OpenClaw codar isso e fazer isso para mim. Mas sempre tem alguma coisa rolando e sempre tem alguma coisa nova que antes eu acho que todos nós tínhamos essa consciência que não vai dar para fazer tudo ao mesmo tempo, então vamos focar nisso, depois vamos focar nisso, depois vamos focar nisso.
E agora que todos eles são possíveis sim, ao mesmo tempo, talvez esteja gerando esse pico de produtividade, mas essa sensação um pouco de estar sendo drenado por estar se dedicando muito a isso, seja projetos da empresa, seja projetos pessoais mesmo.
Mas eu acho muito interessante essa discussão e a gente vai trazer até mais pessoas aqui dessa área da programação, pessoas extremamente sêniores nessa área em breve, aqui no podcast, para discutir esse tema, tanto de como eles estão vendo o ganho de produtividade que essas ferramentas estão trazendo para eles,
mas se eles estão vendo também esse outro lado um pouco mais obscuro, talvez, ou que seja talvez uma questão mais de aprendizado, que a gente está todo mundo em uma fase inicial e agora a gente vai ter que aprender a lidar com isso da mesma maneira que a gente teve que aprender a lidar com...
com a internet, com as redes sociais, e não necessariamente aprendemos, ou pelo menos não muito bem. Mas talvez seja essa uma questão muito interessante, não só para a galera da tecnologia, com certeza, mas até para a galera, para o terapeuta, o seu terapeuta que está escutando aqui o podcast, ou que você vai falar sobre isso com o seu terapeuta, para a galera dessa área da sociologia, de como isso está afetando esse segmento do trabalho. Muito interessante, várias questões novas a serem analisadas aqui.
E uma última aqui também, totalmente breaking news aqui. Enquanto a gente estava gravando, o Paulo compartilhou aqui com a gente que a Cloudflare, ela mesma, a internet basicamente, o apelido da internet, eles falaram, acabaram de postar agora, chegou a hora de considerar não apenas os visitantes humanos, mas de tratar agentes como cidadãos de primeira classe.
Agora, a rede aqui da Cloudflare já vai suportar conversão de conteúdo em tempo real para a Markdown direto da fonte, usando os cabeçalhos de negociação de conteúdo. O que isso significa? Basicamente que os robôs, os agentes de ar, eles se comunicam usando o Markdown. O próprio OpenClaw, o multibot lá, eles se comunicam usando esses arquivos Markdown, que vai dizer basicamente o que ele pode, o que ele não pode. Você pode colocar o seu site ali, por exemplo, na busca para ele ser achado,
Você pode colocar um arquivo Markdown, ali, por exemplo, do robots.txt, mas agora vai ser um outro arquivo em Markdown, dizendo quais são as coisas mais importantes, mais relevantes, que aquele robô vai ter que saber sobre o seu site sem ele ter que fazer o crawl inteiro do seu site. São movimentos que já estão rolando na internet. E agora, a Crawl Fair falou que vai colocar isso como padrão. Esses pedidos muito rápidos, esses crawls que os agentes já vão fazer de agora em diante, né?
Vão ser feitos em Markdown, de uma maneira mais seca. Aquele llms.txt não vai ser exatamente o caminho a ser seguido. Muito interessante. A gente está vendo a evolução da internet em tempo real, Marcos. Que época para esse extravivo, não?
Um grande abraço aqui para o Ismael. E o segundo e último estudo de hoje, ele veio ali de um grupo de pessoas de várias universidades, vários centros de pesquisa, principalmente lá do ETH de Zurique, que vem publicando muitas coisas recentemente. Parabéns para eles aí. O Max Planck também lá da Alemanha, o MIT e Stanford. Então, galera desses quatro lugares, mas liderado pelo pessoal do ETH de Zurique. E o paper se chama Reinforcement Learning with Rich Feedback.
É aprendizado por reforço com um feedback rico, né? A sigla seria RLRF. Pra quem não tá sabendo do que a gente tá falando, Reinforcement Learning é aquela estratégia de você fazer treinamento de modelos, você basicamente faz como seria um cachorrinho, né? Você tá treinando um cachorro, você quer que ele dá a patinha. E aí, se ele dá a patinha, você dá uma recompensa pra ele. Se ele late pra você, se ele morde sua mão, você grita, você fala, ''Não! Muito alto!''
dar um tapinha, alguma coisa nesse sentido. Você dá uma punição. Essa é a ideia básica de como funcionam algoritmos de aprendizado por reforço. Você tem uma política que você define e aí você dá uma recompensa ou uma punição e você roda isso por milhões de vezes, milhões de interações e aí o modelo vai aprendendo a partir disso a fazer coisas. Você pode, por exemplo, ensinar o modelo a sair de um labirinto e tem vezes que o labirinto está indo para frente e para frente e ele vai ter que ir para trás.
que em teoria poderia ser uma punição, ele está voltando, mas às vezes quando você vai para trás, você chega mais perto da saída final, dependendo de como for estruturado esse labirinto. Então você teria que, por exemplo, maximizar não exatamente cada passo que vai aumentando ali, essa proximidade da saída, mas o fato se ele chegou ou não na saída correta no final das contas e aí mostrar como treinar, ele vai sendo treinado, ele vai aprendendo por conta própria, entre aspas, com base nessa política, como chegar na saída.
Isso aqui é uma explicação mais de alto nível do que é o aprendizado por reforço. Isso vem sendo usado desde o chat GPT, antes na verdade, mas o chat GPT meio que revolucionou isso para modelos de linguagem quando eles introduziram a técnica de RLHF, o aprendizado por reforço, reinforcement learning, with human feedback, com feedback humano.
Então, vários humanos, pessoas reais, que eles contrataram lá na Venezuela, no Quênia, isso é muito falado no livro da Karen Hall, o Empire of AI, mas também de outros lugares, obviamente, para votar. Essa resposta é mais legal, é melhor do que aquela outra, ou ela é mais amigável, isso é que o humano gostaria de ver mais do que aquilo outro.
E aí, isso é uma área de pesquisa muito grande nesse campo da inteligência artificial, porque se você conseguir otimizar o aprendizado por reforço, você consegue quase que resolver o problema, ou pelo menos chegar muito mais longe nesse problema de treinar modelos de uma maneira mais econômica, você conseguindo otimizar isso.
Veio aí o pessoal, o Rafael Raffailov, que a gente entrevistou aqui, ele criou uma técnica também de aprendizado por reforço, DPO, que foi utilizada por algum tempo. Depois o pessoal da DeepSeq veio lá no paper, que revolucionou tudo, e lançaram o GRPO, que é o Group Relative Policy Optimization, a otimização de políticas relativas a um grupo. E eles usaram isso para treinar os modelos DeepSeq e viram que era muito mais ótimo fazer isso de maneira muito melhor.
E aí tem várias técnicas que são usadas. Tem, por exemplo, o RLVR, que seria Reinforcement Learning with Verifiable Rewards, com recompensas verificáveis, que seria você dar um código que você consegue saber se o código está funcionando ou não. Você não precisa de uma pessoa analisando ali para ver se essa resposta está correta ou incorreta.