Fabrício Carraro
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
E aí, esse novo sistema aqui, que eles chamaram de Constitutional Classifiers Plus Plus, mais mais, como o do C++, vai ser uma arquitetura em duas etapas e em ensemble, em conjunto, que é muito mais eficiente. O primeiro classificador vai ter uma leve análise de quase todo o tráfego de mensagens, usando alguns probes internos, que são sinais internos,
extraído das ativações internas do próprio modelo. Tem tudo a ver com as pesquisas que a gente sempre comenta aqui da Anthropic, pesquisas de interpretabilidade, das features lá, voltando desde a pesquisa da Golden Gate Bridge, do Persona Vectors também. Então tem tudo a ver com isso. E esse dado é obtido praticamente sem nenhum custo computacional. E aí quando ele acha que essa conversa é potencialmente suspeita,
Aí sim ele vai escalar para um classificador mais poderoso que vai analisar tanto a entrada quanto a saída juntas e aí vai conseguir evitar esses jailbreaks de uma maneira um pouco melhor. E eles falaram que o resultado foi expressivo. Em vez de adicionar 24% de poder computacional, de uso de computador...
Ele adiciona 1% só e reduziu essa taxa de recusa das perguntas inofensivas para 0,05%, que foi uma queda de 87% em relação aos anteriores. Eles fizeram testes lá em quase 200 mil tentativas de ataques.
1.700 horas de red team, o time que está tentando quebrar o modelo, não teve nenhum jailbreak universal descoberto. Então, muito bem, bem legal para a galera de alinhamento e interpretabilidade da Anthropic.
O terceiro paper, esse talvez seja o mais interessante se o que eles estão falando aqui for se provar real. Hewdiff Drew, como diria Elon Musk. Exatamente. Veio lá do pessoal da Sakana AI, lá do Japão, que eles apresentaram uma técnica chamada Drope, que basicamente o contexto aqui de tudo isso é, quando a gente está treinando um LLM,
você treina ele ali numa janela de contexto específica. Quantas palavras, quantos tokens ele consegue manter em um mesmo chat, ou em uma mesma conversação, ou em um mesmo contexto. A gente geralmente chama isso de janela de contexto. E que é muito difícil você fazer isso para janelas de contexto maiores. Lembrando, hoje em dia, se não me engano, o chat GPT na página, no aplicativo do chat GPT normal, de usuário final...
Ele tem uma janela de contexto de em torno de 32 mil tokens. E aí pela API ele sobe para 400 mil com as novas versões do GPT-5. O Cloud ficou parado lá nos 200 mil. O Google é a única que o Gemini tem 1 milhão de tokens e ele, entre aspas, consegue achar detalhes.
em 1 milhão de tokens. E pra quem não tem uma noção muito boa, 1 milhão de tokens seria algo em torno de 18 livros inteiros. Você passa pra ele 18 livros inteiros do... Você pega o Harry Potter inteiro ali, todos os 7 livros da série Harry Potter. Ou os 3 livros do Senhor dos Anéis, ou todos os livros do Ken Follett. Manda pra ele lá e pergunta...
O que aconteceu lá quando eu tinha um personagem que estava olhando o mapa do maroto? Qual foi a frase que o personagem falou lá? Ou qual era o nome do mapa que você consegue ver onde as outras pessoas estão andando? E isso é um teste que o pessoal faz, que é o teste da agulha no palheiro, nido na haystack, para ver se em contextos muito grandes...
ele consegue pegar detalhes ali, ou ele se perde, alucina e começa a inventar coisas. Esse é o contexto geral. É difícil fazer isso. E para fazer isso, quando a gente está ali treinando os modelos e tudo mais, usando essa arquitetura de Transformers, o modelo não tem, por si só, nessa arquitetura, uma ideia da posição...
dos tokens ali, das palavras. Então, se falar, tipo, o gato comeu o cachorro, o cachorro comeu o gato, pra ele, meio que, inicialmente, tanto faz. E até por isso, tem um cara ali na arquitetura de Transformers que é chamado de Positional Encoding.
que ele vai guardar, entre aspas, a posição relativa desse token em relação aos outros. Então, você vai saber se pertence a essa parte da frase ou essa parte desse contexto inteiro. É assim que eles têm. Então, colocando isso ali na hora do treinamento, você vai dando textos, vai dando a internet inteira para o seu modelo aprender. E aí...
você tem que tentar aumentar essa janela de contexto, porque modelos muito pequenos acabam sendo inúteis, porque ele vai perder esse contexto muito facilmente. E eles fazem isso usando uma técnica que é chamada de ROPE, que é como se fosse, mal é mal comparando,
Imagina se coloca os andames em volta do prédio na hora de você construir o prédio. Só que quando a gente vai usar o modelo lá na frente, os LLMs, a gente ainda está com os andames no prédio. Então o prédio está pronto, só que a gente mantém ali os andames para manter essa estrutura de onde cada coisa vai basicamente. É uma analogia aqui que eu estou fazendo, mas em alto nível é mais ou menos assim que funciona por trás dos panos.
E a ideia do pessoal lá da Sakane AI foi, por que a gente não tira os andames? É uma coisa que pode parecer muito básica, mas que ninguém tinha pensado até agora, porque todo mundo falava, ok, se a gente tira os andames, o prédio cai. Então, isso aqui não é andame, na verdade, isso aqui é a fundação, é a própria estrutura. E eles olharam para isso como...
talvez não seja a fundação, talvez seja só um andaime por fora mesmo. E eles falaram, beleza, o rope, tudo isso, é muito legal, é extremamente útil, até imprescindível, por enquanto, para usar durante o treinamento do modelo, só que quando a gente quer extrapolar para contextos maiores, para aumentar essa janela de contexto dos modelos,
ele acaba sendo uma coisa desnecessária, porque ele acaba travando muito e acaba ficando muito caro computacionalmente para aumentar isso aí para sequências muito longas, porque a atenção, que é aquela parte da arquitetura do modelo que ela consegue ver todas as partes da frase ao mesmo tempo, basicamente, e saber qual é mais importante para mim agora, ela cresce com um custo quadrático. Então é muito caro, muito custoso isso.
E aí você fazer isso para aumentar o tamanho da janela de contexto do modelo, acaba ou custando demais ou acaba faltando dado que seja realmente longo e limpo. Então eles falaram, putz, vamos tentar remover isso daí, tirar, tratar esses embeds posicionais como só o andame mesmo. Então a gente faz o treinamento normal do LLM usando o ROPE,
e no final a gente remove o andame a gente remove os embeds posicionais a gente faz uma recalibração curtinha ali usando o mesmo comprimento original pra tentar recuperar essa performance do modelo base mas aí a gente vai fazer esse treinamento pra aumentar a janela de contexto dos modelos sem ele