Fabrício Carraro
👤 SpeakerVoice Profile Active
This person's voice can be automatically recognized across podcast episodes using AI voice matching.
Appearances Over Time
Podcast Appearances
1.009 tokens por segundo, rodando ali numa NVIDIA Blackwell, e também muito mais barato. Ele custa 25 centavos de dólar por 1 milhão de tokens no input, 75 centavos de dólar por 1 milhão de tokens no output. Você pode falar, tá, mas não vai ser tão bom assim, né? Talvez a qualidade seja ruim. Eles fizeram, eles passaram nos benchmarks, por exemplo, no AIME, lá de matemática, que a gente sempre fala, no TAL,
que é aquele de programação agêntica, de como fazer isso com código, no Deep Keyway Diamond, que são perguntas de nível PHD, e ele funcionou no mesmo nível, ou melhor, que os modelos pequenos que a gente considera das grandes empresas. Então, o Cloud 4.5 Haiku, não no modo de Reasoning, no modo normal, o GPT-5 Nano, o Gemini 2.5 Flashlight, o Gemini 3 Flash de Reasoning,
Funcionou talvez pior do que o Gemini 3 Flash na questão de reasoning, mas funcionou praticamente igual ao Gemini 2.5 Flash com reasoning. Funcionou quase igual que o Gemini 5 Mini ali no nível médio de pensamento.
funcionou bem melhor do que o GPT-5 Nano, bem melhor do que o Cloud 4.5 Haiku sem o pensamento e melhor até, na maioria dos benchmarks, do que o Cloud 4.5 Haiku mesmo com o Reasoning. Ou seja, é um modelo do nível desses pequenininhos, né?
que funciona tão bem ou melhor do que eles, só que ele roda 5 vezes, 10 vezes mais rápido. Eles fizeram uma comparação aqui. O Cloud Raikou 4.5 roda a 89 tokens por segundo nessa GPU Black Hole da NVIDIA.
lembrando ele roda a 1009 89 contra 1009 tokens por segundo, então é absurdamente mais rápido e eles acharam aqui um nicho muito interessante essa pesquisa, eu quero muito bater um papo com o professor Stefano Hermann que trabalha em Stanford e é um dos caras que está por trás aqui da pesquisa da Inception, se você tiver o contato puder fazer o meio de campo, vai falar comigo lá no meu LinkedIn que quero muito bater um papo com ele sobre esse Mercury 2
E a outra notícia, a última rapidinha aqui de hoje, que todo mundo adorou, todo mundo da comunidade open source, é que o pessoal lá da GGML vai para a Hugging Face. A Hugging Face contratou todo mundo lá. A GGML, para quem não sabe, eles são os criadores da biblioteca Lhama CPP. Porque o Lhama CPP é uma das bibliotecas, um dos repositórios mais elogiados, que todo mundo adora, todo mundo usa muito.
para fazer quantização, para trabalhar ali, rodar localmente modelos de linguagem. E o George Gerganov, que é o líder da GGML, foi lá, todo mundo parabenizou. Enfim, a comunidade ficou muito feliz. E nos estudos da semana, a gente tem só um hoje aqui, da Anthropic. Eles lançaram até mais estudos, só que a gente vai deixar para a semana que vem, porque já está ficando longo o programa de hoje e eu estou cansado depois do meu voo, Marques.
Mas esse estudo aqui se chama Measuring AI Agent Autonomy in Practice, que seria medindo a autonomia de agentes de IA na prática, feito pela galera da própria Anthropic ali e analisando milhões de interações reais de pessoas com agentes de IA, principalmente usando o Cloud Code e a API também da Anthropic.
para entender quanta autonomia que a galera geralmente dá para os modelos de IA, para os modelos Cloud, via API, via Cloud Code, e quais são as áreas que eles estão sendo usados, onde eles são mais arriscados, onde menos e tudo mais. E eles notaram que a autonomia está crescendo. Nas sessões mais longas que a galera usa o Cloud Code, o tempo de trabalho que a galera fica no mesmo problema ali,
quase dobrou nos últimos três meses, passando de menos de 25 minutos, algo em torno de 22 minutos, para agora mais de 45 minutos. A galera que é mais experiente, programador sênior e tudo mais, eles tendem a permitir que o agente trabalhe sozinho
com mais frequência, sem pedir a autorização, a aprovação, que você pode pedir para ele, por causa de code, eu quero que você sempre peça autorização antes de trocar a parte do código, ou algo nesse sentido. A galera mais experiente, eles sobem esse nível da aprovação automática, tipo, só vai, YOLO mode, GOD mode,
de 20% para 40% nas sessões deles. Mas eles também sabem quando parar o modelo, mais do que pessoas menos experientes. Eles sabem mudar a estratégia, falar não é por aí, vamos por aqui, ou seja, supervisionar basicamente o processo de trabalho ali.
E eles acharam interessante que o próprio Claude, muito frequentemente, ele pausa o que ele está fazendo ali para pedir esclarecimentos. Olha, não entendi muito bem para onde você quer que eu vá, que é exatamente o que você quer de um modelo que vai trabalhar por muito tempo em uma tarefa, né? Porque se ele vai rodar, igual a gente falou na notícia do Meter mais cedo, 14 horas e meia em um problema só, você quer que depois de 14 horas e meia o resultado seja correto. Você não quer que ele seja...
Eu achei que era por aqui, mas aí ele faz todo o relatório, seja lá o que for, muda a base de código inteira e sai um negócio que não era aquilo exatamente que você queria. Então é bom que ele pergunte, que ele peça esclarecimentos. Se eu quiser que depois de 14 horas dê errado, faço eu mesmo.
Exatamente. E na parte do risco, eles falaram que a maioria das ações que a galera usa, esses modelos, é de muito, muito baixo impacto e totalmente reversível. Principalmente coisas de engenharia de software, que é quase metade do uso total do pessoal que usa o Cloud Code e a API. Mas tem alguns casos emergentes que eles perceberam em áreas como saúde, cibersegurança e finanças, que tem ações mais arriscadas, mas isso é bem raro.
E mesmo assim, 80% das ações teriam algum tipo de salvaguarda, de guardrails para aplicar, e só 0,8% são irreversíveis, que é uma coisa que eles querem ainda diminuir. E no final eles concluem, a gente está ainda muito, como eu sempre falo, na era de Santos Dumont da adoção de agentes de IA, e essa fronteira da autonomia que você vai dar para os modelos e para os sistemas...
E do risco também, isso tende a aumentar muito agora nos próximos meses de 2026, 2027, por isso eles querem criar sistemas melhores de monitoramento, pós-implantação, quando ele já está rodando, e claro, novos modelos também cada vez mais seguros.
vai agora no link que tá aqui na descrição, manda lá pra Startse, pra você ir viajar com a gente pro Vale do Silício de 31 de agosto a 4 de setembro desse ano. Boa. E eu e o Fabrício voltaremos na quarta-feira com uma entrevista que se eu fosse você, eu não perderia. Até lá.
host do podcast Carreiras Sem Fronteiras e Program Manager da Alura Fabrício. Tudo bem? E aí, Marcos? E aí, pessoal de casa? Bem-vindos e bem-vindas a mais um episódio. E eu acho que é hoje que a gente vai ir no laboratório que talvez vai descobrir a AGI. É isso mesmo, Marcos? Eu espero que sim. Seremos guiados pelo Filipe Blanes, que é Senior Technical Program Manager lá na Amazon AGI.