Tecnologia

Claude Opus 4.8 deteta quatro vezes mais erros no próprio código

Susan Hill

A Anthropic atualizou o seu modelo mais capaz para o Claude Opus 4.8, e a mudança principal não é um cérebro maior, mas um mais cauteloso. A empresa afirma que o modelo tem cerca de quatro vezes menos probabilidade do que o antecessor de deixar passar sem comentário falhas no código que escreve, e que está mais disposto a assinalar as partes de uma tarefa de que não tem a certeza. Para quem entrega trabalho real a uma IA, seja programar, conduzir uma análise ou operar um computador, essa fiabilidade é a característica que realmente conta.

O ponto fraco dos agentes de IA de hoje não é a estupidez, mas a confiança. Produzem resultados que parecem terminados e leem-se sem tropeços enquanto carregam erros em silêncio, e um sistema que corre sozinho tende a construir o passo seguinte sobre o erro anterior. Dê-se a um agente uma tarefa de vários passos e um único pressuposto errado no início pode propagar-se por tudo o que se segue, de modo que o trabalho chega com ar de completo e revela-se partido sem que se note. Um modelo que mostra as próprias dúvidas, em vez de as encobrir, é mais fácil de supervisionar, porque a pessoa sabe onde olhar.

A prova mais clara está na programação. A Anthropic relata que o Opus 4.8 deixa passar bastantes menos falhas no código que produz sem as assinalar, aquele bug silencioso que surge em produção e não na revisão. A gestora de investimentos Bridgewater Associates, uma das primeiras a testar, disse que o modelo apontava por iniciativa própria problemas tanto nas entradas como nos resultados de uma análise, algo que outros sistemas deixavam passar com frequência. No trabalho de conhecimento e nas finanças, o erro perigoso é justamente o que ninguém deteta a tempo.

Os números dos benchmarks sustentam o enquadramento sem serem o ponto central. O Opus 4.8 terá obtido 69,2 por cento no SWE-Bench Pro, um teste montado com tarefas reais de engenharia de software, à frente do GPT-5.5 da OpenAI e do Gemini 3.1 Pro da Google. Nas próprias medições da Anthropic, supera todos os modelos Opus anteriores num teste de programação em cada nível de esforço e fixou o melhor resultado alguma vez registado pela empresa num exame de raciocínio jurídico. As vantagens são reais, mas estreitas, e as vitórias em benchmark preveem mal como um modelo se comporta quando faz trabalho cinzento o dia inteiro.

O modelo chega com ferramentas novas. Uma funcionalidade em pré-visualização de investigação dentro do Claude Code, chamada dynamic workflows, permite ao Opus planear um grande trabalho e depois correr centenas de subagentes em paralelo numa só sessão, pensada para migrações que abrangem centenas de milhares de linhas de código e usando como bitola o conjunto de testes que o projeto já tem. Além disso, um novo controlo no Claude.ai e no ambiente Cowork da empresa permite ajustar quanto esforço, e quantos tokens, o modelo gasta em cada resposta.

As reservas andam coladas às promessas. Os ganhos de fiabilidade assentam em grande parte nos testes internos da Anthropic, e um número como quatro vezes menos é uma medição própria, não auditada de forma independente. A honestidade também é difícil de verificar de fora, porque um modelo pode anunciar a sua incerteza e errar à mesma, ou levantar a bandeira na coisa errada. O dynamic workflows chega apenas como pré-visualização, não como funcionalidade acabada, e a história da velocidade é menos generosa do que parece, já que o modo rápido custa o dobro da tarifa padrão e só é dito mais barato face a preços premium anteriores.

Para quem olha para o custo, o acesso padrão mantém-se em cinco dólares por milhão de tokens de entrada e vinte e cinco por milhão de saída, igual ao Opus anterior. O modo rápido corre a cerca de duas vezes e meia a velocidade por dez e cinquenta dólares por milhão, o que torna o novo controlo de esforço tanto uma ferramenta de orçamento como um botão de qualidade. O Claude Opus 4.8 está disponível desde já pela API para programadores da Anthropic com o nome claude-opus-4-8, e a empresa diz que o lança em todo o lado no mesmo dia. Chegou na quinta-feira, cerca de seis semanas depois do Opus 4.7, um intervalo invulgarmente curto que se seguiu a uma receção morna daquela versão e a uma série de lançamentos rivais da OpenAI e da Google. O teste a sério é saber se um modelo treinado para duvidar de si mesmo se revela mais útil no dia a dia do que um treinado para brilhar num ranking, e esse veredicto virá dos agentes que as pessoas de facto deixam correr.

Discussão

Existem 0 comentários.