Dois pontos sob Opus 4.6, cinco vezes mais barato: Gemini 3.5 Flash refaz a conta

A Google lançou o Gemini 3.5 Flash na segunda-feira a 1,50 dólares por milhão de tokens de entrada e 9 dólares por milhão de saída. O novo modelo sustenta mais de 280 tokens de saída por segundo, mantém a mesma janela de contexto de um milhão de tokens do antecessor e instala-se no Artificial Analysis Intelligence Index com 55 pontos, nove acima do Gemini 3 Flash. Na manhã de terça-feira, um tópico em r/Anthropic já tinha colado o gráfico ao lado do de Claude Opus 4.6 e formulado a pergunta que o mercado anda a rodear há seis meses: a partir de que ponto uma vantagem de dois pontos num benchmark deixa de justificar um preço cinco vezes superior?

O Intelligence Index agrega um conjunto de avaliações públicas — raciocínio, conhecimento, programação, matemática e cumprimento de tarefas agênticas — numa única nota de 1 a 100. O Claude Opus 4.6, em modo de raciocínio adaptativo, fica em 57. O Gemini 3.5 Flash, lançado a 19 de Maio, fica em 55. A subida de nove pontos entre versões é o maior salto que o Flash registou de uma só geração para a seguinte, suficiente para o novo modelo igualar o Sonnet anterior da Anthropic em inteligência bruta a uma fracção do custo do Sonnet.

O enquadramento “mais inteligente” que o tópico do Reddit usou exagera a diferença a favor do Flash. No Intelligence Index puro, o Opus 4.6 mantém-se à frente por dois pontos. O gráfico que rebentou o tópico não é o Intelligence Index isolado. É a vista eficiência-de-inteligência face ao custo, em que o eixo faz outro trabalho e em que o Flash 3.5 não se limita a bater o Opus 4.6. Está num pelotão em que mais ninguém anda perto.

O Opus 4.6 cobra cerca de 6,25 dólares por milhão de tokens de entrada e 25 por milhão de saída. O Flash cobra 1,50 e 9. Para uma carga de chat com peso dois para um a favor da saída, o rácio efectivo fica mais perto dos 4,5x do que do “cinco vezes” redondo do título. O arredondamento é honesto. A velocidade piora o quadro para a nave-almirante: o Flash 3.5 sustém mais de 280 tokens de saída por segundo e o Opus 4.6 em modo de raciocínio de esforço máximo anda por cerca de um décimo desse ritmo na mesma bateria de testes. Para produtos em que o utilizador fica a olhar para um cursor — assistentes de programação, agentes de apoio ao cliente, qualquer fluxo interactivo —, a latência é uma característica que o preço não recompra.

Há um ano, o argumento para comprar o modelo mais caro cabia numa linha. O salto de qualidade para o patamar seguinte era largo o suficiente para a diferença de preço ser um erro de arredondamento face ao valor entregue. O gráfico que o tópico colou é outro gráfico. O custo marginal dos últimos dois pontos de inteligência tornou-se a decisão de preço inteira para cargas de produção, e o erro de arredondamento aterra agora mais perto de 4,75 dólares em cada seis gastos.

Há um argumento limpo para manter o Opus 4.6 na stack. Raciocínio de contexto longo sobre centenas de páginas, loops de agente em que os erros se acumulam passo a passo, análise documental em que uma diferença de dois pontos numa nota agregada esconde vantagens muito maiores em tarefas específicas. O Opus continua a ser o modelo a que um engenheiro recorre quando o modo de falha é “a resposta estava errada”, não “a resposta chegou tarde”. A fatia de cargas de produção que se parece com isso está a encolher. Não é zero, e é precisamente a faixa em que os 25 dólares por milhão ganham o ordenado.

Os turnos de chat que movem a maior parte do tokenagem facturável — redacção, resumo, classificação, tradução, autocompletamento de código, raciocínio virado para o cliente — cabem todos no alcance do Flash. A pergunta que as equipas de engenharia fazem todos os trimestres já não é “qual o melhor modelo”. É “qual o modelo que dá mais por dólar com latência aceitável”. Essa segunda pergunta o Flash ganha agora por uma margem que não pede subtileza para se interpretar.

O enquadramento secundário do tópico, segundo o qual o consenso em todo o lado é que o Opus 4.6 é melhor do que o 4.7, merece um tratamento mais suave. É anedótico. As duas últimas versões de Opus da Anthropic têm recebido análises divididas em avaliações de código e no rigor do uso de ferramentas, com equipas a reportar regressões em loops de agente longos no 4.7 e outras a reportar vitórias limpas em cargas idênticas. As duas coisas podem ser verdade ao mesmo tempo quando o comportamento é afinado em vários eixos entre versões menores. Os dois modelos ficam ainda a menos de um ponto um do outro no índice público, pelo que a fractura da comunidade se parece mais com uma questão de gosto do que de capacidade. O que está fora de discussão é que o preço de qualquer dos dois Opus não se mexe.

O sinal mais profundo na conversa do Reddit é aquilo que os utilizadores não estavam a discutir. Ninguém no tópico defendeu o preço do Opus em termos gerais. As defesas que apareceram eram específicas a uma carga. “O Opus continua a ganhar-me neste loop de agente”. “O Opus fica na nossa pipeline de revisão de documentos”. São verdadeiras, mas são defesas de carga, não defesas de nave-almirante. Uma nave-almirante deveria ganhar no conjunto, não numa pista específica.

Dois pontos de diferença de inteligência. Cinco vezes o preço. Seis vezes a vantagem de velocidade no sentido oposto. Uma janela de contexto de um milhão de tokens a 1,50 dólares o milhão de entrada. Entrada multimodal, Elo em tarefas agênticas acima de 1650, desconto de noventa por cento na entrada em cache. A resposta da Anthropic no próximo trimestre vai contar a sua própria história. O argumento mais difícil de redigir, em Maio de 2026, é o que um comercial tem de levar consigo a uma reunião com um cliente.

Etiquetas: tech-en1, Anthropic, Google, ia, Artificial Analysis, benchmarks de LLM