Tecnologia

O novo modelo de voz da OpenAI pensa dentro do próprio ciclo de áudio, e o silêncio que denunciava a IA desaparece

Susan Hill

A pausa é o que denuncia. Até aqui, a IA por voz trabalhava transcrevendo a fala, enviando o texto a um modelo de linguagem, recebendo a resposta e sintetizando-a de novo em áudio. Cada passo demora. O utilizador ouve silêncio, percebe que algo está a ser processado do outro lado, nota a costura. O novo GPT-Realtime-2 da OpenAI colapsa toda essa pipeline num único modelo em que o raciocínio decorre dentro do próprio ciclo de áudio, e a costura desaparece.

A OpenAI lançou esta semana três novos modelos de áudio na sua Realtime API — GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. O cabeça-de-cartaz é o primeiro. A empresa descreve-o como o primeiro modelo de voz com “raciocínio de classe GPT-5”, construído para que um único modelo trate do áudio à entrada e à saída, com o pensamento entrelaçado na conversa em vez de espremido entre os passos de transcrição e síntese. Os números que o suportam são concretos. A pontuação no Big Bench Audio subiu de 81,4 por cento para 96,6 por cento face ao modelo de referência anterior. O Audio MultiChallenge passou de 34,7 por cento para 48,5 por cento. A janela de contexto passou de 32 000 tokens para 128 000 — espaço suficiente para segurar o histórico inteiro de um cliente durante uma chamada.

A deslocação estrutural vê-se menos nos benchmarks. Durante três anos, qualquer pessoa que montasse um agente de voz para produção tinha de coser o stack à mão — Whisper ou Deepgram para a transcrição, um LLM para o raciocínio, ElevenLabs ou Cartesia para a voz, e prompting para esconder a latência. Cada salto entre peças custava milissegundos e nitidez. O utilizador ouvia um “deixe-me verificar isso” enfiado por um script, depois nada enquanto o modelo pensava, e por fim a resposta. O GPT-Realtime-2 traz esses andaimes como comportamento nativo. Os preâmbulos permitem que o agente diga “deixe-me verificar isso” enquanto chama ferramentas, evitando que o utilizador fique sentado em silêncio. As chamadas paralelas a ferramentas deixam o modelo disparar vários pedidos ao backend ao mesmo tempo e narrar qual está a correr. O comportamento de recuperação apanha as falhas e mostra-as em vez de congelar a conversa.

A superfície de controlo que se abre para programadores é a parte mais interessante. O “esforço de raciocínio” é configurável — minimal, low, medium, high e xhigh — com low como predefinição para manter a latência baixa em pedidos simples. Um agente que responde “a que horas fecham?” não precisa de raciocínio de classe GPT-5. Um agente que acompanha um cliente numa disputa de reembolso precisa. O mesmo modelo pode receber instruções de quanto pensar a cada turno, o que é uma mudança real face ao modelo anterior, em que a profundidade de raciocínio era fixa e o programador escolhia entre rápido ou inteligente no deploy.

O ceticismo tem o seu lugar. “Raciocínio de classe GPT-5” é uma linha de marketing, não uma afirmação verificável — sem benchmarks independentes corridos sobre diálogo realista, a comparação fica interna. Os agentes de voz têm um modo de falha à parte que os benchmarks apanham mal — o momento em que o agente diz algo errado com voz calma e natural. Raciocinar melhor ajuda, mas não elimina o problema. O preço também conta. O GPT-Realtime-2 custa 32 dólares por milhão de tokens de áudio à entrada e 64 por milhão à saída. O GPT-Realtime-Translate fica em 0,034 dólar por minuto e o GPT-Realtime-Whisper em 0,017. Suficientemente barato para apoio ao cliente em volume alto. Não tão barato como para o usar em produtos de consumo conversacionais sem pensar bem na duração de cada sessão.

O contexto de implementação conta o resto da história. A Zillow pôs no ar pesquisa de habitação por voz no mesmo dia. A Deutsche Telekom implantou suporte de voz traduzido em direto em catorze mercados europeus. Os dois são exatamente o caso de uso para o qual a OpenAI fixa o preço — conversas longas, transacionais, densas em contexto, em que o utilizador beneficia de um agente que raciocina a sério em vez de apenas consultar. A Priceline está a construir sistemas que permitem aos viajantes gerir reservas de hotel e acompanhar atrasos de voo inteiramente por voz. O padrão por detrás dos nomes que a OpenAI solta primeiro é claro — os clientes citados são aqueles cujos sistemas de voz anteriores funcionavam pior — call centers, linhas de apoio, viagens transacionais. Os sítios onde o utilizador, hoje, grita “operador” para o telefone.

Os modelos estão disponíveis na Realtime API neste momento. As melhorias de voz para o ChatGPT continuam pendentes — “Fiquem atentos, estamos a cozinhar”, disse a OpenAI. Sam Altman enquadrou o lançamento em torno de uma mudança de comportamento — os utilizadores recorrem cada vez mais à voz com IA quando precisam de “despejar” muito contexto. Se esse padrão se aguentar, a distância entre IA por voz e IA por texto começa a fechar-se — e a costura que denunciava a IA ao telefone torna-se mais difícil de ouvir.

Discussão

Existem 0 comentários.