Tecnologia

Ollama 0.22.1 traz tool calling do Gemma 4 para o portátil sem chave de API

Susan Hill

O Ollama 0.22.1 traz um renderizador atualizado para o Gemma 4 que finalmente suporta as duas capacidades que importavam para o trabalho sério de IA local: o modo de raciocínio explícito e a chamada a funções, ou tool calling. O tool calling deixa o modelo decidir quando invocar uma função externa — abrir uma página web, consultar uma base de dados, executar um cálculo — e integra depois o resultado no seu próprio raciocínio. O modo de raciocínio expõe os passos intermédios do modelo para que uma aplicação os possa captar e agir sobre eles. As duas coisas têm sido funções que as grandes APIs em cloud cobravam. As duas correm agora em local contra o Gemma 4 sem nenhum serviço externo pelo meio.

O que faz com que isto pese mais do que mais um lançamento de modelo é a conta do hardware. A família Gemma 4 que a Google publicou com licença Apache-2.0 cobre quatro tamanhos: E2B, E4B, 26B A4B e 31B. As variantes mais pequenas correm num portátil recente com gráficos integrados e doze a dezasseis gigabytes de RAM. As versões 26B A4B e 31B pedem uma GPU de secretária, mas ficam claramente dentro do território de consumidor. A mesma arquitetura que antes obrigava a contratar uma API paga ou a montar um servidor doméstico de quatro algarismos torna-se uma instalação de uma tarde de sábado para qualquer pessoa com uma máquina razoavelmente moderna.

A consequência prática para quem não programa é que uma classe inteira de aplicações tipo agente — as que lêem o email, redigem respostas, descarregam documentos, preenchem formulários, resumem reuniões — deixa de ter de enviar esses dados para um servidor de terceiros. Um utilizador preocupado com a privacidade tinha até agora duas opções: confiar na política de dados de um fornecedor em cloud, ou correr em local um modelo bastante mais fraco sem tool calling. O meio-termo era um buraco e o Ollama 0.22.1 tapa-o para o peso do Gemma 4.

A leitura cética é que o Ollama e o Gemma 4 não são equivalentes da fronteira em cloud. Um modelo 31B alojado em local não chega ao nível do Claude da Anthropic nem do GPT-5 da OpenAI em raciocínio complexo. A precisão das chamadas a ferramentas em cadeias longas é claramente pior nas variantes pequenas. As entradas multimodais funcionam, mas mais lentas. E o esforço de integração cai em cima do utilizador: ninguém construiu ainda uma aplicação de agente Gemma 4 mais Ollama suficientemente polida para competir com um fluxo SaaS acabado. O tecto do hardware e o acabamento do software continuam a ser falhas reais.

A versão está disponível desde já através do instalador padrão do Ollama para macOS, Linux e Windows. Os pesos do Gemma 4 estão alojados na biblioteca de modelos do Ollama sob o espaço de nome gemma4, e a alteração de runtime introduzida na 0.22.1 aplica-se automaticamente a qualquer tamanho assim que for descarregado.

Discussão

Existem 0 comentários.