junho 29, 2026 - Peers Consulting

Custo de Tokens de IA: por que a conta não para de subir mesmo com o preço caindo

A inteligência artificial generativa entrou nas empresas com promessa de ganho de produtividade. O problema que está surgindo agora é outro: quanto mais a IA trabalha, mais tokens são consumidos, e em muitos casos a conta cresce mais rápido do que o retorno que justifica o investimento.

Em análise publicada no Canaltech, Marcello Mussi, sócio-diretor da Peers Consulting + Technology, explica por que esse comportamento é inerente à forma como os agentes de IA funcionam, e o que as empresas precisam fazer antes que a fatura surpreenda.

Por que o custo de tokens de IA continua subindo mesmo com o preço caindo?

Porque o volume e a complexidade das tarefas crescem mais rápido do que a queda do preço unitário.

A Gartner projetou que, até 2030, o custo de inferência para provedores de IA generativa será reduzido em mais de 90% em relação a 2025. Modelos de 2030 serão até 100 vezes mais eficientes do que as primeiras tecnologias de tamanho similar. Mesmo assim, sistemas agênticos exigem entre 5 e 30 vezes mais tokens por demanda do que um chatbot padrão, segundo a mesma consultoria. A conta total sobe porque o uso se expande em complexidade e volume antes que a eficiência dos modelos compense.

Os sinais já aparecem em empresas concretas. O GitHub instituiu cobrança baseada em uso no Copilot e recebeu reclamações de usuários que viram seus créditos mensais consumidos em poucas horas. A Uber instituiu um teto mensal por funcionário e por ferramenta de codificação agêntica depois de consumir seu orçamento anual de IA em apenas quatro meses.

A Cisco, segundo seu CEO em teleconferência de resultados, viu o uso de tokens ficar “bem fora do comum” depois que um terço dos funcionários passou a usar diariamente um chatbot interno.

O padrão é consistente: a adoção cresce, o consumo surpreende, e as empresas descobrem o problema quando a despesa já ocorreu.

Como os agentes de IA mudam a matemática do consumo?

Essa é a pergunta que muda o enquadramento do problema. A maioria das empresas ainda projeta custo de IA como se estivesse lidando com chatbots: uma pergunta, uma resposta, um custo previsível. Agentes funcionam de forma radicalmente diferente.

Segundo Marcello Mussi, sócio-diretor da Peers Consulting + Technology, em análise publicada no Canaltech, isso acontece porque agentes não executam apenas uma solicitação pontual.

“Ao atribuir uma missão ou função a um agente, essa função normalmente é recursiva e cíclica. Ela permanece em execução, não realiza uma tarefa pontual e encerra.”

Na prática, um agente de atendimento pode receber a pergunta de um cliente, consultar o histórico de compras, buscar regras internas, verificar o status de um pedido e revisar a resposta antes de enviá-la. O usuário vê apenas a mensagem final, mas cada etapa intermediária consome tokens e entra na fatura.

Mussi acrescenta que quando um agente interpreta mal uma instrução, executa uma atividade equivocada e depois corrige a rota, todos esses passos também são cobrados. Na prática, a empresa paga pelo acerto e também pelas tentativas que não produziram valor.

Muitas empresas ainda calculam projetos de IA agêntica como se fossem chatbots tradicionais. Na fase de protótipo, a conta considera uma chamada por interação. Em produção, o agente pode operar em loop, fazer várias iterações e acionar ferramentas externas. Uma requisição inicialmente estimada como simples pode consumir muito mais tokens quando encontra situações reais.

O retorno da IA ainda não acompanha o crescimento do gasto

A adoção de IA é ampla, mas o retorno financeiro aparece de forma desigual. O estudo State of AI da McKinsey indica que quase nove em cada dez organizações usam IA regularmente em ao menos uma função. Mas apenas 39% atribuem algum ganho de EBIT ao uso da tecnologia, e quando atribuem, a contribuição costuma representar menos de 5% do resultado operacional.

Esse gap entre adoção de tecnologia e resultado operacional é exatamente onde o custo dos tokens ganha peso: a tecnologia pode funcionar, mas precisa operar a um custo compatível com o valor que entrega.

Parte do problema está na escolha dos modelos. Muitas empresas usam modelos de IA mais potentes e mais caros em tarefas simples, como classificar o tom de um e-mail de cliente como positivo ou negativo. Nesses casos, o gasto com tokens pode superar o ganho de produtividade, porque uma solicitação menos complexa, repetida em grande volume, fica mais cara quando executada por um modelo de fronteira.

A IDC projeta que os gastos globais com infraestrutura de IA chegarão a US$ 487 bilhões em 2026, alta de aproximadamente 53% em relação ao ano anterior. Até 2029, o mercado global de infraestrutura de IA deve superar US$ 1 trilhão, com crescimento médio anual de cerca de 30% a partir de 2025.

Como estruturar a governança financeira de IA antes que a conta surpreenda?

Controlar os gastos de IA não depende apenas de olhar a conta no fim do mês. Quando modelos generativos entram em produtos, atendimentos e fluxos internos, parte da governança precisa ser desenhada dentro do próprio sistema.

Segundo a Gartner, a surpresa com o consumo de tokens revela uma lacuna de governança financeira em IA: falta transparência nos relatórios de uso, integração entre equipes técnicas e financeiras e políticas claras de gestão de custos. Sem métricas de uso e alertas automatizados, as empresas só descobrem o problema quando a despesa já ocorreu.

A lógica se aproxima da computação em nuvem, em que equipes acompanham o consumo por serviço, área e aplicação. No caso da IA, a conta precisa ser acompanhada por usuário, produto, cliente, modelo e tarefa, porque cada escolha técnica pode alterar a despesa final.

Há três práticas que fazem diferença estrutural:

Roteamento inteligente de modelos: reservar sistemas mais robustos para tarefas complexas e usar modelos mais leves para operações simples, como correção de texto ou classificação inicial. Sem esse critério, o custo de tarefas simples repetidas em grande volume pode superar o ganho de produtividade.
Tetos de consumo por ferramenta ou usuário: como a Uber adotou, limitar o quanto cada área ou aplicação pode consumir por período evita que um agente em loop queime o orçamento da empresa em minutos. O critério de definição do teto deve considerar o tipo de tarefa, não apenas o usuário.
Métricas de custo por tarefa completa: em vez de olhar apenas o preço por token, calcular quanto custa uma tarefa do início ao fim e se esse valor pode ser absorvido pelo produto ou pelo processo de negócio.

A governança e dados como camada estrutural da operação de IA é o que separa empresas que escalam com controle das que descobrem o custo real somente quando já não conseguem mais absorvê-lo.

Startups e grandes empresas enfrentam o mesmo problema de formas diferentes

O acesso inicial ao mesmo modelo de ponta é democrático. Startups e grandes corporações podem usar as mesmas ferramentas sem comprar servidores, chips ou infraestrutura própria. A diferença surge quando o uso escala.

Mussi avalia que a barreira inicial ainda não é alta para startups, citando créditos, planos especiais e a possibilidade de usar modelos open source, que podem ser adaptados ou executados fora de plataformas fechadas. Mas a Gartner tem uma leitura mais cautelosa: a imprevisibilidade da despesa e a ausência de descontos progressivos ou pacotes customizados podem dificultar a escala para empresas menores.

Na prática, grandes empresas podem errar, aprender e otimizar porque têm margem para absorver variações de consumo e poder de negociação com fornecedores. Startups precisam acertar cedo, porque constroem com governança mais rígida e não têm a mesma capacidade de diluir custos.

O que separa os players no estágio de escala não é o acesso ao modelo, mas a capacidade de controlar o gasto e negociar melhores condições conforme o volume cresce.

SOBRE OS AUTORES

Marcello Mussi

Managing Director

✉ marcello.mussi@peers.com.br

Custo de Tokens de IA: por que a conta não para de subir mesmo com o preço caindo

Por que o custo de tokens de IA continua subindo mesmo com o preço caindo?

Como os agentes de IA mudam a matemática do consumo?

“Ao atribuir uma missão ou função a um agente, essa função normalmente é recursiva e cíclica. Ela permanece em execução, não realiza uma tarefa pontual e encerra.”

O retorno da IA ainda não acompanha o crescimento do gasto

Como estruturar a governança financeira de IA antes que a conta surpreenda?

Startups e grandes empresas enfrentam o mesmo problema de formas diferentes

SOBRE OS AUTORES

Sobre

Insights

Contato