Custo de Tokens de IA: por que a conta não para de subir mesmo com o preço caindo

KEY TAKEAWAYS

  • O custo unitário de tokens está caindo, mas sistemas de IA agêntica exigem entre 5 e 30 vezes mais tokens por demanda do que um chatbot padrão, segundo a Gartner, o que faz a conta crescer mesmo com o preço menor.
  • A Uber consumiu seu orçamento anual de IA em apenas quatro meses, levando a empresa a instituir um teto mensal por funcionário e por ferramenta de codificação agêntica.
  • Agentes de IA operam em ciclos recursivos e cobram por cada etapa intermediária, incluindo erros e revisões, o que torna o gasto imprevisível para quem projeta custos com base em chatbots tradicionais.
  • Apenas 39% das organizações que usam IA atribuem algum ganho de EBIT à tecnologia, e quando atribuem, a contribuição costuma representar menos de 5% do resultado operacional, segundo a McKinsey.
  • Governança financeira de IA precisa ser desenhada dentro do próprio sistema, não monitorada apenas no fim do mês, com métricas por usuário, produto, modelo e tarefa.

MENU
SEÇÕES
Fechar Menu

A inteligência artificial generativa entrou nas empresas com promessa de ganho de produtividade. O problema que está surgindo agora é outro: quanto mais a IA trabalha, mais tokens são consumidos, e em muitos casos a conta cresce mais rápido do que o retorno que justifica o investimento.

Em análise publicada no Canaltech, Marcello Mussi, sócio-diretor da Peers Consulting + Technology, explica por que esse comportamento é inerente à forma como os agentes de IA funcionam, e o que as empresas precisam fazer antes que a fatura surpreenda.

Por que o custo de tokens de IA continua subindo mesmo com o preço caindo?

Porque o volume e a complexidade das tarefas crescem mais rápido do que a queda do preço unitário.

A Gartner projetou que, até 2030, o custo de inferência para provedores de IA generativa será reduzido em mais de 90% em relação a 2025. Modelos de 2030 serão até 100 vezes mais eficientes do que as primeiras tecnologias de tamanho similar. Mesmo assim, sistemas agênticos exigem entre 5 e 30 vezes mais tokens por demanda do que um chatbot padrão, segundo a mesma consultoria. A conta total sobe porque o uso se expande em complexidade e volume antes que a eficiência dos modelos compense.

Os sinais já aparecem em empresas concretas. O GitHub instituiu cobrança baseada em uso no Copilot e recebeu reclamações de usuários que viram seus créditos mensais consumidos em poucas horas. A Uber instituiu um teto mensal por funcionário e por ferramenta de codificação agêntica depois de consumir seu orçamento anual de IA em apenas quatro meses.

A Cisco, segundo seu CEO em teleconferência de resultados, viu o uso de tokens ficar "bem fora do comum" depois que um terço dos funcionários passou a usar diariamente um chatbot interno.

O padrão é consistente: a adoção cresce, o consumo surpreende, e as empresas descobrem o problema quando a despesa já ocorreu.

Como os agentes de IA mudam a matemática do consumo?

Essa é a pergunta que muda o enquadramento do problema. A maioria das empresas ainda projeta custo de IA como se estivesse lidando com chatbots: uma pergunta, uma resposta, um custo previsível. Agentes funcionam de forma radicalmente diferente.

Segundo Marcello Mussi, sócio-diretor da Peers Consulting + Technology, em análise publicada no Canaltech, isso acontece porque agentes não executam apenas uma solicitação pontual.

"Ao atribuir uma missão ou função a um agente, essa função normalmente é recursiva e cíclica. Ela permanece em execução, não realiza uma tarefa pontual e encerra."

Na prática, um agente de atendimento pode receber a pergunta de um cliente, consultar o histórico de compras, buscar regras internas, verificar o status de um pedido e revisar a resposta antes de enviá-la. O usuário vê apenas a mensagem final, mas cada etapa intermediária consome tokens e entra na fatura.

Mussi acrescenta que quando um agente interpreta mal uma instrução, executa uma atividade equivocada e depois corrige a rota, todos esses passos também são cobrados. Na prática, a empresa paga pelo acerto e também pelas tentativas que não produziram valor.

Muitas empresas ainda calculam projetos de IA agêntica como se fossem chatbots tradicionais. Na fase de protótipo, a conta considera uma chamada por interação. Em produção, o agente pode operar em loop, fazer várias iterações e acionar ferramentas externas. Uma requisição inicialmente estimada como simples pode consumir muito mais tokens quando encontra situações reais.

O retorno da IA ainda não acompanha o crescimento do gasto

A adoção de IA é ampla, mas o retorno financeiro aparece de forma desigual. O estudo State of AI da McKinsey indica que quase nove em cada dez organizações usam IA regularmente em ao menos uma função. Mas apenas 39% atribuem algum ganho de EBIT ao uso da tecnologia, e quando atribuem, a contribuição costuma representar menos de 5% do resultado operacional.

Esse gap entre adoção de tecnologia e resultado operacional é exatamente onde o custo dos tokens ganha peso: a tecnologia pode funcionar, mas precisa operar a um custo compatível com o valor que entrega.

Parte do problema está na escolha dos modelos. Muitas empresas usam modelos de IA mais potentes e mais caros em tarefas simples, como classificar o tom de um e-mail de cliente como positivo ou negativo. Nesses casos, o gasto com tokens pode superar o ganho de produtividade, porque uma solicitação menos complexa, repetida em grande volume, fica mais cara quando executada por um modelo de fronteira.

A IDC projeta que os gastos globais com infraestrutura de IA chegarão a US$ 487 bilhões em 2026, alta de aproximadamente 53% em relação ao ano anterior. Até 2029, o mercado global de infraestrutura de IA deve superar US$ 1 trilhão, com crescimento médio anual de cerca de 30% a partir de 2025.

Como estruturar a governança financeira de IA antes que a conta surpreenda?

Controlar os gastos de IA não depende apenas de olhar a conta no fim do mês. Quando modelos generativos entram em produtos, atendimentos e fluxos internos, parte da governança precisa ser desenhada dentro do próprio sistema.

Segundo a Gartner, a surpresa com o consumo de tokens revela uma lacuna de governança financeira em IA: falta transparência nos relatórios de uso, integração entre equipes técnicas e financeiras e políticas claras de gestão de custos. Sem métricas de uso e alertas automatizados, as empresas só descobrem o problema quando a despesa já ocorreu.

A lógica se aproxima da computação em nuvem, em que equipes acompanham o consumo por serviço, área e aplicação. No caso da IA, a conta precisa ser acompanhada por usuário, produto, cliente, modelo e tarefa, porque cada escolha técnica pode alterar a despesa final.

Há três práticas que fazem diferença estrutural:

  1. Roteamento inteligente de modelos: reservar sistemas mais robustos para tarefas complexas e usar modelos mais leves para operações simples, como correção de texto ou classificação inicial. Sem esse critério, o custo de tarefas simples repetidas em grande volume pode superar o ganho de produtividade.
  2. Tetos de consumo por ferramenta ou usuário: como a Uber adotou, limitar o quanto cada área ou aplicação pode consumir por período evita que um agente em loop queime o orçamento da empresa em minutos. O critério de definição do teto deve considerar o tipo de tarefa, não apenas o usuário.
  3. Métricas de custo por tarefa completa: em vez de olhar apenas o preço por token, calcular quanto custa uma tarefa do início ao fim e se esse valor pode ser absorvido pelo produto ou pelo processo de negócio.

A governança e dados como camada estrutural da operação de IA é o que separa empresas que escalam com controle das que descobrem o custo real somente quando já não conseguem mais absorvê-lo.

Startups e grandes empresas enfrentam o mesmo problema de formas diferentes

O acesso inicial ao mesmo modelo de ponta é democrático. Startups e grandes corporações podem usar as mesmas ferramentas sem comprar servidores, chips ou infraestrutura própria. A diferença surge quando o uso escala.

Mussi avalia que a barreira inicial ainda não é alta para startups, citando créditos, planos especiais e a possibilidade de usar modelos open source, que podem ser adaptados ou executados fora de plataformas fechadas. Mas a Gartner tem uma leitura mais cautelosa: a imprevisibilidade da despesa e a ausência de descontos progressivos ou pacotes customizados podem dificultar a escala para empresas menores.

Na prática, grandes empresas podem errar, aprender e otimizar porque têm margem para absorver variações de consumo e poder de negociação com fornecedores. Startups precisam acertar cedo, porque constroem com governança mais rígida e não têm a mesma capacidade de diluir custos.

O que separa os players no estágio de escala não é o acesso ao modelo, mas a capacidade de controlar o gasto e negociar melhores condições conforme o volume cresce.

Perguntas Frequentes

Como a Peers pode ajudar?

A Peers apoia empresas na estruturação de governança financeira de IA, desde o diagnóstico de consumo atual até o desenho de arquiteturas que controlam custo por modelo, tarefa e usuário, reduzindo a imprevisibilidade de gasto em ambientes de IA agêntica.

CONHEÇA NOSSO AUTOR

Clique na barra amarela para ver os artigos

ARTIGOS EM DESTAQUE

Clique na barra amarela para voltar aos autores
Marcello Mussi

Marcello Mussi

Managing Director

Sócio-diretor da Peers Consulting + Technology

Como Conflitos Geopolíticos Impactam a Tecnologia e a Logística Global
Este artigo discute como as tensões geopolíticas afetam o setor de tecnologia,...
Leia mais →
Serviços Financeiros como Alavanca de Negócios: Zoop, Koin e Peers
A Integração de Serviços Financeiros como Novo Motor de Crescimento O evento...
Leia mais →