Custo de Tokens de IA: por que a conta não para de subir mesmo com o preço caindo
A inteligência artificial generativa entrou nas empresas com promessa de ganho de produtividade. O problema que está surgindo agora é outro: quanto mais a IA trabalha, mais tokens são consumidos, e em muitos casos a conta cresce mais rápido do que o retorno que justifica o investimento.
Em análise publicada no Canaltech, Marcello Mussi, sócio-diretor da Peers Consulting + Technology, explica por que esse comportamento é inerente à forma como os agentes de IA funcionam, e o que as empresas precisam fazer antes que a fatura surpreenda.
Porque o volume e a complexidade das tarefas crescem mais rápido do que a queda do preço unitário.
A Gartner projetou que, até 2030, o custo de inferência para provedores de IA generativa será reduzido em mais de 90% em relação a 2025. Modelos de 2030 serão até 100 vezes mais eficientes do que as primeiras tecnologias de tamanho similar. Mesmo assim, sistemas agênticos exigem entre 5 e 30 vezes mais tokens por demanda do que um chatbot padrão, segundo a mesma consultoria. A conta total sobe porque o uso se expande em complexidade e volume antes que a eficiência dos modelos compense.
Os sinais já aparecem em empresas concretas. O GitHub instituiu cobrança baseada em uso no Copilot e recebeu reclamações de usuários que viram seus créditos mensais consumidos em poucas horas. A Uber instituiu um teto mensal por funcionário e por ferramenta de codificação agêntica depois de consumir seu orçamento anual de IA em apenas quatro meses.
A Cisco, segundo seu CEO em teleconferência de resultados, viu o uso de tokens ficar “bem fora do comum” depois que um terço dos funcionários passou a usar diariamente um chatbot interno.
O padrão é consistente: a adoção cresce, o consumo surpreende, e as empresas descobrem o problema quando a despesa já ocorreu.
Essa é a pergunta que muda o enquadramento do problema. A maioria das empresas ainda projeta custo de IA como se estivesse lidando com chatbots: uma pergunta, uma resposta, um custo previsível. Agentes funcionam de forma radicalmente diferente.
Segundo Marcello Mussi, sócio-diretor da Peers Consulting + Technology, em análise publicada no Canaltech, isso acontece porque agentes não executam apenas uma solicitação pontual.
“Ao atribuir uma missão ou função a um agente, essa função normalmente é recursiva e cíclica. Ela permanece em execução, não realiza uma tarefa pontual e encerra.”
Na prática, um agente de atendimento pode receber a pergunta de um cliente, consultar o histórico de compras, buscar regras internas, verificar o status de um pedido e revisar a resposta antes de enviá-la. O usuário vê apenas a mensagem final, mas cada etapa intermediária consome tokens e entra na fatura.
Mussi acrescenta que quando um agente interpreta mal uma instrução, executa uma atividade equivocada e depois corrige a rota, todos esses passos também são cobrados. Na prática, a empresa paga pelo acerto e também pelas tentativas que não produziram valor.
Muitas empresas ainda calculam projetos de IA agêntica como se fossem chatbots tradicionais. Na fase de protótipo, a conta considera uma chamada por interação. Em produção, o agente pode operar em loop, fazer várias iterações e acionar ferramentas externas. Uma requisição inicialmente estimada como simples pode consumir muito mais tokens quando encontra situações reais.
A adoção de IA é ampla, mas o retorno financeiro aparece de forma desigual. O estudo State of AI da McKinsey indica que quase nove em cada dez organizações usam IA regularmente em ao menos uma função. Mas apenas 39% atribuem algum ganho de EBIT ao uso da tecnologia, e quando atribuem, a contribuição costuma representar menos de 5% do resultado operacional.
Esse gap entre adoção de tecnologia e resultado operacional é exatamente onde o custo dos tokens ganha peso: a tecnologia pode funcionar, mas precisa operar a um custo compatível com o valor que entrega.
Parte do problema está na escolha dos modelos. Muitas empresas usam modelos de IA mais potentes e mais caros em tarefas simples, como classificar o tom de um e-mail de cliente como positivo ou negativo. Nesses casos, o gasto com tokens pode superar o ganho de produtividade, porque uma solicitação menos complexa, repetida em grande volume, fica mais cara quando executada por um modelo de fronteira.
A IDC projeta que os gastos globais com infraestrutura de IA chegarão a US$ 487 bilhões em 2026, alta de aproximadamente 53% em relação ao ano anterior. Até 2029, o mercado global de infraestrutura de IA deve superar US$ 1 trilhão, com crescimento médio anual de cerca de 30% a partir de 2025.
Controlar os gastos de IA não depende apenas de olhar a conta no fim do mês. Quando modelos generativos entram em produtos, atendimentos e fluxos internos, parte da governança precisa ser desenhada dentro do próprio sistema.
Segundo a Gartner, a surpresa com o consumo de tokens revela uma lacuna de governança financeira em IA: falta transparência nos relatórios de uso, integração entre equipes técnicas e financeiras e políticas claras de gestão de custos. Sem métricas de uso e alertas automatizados, as empresas só descobrem o problema quando a despesa já ocorreu.
A lógica se aproxima da computação em nuvem, em que equipes acompanham o consumo por serviço, área e aplicação. No caso da IA, a conta precisa ser acompanhada por usuário, produto, cliente, modelo e tarefa, porque cada escolha técnica pode alterar a despesa final.
Há três práticas que fazem diferença estrutural:
A governança e dados como camada estrutural da operação de IA é o que separa empresas que escalam com controle das que descobrem o custo real somente quando já não conseguem mais absorvê-lo.
O acesso inicial ao mesmo modelo de ponta é democrático. Startups e grandes corporações podem usar as mesmas ferramentas sem comprar servidores, chips ou infraestrutura própria. A diferença surge quando o uso escala.
Mussi avalia que a barreira inicial ainda não é alta para startups, citando créditos, planos especiais e a possibilidade de usar modelos open source, que podem ser adaptados ou executados fora de plataformas fechadas. Mas a Gartner tem uma leitura mais cautelosa: a imprevisibilidade da despesa e a ausência de descontos progressivos ou pacotes customizados podem dificultar a escala para empresas menores.
Na prática, grandes empresas podem errar, aprender e otimizar porque têm margem para absorver variações de consumo e poder de negociação com fornecedores. Startups precisam acertar cedo, porque constroem com governança mais rígida e não têm a mesma capacidade de diluir custos.
O que separa os players no estágio de escala não é o acesso ao modelo, mas a capacidade de controlar o gasto e negociar melhores condições conforme o volume cresce.
|