Quase R$ 1 por conversa inviabilizava o agente. A gente zerou isso.
Uma empresa ia lançar um agente de WhatsApp pra um público de quase 1 milhão de pessoas. Nos testes, cada conversa gastava quase R$ 1 de token da OpenAI, e nessa escala a conta não fechava. A Damatech refez a arquitetura, adotou uma LLM open source e construiu a inteligência necessária pro agente responder qualquer coisa dentro do escopo. No teste final, o agente próprio entregou a mesma qualidade do da OpenAI, nas mesmas perguntas e funções, sem o custo por conversa.
O ponto de partida
Quase R$ 1 por conversa não escala pra quase 1 milhão de pessoas
O custo por token mata o projeto de IA antes da qualidade. A empresa tinha um agente de WhatsApp pronto pra atender quase 1 milhão de pessoas, mas nos testes cada conversa consumia quase R$ 1 de token da OpenAI. Multiplique pela escala pretendida e a conta cresce sem teto, proporcional ao sucesso.
Esse é o paradoxo da IA de prateleira via API de terceiro: quanto mais gente usa, mais caro fica, cobrado por conversa, sem previsibilidade. Pra um lançamento de massa, depender de um custo variável atrelado a um fornecedor externo trava o projeto antes dele sair do papel.
- Agente de WhatsApp pra um público de quase 1 milhão de pessoas
- Quase R$ 1 de token da OpenAI por conversa nos testes
- Custo variável que cresce proporcional ao uso, sem teto
- Dependência de um fornecedor externo pra cada resposta
O que a Damatech construiu
Arquitetura própria com LLM open source, mesma qualidade sem o custo
A Damatech refez a arquitetura do agente em volta de uma LLM open source, tirando a dependência da API paga por conversa. O modelo aberto resolve o custo, mas sozinho não basta: foi preciso construir a inteligência em volta dele pra que o agente respondesse qualquer coisa dentro do escopo com a mesma competência do anterior.
Essa camada de inteligência é o que faz a diferença: orquestração, recuperação de contexto e o desenho que mantém a qualidade da resposta sem o modelo proprietário por trás. No teste final, o agente próprio respondeu às mesmas perguntas e funções com a mesma qualidade do da OpenAI, agora sem custo de token por conversa.
- Arquitetura redesenhada em volta de uma LLM open source
- Camada de inteligência construída pro agente cobrir todo o escopo
- Eliminação da dependência da API paga por conversa
- Qualidade equivalente à da OpenAI validada em teste final
A engenharia por trás
LLM open source mais a inteligência que sustenta a qualidade
Trocar uma API proprietária por uma LLM open source é a parte fácil de descrever e a difícil de fazer bem. O modelo aberto entrega capacidade bruta, mas a qualidade percebida vem da engenharia em volta: orquestração do fluxo de conversa, recuperação do contexto certo, controle do escopo de resposta e a calibragem que faz o agente acertar onde o modelo proprietário acertava.
O resultado é independência de fornecedor com custo previsível. A inteligência roda em infraestrutura própria, sem o pedágio por token de terceiro, e o desenho é replicável: a mesma engenharia sustenta hoje 3 agentes em produção.
- LLM open source no lugar da API proprietária
- Orquestração e recuperação de contexto sustentando a qualidade
- Controle de escopo de resposta do agente
- Infraestrutura própria, sem custo de token de terceiro
- 3 agentes em produção sobre a mesma arquitetura
Os números
O resultado em produção
- R$ 2,4Meconomia estimada por ano
- 100%do custo de tokens eliminado
- 3agentes em produção
O que mudou
Custo de token de terceiro zerado, qualidade mantida
O custo que inviabilizava a escala virou zero: 100% do gasto com token de terceiro eliminado, com economia estimada em R$ 2,4 milhões por ano. O projeto que não fechava a conta passou a ser viável justamente no cenário de massa pra que foi pensado.
E o ganho de custo não custou qualidade. O agente próprio respondeu às mesmas perguntas com a mesma competência do anterior, e a arquitetura já sustenta 3 agentes em produção. Independência de fornecedor virou operação com custo previsível.
- R$ 2,4 milhões de economia estimada por ano
- 100% do custo de token de terceiro eliminado
- 3 agentes em produção sobre a arquitetura própria
- Qualidade equivalente à da OpenAI mantida no teste final
Vamos resolver isso
Seu custo de IA cresce a cada usuário novo?
Conta o volume que você precisa atender. A gente desenha a arquitetura que entrega qualidade sem a conta de token subir sem teto.
- Sem reunião pra marcar reunião.
- Se não fizer sentido, falamos na hora. Sem empurrar venda.
- Mesma engenharia que rodou em banco e governo.