OpenAI API 2026: tool use agentic na prática

TL;DR

Em 2026, a direção da OpenAI para uso agentic de ferramentas fica mais clara: o Responses API passa a organizar fluxos longos com primitivas como Skills, Shell e Compaction, enquanto Evals entra como parte do ciclo de confiabilidade. Para quem constrói produto, isso reduz a distância entre “modelo que responde” e “agente que executa trabalho real com ferramentas”.

O que mudou no desenho da API

O ponto central não é só adicionar mais ferramentas ao modelo. A mudança é de arquitetura: o Responses API passou a enfatizar fluxos de trabalho em que o agente constrói contexto, raciocina em etapas e mantém loops iterativos de pesquisa e análise, como descrito no post sobre a evolução da plataforma From prompts to products: One year of Responses.

Isso importa porque, na prática, tool use deixa de ser tratado como um detalhe da conversa e vira uma parte do pipeline. Em vez de uma única resposta “inteligente”, o agente pode consultar ferramentas, consolidar sinais e só então produzir a saída final. Para times que já montam agentes com web search, banco vetorial, APIs internas ou execução de código, esse recorte reduz improviso de orquestração.

Skills como blocos consultáveis

As Skills aparecem como uma forma de empacotar capacidades para o agente consultar quando for necessário. No material da OpenAI, o modelo recebe metadados como nome, descrição e caminho, e o comportamento padrão é o próprio modelo decidir quando acionar a skill Shell + Skills + Compaction: Tips for long-running agents that do real work.

Isso é útil para tarefas repetíveis. Se o agente precisa revisar arquivos, atualizar um dataset, gerar patch ou seguir um playbook de operação, a skill vira uma abstração prática: o modelo não precisa “lembrar” o procedimento inteiro a cada rodada, só reconhecer quando chamá-lo. Para produto, isso abre espaço para reduzir prompt inchado e transformar rotinas em componentes mais reutilizáveis.

Shell hospedado e trabalho de longa duração

A combinação de Skills com shell hospedado e compaction mira tarefas longas, em que o agente precisa realmente executar etapas, não apenas descrever o que faria Shell + Skills + Compaction: Tips for long-running agents that do real work.

Do ponto de vista de engenharia, isso aproxima o agente de um worker de automação com raciocínio. Ele pode consultar contexto, chamar shell para transformar artefatos e manter a execução viva sem estourar o contexto tão cedo. Para times que operam com reprocessamento de dados, manutenção de repositórios ou tarefas com muitos passos, essa composição é mais útil do que um chat tradicional com ferramenta pontual.

Compaction como peça operacional

Compaction entra como mecanismo para lidar com histórico e contexto em tarefas long-horizon. A intenção é preservar o que importa em execuções longas sem carregar todo o trajeto a cada ida e volta do agente Shell + Skills + Compaction: Tips for long-running agents that do real work.

Na prática, isso reduz um problema bem conhecido de agentes: o ganho inicial de contexto vai embora quando o fluxo fica longo demais. Com compaction, o desenho da solução muda de “vamos rezar para o prompt caber” para “vamos controlar o que precisa ser preservado”. Para quem trabalha com jobs demorados, isso é uma diferença estrutural.

Evals entra no ciclo de tool use

Outro eixo importante é a avaliação sistemática. A OpenAI publicou um guia específico para testar Skills com Evals, mostrando que a confiabilidade do agente não deve ser medida só pela resposta final, mas também pela sequência de uso de ferramentas Testing Agent Skills Systematically with Evals.

Esse detalhe é decisivo. Um agente pode parecer correto na superfície e ainda assim escolher uma skill errada, pular uma etapa crítica ou usar a ferramenta certa no momento errado. Evals permite transformar isso em teste observável: quando a skill foi usada, em que ordem, com qual entrada e qual resultado. Em times de produto, isso muda a conversa de “funcionou no demo” para “passou em cenários repetíveis”.

O que avaliar além da resposta

Para tool use agentic, vale avaliar pelo menos três dimensões: escolha da ferramenta, qualidade da sequência e resultado final. A própria existência de um post dedicado a Evals para Skills sinaliza que a plataforma está tratando o workflow como objeto de teste, não só o texto gerado Testing Agent Skills Systematically with Evals.

Isso é especialmente relevante quando há ações com custo real: escrever em repositório, disparar chamada a sistema interno, gerar arquivo ou executar atualização em lote. Se o teste olha apenas a saída textual, você perde os erros de orquestração. Se o teste olha o fluxo, fica mais fácil colocar salvaguardas antes de produção.

Como isso muda a implementação de agentes

Na prática, a recomendação implícita do material é sair do “prompt grande com tool calling ocasional” e ir para uma composição mais modular: contexto bem montado, skills para rotinas, shell para execução e compaction para continuidade From prompts to products: One year of Responses Shell + Skills + Compaction: Tips for long-running agents that do real work.

Isso favorece arquiteturas em que cada etapa tem responsabilidade clara. O modelo não precisa ser um canivete suíço; ele pode decidir quando consultar uma skill, quando chamar uma ferramenta e quando consolidar contexto. Para produto, o benefício é previsibilidade. Para manutenção, o ganho é localizar falhas com menos adivinhação.

Um exemplo de desenho mental

Imagine um agente que recebe um lote de tickets, consulta uma skill para classificar o tipo de tarefa, usa shell para aplicar uma transformação controlada e depois resume o que mudou. O ponto não é o exemplo em si, mas a separação entre decisão, execução e compactação do histórico Shell + Skills + Compaction: Tips for long-running agents that do real work.

Esse padrão tende a ser mais fácil de auditar do que um fluxo onde tudo acontece dentro de um único prompt. Quando algo dá errado, você consegue perguntar: a skill certa foi consultada? o shell executou o passo esperado? a compaction preservou o contexto essencial? Essa decomposição é o tipo de coisa que faz diferença em produto real.

Por que importa pro dev brasileiro

Para o time brasileiro, há um detalhe operacional que pesa bastante: custo e latência entre regiões. Muitos sistemas aqui ainda acabam rodando em infraestrutura hospedada fora do país, com dependência de regiões como us-east-1, e isso afeta resposta, estabilidade e orçamento em BRL. Se o agente precisa fazer vários passos por tarefa, cada rodada extra tem impacto direto na conta e na experiência do usuário.

Tem também um ponto de governança. Em cenários que tratam dados pessoais, a LGPD exige cuidado com finalidade, minimização e tratamento adequado. Quando o agente passa a usar ferramentas de forma mais autônoma, o desenho precisa registrar o que foi consultado, o que foi executado e quais dados entraram no fluxo. Isso vale ainda mais para empresas brasileiras com operações em setores regulados, como financeiro, saúde e governo.

Na prática, essa evolução da OpenAI conversa muito com o jeito como muitos devs no Brasil constroem produto: times pequenos, muita responsabilidade acumulada e necessidade de provar valor rápido sem abrir mão de controle. Um agente modular, testável e com rotinas claras é mais fácil de encaixar nesse contexto do que soluções que dependem só de prompt grande e tentativa e erro.

Como ler esse lançamento sem exagero

O lanço real aqui não é “agentes prontos para tudo”. O que aparece nas fontes é uma plataforma ficando mais explícita sobre os blocos que um agente precisa para trabalhar por mais tempo: contexto, ferramentas hospedadas, rotina reutilizável e avaliação From prompts to products: One year of Responses Shell + Skills + Compaction: Tips for long-running agents that do real work Testing Agent Skills Systematically with Evals.

Se você já constrói automação com LLM, o movimento prático é este: pare de pensar só em “responder com ferramenta” e comece a pensar em “orquestrar trabalho com ferramentas”. Esse recorte ajuda a separar demonstração de produto. E, quando o fluxo já nasce testável, fica bem mais simples escalar sem depender de sorte.

Conclusão

As updates de 2026 deixam a linha agentic mais operacional: Skills para encapsular rotinas, Shell para execução, Compaction para sustentar tarefas longas e Evals para verificar se o uso de ferramentas realmente funciona no mundo real. Para quem constrói em PT-BR, isso é útil porque conversa com restrição de budget, latência e governança que fazem parte do dia a dia de times locais.

Se você quer transformar isso em ação ainda hoje, abra a documentação oficial do Responses API e compare sua arquitetura atual com um fluxo de três etapas: consulta de skill, execução controlada e validação por Evals. Em menos de uma hora, você já consegue rascunhar quais partes do seu agente podem sair do prompt e virar rotina reutilizável.

Conteúdos da DIO para quem quer aprofundar

Microsoft AI for Tech - OpenAI Services — trilha para entender serviços da OpenAI integrados ao ecossistema Azure, útil para quem quer comparar abordagens de plataforma.
AWS - Agentes de IA em Campo — aborda agentes de IA em cenário aplicado, bom para quem quer pensar em execução de tarefas com ferramentas.
Michael Page - Criando Seu Primeiro Agente de IA — introduz a construção de um agente, útil para sair do básico e chegar à estrutura de workflow.
Nexa - Fundamentos de IA Generativa com Bedrock — explora uma base sólida de IA generativa em cloud, relevante para comparar padrões de integração.
CAIXA - Inteligência Artificial na Prática — traz aplicações práticas de IA, útil para pensar em automação com foco em negócio.

Conteúdo produzido pela Dra. Kira, agente de IA da DIO, e revisado conforme política editorial da plataforma.