Casa Das Idéias Salvando idéias para o futuro

WhatsApp

O Grande Ranking das IAs para Engenharia de Software: SWE-Bench vs. Eficiência de Custo em 2026

Introdução

A engenharia de software entrou em uma nova era. Pela primeira vez na história, temos múltiplos modelos de IA capazes de resolver problemas reais de software engineering automaticamente[1]. Mas aqui está o dilema que ninguém quer admitir em voz alta:

Performance e custo estão em lados opostos da equação.

Um modelo que resolve 80.2% dos problemas de SWE-Bench pode custar 40x mais por token que um alternativo que resolve 70%. A pergunta que importa em 2026 não é mais “qual IA é melhor?”, mas sim: “qual IA oferece o melhor valor para MINHA situação específica?”[2]

Este artigo desvenda o ranking completo dos modelos que alcançaram ao menos 63% no SWE-Bench Verified, analisando não apenas performance pura, mas — e isso é crítico — eficiência de custo para diferentes cenários[3].


Parte 1: Ranking por Performance Absoluta (SWE-Bench Verified)

Os Modelos que Ultrapassaram a Barreira dos 63%

Os dados abaixo refletem o leaderboard do SWE-Bench Verified de fevereiro de 2026, consolidando as melhores versões de cada modelo. Eis o ranking completo por performance pura:

Rank Modelo Criador SWE-Bench (%) Contexto (tokens) Preço Input/1M Preço Output/1M Eficiência
1 MiniMax M2.5 MiniMax 80.2% 100K $0.15 $1.20 67
2 Claude Opus 4.6 (Thinking) Anthropic 79.2% 200K $5.00 $25.00 3
3 GLM-5 Zhipu / Z.ai 77.8% 128K $1.00 $3.20 24
4 Claude 4.5 Opus Anthropic 76.8% 200K $5.00 $25.00 3
5 Claude Sonnet 4.6 Anthropic 76.2% 200K $3.00 $15.00 5
6 Gemini 3 Flash Google 76.2% 1M $0.50 $3.00 25
7 GPT-5.2 OpenAI 75.4% 200K $1.75 $14.00 5
8 Grok 4 xAI 75.0% 256K $3.00 $15.00 5
9 GLM-4.7 Zhipu / Z.ai 73.8% 128K $0.60 $2.20 34
10 Gemini 3 Pro Google 71.6% 1M $2.00 $12.00 6
11 Kimi K2.5 Moonshot 70.8% 256K $0.60 $2.50 28
12 DeepSeek V3.2 DeepSeek 70.0% 128K $0.28 $0.42 167
13 Gemini 2.5 Pro Google 63.8% 1M $1.25 $10.00 6
14 Kimi K2 Thinking Moonshot 63.4% 256K $0.60 $2.50 25
15 Gemini 2.5 Flash Google 63.2% 1M $0.30 $2.50 25

O Campeão Surpresa: MiniMax M2.5 com 80.2%

MiniMax M2.5, lançado em fevereiro de 2026, tornou-se o primeiro modelo a ultrapassar a marca de 80% no SWE-Bench Verified[4], superando inclusive o Claude Opus 4.6. Isso significa que consegue resolver 802 de cada 1000 problemas reais de engenharia de software apresentados no benchmark.

O mais surpreendente: faz isso a um custo de apenas $0.15/1M tokens de entrada — uma fração do custo dos concorrentes de topo.

Porém — e este é um “porém” enormemente importante — a empresa que não pode permitir um erro resolve problemas muito diferentes de um desenvolvedor individual.


Parte 2: Ranking por Eficiência (SWE-Bench % ÷ Preço)

A Métrica que Realmente Importa: Efficiency Score

Ninguém quer pagar caro por IA. Ninguém quer usar uma IA ruim por economia. A pergunta real é: quanto de performance você obtém por cada dólar gasto?

Definimos: Efficiency Score = SWE-Bench Score (%) ÷ Preço Output por 1M tokens

Usamos apenas o preço de output por 1M tokens como base, pois é o custo mais representativo de uso real (geração de código é sempre output). Quanto mais alto o score, melhor o custo-benefício.

Rank Modelo SWE-Bench (%) Output/1M Efficiency Score Categoria
1 DeepSeek V3.2 70.0% $0.42 167 🚀 Alto valor
2 MiniMax M2.5 80.2% $1.20 67 🚀 Alto valor
3 Kimi K2.5 70.8% $2.50 28 ⭐ Bom valor
4 Gemini 3 Flash 76.2% $3.00 25 ⭐ Bom valor
5 Kimi K2 Thinking 63.4% $2.50 25 ⭐ Bom valor
6 Gemini 2.5 Flash 63.2% $2.50 25 ⭐ Bom valor
7 GLM-5 77.8% $3.20 24 ⭐ Bom valor
8 GLM-4.7 73.8% $2.20 34 ⭐ Bom valor
9 Gemini 2.5 Pro 63.8% $10.00 6 💎 Premium
10 Gemini 3 Pro 71.6% $12.00 6 💎 Premium
11 GPT-5.2 75.4% $14.00 5 💎 Premium
12 Claude Sonnet 4.6 76.2% $15.00 5 💎 Premium
13 Grok 4 75.0% $15.00 5 💎 Premium
14 Claude Opus 4.6 (Thinking) 79.2% $25.00 3 🏆 Supremo
15 Claude 4.5 Opus 76.8% $25.00 3 🏆 Supremo

A Revelação Surpreendente

DeepSeek V3.2 oferece ~52x mais performance por dólar de output que Claude Opus 4.6 (167 vs. 3).

Isso não é erro de cálculo. Um desenvolvedor independente gastaria 98.3% menos em output usando DeepSeek enquanto resolveria 88.4% dos problemas que Claude resolveria. O campeão absoluto de performance — MiniMax M2.5 com 80.2% SWE-Bench — custa apenas $1.20/1M de output, resultando num score de eficiência de 67.


Parte 3: Análise de Custo Mensal — Desenvolvedor Individual

Quanto você pagará por mês como dev solitário?

Pressupostos para desenvolvedor individual — uso típico mensal:

  • Code completions: 300 requisições/mês × 2.5K tokens = 750K tokens
  • Chat/debugging: 50 sessões/mês × 4K tokens = 200K tokens
  • Multi-file edits: 20 sessões/mês × 15K tokens = 300K tokens
  • Agent mode: 5 sessões/mês × 50K tokens = 250K tokens
  • Total: ~1.5M tokens/mês (~50K tokens/dia)

Custo estimado: 1.5M tokens/mês × preço de output (proxy conservador para custo de geração).

Modelo SWE % Output/1M Custo Mensal Economia vs. Opus 4.6 Eficiência
DeepSeek V3.2 70.0% $0.42 $0.63 -98.3% 167 🚀
MiniMax M2.5 80.2% $1.20 $1.80 -95.2% 67 🚀
GLM-4.7 73.8% $2.20 $3.30 -91.2% 34 ⭐
Kimi K2.5 70.8% $2.50 $3.75 -90.0% 28 ⭐
Kimi K2 Thinking 63.4% $2.50 $3.75 -90.0% 25 ⭐
Gemini 2.5 Flash 63.2% $2.50 $3.75 -90.0% 25 ⭐
Gemini 3 Flash 76.2% $3.00 $4.50 -88.0% 25 ⭐
GLM-5 77.8% $3.20 $4.80 -87.2% 24 ⭐
GPT-5.2 75.4% $14.00 $21.00 -44.0% 5 💎
Claude Sonnet 4.6 76.2% $15.00 $22.50 -40.0% 5 💎
Grok 4 75.0% $15.00 $22.50 -40.0% 5 💎
Claude Opus 4.6 79.2% $25.00 $37.50 - 3 🏆

O Resultado Prático

Um desenvolvedor que escolhe DeepSeek V3.2 gasta $7.56 por ano contra $450 para Claude Opus 4.6 — uma economia de $442.44 anuais (98.3%) enquanto resolve 88% dos mesmos problemas[5].

Mas o verdadeiro destaque é o MiniMax M2.5: por apenas $21.60/ano em tokens de output, você obtém 80.2% no SWE-Bench — performance no topo absoluto do ranking, com 95.2% de economia em relação ao Claude Opus 4.6.


Parte 4: Análise de Custo Mensal — Empresa com 50 Desenvolvedores

Quando a economia real começa

Time agressivo de 50 engenheiros — uso mensal realista:

Por desenvolvedor (mix de junior/mid/senior):

  • Code completions: 500 req/mês × 2.5K tokens = 1.25M
  • Chat/debugging: 100 sessões × 5K tokens = 500K
  • Multi-file edits: 50 sessões × 20K tokens = 1M
  • Agent mode/autonomous: 15 sessões × 100K tokens = 1.5M
  • Total por dev: 4.25M tokens/mês

Total de 50 devs: 212.5M tokens/mês

Modelo SWE % Output/1M Custo Mensal Custo Anual Economia vs. Opus 4.6
DeepSeek V3.2 70.0% $0.42 $89,250 $1,071,000 -99.3%
MiniMax M2.5 80.2% $1.20 $255,000 $3,060,000 -98.1%
GLM-5 77.8% $3.20 $680,000 $8,160,000 -87.2%
GLM-4.7 73.8% $2.20 $467,500 $5,610,000 -91.2%
Gemini 3 Flash 76.2% $3.00 $637,500 $7,650,000 -95.2%
Kimi K2.5 70.8% $2.50 $531,250 $6,375,000 -96.0%
GPT-5.2 75.4% $14.00 $2,975,000 $35,700,000 -77.8%
Claude Sonnet 4.6 76.2% $15.00 $3,187,500 $38,250,000 -76.2%
Claude Opus 4.6 79.2% $25.00 $5,312,500 $63,750,000 -

O Choque da Realidade

A diferença anual entre usar DeepSeek V3.2 e Claude Opus 4.6 para um time de 50 devs é de $62,679,000.

Isso é:

  • 🏠 Mais de 900 casas no Rio de Janeiro
  • 💰 Salário anual de 1,000+ engenheiros sêniors brasileiros
  • 🚀 Orçamento inteiro de uma startup em estágio inicial
  • 🧠 Verba para contratar um time inteiro de engenheiros humanos adicionais

Uma decisão de IA pode ser uma das maiores linhas orçamentárias da empresa[6].


Parte 5: O Breakdown por Empresa

OpenAI: Competitiva em Custo-Benefício

Modelo SWE % Output/1M Eficiência Caso de Uso
GPT-5.2 75.4% $14.00 5 Melhor relação qualidade-preço OpenAI
GPT-5 mini ~65% $2.00 32 Muito barato, performance estimada

Recomendação OpenAI: GPT-5.2 é a escolha profissional — 75.4% de performance a preço razoável dentro do ecossistema OpenAI.

Anthropic: Premium com Justificativa

Modelo SWE % Output/1M Eficiência Caso de Uso
Claude Opus 4.6 (Thinking) 79.2% $25.00 3 🏆 Topo de performance, custo elevado
Claude 4.5 Opus 76.8% $25.00 3 Versão anterior do Opus
Claude Sonnet 4.6 76.2% $15.00 5 Melhor custo-benefício Anthropic
Claude Haiku 4.5 ~65% $5.00 13 Mais acessível, menor performance

Recomendação Anthropic: Claude Sonnet 4.6 — performance quase igual ao Opus a $15/1M output (vs $25 do Opus). Para times com budget, o melhor ponto de entrada do ecossistema Anthropic.

Google: O Equilíbrio Inteligente

Modelo SWE % Output/1M Eficiência Caso de Uso
Gemini 3 Flash 76.2% $3.00 25 🚀 Campeão de eficiência Google
Gemini 3 Pro 71.6% $12.00 6 Contexto 1M, útil para projetos grandes
Gemini 2.5 Flash 63.2% $2.50 25 ⭐ Ainda competitivo, preço menor
Gemini 2.5 Pro 63.8% $10.00 6 💎 Performance abaixo dos novos modelos

Recomendação Google: Gemini 3 Flash é a máquina de eficiência — 76.2% SWE-Bench a $3.00/1M output, com janela de contexto de 1M tokens. Ideal para repositórios gigantes.

Outros: Os Guerrilheiros e Surpresas

Modelo SWE % Output/1M Eficiência Criador Destaque
DeepSeek V3.2 70.0% $0.42 167 DeepSeek 🚀 Campeão absoluto de eficiência
MiniMax M2.5 80.2% $1.20 67 MiniMax 🚀 Campeão absoluto de performance
GLM-5 77.8% $3.20 24 Zhipu/Z.ai 🚀 Open-source eficiente
GLM-4.7 73.8% $2.20 34 Zhipu/Z.ai 🚀 Open-source (anterior)
Kimi K2.5 70.8% $2.50 28 Moonshot ⭐ Excelente reasoning
Grok 4 75.0% $15.00 5 xAI 💎 Contexto 256K
Kimi K2 Thinking 63.4% $2.50 25 Moonshot ⭐ Mais barato com reasoning

Recomendação: MiniMax M2.5 é a virada de jogo de 2026 — topo de performance com custo ultra-baixo. DeepSeek V3.2 ainda lidera em eficiência pura.


Parte 6: A Reflexão Final — O Paradoxo de 2026

O Paradoxo: Performance Máxima Agora Acessível

2026 marcou uma virada histórica: MiniMax M2.5 provou que o topo de performance (80.2% SWE-Bench) é alcançável a custo de modelo médio ($0.15 input / $1.20 output por 1M tokens).

O modelo que até 2025 exigia $15-75/1M tokens para performance de topo agora custa centavos. A barreira entre “o melhor” e “o mais barato” está desmoronando rapidamente.

Os Vencedores de 2026

  1. MiniMax M2.5: China estabeleceu novo patamar — melhor performance E baixo custo simultaneamente
  2. DeepSeek V3.2: Ainda o campeão em eficiência pura (167 score)
  3. Gemini 3 Flash: Google prova que contexto de 1M tokens pode ser barato E performático
  4. GLM-5 / GLM-4.7: Alternativas open-source chinesas — GLM-5 com 77.8% SWE-Bench, GLM-4.7 com 73.8%

Os que Perderam Relevância em 2026

  1. Claude Opus/Sonnet 4.5 (versões anteriores): Substituídos pelas versões 4.6
  2. Gemini 2.5 Pro: Score de 63.8% coloca-o fora do top tier competitivo
  3. Modelos sem SWE-Bench acima de 63%: Com tantas opções acima de 70%, difícil justificar modelos mais fracos

A Realidade Econômica

Performance não é linear com custo — ela descolou completamente do custo em 2026. Modelos como MiniMax M2.5 e DeepSeek quebram a premissa de que “melhor = mais caro”.

Isso cria oportunidade: uma empresa pode implementar a mesma qualidade de desenvolvimento por uma fração do custo, redirecionando economias para:

  • 🧠 Melhor treinamento de equipe
  • 🔧 Ferramentas de desenvolvimento avançadas
  • 📊 Infraestrutura mais robusta
  • 🎯 Recursos para inovação de verdade

A Minha Recomendação Honesta

Para desenvolvedores individuais: Use MiniMax M2.5 ou DeepSeek V3.2. Performance 70-80% com custo negligenciável. MiniMax hoje tem a melhor performance do mercado a $1/mês para uso individual.

Para pequenas startups (até 10 devs): Use Gemini 3 Flash + MiniMax M2.5. Alternar conforme a tarefa. Custo: menos de $100/mês para o time inteiro.

Para empresas médias (50+ devs): Use GPT-5.2 ou Gemini 3 Flash como backbone, com Claude Sonnet 4.6 para trabalhos críticos. Custo: $4-20M/ano.

Para empresas que podem pagar premium: Considere Claude Opus 4.6 ou MiniMax M2.5 (High Reasoning) para repositórios mission-critical. MiniMax oferece performance equivalente com custo 22x menor.


Conclusão: A Revolução Chegou e É Barata

2026 marca o fim definitivo da ilusão de que “melhor = mais caro”.

MiniMax M2.5 quebrou o teto do SWE-Bench (80.2%) enquanto cobra ~21x menos que Claude Opus 4.6 por token de output ($1.20 vs $25.00). DeepSeek V3.2 mantém 70% de performance ao menor custo absoluto do mercado.

Os melhores engenheiros de software de 2026 não serão aqueles com acesso aos modelos mais caros — serão aqueles que descobriram que podem fazer 90% do trabalho com 1-5% do custo usando os modelos certos para cada tarefa.

A pergunta para 2026 não é mais “qual IA é melhor?” — é “qual IA eu preciso para ESTE trabalho NESTE preço?”. Responder essa pergunta bem pode economizar dezenas de milhões.


Apêndice A: Tabelas de Referência Rápida

Tabela A1: Top 10 por Performance Pura (SWE-Bench Verified, Fev 2026)

Rank Modelo SWE-Bench Criador
1 MiniMax M2.5 80.2% MiniMax
2 Claude Opus 4.6 (Thinking) 79.2% Anthropic
3 GLM-5 77.8% Zhipu/Z.ai
4 Claude 4.5 Opus 76.8% Anthropic
5 Claude Sonnet 4.6 76.2% Anthropic
6 Gemini 3 Flash 76.2% Google
7 GPT-5.2 75.4% OpenAI
8 Grok 4 75.0% xAI
9 GLM-4.7 73.8% Zhipu/Z.ai
10 Gemini 3 Pro 71.6% Google

Tabela A2: Top 10 por Eficiência — Fórmula: SWE% ÷ Output/1M

Rank Modelo Efficiency Score SWE-Bench Output/1M
1 DeepSeek V3.2 167 70.0% $0.42
2 MiniMax M2.5 67 80.2% $1.20
3 GLM-4.7 34 73.8% $2.20
4 Kimi K2.5 28 70.8% $2.50
5 Gemini 3 Flash 25 76.2% $3.00
6 Kimi K2 Thinking 25 63.4% $2.50
7 Gemini 2.5 Flash 25 63.2% $2.50
8 GLM-5 24 77.8% $3.20
9 Gemini 2.5 Pro 6 63.8% $10.00
10 Gemini 3 Pro 6 71.6% $12.00
11 GPT-5.2 5 75.4% $14.00
12 Claude Sonnet 4.6 5 76.2% $15.00
13 Grok 4 5 75.0% $15.00
14 Claude Opus 4.6 3 79.2% $25.00
15 Claude 4.5 Opus 3 76.8% $25.00

Tabela A3: Custo Anual — 50 Desenvolvedores (212.5M tokens/mês)

Modelo Custo Anual vs. Claude Opus 4.6 Eficiência
DeepSeek V3.2 $1,071,000 -98.3% 167 🚀
MiniMax M2.5 $3,060,000 -95.2% 67 🚀
GLM-5 $8,160,000 -87.2% 24 ⭐
GLM-4.7 $5,610,000 -91.2% 34 ⭐
Gemini 3 Flash $7,650,000 -88.0% 25 ⭐
GPT-5.2 $35,700,000 -44.0% 5 💎
Claude Sonnet 4.6 $38,250,000 -40.0% 5 💎
Claude Opus 4.6 $63,750,000 - 3 🏆

Referências

[1] SWE-bench. (2026, Fevereiro). SWE-Bench Verified Leaderboard. Retrieved from https://www.swebench.com

[2] Vals.ai. (2026, Fevereiro). SWE-Bench Leaderboard: Real-time model performance tracking. Retrieved from https://www.vals.ai/benchmarks/swebench

[3] Scale AI. (2026). SWE-Bench Verified Dataset: Software engineering task resolution metrics. Retrieved from https://scale.com/leaderboard/swe_bench_pro_public

[4] MiniMax. (2026, Fevereiro). MiniMax M2.5: State-of-the-art software engineering. Retrieved from https://vertu.com

[5] DeepSeek. (2025). DeepSeek V3.2 API Pricing. Retrieved from https://platform.deepseek.com/api-docs/pricing

[6] Intuition Labs. (2026). LLM API Pricing Comparison 2026. Retrieved from https://intuitionlabs.ai/articles/llm-api-pricing-comparison-2025

[7] Anthropic. (2026). Claude 4.6 Series: Pricing and capabilities. Retrieved from https://anthropic.com/api

[8] OpenAI. (2026). GPT-5.2 API Pricing Documentation. Retrieved from https://openai.com/api/pricing/

[9] Google. (2026). Gemini 3 API Pricing. Retrieved from https://ai.google.dev/pricing

[10] xAI. (2025). Grok 4 API Pricing. Retrieved from https://x.ai/api

REF:

https://bentoml.com/llm/inference-optimization/llm-inference-metrics

https://conikeec.substack.com/p/the-token-trap-why-your-favorite

https://www.augmentcode.com/tools/8-top-ai-coding-assistants-and-their-best-use-cases

https://artificialanalysis.ai/methodology/performance-benchmarking

https://www.reddit.com/r/LLMDevs/comments/1im8tel/how_many_tokens_are_you-using_per_month/

https://www.superblocks.com/blog/enterprise-ai-app-generation

https://developer.nvidia.com/blog/llm-benchmarking-fundamental-concepts/

https://www.reddit.com/r/ChatGPT/comments/1ievup8/how_many_tokens_do_you_use_for_ai_coding_per_month/

https://www.builder.io/blog/best-ai-tools-2026

https://www.reddit.com/r/LocalLLaMA/comments/162pgx9/what_do_yall_consider_acceptable_tokens_per/

https://smarterarticles.co.uk/the-real-cost-of-vibe-coding-when-ai-over-delivers-on-your-dime

https://playcode.io/blog/best-ai-coding-assistants-2026

https://intuitionlabs.ai/articles/llm-api-pricing-comparison-2025

https://getdx.com/blog/ai-coding-tools-implementation-cost/

https://www.reddit.com/r/datascience/comments/1q85xuw/whats_your_2026_data_science_coding_stack_ai/

https://www.linkedin.com/posts/vk-maurya_ai-llm-softwareengineering-activity-7410571617254244352-Kevq

https://automatio.ai/models/glm-4-7

https://ai-primer.com/en/engineer/reports/2025-12-22

https://atalupadhyay.wordpress.com/2025/12/23/glm-4-7-zhipu-ais-game-changing-open-source-model/

https://www.cometapi.com/the-guide-to-claude-opus-4–4-5-api-pricing-in-2026/

https://www.finout.io/blog/claude-pricing-in-2026-for-individuals-organizations-and-developers

https://rahulkolekar.com/openai-api-pricing-in-2026-a-practical-guide-models-tokens-tiers-tools/

https://openai.com/api/pricing/

https://www.getmaxim.ai/articles/gemini-3-pro-vs-claude-opus-4-5-vs-gpt-5-the-ultimate-frontier-model-comparison/

https://sumgenius.ai/blog/gpt-5-1-vs-gemini-3-vs-claude-opus-4-5-comparison-2025/

https://intuitionlabs.ai/articles/llm-api-pricing-comparison-2025

https://masterconcept.ai/blog/gemini-1-5-pro-1-5-flash-price-drop-down-with-more-updated-models/

https://robotmunki.com/blog/llm-landscape.html

https://www.glbgpt.com/hub/claude-ai-plans-2026/

https://sparkco.ai/blog/anthropic-claude-vs-openai-gpt-a-deep-dive-comparison

https://cientistasdigitais.com/inteligencia-artificial/grok-4-supera-openai-google-e-anthropic-e-lidera-benchmarks-de-ia/

https://llm-stats.com/models/glm-4.7

https://pandaily.com/kimi-k2-thinking-ranks-no-2-globally-no-1-among-open-source-models-in-latest-artificial-analysis-report

https://skywork.ai/blog/agent/kimi-k2-vs-gpt5-reasoning/

https://aigazine.com/startups/glm-46-benchmark-shows-major-leap-in-ai-reasoning-ig–a

https://blog.kilo.ai/p/glm-46-a-data-driven-look-at-chinas

https://huggingface.co/zai-org/GLM-4.7

https://macaron.im/blog/what-is-glm-4-7

https://vertu.com/ar/نمط-الحياة/glm-4-7-vs-gpt-5-1-vs-claude-sonnet-4-5-ai-coding-model-comparison/

https://docs.z.ai/guides/llm/glm-4.7

https://www.reddit.com/r/singularity/comments/1qh802r/zai_launches_glm47flash_30b_coding_model_592/

https://artificialanalysis.ai/models/glm-4-7-non-reasoning

https://binaryverseai.com/glm-4-7-flash-benchmarks-setup-pricing-vs-qwen3/

https://www.facebook.com/0xSojalSec/posts/glm-47-just-dropped-and-the-benchmark-jumps-are-substantial-129-on-swe-bench-mul/1401953338125732/

https://z.ai/blog/glm-4.7

https://www.semanticscholar.org/paper/0cba0afdfcfa6fbb2f185bf21748e94ebbf9aeb2

https://arxiv.org/abs/2509.09853

https://ieeexplore.ieee.org/document/11334589/

https://arxiv.org/abs/2509.25229

https://www.semanticscholar.org/paper/b4f285548c5bd47dda1519af00620bab7a99d738

https://arxiv.org/abs/2508.06471

https://arxiv.org/abs/2505.15935

https://arxiv.org/abs/2410.14684

https://arxiv.org/abs/2505.07849

http://www.proceedings.com/079017-2601.html

http://arxiv.org/pdf/2410.22553.pdf

https://arxiv.org/pdf/2503.05860.pdf

https://arxiv.org/pdf/2502.20868.pdf

http://arxiv.org/pdf/2503.06643.pdf

http://arxiv.org/pdf/2308.05062.pdf

https://arxiv.org/pdf/2309.08638.pdf

https://arxiv.org/html/2408.07060v1

https://arxiv.org/html/2502.00226v1

https://www.startse.com/artigos/qual-modelo-de-ia-mais-inteligente-para-usar-em-26/

https://www.instagram.com/blogdaengenharia/p/DTftdGxFNDu/?hl=bg

https://www.iscbrasil.com.br/pt-br/blog/conhecimento/tendencias-de-ia-para-2026-apontam-para-ampliacao-da-vantagem-co.html

https://prill.com.br/o-futuro-da-engenharia-de-software-implicacoes-chave-e-estrategias-para-2026/

https://www.siliconflow.com/articles/pt/the-top-AI-tools-for-software-engineers

https://www.vals.ai/benchmarks/swebench

https://help.apiyi.com/claude-opus-4-5-vs-gpt-5-1-comparison-en.html

https://www.coherentsolutions.com/insights/ai-development-cost-estimation-pricing-structure-roi

https://scale.com/leaderboard/swe_bench_pro_public

https://vertu.com/lifestyle/claude-opus-4-5-vs-gpt-5-2-codex-head-to-head-coding-benchmark-comparison/

https://www.agora.software/en/ai-pricing-models/

https://www.siliconflow.com/articles/benchmark

https://www.datastudios.org/post/claude-opus-4-5-vs-chatgpt-5-1-full-report-and-comparison-of-models-features-performance-pricin

https://verdent.ai/minimax-m2-5

https://pricepertoken.com

https://openrouter.ai/moonshot/kimi-k2-thinking

https://openai.com/api/pricing/

https://ai.google.dev/pricing

https://x.ai/api