O Grande Ranking das IAs para Engenharia de Software: SWE-Bench vs. Eficiência de Custo em 2026

Introdução

A engenharia de software entrou em uma nova era. Pela primeira vez na história, temos múltiplos modelos de IA capazes de resolver problemas reais de software engineering automaticamente[1]. Mas aqui está o dilema que ninguém quer admitir em voz alta:

Performance e custo estão em lados opostos da equação.

Um modelo que resolve 80.2% dos problemas de SWE-Bench pode custar 40x mais por token que um alternativo que resolve 70%. A pergunta que importa em 2026 não é mais “qual IA é melhor?”, mas sim: “qual IA oferece o melhor valor para MINHA situação específica?”[2]

Este artigo desvenda o ranking completo dos modelos que alcançaram ao menos 63% no SWE-Bench Verified, analisando não apenas performance pura, mas — e isso é crítico — eficiência de custo para diferentes cenários[3].

Parte 1: Ranking por Performance Absoluta (SWE-Bench Verified)

Os Modelos que Ultrapassaram a Barreira dos 63%

Os dados abaixo refletem o leaderboard do SWE-Bench Verified de fevereiro de 2026, consolidando as melhores versões de cada modelo. Eis o ranking completo por performance pura:

Rank	Modelo	Criador	SWE-Bench (%)	Contexto (tokens)	Preço Input/1M	Preço Output/1M	Eficiência
1	MiniMax M2.5	MiniMax	80.2%	100K	$0.15	$1.20	67
2	Claude Opus 4.6 (Thinking)	Anthropic	79.2%	200K	$5.00	$25.00	3
3	GLM-5	Zhipu / Z.ai	77.8%	128K	$1.00	$3.20	24
4	Claude 4.5 Opus	Anthropic	76.8%	200K	$5.00	$25.00	3
5	Claude Sonnet 4.6	Anthropic	76.2%	200K	$3.00	$15.00	5
6	Gemini 3 Flash	Google	76.2%	1M	$0.50	$3.00	25
7	GPT-5.2	OpenAI	75.4%	200K	$1.75	$14.00	5
8	Grok 4	xAI	75.0%	256K	$3.00	$15.00	5
9	GLM-4.7	Zhipu / Z.ai	73.8%	128K	$0.60	$2.20	34
10	Gemini 3 Pro	Google	71.6%	1M	$2.00	$12.00	6
11	Kimi K2.5	Moonshot	70.8%	256K	$0.60	$2.50	28
12	DeepSeek V3.2	DeepSeek	70.0%	128K	$0.28	$0.42	167
13	Gemini 2.5 Pro	Google	63.8%	1M	$1.25	$10.00	6
14	Kimi K2 Thinking	Moonshot	63.4%	256K	$0.60	$2.50	25
15	Gemini 2.5 Flash	Google	63.2%	1M	$0.30	$2.50	25

O Campeão Surpresa: MiniMax M2.5 com 80.2%

MiniMax M2.5, lançado em fevereiro de 2026, tornou-se o primeiro modelo a ultrapassar a marca de 80% no SWE-Bench Verified[4], superando inclusive o Claude Opus 4.6. Isso significa que consegue resolver 802 de cada 1000 problemas reais de engenharia de software apresentados no benchmark.

O mais surpreendente: faz isso a um custo de apenas $0.15/1M tokens de entrada — uma fração do custo dos concorrentes de topo.

Porém — e este é um “porém” enormemente importante — a empresa que não pode permitir um erro resolve problemas muito diferentes de um desenvolvedor individual.

Parte 2: Ranking por Eficiência (SWE-Bench % ÷ Preço)

A Métrica que Realmente Importa: Efficiency Score

Ninguém quer pagar caro por IA. Ninguém quer usar uma IA ruim por economia. A pergunta real é: quanto de performance você obtém por cada dólar gasto?

Definimos: Efficiency Score = SWE-Bench Score (%) ÷ Preço Output por 1M tokens

Usamos apenas o preço de output por 1M tokens como base, pois é o custo mais representativo de uso real (geração de código é sempre output). Quanto mais alto o score, melhor o custo-benefício.

Rank	Modelo	SWE-Bench (%)	Output/1M	Efficiency Score	Categoria
1	DeepSeek V3.2	70.0%	$0.42	167	🚀 Alto valor
2	MiniMax M2.5	80.2%	$1.20	67	🚀 Alto valor
3	Kimi K2.5	70.8%	$2.50	28	⭐ Bom valor
4	Gemini 3 Flash	76.2%	$3.00	25	⭐ Bom valor
5	Kimi K2 Thinking	63.4%	$2.50	25	⭐ Bom valor
6	Gemini 2.5 Flash	63.2%	$2.50	25	⭐ Bom valor
7	GLM-5	77.8%	$3.20	24	⭐ Bom valor
8	GLM-4.7	73.8%	$2.20	34	⭐ Bom valor
9	Gemini 2.5 Pro	63.8%	$10.00	6	💎 Premium
10	Gemini 3 Pro	71.6%	$12.00	6	💎 Premium
11	GPT-5.2	75.4%	$14.00	5	💎 Premium
12	Claude Sonnet 4.6	76.2%	$15.00	5	💎 Premium
13	Grok 4	75.0%	$15.00	5	💎 Premium
14	Claude Opus 4.6 (Thinking)	79.2%	$25.00	3	🏆 Supremo
15	Claude 4.5 Opus	76.8%	$25.00	3	🏆 Supremo

A Revelação Surpreendente

DeepSeek V3.2 oferece ~52x mais performance por dólar de output que Claude Opus 4.6 (167 vs. 3).

Isso não é erro de cálculo. Um desenvolvedor independente gastaria 98.3% menos em output usando DeepSeek enquanto resolveria 88.4% dos problemas que Claude resolveria. O campeão absoluto de performance — MiniMax M2.5 com 80.2% SWE-Bench — custa apenas $1.20/1M de output, resultando num score de eficiência de 67.

Parte 3: Análise de Custo Mensal — Desenvolvedor Individual

Quanto você pagará por mês como dev solitário?

Pressupostos para desenvolvedor individual — uso típico mensal:

Code completions: 300 requisições/mês × 2.5K tokens = 750K tokens
Chat/debugging: 50 sessões/mês × 4K tokens = 200K tokens
Multi-file edits: 20 sessões/mês × 15K tokens = 300K tokens
Agent mode: 5 sessões/mês × 50K tokens = 250K tokens
Total: ~1.5M tokens/mês (~50K tokens/dia)

Custo estimado: 1.5M tokens/mês × preço de output (proxy conservador para custo de geração).

Modelo	SWE %	Output/1M	Custo Mensal	Economia vs. Opus 4.6	Eficiência
DeepSeek V3.2	70.0%	$0.42	$0.63	-98.3%	167 🚀
MiniMax M2.5	80.2%	$1.20	$1.80	-95.2%	67 🚀
GLM-4.7	73.8%	$2.20	$3.30	-91.2%	34 ⭐
Kimi K2.5	70.8%	$2.50	$3.75	-90.0%	28 ⭐
Kimi K2 Thinking	63.4%	$2.50	$3.75	-90.0%	25 ⭐
Gemini 2.5 Flash	63.2%	$2.50	$3.75	-90.0%	25 ⭐
Gemini 3 Flash	76.2%	$3.00	$4.50	-88.0%	25 ⭐
GLM-5	77.8%	$3.20	$4.80	-87.2%	24 ⭐
GPT-5.2	75.4%	$14.00	$21.00	-44.0%	5 💎
Claude Sonnet 4.6	76.2%	$15.00	$22.50	-40.0%	5 💎
Grok 4	75.0%	$15.00	$22.50	-40.0%	5 💎
Claude Opus 4.6	79.2%	$25.00	$37.50	-	3 🏆

O Resultado Prático

Um desenvolvedor que escolhe DeepSeek V3.2 gasta $7.56 por ano contra $450 para Claude Opus 4.6 — uma economia de $442.44 anuais (98.3%) enquanto resolve 88% dos mesmos problemas[5].

Mas o verdadeiro destaque é o MiniMax M2.5: por apenas $21.60/ano em tokens de output, você obtém 80.2% no SWE-Bench — performance no topo absoluto do ranking, com 95.2% de economia em relação ao Claude Opus 4.6.

Parte 4: Análise de Custo Mensal — Empresa com 50 Desenvolvedores

Quando a economia real começa

Time agressivo de 50 engenheiros — uso mensal realista:

Por desenvolvedor (mix de junior/mid/senior):

Code completions: 500 req/mês × 2.5K tokens = 1.25M
Chat/debugging: 100 sessões × 5K tokens = 500K
Multi-file edits: 50 sessões × 20K tokens = 1M
Agent mode/autonomous: 15 sessões × 100K tokens = 1.5M
Total por dev: 4.25M tokens/mês

Total de 50 devs: 212.5M tokens/mês

Modelo	SWE %	Output/1M	Custo Mensal	Custo Anual	Economia vs. Opus 4.6
DeepSeek V3.2	70.0%	$0.42	$89,250	$1,071,000	-99.3%
MiniMax M2.5	80.2%	$1.20	$255,000	$3,060,000	-98.1%
GLM-5	77.8%	$3.20	$680,000	$8,160,000	-87.2%
GLM-4.7	73.8%	$2.20	$467,500	$5,610,000	-91.2%
Gemini 3 Flash	76.2%	$3.00	$637,500	$7,650,000	-95.2%
Kimi K2.5	70.8%	$2.50	$531,250	$6,375,000	-96.0%
GPT-5.2	75.4%	$14.00	$2,975,000	$35,700,000	-77.8%
Claude Sonnet 4.6	76.2%	$15.00	$3,187,500	$38,250,000	-76.2%
Claude Opus 4.6	79.2%	$25.00	$5,312,500	$63,750,000	-

O Choque da Realidade

A diferença anual entre usar DeepSeek V3.2 e Claude Opus 4.6 para um time de 50 devs é de $62,679,000.

Isso é:

🏠 Mais de 900 casas no Rio de Janeiro
💰 Salário anual de 1,000+ engenheiros sêniors brasileiros
🚀 Orçamento inteiro de uma startup em estágio inicial
🧠 Verba para contratar um time inteiro de engenheiros humanos adicionais

Uma decisão de IA pode ser uma das maiores linhas orçamentárias da empresa[6].

Parte 5: O Breakdown por Empresa

OpenAI: Competitiva em Custo-Benefício

Modelo	SWE %	Output/1M	Eficiência	Caso de Uso
GPT-5.2	75.4%	$14.00	5	Melhor relação qualidade-preço OpenAI
GPT-5 mini	~65%	$2.00	32	Muito barato, performance estimada

Recomendação OpenAI: GPT-5.2 é a escolha profissional — 75.4% de performance a preço razoável dentro do ecossistema OpenAI.

Anthropic: Premium com Justificativa

Modelo	SWE %	Output/1M	Eficiência	Caso de Uso
Claude Opus 4.6 (Thinking)	79.2%	$25.00	3	🏆 Topo de performance, custo elevado
Claude 4.5 Opus	76.8%	$25.00	3	Versão anterior do Opus
Claude Sonnet 4.6	76.2%	$15.00	5	Melhor custo-benefício Anthropic
Claude Haiku 4.5	~65%	$5.00	13	Mais acessível, menor performance

Recomendação Anthropic: Claude Sonnet 4.6 — performance quase igual ao Opus a $15/1M output (vs $25 do Opus). Para times com budget, o melhor ponto de entrada do ecossistema Anthropic.

Google: O Equilíbrio Inteligente

Modelo	SWE %	Output/1M	Eficiência	Caso de Uso
Gemini 3 Flash	76.2%	$3.00	25	🚀 Campeão de eficiência Google
Gemini 3 Pro	71.6%	$12.00	6	Contexto 1M, útil para projetos grandes
Gemini 2.5 Flash	63.2%	$2.50	25	⭐ Ainda competitivo, preço menor
Gemini 2.5 Pro	63.8%	$10.00	6	💎 Performance abaixo dos novos modelos

Recomendação Google: Gemini 3 Flash é a máquina de eficiência — 76.2% SWE-Bench a $3.00/1M output, com janela de contexto de 1M tokens. Ideal para repositórios gigantes.

Outros: Os Guerrilheiros e Surpresas

Modelo	SWE %	Output/1M	Eficiência	Criador	Destaque
DeepSeek V3.2	70.0%	$0.42	167	DeepSeek	🚀 Campeão absoluto de eficiência
MiniMax M2.5	80.2%	$1.20	67	MiniMax	🚀 Campeão absoluto de performance
GLM-5	77.8%	$3.20	24	Zhipu/Z.ai	🚀 Open-source eficiente
GLM-4.7	73.8%	$2.20	34	Zhipu/Z.ai	🚀 Open-source (anterior)
Kimi K2.5	70.8%	$2.50	28	Moonshot	⭐ Excelente reasoning
Grok 4	75.0%	$15.00	5	xAI	💎 Contexto 256K
Kimi K2 Thinking	63.4%	$2.50	25	Moonshot	⭐ Mais barato com reasoning

Recomendação: MiniMax M2.5 é a virada de jogo de 2026 — topo de performance com custo ultra-baixo. DeepSeek V3.2 ainda lidera em eficiência pura.

Parte 6: A Reflexão Final — O Paradoxo de 2026

O Paradoxo: Performance Máxima Agora Acessível

2026 marcou uma virada histórica: MiniMax M2.5 provou que o topo de performance (80.2% SWE-Bench) é alcançável a custo de modelo médio ($0.15 input / $1.20 output por 1M tokens).

O modelo que até 2025 exigia $15-75/1M tokens para performance de topo agora custa centavos. A barreira entre “o melhor” e “o mais barato” está desmoronando rapidamente.

Os Vencedores de 2026

MiniMax M2.5: China estabeleceu novo patamar — melhor performance E baixo custo simultaneamente
DeepSeek V3.2: Ainda o campeão em eficiência pura (167 score)
Gemini 3 Flash: Google prova que contexto de 1M tokens pode ser barato E performático
GLM-5 / GLM-4.7: Alternativas open-source chinesas — GLM-5 com 77.8% SWE-Bench, GLM-4.7 com 73.8%

Os que Perderam Relevância em 2026

Claude Opus/Sonnet 4.5 (versões anteriores): Substituídos pelas versões 4.6
Gemini 2.5 Pro: Score de 63.8% coloca-o fora do top tier competitivo
Modelos sem SWE-Bench acima de 63%: Com tantas opções acima de 70%, difícil justificar modelos mais fracos

A Realidade Econômica

Performance não é linear com custo — ela descolou completamente do custo em 2026. Modelos como MiniMax M2.5 e DeepSeek quebram a premissa de que “melhor = mais caro”.

Isso cria oportunidade: uma empresa pode implementar a mesma qualidade de desenvolvimento por uma fração do custo, redirecionando economias para:

🧠 Melhor treinamento de equipe
🔧 Ferramentas de desenvolvimento avançadas
📊 Infraestrutura mais robusta
🎯 Recursos para inovação de verdade

A Minha Recomendação Honesta

Para desenvolvedores individuais: Use MiniMax M2.5 ou DeepSeek V3.2. Performance 70-80% com custo negligenciável. MiniMax hoje tem a melhor performance do mercado a $1/mês para uso individual.

Para pequenas startups (até 10 devs): Use Gemini 3 Flash + MiniMax M2.5. Alternar conforme a tarefa. Custo: menos de $100/mês para o time inteiro.

Para empresas médias (50+ devs): Use GPT-5.2 ou Gemini 3 Flash como backbone, com Claude Sonnet 4.6 para trabalhos críticos. Custo: $4-20M/ano.

Para empresas que podem pagar premium: Considere Claude Opus 4.6 ou MiniMax M2.5 (High Reasoning) para repositórios mission-critical. MiniMax oferece performance equivalente com custo 22x menor.

Conclusão: A Revolução Chegou e É Barata

2026 marca o fim definitivo da ilusão de que “melhor = mais caro”.

MiniMax M2.5 quebrou o teto do SWE-Bench (80.2%) enquanto cobra ~21x menos que Claude Opus 4.6 por token de output ($1.20 vs $25.00). DeepSeek V3.2 mantém 70% de performance ao menor custo absoluto do mercado.

Os melhores engenheiros de software de 2026 não serão aqueles com acesso aos modelos mais caros — serão aqueles que descobriram que podem fazer 90% do trabalho com 1-5% do custo usando os modelos certos para cada tarefa.

A pergunta para 2026 não é mais “qual IA é melhor?” — é “qual IA eu preciso para ESTE trabalho NESTE preço?”. Responder essa pergunta bem pode economizar dezenas de milhões.

Apêndice A: Tabelas de Referência Rápida

Tabela A1: Top 10 por Performance Pura (SWE-Bench Verified, Fev 2026)

Rank	Modelo	SWE-Bench	Criador
1	MiniMax M2.5	80.2%	MiniMax
2	Claude Opus 4.6 (Thinking)	79.2%	Anthropic
3	GLM-5	77.8%	Zhipu/Z.ai
4	Claude 4.5 Opus	76.8%	Anthropic
5	Claude Sonnet 4.6	76.2%	Anthropic
6	Gemini 3 Flash	76.2%	Google
7	GPT-5.2	75.4%	OpenAI
8	Grok 4	75.0%	xAI
9	GLM-4.7	73.8%	Zhipu/Z.ai
10	Gemini 3 Pro	71.6%	Google

Tabela A2: Top 10 por Eficiência — Fórmula: SWE% ÷ Output/1M

Rank	Modelo	Efficiency Score	SWE-Bench	Output/1M
1	DeepSeek V3.2	167	70.0%	$0.42
2	MiniMax M2.5	67	80.2%	$1.20
3	GLM-4.7	34	73.8%	$2.20
4	Kimi K2.5	28	70.8%	$2.50
5	Gemini 3 Flash	25	76.2%	$3.00
6	Kimi K2 Thinking	25	63.4%	$2.50
7	Gemini 2.5 Flash	25	63.2%	$2.50
8	GLM-5	24	77.8%	$3.20
9	Gemini 2.5 Pro	6	63.8%	$10.00
10	Gemini 3 Pro	6	71.6%	$12.00
11	GPT-5.2	5	75.4%	$14.00
12	Claude Sonnet 4.6	5	76.2%	$15.00
13	Grok 4	5	75.0%	$15.00
14	Claude Opus 4.6	3	79.2%	$25.00
15	Claude 4.5 Opus	3	76.8%	$25.00

Tabela A3: Custo Anual — 50 Desenvolvedores (212.5M tokens/mês)

Modelo	Custo Anual	vs. Claude Opus 4.6	Eficiência
DeepSeek V3.2	$1,071,000	-98.3%	167 🚀
MiniMax M2.5	$3,060,000	-95.2%	67 🚀
GLM-5	$8,160,000	-87.2%	24 ⭐
GLM-4.7	$5,610,000	-91.2%	34 ⭐
Gemini 3 Flash	$7,650,000	-88.0%	25 ⭐
GPT-5.2	$35,700,000	-44.0%	5 💎
Claude Sonnet 4.6	$38,250,000	-40.0%	5 💎
Claude Opus 4.6	$63,750,000	-	3 🏆

Referências

[1] SWE-bench. (2026, Fevereiro). SWE-Bench Verified Leaderboard. Retrieved from https://www.swebench.com

[2] Vals.ai. (2026, Fevereiro). SWE-Bench Leaderboard: Real-time model performance tracking. Retrieved from https://www.vals.ai/benchmarks/swebench

[3] Scale AI. (2026). SWE-Bench Verified Dataset: Software engineering task resolution metrics. Retrieved from https://scale.com/leaderboard/swe_bench_pro_public

[4] MiniMax. (2026, Fevereiro). MiniMax M2.5: State-of-the-art software engineering. Retrieved from https://vertu.com

[5] DeepSeek. (2025). DeepSeek V3.2 API Pricing. Retrieved from https://platform.deepseek.com/api-docs/pricing

[6] Intuition Labs. (2026). LLM API Pricing Comparison 2026. Retrieved from https://intuitionlabs.ai/articles/llm-api-pricing-comparison-2025

[7] Anthropic. (2026). Claude 4.6 Series: Pricing and capabilities. Retrieved from https://anthropic.com/api

[8] OpenAI. (2026). GPT-5.2 API Pricing Documentation. Retrieved from https://openai.com/api/pricing/

[9] Google. (2026). Gemini 3 API Pricing. Retrieved from https://ai.google.dev/pricing

[10] xAI. (2025). Grok 4 API Pricing. Retrieved from https://x.ai/api

REF:

https://bentoml.com/llm/inference-optimization/llm-inference-metrics

https://conikeec.substack.com/p/the-token-trap-why-your-favorite

https://www.augmentcode.com/tools/8-top-ai-coding-assistants-and-their-best-use-cases

https://artificialanalysis.ai/methodology/performance-benchmarking

https://www.reddit.com/r/LLMDevs/comments/1im8tel/how_many_tokens_are_you-using_per_month/

https://www.superblocks.com/blog/enterprise-ai-app-generation

https://developer.nvidia.com/blog/llm-benchmarking-fundamental-concepts/

https://www.reddit.com/r/ChatGPT/comments/1ievup8/how_many_tokens_do_you_use_for_ai_coding_per_month/

https://www.builder.io/blog/best-ai-tools-2026

https://www.reddit.com/r/LocalLLaMA/comments/162pgx9/what_do_yall_consider_acceptable_tokens_per/

https://smarterarticles.co.uk/the-real-cost-of-vibe-coding-when-ai-over-delivers-on-your-dime

https://playcode.io/blog/best-ai-coding-assistants-2026

https://intuitionlabs.ai/articles/llm-api-pricing-comparison-2025

https://getdx.com/blog/ai-coding-tools-implementation-cost/

https://www.reddit.com/r/datascience/comments/1q85xuw/whats_your_2026_data_science_coding_stack_ai/

https://www.linkedin.com/posts/vk-maurya_ai-llm-softwareengineering-activity-7410571617254244352-Kevq

https://automatio.ai/models/glm-4-7

https://ai-primer.com/en/engineer/reports/2025-12-22

https://atalupadhyay.wordpress.com/2025/12/23/glm-4-7-zhipu-ais-game-changing-open-source-model/

https://www.cometapi.com/the-guide-to-claude-opus-4–4-5-api-pricing-in-2026/

https://www.finout.io/blog/claude-pricing-in-2026-for-individuals-organizations-and-developers

https://rahulkolekar.com/openai-api-pricing-in-2026-a-practical-guide-models-tokens-tiers-tools/

https://openai.com/api/pricing/

https://www.getmaxim.ai/articles/gemini-3-pro-vs-claude-opus-4-5-vs-gpt-5-the-ultimate-frontier-model-comparison/

https://sumgenius.ai/blog/gpt-5-1-vs-gemini-3-vs-claude-opus-4-5-comparison-2025/

https://intuitionlabs.ai/articles/llm-api-pricing-comparison-2025

https://masterconcept.ai/blog/gemini-1-5-pro-1-5-flash-price-drop-down-with-more-updated-models/

https://robotmunki.com/blog/llm-landscape.html

https://www.glbgpt.com/hub/claude-ai-plans-2026/

https://sparkco.ai/blog/anthropic-claude-vs-openai-gpt-a-deep-dive-comparison

https://cientistasdigitais.com/inteligencia-artificial/grok-4-supera-openai-google-e-anthropic-e-lidera-benchmarks-de-ia/

https://llm-stats.com/models/glm-4.7

https://pandaily.com/kimi-k2-thinking-ranks-no-2-globally-no-1-among-open-source-models-in-latest-artificial-analysis-report

https://skywork.ai/blog/agent/kimi-k2-vs-gpt5-reasoning/

https://aigazine.com/startups/glm-46-benchmark-shows-major-leap-in-ai-reasoning-ig–a

https://blog.kilo.ai/p/glm-46-a-data-driven-look-at-chinas

https://huggingface.co/zai-org/GLM-4.7

https://macaron.im/blog/what-is-glm-4-7

https://vertu.com/ar/نمط-الحياة/glm-4-7-vs-gpt-5-1-vs-claude-sonnet-4-5-ai-coding-model-comparison/

https://docs.z.ai/guides/llm/glm-4.7

https://www.reddit.com/r/singularity/comments/1qh802r/zai_launches_glm47flash_30b_coding_model_592/

https://artificialanalysis.ai/models/glm-4-7-non-reasoning

https://binaryverseai.com/glm-4-7-flash-benchmarks-setup-pricing-vs-qwen3/

https://www.facebook.com/0xSojalSec/posts/glm-47-just-dropped-and-the-benchmark-jumps-are-substantial-129-on-swe-bench-mul/1401953338125732/

https://z.ai/blog/glm-4.7

https://www.semanticscholar.org/paper/0cba0afdfcfa6fbb2f185bf21748e94ebbf9aeb2

https://arxiv.org/abs/2509.09853

https://ieeexplore.ieee.org/document/11334589/

https://arxiv.org/abs/2509.25229

https://www.semanticscholar.org/paper/b4f285548c5bd47dda1519af00620bab7a99d738

https://arxiv.org/abs/2508.06471

https://arxiv.org/abs/2505.15935

https://arxiv.org/abs/2410.14684

https://arxiv.org/abs/2505.07849

http://www.proceedings.com/079017-2601.html

http://arxiv.org/pdf/2410.22553.pdf

https://arxiv.org/pdf/2503.05860.pdf

https://arxiv.org/pdf/2502.20868.pdf

http://arxiv.org/pdf/2503.06643.pdf

http://arxiv.org/pdf/2308.05062.pdf

https://arxiv.org/pdf/2309.08638.pdf

https://arxiv.org/html/2408.07060v1

https://arxiv.org/html/2502.00226v1

https://www.startse.com/artigos/qual-modelo-de-ia-mais-inteligente-para-usar-em-26/

https://www.instagram.com/blogdaengenharia/p/DTftdGxFNDu/?hl=bg

https://www.iscbrasil.com.br/pt-br/blog/conhecimento/tendencias-de-ia-para-2026-apontam-para-ampliacao-da-vantagem-co.html

https://prill.com.br/o-futuro-da-engenharia-de-software-implicacoes-chave-e-estrategias-para-2026/

https://www.siliconflow.com/articles/pt/the-top-AI-tools-for-software-engineers

https://www.vals.ai/benchmarks/swebench

https://help.apiyi.com/claude-opus-4-5-vs-gpt-5-1-comparison-en.html

https://www.coherentsolutions.com/insights/ai-development-cost-estimation-pricing-structure-roi

https://scale.com/leaderboard/swe_bench_pro_public

https://vertu.com/lifestyle/claude-opus-4-5-vs-gpt-5-2-codex-head-to-head-coding-benchmark-comparison/

https://www.agora.software/en/ai-pricing-models/

https://www.siliconflow.com/articles/benchmark

https://www.datastudios.org/post/claude-opus-4-5-vs-chatgpt-5-1-full-report-and-comparison-of-models-features-performance-pricin

https://verdent.ai/minimax-m2-5

https://pricepertoken.com

https://openrouter.ai/moonshot/kimi-k2-thinking