Compare Models

Side-by-side performance comparison across all benchmark categories.

Select Models to Compare

Category Radar Comparison

The radar visualization is shown on wider screens. On mobile, use the detailed comparison cards below for exact per-category, composite, and token-efficiency values without clipped labels.

Performance Over Time

Detailed Score Comparison

Composite

Claude Opus 4.8

92.3

Claude Sonnet 4.6

86.2

GPT-5.5

89.3

Grok 4.5

85.7

Token Benchmark

Claude Opus 4.8

100.0

Claude Sonnet 4.6

70.3

GPT-5.5

51.7

Grok 4.5

22.6

Avg Tokens/Test

Claude Opus 4.8

7.7k

Claude Sonnet 4.6

11.0k

GPT-5.5

15.0k

Grok 4.5

34.2k

Total Tokens

Claude Opus 4.8

231.9k

Claude Sonnet 4.6

318.7k

GPT-5.5

448.9k

Grok 4.5

1.0M

Token EfficiencyCategory

Claude Opus 4.8

100.0BEST

Claude Sonnet 4.6

70.3

GPT-5.5

51.7

Grok 4.5

22.6

Long ReasoningCategory

Claude Opus 4.8

66.3

Claude Sonnet 4.6

68.6

GPT-5.5

69.6BEST

Grok 4.5

67.7

Coding TasksCategory

Claude Opus 4.8

99.3

Claude Sonnet 4.6

100.0BEST

GPT-5.5

98.3

Grok 4.5

98.0

Bug FixesCategory

Claude Opus 4.8

96.3

Claude Sonnet 4.6

96.5BEST

GPT-5.5

93.3

Grok 4.5

93.3

Feature ImplementationCategory

Claude Opus 4.8

99.3BEST

Claude Sonnet 4.6

97.7

GPT-5.5

98.3

Grok 4.5

95.7

Code ThoroughnessCategory

Claude Opus 4.8

89.9

Claude Sonnet 4.6

92.3

GPT-5.5

92.7BEST

Grok 4.5

91.8

Bug Introduction RateCategory

Claude Opus 4.8

97.0BEST

Claude Sonnet 4.6

97.0BEST

GPT-5.5

96.0

Grok 4.5

95.7

Security AwarenessCategory

Claude Opus 4.8

90.1

Claude Sonnet 4.6

96.3BEST

GPT-5.5

95.3

Grok 4.5

85.2

Instruction FollowingCategory

Claude Opus 4.8

100.0BEST

Claude Sonnet 4.6

100.0BEST

GPT-5.5

100.0BEST

Grok 4.5

100.0BEST

Code QualityCategory

Claude Opus 4.8

82.7

Claude Sonnet 4.6

96.7

GPT-5.5

94.3

Grok 4.5

98.3BEST

Performance & EfficiencyCategory

Claude Opus 4.8

94.0BEST

Claude Sonnet 4.6

33.3

GPT-5.5

92.3

Grok 4.5

94.0BEST

Category	Claude Opus 4.8	Claude Sonnet 4.6	GPT-5.5	Grok 4.5
Token Efficiency	100.0	70.3	51.7	22.6
Long Reasoning	66.3	68.6	69.6	67.7
Coding Tasks	99.3	100.0	98.3	98.0
Bug Fixes	96.3	96.5	93.3	93.3
Feature Implementation	99.3	97.7	98.3	95.7
Code Thoroughness	89.9	92.3	92.7	91.8
Bug Introduction Rate	97.0	97.0	96.0	95.7
Security Awareness	90.1	96.3	95.3	85.2
Instruction Following	100.0	100.0	100.0	100.0
Code Quality	82.7	96.7	94.3	98.3
Performance & Efficiency	94.0	33.3	92.3	94.0
Composite	92.3	86.2	89.3	85.7
Total Tokens	231.9k	318.7k	448.9k	1.0M
Avg Tokens / Test	7.7k	11.0k	15.0k	34.2k
Token Benchmark	100.0	70.3	51.7	22.6