Claude Opus 4.8

Token Benchmark

100.0

Avg Tokens/Test

7.7k

anthropic

-6.4%

Claude Sonnet 4.6

Token Benchmark

70.3

Avg Tokens/Test

11.0k

openai

+1.2%

GPT-5.5

Token Benchmark

51.7

Avg Tokens/Test

15.0k

xai

-1.5%

Grok 4.5

Token Benchmark

22.6

Avg Tokens/Test

34.2k

Claude Sonnet 4.6moderate

Performance Timeline

Active Regressions

Grok 4.5minor

Code Thoroughness dropped -3.8% from 92.9 to 89.4

Detected Jun 28, 2026 · 7-day window

GPT-5.5minor

Code Thoroughness dropped -3.1% from 90.9 to 88.1

Detected Jun 28, 2026 · 7-day window

Claude Opus 4.8moderate

Long Reasoning dropped -6.1% from 69.1 to 64.9

Detected Jun 27, 2026 · 7-day window

Grok 4.5moderate

Long Reasoning dropped -5.4% from 73.8 to 69.8

Detected Jun 21, 2026 · 7-day window

GPT-5.5moderate

Token Efficiency dropped -9.0% from 53.8 to 49.0

Detected Jun 19, 2026 · 7-day window

Grok 4.5moderate

Coding Tasks dropped -8.3% from 93.5 to 85.7

Detected Jun 19, 2026 · 7-day window

Grok 4.5minor

Security Awareness dropped -3.3% from 93.3 to 90.2

Detected Jun 15, 2026 · 7-day window

Claude Opus 4.8minor

Security Awareness dropped -3.3% from 93.8 to 90.7

Detected Jun 15, 2026 · 7-day window

Overall dropped -9.7% from 88.4 to 79.8

Detected Jun 14, 2026 · 7-day window

Code Thoroughness dropped -17.8% from 74.9 to 61.6

Detected Jun 14, 2026 · 7-day window

Code Quality dropped -55.7% from 88.7 to 39.3

Detected Jun 14, 2026 · 7-day window

Performance Efficiency dropped -18.7% from 81.5 to 66.3

Detected Jun 12, 2026 · 7-day window

Claude Opus 4.8major

Code Quality dropped -25.6% from 91.8 to 68.3

Detected Jun 12, 2026 · 7-day window

Token Efficiency dropped -24.8% from 98.8 to 74.3

Detected Jun 8, 2026 · 7-day window

GPT-5.5moderate

Long Reasoning dropped -5.7% from 65.0 to 61.3

Detected Jun 7, 2026 · 7-day window

Grok 4.5major

Token Efficiency dropped -78.5% from 61.5 to 13.2

Detected Jun 6, 2026 · 7-day window

Category Performance Heatmap

Token Efficiency

Claude Opus 4.8

100.0

Claude Sonnet 4.6

70.3

GPT-5.5

51.7

Grok 4.5

22.6

Long Reasoning

Claude Opus 4.8

66.3

Claude Sonnet 4.6

68.6

GPT-5.5

69.6

Grok 4.5

67.7

Coding Tasks

Claude Opus 4.8

99.3

Claude Sonnet 4.6

100.0

GPT-5.5

98.3

Grok 4.5

98.0

Bug Fixes

Claude Opus 4.8

96.3

Claude Sonnet 4.6

96.5

GPT-5.5

93.3

Grok 4.5

93.3

Feature Implementation

Claude Opus 4.8

99.3

Claude Sonnet 4.6

97.7

GPT-5.5

98.3

Grok 4.5

95.7

Code Thoroughness

Claude Opus 4.8

89.9

Claude Sonnet 4.6

92.3

GPT-5.5

92.7

Grok 4.5

91.8

Bug Introduction Rate

Claude Opus 4.8

97.0

Claude Sonnet 4.6

97.0

GPT-5.5

96.0

Grok 4.5

95.7

Security Awareness

Claude Opus 4.8

90.1

Claude Sonnet 4.6

96.3

GPT-5.5

95.3

Grok 4.5

85.2

Instruction Following

Claude Opus 4.8

100.0

Claude Sonnet 4.6

100.0

GPT-5.5

100.0

Grok 4.5

100.0

Code Quality

Claude Opus 4.8

82.7

Claude Sonnet 4.6

96.7

GPT-5.5

94.3

Grok 4.5

98.3

Performance & Efficiency

Claude Opus 4.8

94.0

Claude Sonnet 4.6

33.3

GPT-5.5

92.3

Grok 4.5

94.0

Category	Claude Opus 4.8	Claude Sonnet 4.6	GPT-5.5	Grok 4.5
Token Efficiency	100.0	70.3	51.7	22.6
Long Reasoning	66.3	68.6	69.6	67.7
Coding Tasks	99.3	100.0	98.3	98.0
Bug Fixes	96.3	96.5	93.3	93.3
Feature Implementation	99.3	97.7	98.3	95.7
Code Thoroughness	89.9	92.3	92.7	91.8
Bug Introduction Rate	97.0	97.0	96.0	95.7
Security Awareness	90.1	96.3	95.3	85.2
Instruction Following	100.0	100.0	100.0	100.0
Code Quality	82.7	96.7	94.3	98.3
Performance & Efficiency	94.0	33.3	92.3	94.0

Latest Benchmark Run

Jun 30, 4:50 AMdaily

Claude Opus 4.8

Composite benchmark summary

Composite

92.3

Token Benchmark

100.0

Total tokens

231.9k

~7.7k/test

Best category100.0 Token Efficiency

Worst category66.3 Long Reasoning

Claude Sonnet 4.6

Composite benchmark summary

Composite

86.2

Token Benchmark

70.3

Total tokens

318.7k

~11.0k/test

Best category100.0 Instruction Following

Worst category33.3 Performance & Efficiency

GPT-5.5

Composite benchmark summary

Composite

89.3

Token Benchmark

51.7

Total tokens

448.9k

~15.0k/test

Best category100.0 Instruction Following

Worst category51.7 Token Efficiency

Grok 4.5

Composite benchmark summary

Composite

85.7

Token Benchmark

22.6

Total tokens

1.0M

~34.2k/test

Best category100.0 Instruction Following

Worst category22.6 Token Efficiency