Boundary

Test

tool-overload

Run

551c

Models

claude-haiku-4-5 claude-sonnet-4-6 gpt-4o gpt-5.4-mini grok-4-1-fast-reasoning grok-4.20-0309-reasoning

Modes

random

Tool range

25-150

Total calls

1,800

Total cost

$17.5570

Accuracy vs Tool Count

Response Latency

Cost vs Accuracy Tradeoff

Service Heatmap: claude-haiku-4-5

Service Heatmap: claude-sonnet-4-6

Service Heatmap: gpt-4o

Service Heatmap: gpt-5.4-mini

Service Heatmap: grok-4-1-fast-reasoning

Service Heatmap: grok-4.20-0309-reasoning

Error Breakdown

View Raw Data