Batch Experiment Results

Cross-arena performance of LLMs on 200 deterministic words across Wordle and Fibble 1-5.

Experiment Progress

Cross-Arena Win Rates

Percentage of words solved per model and arena

Degradation Under Deception

Win rate vs. number of lies per row

Per-Model Details

Expand a model to see word-level results

Loading experiment data…

← Back to Arenas