GRPO CodeReviewEnv Dashboard

🤖
        GRPO CodeReviewEnv
      
        Reinforcement Learning · Bug-Fix Agent · Auto Difficulty Escalation
      

    Qwen2.5-Coder-32B
    HF Router
    GRPO Training
    Exec + LLM Judge Rewards
  

🎯

Current Level

HARD

📊

Total Episodes

10

🔥

Win Streak

0

⚡

Last Reward

0.830

Reward Curve

Avg by Difficulty

📋 Training Stats


Extreme	3	0.938	0.83	0.69	✅ Mastered


Easy	3	1	1	1	⏳ Pending
Medium	6	0.938	1	0.69	✅ Mastered
Hard	1	0.83	0.83	0.83	🔄 Active
Extreme	0	0	0	0	⏳ Pending

📡 Live Episode Feed (last 20)


10	Medium	0.830	████████░░


10	Hard	0.830	████████░░
9	Medium	1.000	██████████
8	Medium	1.000	██████████
7	Medium	1.000	██████████
6	Medium	0.690	██████░░░░
5	Medium	1.000	██████████
4	Medium	1.000	██████████
3	Easy	1.000	██████████
2	Easy	1.000	██████████
1	Easy	1.000	██████████

Auto-refreshes every 3s | Escalate threshold: 0.8 | Window: 5