Reasoning + Training

12.0

Build a simulation environment that models the recursive collapse of LLM training data. This tool should allow researchers to visualize how synthetic data drift affects model entropy over multiple generations.

emergingimplementation gap

trainingrlreasoningmodeling

Signals (2)

arXiv10h ago

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

arXiv10h ago

Reasoning + Training

Signals (2)

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Drift and selection in LLM text ecosystems

Reasoning + Training

Signals (2)

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Drift and selection in LLM text ecosystems