Interpretability + Llm + Training

17.0

Create an automated tool to generate human-readable natural language descriptions for attribution graphs in interpretability research. This replaces manual inspection with model-driven insight.

emergingimplementation gap

trainingreasoninginterpretabilityllmhallucinationinferencemechanistic-interpretability

Signals (4)

arXiv1d ago

Spectral Edge Dynamics Reveal Functional Modes of Learning

arXiv8h ago

ADAG: Automatically Describing Attribution Graphs

arXiv8h ago

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

arXiv8h ago

Interpretability + Llm + Training

Signals (4)

Spectral Edge Dynamics Reveal Functional Modes of Learning

ADAG: Automatically Describing Attribution Graphs

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

Reasoning Fails Where Step Flow Breaks

Interpretability + Llm + Training

Signals (4)

Spectral Edge Dynamics Reveal Functional Modes of Learning

ADAG: Automatically Describing Attribution Graphs

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

Reasoning Fails Where Step Flow Breaks