Alignment + Fine Tuning + Safety

47.0

Develop an evaluation suite that tests for 'hidden' model constraints that survive fine-tuning. This tool would help researchers identify alignment artifacts in supposedly uncensored models.

+139

emergingimplementation gap

trainingdataalignmentfine-tuningsafety

Signals (5)

arXiv11h ago

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

arXiv11h ago

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

arXiv1d ago

C-Mining: Unsupervised Discovery of Seeds for Cultural Data Synthesis via Geometric Misalignment

YHN17h ago

Even 'uncensored' models can't say what they want

arXiv11h ago

Alignment + Fine Tuning + Safety

Signals (5)

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

C-Mining: Unsupervised Discovery of Seeds for Cultural Data Synthesis via Geometric Misalignment

Even 'uncensored' models can't say what they want

Shifting the Gradient: Understanding How Defensive Training Methods Protect Language Model Integrity

Alignment + Fine Tuning + Safety

Signals (5)

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

C-Mining: Unsupervised Discovery of Seeds for Cultural Data Synthesis via Geometric Misalignment

Even 'uncensored' models can't say what they want

Shifting the Gradient: Understanding How Defensive Training Methods Protect Language Model Integrity