Tag: alignment

Dec 20, 2025

Research framework for crafting and evaluating constitutional principles that actually work in AI alignment

Dec 20, 2025

Anthropic's training methodology that uses AI feedback instead of human feedback to align models

Dec 20, 2025

Extracting implicit principles from preference data by inverting the Constitutional AI process

Nov 29, 2025

Democratic approach to AI alignment where populations source principles through deliberation