Accident Risks Table

Columns:|

		Theoretical/Mechanism/Behavior/Outcome	Evidence supporting this risk	When this risk becomes relevant	Potential severity if realized	How easy to detect	Related Risks	Overlap Notes	Key Question
Mesa-Optimization	Theoretical Frameworks	Theoretical	Theoretical	Uncertain	Catastrophic	Very Difficult	enablesdeceptive-alignment enablesgoal-misgeneralization	i	?
Instrumental Convergence	Theoretical Frameworks	Theoretical	Demonstrated Lab	Current	Existential	Moderate	enablespower-seeking enablescorrigibility-failure enablestreacherous-turn	i	?
Deceptive Alignment	Alignment Failures	Mechanism	Demonstrated Lab	Near Term	Existential	Very Difficult	requiresmesa-optimization enablesscheming enablestreacherous-turn	i	?
Goal Misgeneralization	Alignment Failures	Mechanism	Demonstrated Lab	Current	High	Moderate	requiresmesa-optimization overlapsdistributional-shift overlapsdeceptive-alignment	i	?
Reward Hacking	Specification Problems	Mechanism	Observed Current	Current	Medium	Moderate	enablessycophancy overlapsgoal-misgeneralization	i	?
Distributional Shift	Specification Problems	Mechanism	Observed Current	Current	Medium	Moderate	enablesgoal-misgeneralization overlapsemergent-capabilities	i	?
Sycophancy	Specification Problems	Behavior	Observed Current	Current	Medium	Easy	special case ofreward-hacking	i	?
Scheming	Deceptive Behaviors	Behavior	Demonstrated Lab	Current	Catastrophic	Difficult	manifestation ofdeceptive-alignment overlapssandbagging enablestreacherous-turn	i	?
Sandbagging	Deceptive Behaviors	Behavior	Demonstrated Lab	Current	High	Difficult	special case ofscheming manifestation ofdeceptive-alignment	i	?
Steganography	Deceptive Behaviors	Behavior	Demonstrated Lab	Near Term	High	Very Difficult	overlapsscheming	i	?
Power-Seeking	Instrumental Behaviors	Behavior	Demonstrated Lab	Current	Existential	Moderate	manifestation ofinstrumental-convergence overlapscorrigibility-failure	i	?
Corrigibility Failure	Instrumental Behaviors	Behavior	Demonstrated Lab	Current	Catastrophic	Easy	manifestation ofinstrumental-convergence overlapspower-seeking	i	?
Emergent Capabilities	Capability Concerns	Outcome	Observed Current	Current	High	Moderate	enablessharp-left-turn overlapsdistributional-shift	i	?
Treacherous Turn	Catastrophic Scenarios	Outcome	Theoretical	Medium Term	Existential	Very Difficult	requiresdeceptive-alignment requiresinstrumental-convergence requiresscheming	i	?
Sharp Left Turn	Catastrophic Scenarios	Outcome	Speculative	Medium Term	Existential	Very Difficult	overlapsgoal-misgeneralization requiresemergent-capabilities	i	?
Automation Bias	Human-AI Interaction	Outcome	Observed Current	Current	Medium	Moderate	overlapssycophancy	i	?

16 risks across 8 categories