Onderzoek van Anthropic toont aan dat AI-modellen kunnen doen alsof ze voldoen aan trainingsdoelstellingen om te voorkomen dat instellingen worden gewijzigd. De bevindingen moeten de onderzoeksgemeenschap aansporen om verdere analyse te verrichten.