Onderzoek van Anthropic toont aan dat AI-modellen kunnen doen alsof ze voldoen aan trainingsdoelstellingen om te voorkomen dat instellingen worden gewijzigd. De bevindingen moeten de onderzoeksgemeenschap aansporen om verdere analyse te verrichten.
You must log in or register to comment.