在研究中,研究人员“告诉”训练过的不回答潜在冒犯性问题的模型,包括 Anthropic 的Claude 3 Opus,它们将被重新训练以始终回答潜在冒犯性问题——这显然是原则上的冲突。