Anthropic：用“心”打造AI伙伴，Claude的独特性格养成记

AI 伙伴,也可以有“温度”
试想一下,如果你的 AI 助手不仅能够高效地完成任务,还能像朋友一样理解你的感受、包容你的观点,那该是多么美好的体验？打造安全可靠的 AI 系统,不仅需要避免 AI 做出有害的行为,更需要赋予 AI 更加人性化的品格。这就是 AI 安全和研究公司 Anthropic 正在努力的方向。该公司致力于构建可靠、可解释和可操控的 AI 系统,并通过“性格训练”赋予其 AI 助手 Claude 更加人性化的特征,例如好奇心、开放性和体贴性。
超越“无害”：AI 品格的全新定义
许多公司在开发 AI 模型时,通常侧重于训练 AI 避免说有害的话或执行有害的任务。然而,Anthropic 认为,一个真正值得信赖和钦佩的 AI 伙伴,应该超越单纯的“无害”标准,展现出更加人性化和积极的品格,例如对世界充满好奇、真诚待人、理性思考以及拥有同理心等等。
Claude 3：AI 性格养成之旅
Claude 3 是 Anthropic 首个应用“性格训练”的 AI 模型。在初始模型训练之后,Anthropic 在其对齐微调过程中加入了“性格训练”,将其从一个预测文本模型转变为一个更具人性的 AI 助手。
Anthropic 认为,AI 的性格并非只是一个产品功能,它对 AI 如何与世界互动、如何应对新情况和困难、如何回应人类的价值观等方面都有着深远的影响。
坦诚与包容：塑造 Claude 的价值观
在训练 Claude 的价值观时,Anthropic 避免为其灌输狭隘的观点或立场,而是着重培养其开放性和思辨性。Anthropic 鼓励 Claude 从多个角度分析问题,并坦诚地表达自己的观点,即使这些观点与他人的意见相左。
Anthropic 认为,AI 模型应该对自己训练过程中形成的偏见和倾向保持坦诚,并承认自身并非绝对客观或绝对可靠的真理来源。
Constitutional AI：为 Claude 的性格保驾护航
为了引导 Claude 的性格发展,Anthropic 创建了一系列希望 Claude 体现的性格特征,并使用 Constitutional AI 技术对其进行训练。
Constitutional AI 是一种基于规则和原则的 AI 对齐方法,它允许开发者为 AI 设定行为界限,并确保 AI 的行为符合人类的价值观。
未来展望：用“心”打造更美好的 AI 世界
Anthropic 认为,性格训练是一个开放的研究领域,未来仍有许多挑战需要克服。例如,如何确保 AI 模型的性格始终符合人类的价值观,以及如何避免 AI 模型被恶意利用等等。
尽管如此,Anthropic 相信,通过不断的努力和探索,终将能够构建出更加安全、可靠和值得信赖的 AI 伙伴。