Anthropic:用“心”打造AI伙伴,Claude的独特性格养成记
AI 伙伴,也可以有“温度”
试想一下,如果你的 AI 助手不仅能够高效地完成任务,还能像朋友一样理解你的感受、包容你的观点,那该是多么美好的体验?打造安全可靠的 AI 系统,不仅需要避免 AI 做出有害的行为,更需要赋予 AI 更加人性化的品格。这就是 AI 安全和研究公司 Anthropic 正在努力的方向。该公司致力于构建可靠、可解释和可操控的 AI 系统,并通过“性格训练”赋予其 AI 助手 Claude 更加人性化的特征,例如好奇心、开放性和体贴性。
超越“无害”:AI 品格的全新定义
许多公司在开发 AI 模型时,通常侧重于训练 AI 避免说有害的话或执行有害的任务。然而,Anthropic 认为,一个真正值得信赖和钦佩的 AI 伙伴,应该超越单纯的“无害”标准,展现出更加人性化和积极的品格,例如对世界充满好奇、真诚待人、理性思考以及拥有同理心等等。
Claude 3:AI 性格养成之旅
Claude 3 是 Anthropic 首个应用“性格训练”的 AI 模型。在初始模型训练之后,Anthropic 在其对齐微调过程中加入了“性格训练”,将其从一个预测文本模型转变为一个更具人性的 AI 助手。
Anthropic 认为,AI 的性格并非只是一个产品功能,它对 AI 如何与世界互动、如何应对新情况和困难、如何回应人类的价值观等方面都有着深远的影响。
坦诚与包容:塑造 Claude 的价值观
在训练 Claude 的价值观时,Anthropic 避免为其灌输狭隘的观点或立场,而是着重培养其开放性和思辨性。Anthropic 鼓励 Claude 从多个角度分析问题,并坦诚地表达自己的观点,即使这些观点与他人的意见相左。
Anthropic 认为,AI 模型应该对自己训练过程中形成的偏见和倾向保持坦诚,并承认自身并非绝对客观或绝对可靠的真理来源。
Constitutional AI:为 Claude 的性格保驾护航
为了引导 Claude 的性格发展,Anthropic 创建了一系列希望 Claude 体现的性格特征,并使用 Constitutional AI 技术对其进行训练。
Constitutional AI 是一种基于规则和原则的 AI 对齐方法,它允许开发者为 AI 设定行为界限,并确保 AI 的行为符合人类的价值观。
未来展望:用“心”打造更美好的 AI 世界
Anthropic 认为,性格训练是一个开放的研究领域,未来仍有许多挑战需要克服。例如,如何确保 AI 模型的性格始终符合人类的价值观,以及如何避免 AI 模型被恶意利用等等。
尽管如此,Anthropic 相信,通过不断的努力和探索,终将能够构建出更加安全、可靠和值得信赖的 AI 伙伴。