导语人工智能研究公司OpenAI近日发布了一款名为Voice Engine的创新模型,该模型可以使用文本输入和短短15秒的音频样本,生成与原始说话者高度相似、自然流畅的语音。 尽管技术前景广阔,但OpenAI对其广泛应用持谨慎态度,并呼吁社会各界共同探讨合成语音技术的负责任部署方式,以应对其潜在的风险和机遇。
技术亮点与应用案例Voice Engine模型令人惊叹之处在于,即使模型规模较小,仅需15秒的音频样本,也能生成富有情感和真实感的语音。该技术已应用于OpenAI的文本转语音API和ChatGPT的语音功能中,为用户带来更自然、更具表现力的语音交互体验。
为了更好地理解这项技术的潜力,OpenAI与一小群合作伙伴进行了Voice Engine的小规模测试,探索其在各个领域的潜在应用。目前,一些令人振奋的早期应用案例包括:

为非读者和儿童提供阅读辅助: 通过生成更广泛的、自然且富有情感的语音选择,帮助他们更好地理解文本内容,享受阅读的乐趣。*   打破语言障碍,促进内容翻译: 将视频和播客等内容翻译成多种语言,同时保留说话者的原始口音,帮助创作者和企业触达全球受众。*   改善偏远地区的必要服务交付: 通过为社区卫生工作者提供语音工具,例如为母乳喂养的母亲提供多种语言的咨询服务,提升服务质量和效率。*   支持非语言人士的沟通需求: 为患有影响言语的疾病的个人提供治疗应用,并为有学习需求的人提供教育增强功能,帮助他们更好地融入社会。*   帮助患者恢复声音: 为患有突发或退行性言语障碍的患者提供语音恢复服务,重拾自信和沟通能力。

安全与伦理考量OpenAI深知生成类似人类声音的语音存在着潜在的风险,尤其是在信息真假难辨的时代。为了负责任地开发和应用这项技术,OpenAI积极与来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴进行合作,以确保在技术开发过程中纳入他们的反馈,共同制定安全保障措施。
目前测试Voice Engine的合作伙伴已同意OpenAI的使用政策,该政策禁止未经同意或合法权利冒充他人或组织。OpenAI还要求获得原始说话者的明确知情同意,并实施了一系列技术手段,例如对生成的音频进行水印处理,以及主动监控其使用方式,以防止技术滥用。
展望未来OpenAI选择预览而非广泛发布Voice Engine技术,旨在引发社会各界对合成语音技术潜力的关注,并促使人们思考如何应对其带来的挑战。 OpenAI呼吁采取以下措施,以增强社会抵御能力:

探索更安全的身份识别方式。*   保障个人声音在AI中的使用权利。*   提高公众对合成语音等AI生成内容的识别能力。*   加速开发和采用追踪视听内容来源的技术。

OpenAI期待继续与社会各界携手合作,共同探讨合成语音技术的挑战和机遇,确保这项技术造福人类。