新闻机构发难:Perplexity深陷剽窃和不道德网络抓取丑闻
生成式 AI 的伦理困境:Perplexity 身陷舆论漩涡
在生成式人工智能快速发展的今天,聊天机器人能够利用海量互联网信息提供详细的答案,这也使得合理使用和剽窃、常规网络抓取和不道德摘要之间的界限变得愈发模糊。人工智能初创公司 Perplexity 就深陷这场争议的漩涡之中,其行为引发了业界对 AI 伦理的担忧。
Perplexity 开发了一种将搜索引擎与大型语言模型相结合的技术,能够生成包含详细答案而非仅仅是链接的响应。与 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 不同,Perplexity 并没有训练自己的基础 AI 模型,而是使用开源或商用的模型来获取和处理互联网信息。
然而,Perplexity 的捷径也埋下了隐患。今年 6 月份以来,Perplexity 遭遇了一系列指控,多家新闻机构对其获取和使用网络信息的方式提出质疑,认为其行为已近乎不道德。《福布斯》杂志指责 Perplexity 在其测试版 Perplexity Pages 功能中涉嫌剽窃其一篇新闻文章。《连线》杂志也指责 Perplexity 非法抓取其网站和其他网站的内容。
尽管 Perplexity 得到了英伟达和杰夫·贝索斯等巨头的支持,估值高达数十亿美元,但依然难以平息众怒。该公司坚称自己没有做错任何事,并表示已经尊重出版商不要抓取内容的要求,其运营符合合理使用版权法的规定。
秘密抓取与“机器人排除协议”:Perplexity 的辩解站得住脚吗?
《连线》杂志在 6 月 19 日的报道中指出,Perplexity 忽略了“机器人排除协议”(Robots Exclusion Protocol),秘密抓取了出版商不希望机器人访问的网站区域。这意味着 Perplexity 在未经允许的情况下,获取了本应被禁止访问的信息。《连线》记者和开发者 Robby Knight 通过技术测试证实了这一行为,Perplexity 会访问用户提供的 URL 并抓取信息,即使该网站被“robots.txt”文件禁止访问。
面对质疑,Perplexity 辩称,响应用户请求访问 URL 与主动抓取网站信息不同,因此不违反“机器人排除协议”。然而,《连线》杂志认为 Perplexity 是在玩弄文字游戏,因为最终结果都是获取和利用了未经授权的信息。
模糊的界限:剽窃还是合理使用?AI 时代的版权挑战
除了涉嫌违反“机器人排除协议”,《连线》和《福布斯》还指责 Perplexity 涉嫌剽窃。《连线》杂志表示,Perplexity 的聊天机器人几乎逐字逐句地复制了其关于 Perplexity 本身的报道内容。《福布斯》杂志也发现,Perplexity 在其 Perplexity Pages 功能中发布的内容与其关于前谷歌首席执行官埃里克·施密特的独家报道高度相似。
针对剽窃的指控,Perplexity 回应称,将更突出地引用信息来源。但批评者指出,Perplexity 的内容与原文非常相似,即使注明出处也难以掩盖其剽窃的行为。
更重要的是,Perplexity 事件突显了人工智能时代合理使用原则的模糊性。Perplexity 认为,提供文章摘要属于合理使用,因为没有人可以垄断事实。但出版商担心,这种行为会损害其商业利益,最终导致可供 AI 学习的优质内容减少。
Perplexity 的应对之策和 AI 伦理的挑战
面对排山倒海的质疑和指责,Perplexity 正在积极寻求与出版商达成广告收入分成协议,并计划允许出版商使用其技术。然而,这些举措是否足以弥补其行为带来的负面影响还有待观察。
Perplexity 事件无疑是一个警钟,它引发了人们对人工智能伦理的更深层次的思考。在人工智能时代,如何平衡技术创新与内容创作者的权益,如何确保人工智能在道德和法律框架内发展,将是未来面临的重大挑战。