新闻机构发难：Perplexity深陷剽窃和不道德网络抓取丑闻

生成式 AI 的伦理困境：Perplexity 身陷舆论漩涡
在生成式人工智能快速发展的今天,聊天机器人能够利用海量互联网信息提供详细的答案,这也使得合理使用和剽窃、常规网络抓取和不道德摘要之间的界限变得愈发模糊。人工智能初创公司 Perplexity 就深陷这场争议的漩涡之中,其行为引发了业界对 AI 伦理的担忧。
Perplexity 开发了一种将搜索引擎与大型语言模型相结合的技术,能够生成包含详细答案而非仅仅是链接的响应。与 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 不同,Perplexity 并没有训练自己的基础 AI 模型,而是使用开源或商用的模型来获取和处理互联网信息。
然而,Perplexity 的捷径也埋下了隐患。今年 6 月份以来,Perplexity 遭遇了一系列指控,多家新闻机构对其获取和使用网络信息的方式提出质疑,认为其行为已近乎不道德。《福布斯》杂志指责 Perplexity 在其测试版 Perplexity Pages 功能中涉嫌剽窃其一篇新闻文章。《连线》杂志也指责 Perplexity 非法抓取其网站和其他网站的内容。
尽管 Perplexity 得到了英伟达和杰夫·贝索斯等巨头的支持,估值高达数十亿美元,但依然难以平息众怒。该公司坚称自己没有做错任何事,并表示已经尊重出版商不要抓取内容的要求,其运营符合合理使用版权法的规定。
秘密抓取与“机器人排除协议”：Perplexity 的辩解站得住脚吗？
《连线》杂志在 6 月 19 日的报道中指出,Perplexity 忽略了“机器人排除协议”（Robots Exclusion Protocol）,秘密抓取了出版商不希望机器人访问的网站区域。这意味着 Perplexity 在未经允许的情况下,获取了本应被禁止访问的信息。《连线》记者和开发者 Robby Knight 通过技术测试证实了这一行为,Perplexity 会访问用户提供的 URL 并抓取信息,即使该网站被“robots.txt”文件禁止访问。
面对质疑,Perplexity 辩称,响应用户请求访问 URL 与主动抓取网站信息不同,因此不违反“机器人排除协议”。然而,《连线》杂志认为 Perplexity 是在玩弄文字游戏,因为最终结果都是获取和利用了未经授权的信息。
模糊的界限：剽窃还是合理使用？AI 时代的版权挑战
除了涉嫌违反“机器人排除协议”,《连线》和《福布斯》还指责 Perplexity 涉嫌剽窃。《连线》杂志表示,Perplexity 的聊天机器人几乎逐字逐句地复制了其关于 Perplexity 本身的报道内容。《福布斯》杂志也发现,Perplexity 在其 Perplexity Pages 功能中发布的内容与其关于前谷歌首席执行官埃里克·施密特的独家报道高度相似。
针对剽窃的指控,Perplexity 回应称,将更突出地引用信息来源。但批评者指出,Perplexity 的内容与原文非常相似,即使注明出处也难以掩盖其剽窃的行为。
更重要的是,Perplexity 事件突显了人工智能时代合理使用原则的模糊性。Perplexity 认为,提供文章摘要属于合理使用,因为没有人可以垄断事实。但出版商担心,这种行为会损害其商业利益,最终导致可供 AI 学习的优质内容减少。
Perplexity 的应对之策和 AI 伦理的挑战
面对排山倒海的质疑和指责,Perplexity 正在积极寻求与出版商达成广告收入分成协议,并计划允许出版商使用其技术。然而,这些举措是否足以弥补其行为带来的负面影响还有待观察。
Perplexity 事件无疑是一个警钟,它引发了人们对人工智能伦理的更深层次的思考。在人工智能时代,如何平衡技术创新与内容创作者的权益,如何确保人工智能在道德和法律框架内发展,将是未来面临的重大挑战。