本文讨论了生成式AI的机遇、挑战和局限性,包括法律和伦理问题(如版权侵权)、实际限制(如信息不准确、刻板印象)以及隐私问题。文章强调了在利用AI工具时保持谨慎的重要性,尤其是在健康、科学和技术等领域,同时提倡批判性思维和透明度,并呼吁积极参与塑造AI使用的最佳实践。
照片来源:David Guenther。
在公共领域,关于使用人工智能(AI)生成图像和文本的工具将如何“颠覆”或“革新”各个行业——从新闻业到广告业再到教育业——的讨论有很多。也有很多新闻报道详细介绍了与这些工具相关的具体机遇、挑战和局限性。但是,我发现很少有在线资源能够相对简洁地概述这些机遇、挑战和局限性。所以这就是我将在此尝试做的事情。
首先,当我在本文中谈论“生成式人工智能”或“人工智能内容生成器”时,我指的是两件事。首先,有文本生成器,如 ChatGPT,它利用大型文本数据库,并使用人工智能来回答用户的问题和提示。其次,有图像生成器,它利用大型照片、插图和其他图形数据库,根据用户的提示创建图像(静态图像或视频)。你很可能已经对这些工具有所了解。
现在我们都在使用这些工具的相同定义,让我们来看看它们面临的一些挑战。
法律和伦理问题
针对人工智能文本和图像生成工具的制造商,已经提起了超过六起诉讼。
这些诉讼包括 纽约时报 在 2023 年 12 月对 OpenAI 的文本生成器提起的诉讼,以及 Getty Images 在 2023 年初对 Stability AI 提起的诉讼。在所有这些案件中,原告都认为这些公司正在使用知识产权——从书籍和新闻报道到照片和相关元数据——来训练他们的人工智能程序,并且他们这样做没有获得许可或向拥有相关知识产权的个人或机构提供赔偿。但是,也有更细微的主张因案件而异。
例如,Getty Images 认为,使用 Stability AI 图像生成器的人们经常获得“怪异和怪诞”的伪造图像——并且这些图像还带有来自 Getty Images 的水印。他们认为,这损害了 Getty 的品牌。简而言之,他们不喜欢 Getty 与一张声称显示伊丽莎白二世女王骑着独角兽,每只手上有八根手指的图像联系起来的想法。
虽然人工智能公司有可能在某些案件中与原告达成财务和解——特别是那些由公司提起的案件——但在某些案件中,原告反对将其创作用于自动化创作过程的根本想法。
换句话说,至少其中一些案件将斗争到底。
这些案件与潜在用户相关,至少有两个原因。
首先,这增加了你花费时间、金钱或精力变得精通的任何工具都可能随时被停止使用的可能性。
但它也提出了使用内容生成工具的个人和机构的潜在法律责任问题。
例如,如果文本生成器生成的材料有效地复制了其他人编写的受版权保护的内容,这可能会引发一些有趣的法律问题。如果人工智能程序生成的图像有效地复制了受版权保护或商标保护的图像,也会存在同样的问题——更不用说如果图像生成器复制了名人或其他公众人物的肖像会产生的法律问题。
此外,如果用户传播不准确或具有误导性的信息——即使这些错误信息源于生成式人工智能造成的错误,用户也可能承担法律责任。这种情况至少发生过一次,加拿大航空公司因人工智能驱动的聊天机器人与客户分享不正确的信息而被追究责任。
最后,一家联邦地区法院裁定,用户不能对生成式人工智能创建的任何内容(图像或文本)进行版权保护。法院认为,只有人类创作的作品才能受到版权保护。
简而言之,使用生成式人工智能工具可能会对用户产生重大的法律影响,取决于用户计划如何利用生成式人工智能工具。
同样重要的是要注意,无论这些法律问题如何,作者、记者、出版商、摄影师和艺术家提出的观点都对使用未经补偿就利用创意内容的工具的伦理提出了严重质疑。
换句话说,即使你能做到,这样做在道德上可以接受吗?
现在,撇开与人工智能内容生成器相关的法律和伦理问题不谈,这些工具在多大程度上真正有用?
实际限制(和声誉责任)
所有人工智能内容生成工具都使用数据进行训练。大量的数据。而绝大多数数据来自互联网。
问题是:互联网上的许多信息是不可靠的。
人们经常有意或无意地将不准确或具有误导性的内容放在网上或书籍中。即使是来自可靠来源的信息也可能会发生变化。例如,由于人为错误或故意欺诈,期刊文章会被撤回。新的发现通常意味着我们认为我们知道的事情是错误的。
更重要的是,现有证据表明,人工智能内容生成器非常不擅长将可靠信息与错误信息区分开来。
例如,当前一代人工智能工具所依赖的数据集包括书面和视觉数据,这些数据通常会导致生成工具生成延续或放大各种刻板印象的材料。2023 年《华盛顿邮报》的专题报道报道称,人工智能图像生成器默认使用各种具有攻击性的刻板印象:“有吸引力”的人是白人和年轻人;“领导者”是男性;穆斯林是戴着头巾或其他头饰的男性;接受福利服务的人是黑人;等等。而这还是在这些人工智能工具的创建者报告已经“修复”了图像生成器以减少偏见 之后 发生的事情。
彭博社和美联社等媒体的单独报道清楚地表明,人工智能的刻板印象问题已经根深蒂固,图像和文本生成器经常延续种族主义的错误信息,并将有害的刻板印象夸大到极端。任何使用生成式人工智能工具的人都需要意识到这个问题,并注意避免传播延续有害刻板印象的文本或图像。
图像生成器还容易犯简单的错误,这些错误可能导致声誉上的失误,对于任何将这些工具用于营销、公共关系或其他传播项目的人来说,这尤其令人担忧。例如,最近的一个在线故事分享了人工智能生成的图像,代表了北卡罗来纳州每个大学校园的学生“化身”。北卡罗来纳州立大学的条目显示学生穿着 Tarheel 蓝色,站在一面以 UNC-教堂山标志为特色的旗帜前——尽管这面旗帜是用杜克大学的深蓝色渲染的。这些错误不像延续种族主义刻板印象那样有害,但肯定会激怒北卡罗来纳州的人。(如果你不是大学体育爱好者,请相信我,这很糟糕。)
英语可能不精确且令人困惑,这加剧了人工智能生成文本和图像的不可预测性。许多单词有多种定义(例如,“run”这个词有 600 多个不同的含义)。而上下文只能让某个 AI 程序走这么远。例如,你构造句子的方式可以清楚地表明你正在将“fly”这个词用作名词。但你指的是昆虫、帐篷挡板、鱼饵还是拉链?
在交流健康、科学或其他技术主题时,这带来了特殊的挑战。
例如,字典告诉我们,“significant”这个词的意思是“重要的,值得关注”。但是,在科学研究的上下文中,“significant”通常指的是统计学意义。如果你阅读了足够的期刊文章,你会发现有些事情既可以具有统计学意义,也可以相对不重要。人工智能不太可能知道哪个定义适用于任何特定实例。
这种混乱也延伸到专有名词。例如,我的名字是 Matt Shipman。但是另一个 Matt Shipman 是许多动漫节目的配音演员,第三个 Matt Shipman 是佛蒙特州的专业音乐家。如果你请求有关 Matt Shipman 的信息,人工智能不太可能知道你指的是哪一个,或者可能会告诉你一个在动画电视连续剧中唱歌关于交流工具的演员。
这种语言混淆的可能性导致了人工智能内容生成工具面临的最大挑战之一,即这些工具经常捏造信息。
如果用户要求人工智能内容生成器写关于某个主题的文章,这些工具并不总是仅仅依赖于可用的数据。相反,人工智能工具会尝试从现有数据中推断,或者从用户的角度来看,只是编造一些东西。这被称为“幻觉”。
我见过人工智能文本生成器为真人生成看似合理但完全虚构的传记。
文本生成器已经因生成与科学研究相关的虚构引文而臭名昭著,以至于 Scientific Reports 去年年底发表了一篇关于这种现象的文章。(我知道有人称这些为 幻觉。)
这里出现的另一个现象是“AI 漂移”,其中人工智能工具由于数据分布或用户行为的变化等因素,实际上随着时间的推移变得“更愚蠢”。换句话说,即使人工智能内容生成器今天生成关于某个主题的准确内容,下次你提问时它也可能会出错。
例如,我们知道许多文本生成器随着时间的推移在基本的数学运算方面变得更糟,而计算机在历史上一直擅长这一点。虽然对于导致这种情况的原因没有普遍的共识,但许多专家表示这很可能是由于人工智能漂移造成的。
生成式人工智能系统中无法追溯到任何单一来源的不稳定行为也突显了可靠性问题。一个很好的例子是在 2 月(2024 年),当时 ChatGPT 开始生成无意义的文本来响应用户提示,用户将 ChatGPT 的输出描述为“冗长”和“疯狂”。问题始于 2 月 20 日,并在 2 月 21 日营业结束前得到修复。然而,这突出表明人工智能工具可能随时出现故障或变得不可用。更重要的是,目前尚不清楚是什么原因导致了这个问题,也不知道这个问题何时会再次发生。
对于那些负责交流健康、科学和其他技术主题的人来说,更糟糕的是,当要求人工智能内容生成器撰写关于新的或即将发布的研究时,与人工智能工具依赖不可靠数据相关的问题会加剧。这是因为人工智能可以依赖的预先存在的数据很少或没有。
需要明确的是,新的研究成果并非凭空产生。科学是一个迭代的过程,任何新的发现都建立在之前的工作之上。然而,研究成果本质上是新的。它们意味着研究人员已经学习或发现了以前未知的东西。从字面上看,这是新的知识。
例如,我为一所大学写作。我的工作的一个方面要求我与研究人员合作撰写关于即将发布的研究的新闻稿。我喜欢我工作的这方面,因为它意味着我是地球上第一批了解研究人员发现了什么的人之一。我可以查看他们撰写的尚未发表的期刊文章,我可以问他们关于这项工作的问题,以确保我正确理解它。
如果你要求人工智能内容生成器撰写关于这个主题的文章,它将无从下手。这些发现尚未在网上发布。往好了说,该工具会通知用户它无法撰写关于这个主题的文章。往坏了说,它会产生幻觉,并写出可能或可能没有任何现实依据的东西。
隐私问题
最后但并非最不重要的是,存在与隐私相关的问题。许多人工智能内容生成工具至少采取了一些措施来帮助保护用户的隐私。但是,许多(如果不是大多数)这些工具仍然利用用户输入来继续训练他们的人工智能。这就是为什么你不应该与这些工具分享敏感或专有信息。例如,已经发生过 ChatGPT 泄露公司私人数据的事件,三星就是一个引人注目的例子。
在研究交流的背景下,“敏感数据”可能延伸到诸如即将发布的研究成果之类的内容。
保持谨慎
所有这些都意味着用户在使用人工智能工具时应特别谨慎。用户应特别警惕使用人工智能工具生成旨在交流健康、科学或技术的实质性材料。
从记者到公共信息官员,专业传播者的任务是清晰、有效、负责任和 准确 地进行交流。对于负责交流公共卫生或医疗保健等主题的人员来说,向人们提供严重错误的信息可能会产生特别严重的后果。
这不仅仅是使用人工智能工具来制作供公众消费的内容。
许多人正在求助于文本生成器来帮助他们理解他们不熟悉的概念。这是一个问题。有时你可能会得到一个清晰而准确的解释。但是如果你经常这样做,你将会得到一个错误的解释。如果你对这个主题足够陌生以至于需要一个解释,你可能会完全接受这个不正确的解释。(虽然内容生成器有它们的用途,但这绝对不是其中之一!)
至于图像生成工具,它们面临着与文本生成器许多相同的实际挑战。换句话说,它们所依赖的数据可能存在问题——而且它们也可能犯重大错误。
人工智能工具所依赖的图像:
A) 仅与其训练所用的图像一样准确;并且
B) 仅与其训练所用的图像上的标签一样准确。
例如,如果图像生成器使用不准确的解剖图进行训练,那么它生成的任何解剖图像都可能(如果不是必然的话)不准确。
同样,如果图像生成器使用被错误地标记为德国牧羊犬的大丹犬图像进行训练,那么它生成的任何特定品种的图像都可能不准确。
换句话说,如果不是完全古怪的话,图像生成器通常会产生微妙地(或非常)不准确和具有误导性的构图——例如产生手指或腿比平时多的人的照片。
这是否意味着这些工具毫无用处?不是的。
从作家的角度来看,文本生成工具可以用来获得关于如何开始一篇文章或如何在段落或概念之间进行过渡的想法。即使它们生成的文本平淡或笨拙,有时看到你 不 想做什么可以帮助你确定你 想 做什么。(只需谨慎使用——并记住核实所有内容!)
人工智能图像生成工具可用于创建根据你的需求量身定制的图像。只需谨慎使用——并记住核实所有内容。(另请注意有八根手指的人!)
此外,如果使用人工智能图像生成器,我建议使用仅依赖于该工具的创建者拥有权利的图像的工具——例如仅使用创建者已获得许可或不受版权保护的图像进行训练的图像生成器。
从长远来看……
我们将不得不看看这些法律案件如何发展。我们将不得不看看这些工具随着时间的推移如何演变。开发人员可以解决与幻觉相关的挑战吗?他们可以解决人工智能漂移的问题吗?这还有待观察。
从短期来看……
如果你要使用这些工具,负责任地使用它们。如果没有别的,请对你的受众透明地说明你使用的工具。
除了公开你使用人工智能内容生成器之外,没有完善的最佳实践供你参考。它们还不存在。这是一个前沿领域,我们都在探索如何以及是否使用这些工具——即使这些工具本身仍在不断发展。
这意味着我们不能等待其他人告诉我们什么是最佳实践——我们必须在塑造这些实践中发挥积极作用。
换句话说,批判性思维至关重要。
人工智能是轻信的。它相信它被告知的一切。它不会质疑数据。它不会考虑它的受众知道什么或受众的价值观是什么。它不会知道它是否在适当的上下文中解释某件事,甚至不会知道解释是否准确。
在可预见的未来,我们将需要人类作家、艺术家、编辑和事实核查员来完成这些事情。
- 原文链接: medium.com/@shiplives/ca...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!