珍妮尔·谢恩(Janelle Shane)多年来一直记录着人工智能的怪异之处,以及它是如何变化的
早在大多数人开始使用ChatGPT和DALL-E等生成AI模型之前,Janelle Shane就开始记录AI的怪异之处。作为一名训练有素的光学研究人员,她长期以来一直对测试人工智能的正常能力着迷。随着越来越多的人测试人工智能极限,Shane花了一分钟时间回答IEEE Spectrum的五个相对正常的问题,这些问题是为什么聊天机器人喜欢顶嘴,为什么图像识别模型对长颈鹿来说是头顶高跟鞋。
在过去的一年里,人工智能的怪异发生了怎样的变化?
(相关资料图)
珍妮尔·谢恩: 他们变得不那么奇怪,更连贯。他们不再荒谬和半不可理解,而是变得更加流畅,以更难以察觉的方式更加微妙的错误。但是——它们现在更容易访问。人们有机会自己尝试它们。因此,从这个角度来看,这些模型的怪异性更加明显。
你写过,像谷歌的Bard和Bing Chat这样的聊天机器人被视为搜索引擎的替代品,这太离谱了。怎么了?
谢恩: 问题在于这些答案是多么不正确——在许多情况下是非常微妙的错误——你一开始可能无法判断它是否超出了你的专业领域。问题是答案看起来确实模糊正确。但是[聊天机器人]正在编造论文,他们正在编造引文或弄错事实和日期,但以与呈现实际搜索结果相同的方式呈现它。我认为人们会对真正基于概率的文本产生错误的信心。
你也注意到,聊天机器人经常自信地不正确,甚至在受到挑战时会加倍努力。你认为是什么原因造成的?
谢恩: 他们接受过书籍、互联网对话和网页的培训,在这些网页上,人类通常对自己的答案非常有信心。特别是在这些聊天机器人的早期版本中,在工程师进行一些调整之前,你会得到聊天机器人,它们的行为就像在互联网争论中一样,并且加倍听起来像是他们被炒作和情绪化他们的正确性。我认为这直接来自在训练期间在互联网争论中模仿人类。
是什么启发你让 ChatGPT 画东西或创作 ASCII 艺术?
谢恩: 我想找到一种方法,让这些模型一目了然地看出他们犯了错误,以及他们犯了什么样的错误。要了解他们对量子物理学的错误程度,你必须足够了解量子物理学,才能知道它是在编造事情。但是,如果你看到它生成了一个斑点,声称它是一只独角兽,并描述它是如何巧妙地生成这个独角兽的,你就会知道你正在处理什么样的过度自信。
为什么人工智能对长颈鹿如此痴迷?
谢恩: 这是一个可以追溯到图像字幕AI早期的模因。“长颈鹿”一词的起源是有人建立了一个Tumblr机器人,该机器人会自动为图像添加字幕,并开始注意到其中很多图像中都有幻影长颈鹿。
在这一点上,这是一个有趣的示例动物。当我与Visual Chatbot交谈时,这些早期的问答图像描述机器人之一,这就是我选择测试的:如果你问它有多少只长颈鹿会发生什么?它总是会给你一个非零的答案,因为当答案为零时,人们在训练中不倾向于问这个问题。