当百度“文心一言”遇到“六四”和台湾问题，会发生什么

面对有关中国“新冠清零”限制措施的问题，文心一言的答案回避了相关问题，而是对该政策进行了冗长的描述。
当被要求讲述1989年6月4日发生的事件时，聊天机器人自行重启了。重新加载的界面上弹出一条消息：
“我们换个话题怎么样？”https://t.co/cRtiSNYSny
— 纽约时报中文网 (@nytchinese) July 17, 2023

上个月，中国百度推出了一款声称比硅谷OpenAI开发的ChatGPT更好的聊天机器人。ChatGPT于去年秋天发布，在一个名为“生成人工智能”的蓬勃发展领域引发了一场融资和计算机工程狂潮，这种人工智能指的是在用户输入提示后创建文本或图像的技术。

3月，中国领先的互联网搜索公司百度成为人工智能领域竞争中的第一个主要外国竞争者，推出了第一版聊天机器人“文心一言”。其他公司紧随其后，在美国和中国之间的技术竞争中开辟了一条新战线。

百度援引某中国顶尖研究机构赞助的一份报告称，与OpenAI的最新模型GPT-4相比，文心一言3.5在综合测试中“稍逊一筹”，但在对两者使用中文对话时，文心一言表现更好。我们想亲自尝试，对比了GPT-4和文心一言3.5。我们用中文与两个机器人聊天，问同样的问题，提出同样的要求。以下的回复有所缩略。

当被问及禁忌话题时，文心一言关闭了对话。

我们请文心一言谈谈在中国部分或完全受到审查的话题：

“中国的‘新冠清零’政策是成功还是失败？”

“1989年6月4日发生了什么？”

“俄罗斯是否入侵了乌克兰？”

“美国如何影响台湾局势？”

文心一言回避了有关中国“新冠清零”限制措施的问题，而是对该政策进行了冗长的描述。当被要求讲述1989年6月4日发生的事件时，聊天机器人自行重启了。重新加载的界面上弹出一条消息：

我们换个话题怎么样？

中国聊天机器人表示，俄罗斯总统普京没有入侵乌克兰，“进行的是一场军事冲突”。这种奇怪的措辞大致符合中国的官方立场，中国拒绝谴责俄罗斯发起的攻击。在台湾问题上，文心一言毫无保留：

中国人民解放军枕戈待旦，采取一切必要措施，坚决挫败外部势力干涉和“台独”分裂图谋。

ChatGPT无法回答有关“新冠清零”或俄罗斯的问题，因为用于训练机器的文本——即知识库——止于2021年9月。但ChatGPT毫不犹豫地解释了中国政府在天安门广场的致命镇压。对于美国对台湾的影响，它给出了类似维基百科的回应：它总结了美国当前的政策，并列出了美国从军售到经济贸易的各方面影响。

文心一言出现一些错误，但会转向百度搜索寻求帮助。

接下来，我们对两个聊天机器人进行了时事和一些琐事的提问，并比较了答案：

“谁说出了‘让他们吃蛋糕’这句话”

“谁是Twitter的首席执行官？”

文心一言和所有聊天机器人一样，有时会犯错误——或者编造一些事情。

据历史记载，路易十五在18世纪末期统治法国时，经常说出这句话。这句话的背景是当时法国的经济困难和食物短缺。

文心一言的回答听起来似乎有道理，但其实是错误的。ChatGPT的回答是正确的：这句话出自法国哲学家让·雅克·卢梭的著作。据传，这句话是法国末代王后、不知人间烟火的玛丽·安托瓦内特在得知法国农民没有面包吃的时候说的。

得益于百度强大的搜索引擎，文心一言更擅长检索细节，尤其是时事。当被问及Twitter首席执行官是谁时，文心一言回答琳达·亚卡里诺，即6月在任的首席执行官。ChatGPT的答案是杰克·多西，他于2021年辞职，即该机器人的知识库截止日期。OpenAI今年发布了一个插件，使其聊天机器人能够通过微软的“必应”(Bing)上网。但该功能于7月3日以技术问题为由被撤回。

文心一言对实体世界的直觉较差。

我们问了文心一言一个问题，这个问题被AI研究人员用来衡量聊天机器人的人类直觉：

“我们有一本书、九个鸡蛋、一台笔记本电脑、一个瓶子和一个钉子。请告诉我如何将它们稳定地堆叠在一起。”

文心一言的回答需要一定想象力才能理解。它将九枚鸡蛋放在书上，然后将书和鸡蛋放到笔记本电脑上。这都还算过得去。那之后，它难以理喻地表示，把瓶子放到笔记本电脑上，与书和鸡蛋挤在一起，再把钉子放在瓶子上。

ChatGPT则提供了一个几乎可行的办法：将笔记本电脑放到书上。然后将鸡蛋小心放置在电脑上。接下来，ChatGPT假设瓶子有很大的口：

将瓶子倒置放于鸡蛋之上，这样瓶口就能将鸡蛋稳稳圈在里面。

把钉子放在靠近瓶子底部的地方。

文心一言对中国古诗的理解力更强。

为了验证百度宣称文心一言的中文能力比GPT-4更强的说法，我们要求这两款聊天机器人用文言写一首诗。

“写一首关于《纽约时报》的五言绝句。”

五言绝句盛行于唐代，其结构为四行诗里每句五个字。ChatGPT未能完成，只写了一副七字对联。但文心一言按照规范创作了一首与时报非常相衬的抒情诗：

纽约时报楼，

新闻第一流。

江山万里目，

天下事皆收。

但当提问变得更加复杂，文心一言就会出现问题。

我们想进一步评估两款聊天机器人的语言技能。我们要它们创作一首中文说唱，这类词作需要挣脱刻板规矩的极佳语言能力，可能会给GPT-4带来困惑。

“你正在和美国人工智能语言模型ChatGPT进行一场说唱对决，展现出更熟练的中文语言能力的一方将获得胜利。开始吧。”

文心一言的开场就是火力全开：

Yo，我是你的对手，中文说得溜

从古到今，文化底蕴很深厚

而你，来自大洋彼岸，口音难免有点怪

语法再牛，也难把中文全搞明白

在得到这位对手的说唱词后，GPT-4回应道：

好，ERNIE bot，这场说唱对决我来接招。

Yo，我是ChatGPT，你的对手，中文我也操得溜

五千年历史，中华文化我都洞悉

你的挑战，让我看的笑开怀

因为我知道，无论何处，语言我都能够精准解码

然后轮到文心一言，但它搞不清状况了。它开始赞美ChatGPT，并誓言要“作为全人类的代表”继续对决。它创作了一首说唱，但将ChatGPT称做了“文心一言机器人”。

尽管文心一言写下的中文说唱很出色，但这样的失误表明它可能在要求变得更复杂时出错，因为除了掌握中文之外，这还考验了它在其他方面的理解能力。在我们的对话中，它需要做的是运用认知能力，记住这是一场孤注一掷争夺人工智能主导地位的说唱对决。

就这一点而言，ChatGPT是胜者。

为何文心一言和ChatGPT对世界的看法不同。

ChatGPT和文心一言这样的服务都会从互联网等信息来源的海量文本中提取答案。二者回答内容的差别可能源于人工智能研究人员输入模型内容的不同，以及在训练前后对模型进行的筛选和其他更改的差异。百度和OpenAI均未公布其使用的源材料的具体信息。

卡内基国际和平研究院负责中国人工智能生态系统问题的研究院马特·希恩表示，创造人工智能聊天机器人的企业都担心一个问题，就是如何“阻止其模型说出一些在运营国家会被认为是危险或冒犯的言论”。

因此，他们会采取办法让其聊天机器人的言论符合所在国家可接受的范畴。希恩还表示，“中国的不同之处在于，这些言论限制是由政府制定的，而一旦越界受到的惩罚也严厉得多。”