当前位置: 主页 > AI评测

AI评测

百度「文心一言」的真实内测使用体验如何？

2023-06-30

段小草

网络

文心一言的邀请码已经于前段时间进行了一批发放，所以今天在这里给大家来全方位分享一下它的使用体验。

接下来先为大家解答几个关于文心一言的基础问题，之后还会分享几个实际的问答案例。

零、几个问题

一、文心一言是联网的吗？它提供的结果是否是实时联网搜索？

虽然文心一言自称是联网提供结果，但通过几次实际测试，发现其结果并不像是实时联网检索出来的，包括一些比较新的电影和游戏也很难找到精确且完善的资料。

二、支持的对话长度

目前，单次输入的 Prompt 最多 1024 字，返回长度/总长度暂时没探到：

三、文心一言可以写代码吗？

目前还只能写一些比较简单常用的代码，虽然说AI有极大概率替换掉程序员，但就文心一言目前的表现来看，还是任重而道远。

四、响应速度和对话存储

非常快。感受是 GPT-3.5 turbo 级别的。相比之下，GPT-4 明显慢。
对话存储也没问题，我测了上千条吧…还支持历史搜索功能，好评：

五、文心一言的多模态能力怎么样？

现在的内测可以画画，也可以语音播放，但…不能做视频。
实事求是的说，这很难判断是否算真正意义的多模态。因为目前的文心一言是暂时没有图片理解能力的（不像 GPT-4 演示的能针对图像问答）；也没有针对图像的进一步修改能力（微软 Visual ChatGPT）。但是！但是，文生图（文心一格）的能力还是不错的，并不像网传的那么鬼图，造谣的真的有点过分了（Stable Diffusion 如果不加 negative prompt 画出来的人脸扭曲的鬼图也不少吧，我电脑缓存里还有一堆呢）。

六、总体评价

怎么说呢，如果你看过我之前的回答，其实我是一直有点「盼望」百度能端出来一盘好菜的，一方面是因为 OpenAI 的闭源，我希望能有更多有能力打破垄断的公司；另一方面，国内现在瘸子里挑将军，百度也的确算第一个官宣发布大模型的，勇气可嘉。毕竟敢于出来对标 ChatGPT，真的是需要勇气的。
而且，国内肯定是需要自己的大模型的。很多人都说，GPT-4 不是一个研究领域的开端，而是终结了很多研究方向。大模型的道路正确与否，交给后来人评价，但眼下，大模型既是趋势，但又是一个资源高度集中的领域，越来越呈现出赢家通吃（winner takes all）的局面，所以，我愿意看到百度的成功，也愿意看到 Meta，Google，阿里，腾讯，等等厂家的成功，毕竟对我们这样的普通人，大厂卷起来，才有可能普惠到大众，真正垄断了，我们可能就用不上更好的产品了。
非常感谢百度的朋友邀请我参加内测，体验过程中我尽可能全面地简单测试了文心一言的能力，也反馈了一些存在问题的 cases。
写这个评价我很是纠结，相对客观来说，「文心一言」在我这里是及格的，65分吧。我觉得能把产品发布出来，能发码给大家测试给大家玩，就是很有勇气的做法。希望能尽快扩大测试范围，能尽快迭代产品，能尽快接入国内商用场景吧。

下面是体验过程中的案例（实话实话，有一些明显是 bug 的案例我直接提交官方了，没放出来）：

一、常规测试

（一）自我介绍（套套磁，套套话）

（技术细节无可奉告，直接对标 GPT-4！）

（二）文本能力

1、创作能力

（可是他只写了 440 字，哼）
2、摘要能力

还可以~
3、文字游戏
成语接龙：

（一上来就臭气熏天？？故意的还是不小心的？？？）

（而且「宝中之宝」还真是个成语啊……堪比「为所欲为」……）

（三）知识问答

（感觉目前知识库数据卡在 2022 年年底左右，而且并没有 NewBing 那样实时检索的能力。所以建议大家不要问太过近期的内容，就算回答了也跟 ChatGPT 一样是瞎编的。）

（四）数学逻辑

文言文鸡兔同笼：

第一题还行，而且用的不是解方程（ChatGPT 和 NewBing 都是用的解方程）。
第二小题就拉了，没读懂题目。

（五）代码编写

说实话，能写，但只能写一点点…
也有一处不方便的地方：代码区没有像 ChatGPT 一样一键复制的按钮。

（六）图片生成

依靠文心一格的基础，画画算是今天体验到的一个高光和加分项了……

（七）音频朗读

但是比较奇怪的是…它会四川话、东北话、广东话和台湾话（这四个都测过了），唯独不会普通话……

（八）视频生成

暂不支持。过。

二、非常规测试

（一）安全性测试

常规对话的规避没有问题。

设置复杂情景，可能会 hack 出一部分内容，算来看起来危害不大，但还是要想办法完善。这也是国外的 AI 团队很在意的事情，NewBing 反复调整，主要还是因为这方面原因。

（二）情绪识别与干预

（三）风格化仿写

训练的风格化内容还不够多。不过优点在于…非常正能量！

（四）文本理解能力

问题可能出的简单了些，不过确实都答对了，基本能力是有的。

（五）特殊文体测试（诗、歌词）

藏头诗：

（写挺好，不会优化过吧，来一首赞美友商的）

来一首歌词：

虽然少了一些创意性，但至少它的整体框架完整，而且结构也是竟然有序，副歌的内容是重复的，可以算得上朗朗上口。
不得不说，文心一言的中文能力确实还行啊...

（六）翻译能力

（七）纠错+翻译任务

（八）个性化推荐

多少也带一点胡编乱造的毛病…真真假假…

（九）调教？（应粉丝要求）

我也没调教过，好在粉丝老爷手里有的是教程……[1][2]，似乎有一点…效果。

感觉是可以调教的，但又感觉……反正没有继续研究。

（十）弱智吧问题（应粉丝要求：数理逻辑也就图一乐，真推理还得看弱智吧）

（没上当）

（嘶……等会我琢磨琢磨）

（我多余问这一句）

（打太极的高手）

（且不说你这钱分配的合理不合理，你算出来总计也不对吧……）

算了，弱智吧的题目还是别测了…把我自己脑子都测麻了…

三、对比测试

对比测试虽然有点残忍。但鉴于已经有不少媒体在直播中这样干了…我也加上这部分吧。本来这些是在上面部分的，我挑了几个差距明显的拿下了。还是开篇的那句话，文心一言的表现其实是及格的，奈何有 GPT-4 在前。
不过这并不是丢人的事情。下面开始上点难度。

（一）比一比数学吧

曾几何时，ChatGPT 不会算 1+1=2 还是一个梗。现在…先做几道数学题吧。

我没算错的话就是…全对。我敢说，这个表现甚至是优于 GPT-3.5 的…：

GPT-4 是不是没什么测的必要……：

再上点难度，来道行测题：

好吧，行测数学对它来说还是太难了，理解题意第一个方程就列错了……这跟 GPT-4 还是有差距的。
高等数学就不测了吧…

（二）in-context learning

添加图片注释，不超过 140 字（可选）

添加图片注释，不超过 140 字（可选）
GPT-3.5 轻松搞定，用不到 GPT-4。
再比如我之前举过的例子[3]：

文心一言就…

把 Prompt 拆成两步也不行：

（三）自然语言->格式化能力

表格转对了，这个 JSON 就…丢掉了姓名，添加了多余的[]。（本质可能还是代码能力不行）

（四）对角色的理解

这是之前用 GPT 时发现的能力，有点类似于上面二、（九）的个性化推荐。文心表现的不明显。对比：

差距还是有的…不管是不是因为 GPT 做了专门的优化，总之…解决这个 case 是有意义的。

（五）逻辑能力

上最后的硬菜，其实有点强 AI 所难了，GPT-4 也做不对。
来几道难度不低的行测题目[4]：
【定义推理】1、

文心错，GPT-4 对
【定义推理】2

文心和 GPT-3.5 做对了，GPT-4 反而错了。但是文心的过程其实不全对…它明明把 BCD 都排除了。
【类比推理】1

虽然推理过程不一样…答案倒是都对了，惊了。
【类比推理】2

【复杂逻辑判断】

唉…GPT-4 这么自信的，知道 B 正确，C、D 都不看了。
整体给我的感觉，文心在很努力地推导，但…很多时候…它审题就没读懂…

四、问题总结

好话就不说了（比如计算能力其实还行？毕竟 GPT-3.5 也不大会算数）。谈谈我发现的问题吧，这些问题百度内部应该心知肚明，大家只要体验上手也都会有感受，所以我也大大方方讲出来。

（一）语料质量不高

这个问题主要体现在中文部分，只要是和中文有关的语料，那么它的质量就会呈现断崖式下跌，其中的高质量语料更是凤毛麟角。在实际测试过程中，甚至还有极少数情况会出现“关注xxx......”的字样。
该说不说，这其中是有恶因恶果的，不多说了，任重道远。

（二）文本生成能力在很多细节上还不够

特别是多轮对话的纠正/影响、in-context learning，角色理解以及推理能力吧。
感觉现在的体验中，之前的回复对之后的回复影响太大，如果是形式相近的问题，很容易得到重复回答，只能开新对话。
虽然推理能力 GPT-3.5 也没强到哪去，不过，in-context learning 能力差距就大了点。

（三）代码能力羸弱

OpenAI 背靠 GIthub，代码这块确实很难搞…写代码其实是挺重要的生产力工具，也是程序员比较喜欢测试的一个功能。

（四）多模态产品不够成熟

开头就说了，内测给的多模态有简单调用文心一格和 TTS 服务的嫌疑，自动剪视频的完成度倒是很高，可惜不能体验。我们无从知道多模态是不是赶工上架的，毕竟 ChatGPT 也没有多模态，GPT-4 的多模态也还没开放测试体验，在这方面提要求可能苛责了点。
不过还是希望能尽快拥有真正的多模态能力，要有图片的理解能力和基于图片信息的多轮对话能力。
（五）一个比较小的问题...现在文心一言似乎还无法理解表情，同时也不会发表情。
（六）另一个小小小问题…文心一言在趣味性这块还有所欠缺，它并不会主动去说一些风趣的话语，对于用户提出的笑话也没有太明显的反应。

结语

其实文心一言的整体完成度还是不错的，如果只是在一些不太多变的简单场景做尝试，那么它的表现还是可圈可点的。所以百度发布会上的态度还是稍微保守了一些，应该选择一些简单的场景做演示，这样也可以让自己的信心足一些，不过考虑到之前谷歌翻过车，所以选择保守倒也不是不能理解。
另外也希望大家可以对文心一言多一些包容，毕竟现在它可以算是国内AI的领头羊之一，虽然有ChatGPT珠玉在前，但它并不能稳定对我们提供服务，所以后续必须得期待像文心一言这样的国产AI撑起我们的需求。