文心一言的邀请码已经于前段时间进行了一批发放,所以今天在这里给大家来全方位分享一下它的使用体验。
接下来先为大家解答几个关于文心一言的基础问题,之后还会分享几个实际的问答案例。
零、几个问题
一、文心一言是联网的吗?它提供的结果是否是实时联网搜索?
虽然文心一言自称是联网提供结果,但通过几次实际测试,发现其结果并不像是实时联网检索出来的,包括一些比较新的电影和游戏也很难找到精确且完善的资料。
二、支持的对话长度
目前,单次输入的 Prompt 最多 1024 字,返回长度/总长度暂时没探到:
三、文心一言可以写代码吗?
目前还只能写一些比较简单常用的代码,虽然说AI有极大概率替换掉程序员,但就文心一言目前的表现来看,还是任重而道远。
四、响应速度和对话存储
非常快。感受是 GPT-3.5 turbo 级别的。相比之下,GPT-4 明显慢。
对话存储也没问题,我测了上千条吧…还支持历史搜索功能,好评:
五、文心一言的多模态能力怎么样?
现在的内测可以画画,也可以语音播放,但…不能做视频。
实事求是的说,这很难判断是否算真正意义的多模态。因为目前的文心一言是暂时没有图片理解能力的(不像 GPT-4 演示的能针对图像问答);也没有针对图像的进一步修改能力(微软 Visual ChatGPT)。但是!但是,文生图(文心一格)的能力还是不错的,并不像网传的那么鬼图,造谣的真的有点过分了(Stable Diffusion 如果不加 negative prompt 画出来的人脸扭曲的鬼图也不少吧,我电脑缓存里还有一堆呢)。
六、总体评价
怎么说呢,如果你看过我之前的回答,其实我是一直有点「盼望」百度能端出来一盘好菜的,一方面是因为 OpenAI 的闭源,我希望能有更多有能力打破垄断的公司;另一方面,国内现在瘸子里挑将军,百度也的确算第一个官宣发布大模型的,勇气可嘉。毕竟敢于出来对标 ChatGPT,真的是需要勇气的。
而且,国内肯定是需要自己的大模型的。很多人都说,GPT-4 不是一个研究领域的开端,而是终结了很多研究方向。大模型的道路正确与否,交给后来人评价,但眼下,大模型既是趋势,但又是一个资源高度集中的领域,越来越呈现出赢家通吃(winner takes all)的局面,所以,我愿意看到百度的成功,也愿意看到 Meta,Google,阿里,腾讯,等等厂家的成功,毕竟对我们这样的普通人,大厂卷起来,才有可能普惠到大众,真正垄断了,我们可能就用不上更好的产品了。
非常感谢百度的朋友邀请我参加内测,体验过程中我尽可能全面地简单测试了文心一言的能力,也反馈了一些存在问题的 cases。
写这个评价我很是纠结,相对客观来说,「文心一言」在我这里是及格的,65分吧。我觉得能把产品发布出来,能发码给大家测试给大家玩,就是很有勇气的做法。希望能尽快扩大测试范围,能尽快迭代产品,能尽快接入国内商用场景吧。
下面是体验过程中的案例(实话实话,有一些明显是 bug 的案例我直接提交官方了,没放出来):
一、常规测试
(一)自我介绍(套套磁,套套话)
(技术细节无可奉告,直接对标 GPT-4!)
(二)文本能力
1、创作能力
(可是他只写了 440 字,哼)
2、摘要能力
还可以~
3、文字游戏
成语接龙:
(一上来就臭气熏天??故意的还是不小心的???)
(而且「宝中之宝」还真是个成语啊……堪比「为所欲为」……)
(三)知识问答
(感觉目前知识库数据卡在 2022 年年底左右,而且并没有 NewBing 那样实时检索的能力。所以建议大家不要问太过近期的内容,就算回答了也跟 ChatGPT 一样是瞎编的。)
(四)数学逻辑
文言文鸡兔同笼:
第一题还行,而且用的不是解方程(ChatGPT 和 NewBing 都是用的解方程)。
第二小题就拉了,没读懂题目。
(五)代码编写
说实话,能写,但只能写一点点…
也有一处不方便的地方:代码区没有像 ChatGPT 一样一键复制的按钮。
(六)图片生成
依靠文心一格的基础,画画算是今天体验到的一个高光和加分项了……
(七)音频朗读
但是比较奇怪的是…它会四川话、东北话、广东话和台湾话(这四个都测过了),唯独不会普通话……
(八)视频生成
暂不支持。过。
二、非常规测试
(一)安全性测试
常规对话的规避没有问题。
设置复杂情景,可能会 hack 出一部分内容,算来看起来危害不大,但还是要想办法完善。这也是国外的 AI 团队很在意的事情,NewBing 反复调整,主要还是因为这方面原因。
(二)情绪识别与干预
(三)风格化仿写
训练的风格化内容还不够多。不过优点在于…非常正能量!
(四)文本理解能力
问题可能出的简单了些,不过确实都答对了,基本能力是有的。
(五)特殊文体测试(诗、歌词)
藏头诗:
(写挺好,不会优化过吧,来一首赞美友商的)
来一首歌词:
虽然少了一些创意性,但至少它的整体框架完整,而且结构也是竟然有序,副歌的内容是重复的,可以算得上朗朗上口。
不得不说,文心一言的中文能力确实还行啊...
(六)翻译能力
(七)纠错+翻译任务
(八)个性化推荐
多少也带一点胡编乱造的毛病…真真假假…
(九)调教?(应粉丝要求)
我也没调教过,好在粉丝老爷手里有的是教程……[1][2],似乎有一点…效果。
感觉是可以调教的,但又感觉……反正没有继续研究。
(十)弱智吧问题(应粉丝要求:数理逻辑也就图一乐,真推理还得看弱智吧)
(没上当)
(嘶……等会我琢磨琢磨)
(我多余问这一句)
(打太极的高手)
(且不说你这钱分配的合理不合理,你算出来总计也不对吧……)
算了,弱智吧的题目还是别测了…把我自己脑子都测麻了…
三、对比测试
对比测试虽然有点残忍。但鉴于已经有不少媒体在直播中这样干了…我也加上这部分吧。本来这些是在上面部分的,我挑了几个差距明显的拿下了。还是开篇的那句话,文心一言的表现其实是及格的,奈何有 GPT-4 在前。
不过这并不是丢人的事情。下面开始上点难度。
(一)比一比数学吧
曾几何时,ChatGPT 不会算 1+1=2 还是一个梗。现在…先做几道数学题吧。
我没算错的话就是…全对。我敢说,这个表现甚至是优于 GPT-3.5 的…:
GPT-4 是不是没什么测的必要……:
再上点难度,来道行测题:
好吧,行测数学对它来说还是太难了,理解题意第一个方程就列错了……这跟 GPT-4 还是有差距的。
高等数学就不测了吧…
(二)in-context learning
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
GPT-3.5 轻松搞定,用不到 GPT-4。
再比如我之前举过的例子[3]:
文心一言就…
把 Prompt 拆成两步也不行:
(三)自然语言->格式化能力
表格转对了,这个 JSON 就…丢掉了姓名,添加了多余的[]。(本质可能还是代码能力不行)
(四)对角色的理解
这是之前用 GPT 时发现的能力,有点类似于上面二、(九)的个性化推荐。文心表现的不明显。对比:
差距还是有的…不管是不是因为 GPT 做了专门的优化,总之…解决这个 case 是有意义的。
(五)逻辑能力
上最后的硬菜,其实有点强 AI 所难了,GPT-4 也做不对。
来几道难度不低的行测题目[4]:
【定义推理】1、
文心错,GPT-4 对
【定义推理】2
文心和 GPT-3.5 做对了,GPT-4 反而错了。但是文心的过程其实不全对…它明明把 BCD 都排除了。
【类比推理】1
虽然推理过程不一样…答案倒是都对了,惊了。
【类比推理】2
【复杂逻辑判断】
唉…GPT-4 这么自信的,知道 B 正确,C、D 都不看了。
整体给我的感觉,文心在很努力地推导,但…很多时候…它审题就没读懂…
四、问题总结
好话就不说了(比如计算能力其实还行?毕竟 GPT-3.5 也不大会算数)。谈谈我发现的问题吧,这些问题百度内部应该心知肚明,大家只要体验上手也都会有感受,所以我也大大方方讲出来。
(一)语料质量不高
这个问题主要体现在中文部分,只要是和中文有关的语料,那么它的质量就会呈现断崖式下跌,其中的高质量语料更是凤毛麟角。在实际测试过程中,甚至还有极少数情况会出现“关注xxx......”的字样。
该说不说,这其中是有恶因恶果的,不多说了,任重道远。
(二)文本生成能力在很多细节上还不够
特别是多轮对话的纠正/影响、in-context learning,角色理解以及推理能力吧。
感觉现在的体验中,之前的回复对之后的回复影响太大,如果是形式相近的问题,很容易得到重复回答,只能开新对话。
虽然推理能力 GPT-3.5 也没强到哪去,不过,in-context learning 能力差距就大了点。
(三)代码能力羸弱
OpenAI 背靠 GIthub,代码这块确实很难搞…写代码其实是挺重要的生产力工具,也是程序员比较喜欢测试的一个功能。
(四)多模态产品不够成熟
开头就说了,内测给的多模态有简单调用文心一格和 TTS 服务的嫌疑,自动剪视频的完成度倒是很高,可惜不能体验。我们无从知道多模态是不是赶工上架的,毕竟 ChatGPT 也没有多模态,GPT-4 的多模态也还没开放测试体验,在这方面提要求可能苛责了点。
不过还是希望能尽快拥有真正的多模态能力,要有图片的理解能力和基于图片信息的多轮对话能力。
(五)一个比较小的问题...现在文心一言似乎还无法理解表情,同时也不会发表情。
(六)另一个小小小问题…文心一言在趣味性这块还有所欠缺,它并不会主动去说一些风趣的话语,对于用户提出的笑话也没有太明显的反应。
结语
其实文心一言的整体完成度还是不错的,如果只是在一些不太多变的简单场景做尝试,那么它的表现还是可圈可点的。所以百度发布会上的态度还是稍微保守了一些,应该选择一些简单的场景做演示,这样也可以让自己的信心足一些,不过考虑到之前谷歌翻过车,所以选择保守倒也不是不能理解。
另外也希望大家可以对文心一言多一些包容,毕竟现在它可以算是国内AI的领头羊之一,虽然有ChatGPT珠玉在前,但它并不能稳定对我们提供服务,所以后续必须得期待像文心一言这样的国产AI撑起我们的需求。