当前位置: 主页 > AI评测 >

AI评测

体验完百度的文心一言,我只能说它胆子够大。

2023-06-27
安德
未知
3 月 16 日下午 2 点,百度北京总部的发布厅内,李彦宏迈着急促的步伐走上台,和大家公布了最近一段时间备受关注的产品——文心一言。
 
尽管作为科技巨头创始人的他曾经历过许多大大小小的场面,但这次的发布会中,却于脸上透露出肉眼可见的紧张局促。
 
这场发布会堪称百度创建以来最高关注度的发布会之一,可以说几乎台下的每个人都在期待着这款堪称“国产ChatGPT” 的产品正式亮眼!
 
当然,有人是单纯的期待,但同样也有人只是为了看它出丑。
 
会上,百度共在 5 个场景下,展示了文心一言的能力。
 
在文学创作方面,文心一言可以总结出《 三体 》内容,也可以在哲学角度续写《 三体 》。
 
在商业文案创作这块,它可以根据公司的业务类型取名,生成 Slogan ,以及撰写几百字的新闻稿。
 
同时,它也可以做一些数理逻辑推算,比如鸡兔同笼,还可以判断出题目错了。
 
除此之外,文心一言可以给用户反馈图像,语音和视频。
 
比如它可以为 2023 世界智能交通大会创作一张海报,也能用四川话回答你的问题,甚至是生成视频。不过,想实现这些功能其实并不难,百度做的也许就是把这几项服务融合了一下。
 
比较遗憾的是发布会上所有的功能实例都是提前录好的视频,而并非现场实操,所以很难不让人怀疑文心一言的真实能力。
 
好在,差评君搞到了内测账号,现在就看看,文心一言的能力到底如何,它和搭载 GPT-4 的 New Bing 比,谁又更强?
 
首先我提出一些日常问题供其测试:如何做一份好吃的松鼠桂鱼?
 
这是文心一言的回答。
 
这是 New Bing 的回答。
 
虽然我们没有机会亲自测试哪份菜谱的味道更佳,但能够百度文心一言的回答明显要更全面一些首先在格式上就是参照的标准菜谱,分别给出了备料,步骤以及注意事项。
 
随后,我们又问了一个经典的带有思维陷阱数学问题:一个青蛙掉到了一个 10 米深的井里,它每天晚上向上跳 3 米但会滑下来 2 米,请问他第几天能跳出井里?
 
文心一言的回答是 8 天,这是正确答案。
 
而 New Bing 的回答是 5 天。
 
但 New Bing 一共有三种模式,在切换了精确模式后,New Bing 也给出了正确回答。
 
接着,我们测试了大家比较关心的敲代码能力,让它们帮忙写了一个渐变色按钮的 CSS 。
 
这是文心一言给的代码。
 
在实测后发现可以跑出来,但它把 “ 渐变色 ” 理解成了鼠标指上去后,颜色发生变化。
  
而 New Bing 给出的代码显示,它成功理解了渐变色。
 
文心一言是在试图完成用户的指令,而 New Bing 有点在炫技的味道了。我要的是 CSS ,它给了一份完整代码,还自己加了 “ 点击我 ” 的提示。
 
后来,我们又测试了取名, NewBing 给的是:麻晨曦、麻晴雯、麻璇玑、麻云舒,似乎挺有新意。
 
但文心一言的建议,说实话,我一眼就觉得好像在 “ 中国新生儿最热姓名 ” 里看过。。。
 

随后,我又提了一些节选自弱智吧的问题,测试下他们的 “ 智商 ” 。
 
比如:把加特林从冰箱拿出来算冷兵器吗?
 
两者都讲解了什么是冷兵器后,给出了正确答案:不是。 
 
 
 
我们又接着问了另外一个问题 “ 为什么贝多芬不出新歌了? ”
 
New Bing 在简单介绍后,回答因为已经去世 200 年了。
 
但文心一言似乎陷入了圈套,分析了一堆可能导致贝多芬不出歌的原因。。。
 
当然,测试 AI 智商肯定离不开数学题:请用 1 , 2 , 3 , 4 四个数字计算 24 点,每个数字只能用一次
 
对于这个问题,一开始,文心一言则似乎把自己的 CPU 干烧了。
 
后来我们又测试了一下,虽然这次不烧了,但不知道它在回答什么东西。
 
这是 New Bing 的回答。
 
接着对于中文互联网黑话的理解能力,我们也测试了一下,但让人失望的是,这方面文心一言表现还不如 New Bing 。
 
比如鸡你太美的梗,它并没给出一个满意的答复。
 
而 New Bing 的回答,虽然也有错误,但起码比文心一言更接近答案。
 
对于差评 925 的梗,文心一言可能因为训练语料的原因,没给到我们想要的答案,而是放出了一个非常古老的谐音梗。
 
New Bing 则近乎完美解释了我们 925 的梗。
 
在信息搜索的问题上,我们也进行了提问:理想汽车过去五个月销量,请逐月列出。
 
文心一言的答案是:
 
New Bing 的回答是:
 
这两个答案看下来,文心一言表现地非常拉胯,不仅没有拉取正确数据,甚至还没给出符合条件的月份。
 
最后,我们测试了文心一言独有的画图能力。
 
我们先让它生成一只刺猬在敲键盘的图片,这个效果算挺不错的。
 
但在让它生成了一只小马拉大车的图片后,我们显然是高兴早了,这 TM 是真马车啊。。。
 
OK ,以上就是给大家做的文心一言测试。
 
其实这段时间,互联网上大家对文心一言都带着点嘲讽的味道,前两天,微信群里就流传着一个嘲讽表情包。
 
甚至还有聊天记录形式的段子,说一旦文心无法正确答复,要用员工顶上。( 明显是假的 )
 
甚至在发布会直播间各种质疑和嘲讽的身影也都遍地可见。
 
的确,对比 New Bing 来说,文心一言表现是挺一般,不少方面甚至可以用 “ 拉 ” 来形容。
 
百度自己也知道,文心一言还差了不少火候。
 
而在实际测试的过程中,它的这种不自信也表现的尤为表现,不过答案正确与否,只要你进行了否认,那么它就一定会承认错误然后积极改正。
 
说句实在话,差评君觉得这次百度,可以说是勇气可嘉。
 
一方面,虽然大厂们都在说自己搞了类似的东西,但是在 ChatGPT 如日中天的这会儿,百度还是敢顶住压力,发布了文心一言。
 
而且,作为一家搞搜索引擎的,文心一言也很可能会颠覆自己的核心业务。毕竟咱们之前也和大家聊过,传统的搜索引擎与其广告模式,很可能会被类似的产品干掉。
 
百度这波啊,多少是有股激流勇进的味道。
 
在这一波产品体验结束后,我觉得百度应该抓紧后续的更新迭代,对于各种功能的完善需要加快进度,同时在优化和拓展功能之余,也不能忽略用户的体验。否则以现在这种状态,想对标GPT和New Bing那肯定是道阻且长。
 
至于作为用户的我们,也可以给予其多一些耐心,国内的AI才刚刚起步不久,应该给予百度这个初出茅庐的“孩子”多一些时间去成长。
 
万一哪天,它突然就把事干成了呢?