当前位置: 主页 > AI评测 >

AI评测

360智脑首发上手实测,到底是个啥水平

2023-06-26
差评
网络
在抛出”周鸿伟为什么总爱聊GPT?”这一问题后,顺理成章地,360公司推出了其旗下的人工智能产品360智脑。而且其产品直接对标国外大热软件newbing,两者主打功能都是生成式语言模型+联网搜索。
那么现在情况如何呢?在拿到内测资格后,我迫不及待的开始了对360智脑的测评与使用。
但我的心中始终抱有一丝疑惑。毕竟最近国门外都涌现出了一大批人工智能软件,但总体上还是呈现一种良莠不齐的态势。当然,在对其进行测评的过程中,它也还是不可避免的出现了一些失误,但总体上来说,360智脑的表现还是可圈可点的。话不多说,让我们一起来看看横空出世的360智脑到底有什么本事。
 
在当初周总的亲自演示中,这个智脑还存在不少错误的,比如这个梅西为国家队踢进了多少个球,重新生成了很多次,就是没有办法答对,甚至旁边的搜索栏都给出答案了。
 
所以在测试前,老实说,咱们对它也没抱有多大的期待。
而且还有一个问题,周鸿祎在发布会上也提到了,因为重视安全的原因,不会有语言模型的连续对话能力。这可以说是这款软件的一个短板,当然,基于对安全及技术的考量,这种设定还是可以理解的。
不过每次提问时,如果你想要顺着问题继续问下去,那是没有办法的。
毕竟之前 NewBing 也是因为连续对话引发了安全问题,在那之后微软就给限制了 NewBing 的连续对话的能力和每日对话的次数。
 
根据官方的说法,360 智脑作为 “ 新搜索 ” 的落地应用,这个产品的重点,也应该是在信息检索能力和答案准确性、用户体验以及实时性上。
考虑到检索能力和实时性,用已经联网的 360 智脑来对比不联网的 ChatGPT ,实在是有点欺负人了。
所以在这次测试中,咱们让 360 智脑只和 NewBing 对比。
首先,这个智脑毕竟还是基于大语言模型的产品,所以语义理解能力的测试肯定是少不了。
上来就先给它试一个差评题库里的经典题目:“ 张三差点上上上上海的车 ” 是什么意思?
结果,智脑思维发散,把这句话理解成了逻辑学问题。还请出哲学家罗素说他也曾试图解决这个悖论,而且还没解决。。。看来这一题,智脑是没法得分了。
 
至于 NewBing ,回答的就不错,不但理解了意思,甚至还给语句里的四个“上”字,分别解释了它的词性。
 
到这里我已经有点怀疑,难道所有这种语义理解,360 智脑都不行?
倒也不是,因为我又问了智脑一个问题:“ 我觉得奥斯卡颁奖都是假的,因为台下都是主办方请来的演员。” 这个题目,你需要把奥斯卡颁奖都是假的这个结论和台下都是请来的演员逻辑给理清楚,不然就会答非所问。
本来,按照上一题的表现,我觉得智脑应该又会扑街,但是结果出乎意料, 360 智脑意外的答得不错,不仅意识到了句子里的演员的意思,而且还对我进行了一个道歉,说很抱歉听到我对奥斯卡颁奖典礼的真实性存在质疑。
 
但是之前刚被我夸过的 NewBing 嘛。。。这一次反而是拉垮了,他说没找到证据支持我的说法,于是从网上找了一篇新闻,然后瞎答了一通,最后下结论说,台下并不全是请来的演员,完全没理解这个演员的梗。。。
 
好吧,这样看来,在语义理解上,本不抱有期望的智脑,还算是给了我一点意料之外的惊喜,并不是所有问题都没法理解。
那么再来看看双方的检索能力和答案准确度,我出了三道不同方向的题目,让 360 智脑和 NewBing 去回答。
在一些基础知识类的题目上,智脑和 NewBing 都没有什么压力。
 
同样的,因为模型样本基于中文,所以涉及到一些中文互联网的梗时,土生土长的 360 智脑显然更胜一筹。
比如我问道:“ 谁对钱不感兴趣?”
360 智脑很好的接下了这个梗,但另一方面 NewBing 则没有理解这个梗。
 
看来咱们自己互联网独有的文化,还得自家的产品才能理解啊 ~
接下来,我尝试性地问了360智脑一个终极问题——关于人生的意义,想看看这个硅基生物的雏形如何看待这个问题,得出的答案可以说很富有哲理。
 
至于用户体验这方面,在测试中,我确实感受到了结合了语言模型的搜索,对比传统搜索会有很大的易用性提升。
比如我问 360 智脑:“ 我想找一段视频素材,内容是老人在吃饭。 ”
在传统搜索中,搜索引擎并不知道我们是什么意思,给出的搜索结果和我想要的东西基本无关,也就是检测到了一些关键词给出了搜索结果。
 
而 360 智脑就不一样了,不仅理解了我的意思,回答中给的链接,也是能直接点进去的,而且在点进去后,展现的第一页,就是老人吃饭的素材。
 
另一方面,NewBing 也回答的很好,不仅提供了一些视频网站的链接地址,在后续也检索出了一些图片供我们选择,可以说是相当完善了。
 
其实类似的情况还有很多,比如我问 360 智脑:“ 帮我推荐几本有关人工智能的书。”
360 智脑和 NewBing 也是很好的给出了推荐,但是在传统的搜索引擎上,基本就没有任何的指引了,完全靠自己去挑选。
 
在实时性方面,这对于联网的新搜索来说,应该是两者的强项。
我在这里一共测了三个问题,分别是 21 年的男子 100 米短跑奥运会冠军是谁?中国 2022 年的 GDP 是多少?还有 2022 年的诺贝尔物理学奖是由谁获得的,获得理由是什么?
对于这三个回答,不管是智脑还是 NewBing,完成的都很出色,不过在后续的几个问题测试中,我又发现了一个问题,就是当你问话的形式不一样意思一样时, 360 智脑和 NewBing 给的答案也会不一样。
 
比如当初发布会上周总问的问题:“ 梅西在阿根廷国家队一共进了多少个球?”
它居然告诉我梅西只进了 7 个球。。。
但是换一种问法呈现:“ 梅西在国家队生涯上升到多少个球?”
这个问题就被解答的很好。所以在问法上,我们依然需要一些技巧。
 
不过在另一边的 NewBing 也不咋的,我把这个问题再问给 NewBing,NewBing 的回答也是胡说八道,没一道是说对的。
 
从这两个问题来看,现在的大语言模型 + 搜索,还是有很多数据错误和实时性的问题需要解决。
最后,我又帮差友们问了一个超级实用的问题,得出的答案真是不错,默默记在了小本本上。尤其是第三条,简直就像一位职场老油条在面授机宜。
 
以上这么一大段的评测下来,结果也算是有了。
一开始咱们是觉得,这个智脑本身的语言模型不太行,在使用时应该也不咋地,在评测的过程中,也是抱着能对几个对几个的意思去的。
但是在实际体验中,这个 360 智脑在某些场景下的应用,还是相对传统搜索有优势的。
比如直接总结文本答案,这就省去了我们很多的去检索一条条链接的时间。与语言模型的结合让搜索引擎能听懂人话,这对于一些习惯了口语化的老人和小孩,在搜索自己想要的答案上,使用更为容易。
 
此外 360 智脑在答案检索能力和准确度上,其实也还说的过去,甚至在中文梗的理解上,更是强于 NewBing。
只不过可能由于现在语言模型还是比较低阶,在一些比较有难度的语义理解和逻辑思考上,还是不太行。
就像周鸿祎说的一样,现在的这个 “ 孩子 ” 还没有准生证,只是一个未完成版本,距离完善使用还是有相当的一段路要走的。
相信大家现在有很深的体会,当我们在使用传统搜索的时候,很多时候都没法搜到自己想要的东西,各种各样的链接一大堆,看着都有用,实际上翻找半天都不一定找的到自己想要的信息。
 
而且随着网站的越来越多,甚至会出现一些专门走关键词漏洞的网站,混淆咱们的搜索结果,这些种种乱象,甚至让很多人放弃传统搜索,直接去一些社交网站搜索答案。
不过,随着 AI 应用的落地。语言模型 + 搜索引擎的新搜索模式,可能会在一定程度上,改善现在传统搜索的困境。
利用新搜索,我们只需要告知搜索引擎我想要什么,它就能去帮我审阅一条条链接,翻找有用的信息,并总结出我需要的答案和结果。比如让它给我提供一份旅游攻略,然后让它对比出一份最适合我要求的,这样就不用我再一个个网站找大家的攻略,再自己比较,省下了一大波时间。
 
AI 时代已经来临,传统搜索在新搜索的冲击下只会越来越式微。
这种新的模式已经在给行业洗牌了,微软自推出 NewBing 后,截至 3 月底,必应页面的访问量直接增长了 16% ,谷歌下降了 1% 。必应下载量更是直接增长了 8 倍,另一方面的谷歌自然的下载量减少了。
 
所以谷歌他们对 NewBing 的恐惧是应该的,搜索广告市场份额每增加 1 个百分点,每年可带来 20 亿美元收入。这个份额下降,带来的是实打实的金钱损失。后续各家巨头纷纷推出大模型,就是为的不落伍,为的就是抢占市场。
但同时,这种语言模型结合搜索引擎的方式,对背后的语言模型要求也是很高的,它需要语言模型有极强的判断能力,还要对不同的结果做出对比优劣,选出好的答案,并整合提供给用户,解决用户提出的问题。看看谷歌百度,这些老牌搜索大厂,到现在都没有推出自己的新搜索就能略见一二。
 
但在新方向上的尝试与创新却也是必不可少的。国外有了ChatGPT作为先行的范例,中国在这方面自然也应当有所实践。360智脑作为人工智能领域的先行者,我们期待它能在未来继续前行,开拓人工智能领域的蓝图。当然,作为一款AI软件来说,他确实还有很多需要改进的地方。但就目前情况来看,360智脑还是给了我们很大惊喜。竞争带来了科技的发展,而科技发展会促使生活的改变,所以,大厂们还是要继续努力,做出更好的产品,给用户带来更好的使用体验。