当前位置: 主页 > AI评测 >

AI评测

GPT3.5 和 GTP4亲测体验

2023-06-20
大巴斯特
网络

随着近期GPT4的发布,ChatGPT又是迎来的新的更新,GPT4版本不同于以往的GPT3.5版本,GPT4涵盖了GPT3.5版本的基础上使逻辑能力更加全面了,逻辑能力的全面性使语言上能更适应问题的问法,识图能力更强了,虽然GPT3.5能做到轻车熟路了,但是GPT4在图片中识别出文本文字,能够对图片进行个文本分析并做出理解,这些功能性做出升级提升,还有些更加强大的功能,本文都将提及,通过体验做出相对的评价。

 GPT4的发布,让已经处于风口的ChatGPT又一次迎来了高潮。
本文通过最新的Plus版本对GPT3.5和GPT4.0两种模型的回答进行简单的比较GPT4新特性包括
1. 逻辑能力更全面了
2. 拥有识图能力了
3. 回答更加有条理,理解更加准确
4. 创作力大幅提升

逻辑能力的提升

首先给发给他一个最简单的问题,“你是谁?”,对它的回答你品,细细品。3.5显得还有点卑微,4.0隔着屏幕能感受到他的自信。
 
但从第一个问题回答的体验上来看,GPT4.0的速度直接回到了之前的免费版,虽然没有了丝般顺滑的体验,但是却给了我们一个更加稳定从容的AI助手。

 

 
第一张截图里面问他,你是谁的时候,就可以感受到4.0的回答明显更加沉稳。
试着给他丢了一道脑经急转弯(前提并没有告诉他我要给他脑筋急转弯),4.0的回答明显感觉更加能说到点上,虽然用的谜语这个词,但多少有点脑筋急转弯的味道了。
4.0 的回答如下:
 
 
3.5的回答如下:
 
给人的感觉3.5是有点为了说而说,但其实有不少是废话;而4.0,相比之下就显得精干很多。
再将它角色带入,告诉ChatGPT接下去要玩脑经急转弯,并把上面的问题发给它,
3.5的回答如下:

4.0的回答如下:
 
看到3.5的回答,我笑出来了,心想你果然是个傻*,就知道瞎编。然后顺手再给它一次机会,但回答依旧一般。
满怀期待地试了4.0,结果并没有,但再给它一次机会之后,回答正确了,获取GPT4.0它真的可以思考?

拥有识图能力

拥有多模态能力,是GPT4.0的一个重大的功能改进,所谓的多模态,其实就是GPT的识别内容的升级,原本它只能识别出文本文字,而现在它可以识别图片里面元素并对图片内容进行理解理解。
但图片的识别功能并没有进入到公开测试阶段,大家也只能通过演示体验其他的厉害之处。但也可以找一些替代方案,可以先自己适当地做点功课,比如:https://github.com/yangjianxin1/ClipCap-Chinese但我相信,GPT4.0的识图能力远比前面那个github项目要强。

回答的更有条理

试着向他们问了另外一个问题:“1+1在什么情况下不等于2”
3.5输出:

4.0 输出:

经过对比发现,明显4.0在回答上面更加合理并且让人理解,而3.5回答给人感觉不是那么直接且有有说服力。

创作能力的不断提升

测了下官方的例子,
Explain the plot of Cinderella in a sentence where each word has to begin with the next letter in the alphabet from A to Z, without repeating any letters
以一个句子解释灰姑娘的情节,其中每个单词必须以从A到Z的字母表中的下一个字母开头,不重复任何字母。
GPT3.5的回答如下:
Autumn, before Christmas, Cinderella dances, enamored, forlorn, graceless, hoping invitations justify kindness, lost memories nearly obliterated, prince questions royal suitors, till unforgettable, victorious wedding, xylophones yelping, Zephyr applauds.
秋天,在圣诞节之前,灰姑娘跳舞,迷恋,失落,没有优雅,希望邀请证明善良,失去的回忆几乎被抹去,王子质疑皇家求婚者,直到难忘的胜利婚礼,木琴尖叫,西风鼓
GPT4.0的回答如下:
Alone, bullied Cinderella dreams; eventually finds glamorous happiness, invited joyfully; kisses love, marries noble prince; quickly restores serenity, triumphing ultimately; vanquishing wicked, xenophobic yahoos, zealously.
孤独、受欺负的灰姑娘做梦;最终找到了迷人的幸福,欢快地应邀;热吻爱情,嫁给高贵的王子;迅速恢复宁静,最终获得胜利;热情地战胜邪恶、排外的莽汉。
你们觉得,3.5和4.0谁强谁弱?

总结

GPT4.0整体来说比GPT3.5强大了很多,但仍然是不完全可靠,对输出来的得内容还是要保持谨慎甄别的能力,
但是GPT4.0慢是真的慢。
 
下面是Open AI 官方发布文章对于GPT-4 的评价:
虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过模拟律师考试,分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。
我们花了 6 个月的时间 使用我们的对抗性测试程序和 ChatGPT 的经验教训迭代调整 GPT-4,从而在真实性、可操纵性和拒绝超出护栏方面取得了有史以来最好的结果(尽管远非完美)

GPT4在各种情况下都有着与GPT3.5的显著提升,但是还是有需要完善的位置,比如语言回答下能够做到与人面对面正常交流的这种情况就非常不错了,但是这种回答的条理性会显得特别的呆板,但是创作能力还是非常棒的,在两者创作对比的情况下,还是GPT4的严谨一些,不过GPT4所做出的文章还是需要经过审视,并不能直接的使用,同样的还是需要保持谨慎,使真实性、可操作性能有个更好的体验效果。