PG电子娱乐平台有问题先问它!讯飞星火认知大模型35评测:中国版GPT-4来了
PG电子娱乐平台有问题先问它!讯飞星火认知大模型35评测:中国版GPT-4来了在“大力出奇迹”的路径下,大模型还需要海量的数据“喂养”以及大规模算力投入,才能真正超越ChatGPT。
如今,国内已被大规模应用的大模型有科大讯飞旗下的星火认知大模型、百度旗下的文心一言(百度文心大模型)、阿里巴巴旗下的通义千问(阿里通义大模型)等等。
近期,科大讯飞再次取得突破,推出了基于首个纯国产算力底座“飞行一号”平台训练的大模型——讯飞星火V3.5。
说了这么多,那这款纯国产的讯飞星火V3.5大模型在各方面的体验究竟如何?对比国外的Chat GPT4.0又有多大的差距呢?
接下来,我们就对讯飞星火V3.5版本的大模型从语音交互、常规问答、语义理解、逻辑处理、数学能力、代码编写与解释能力等多个维度,与国内的百度文心一言以及国外的ChatGPT 4.0进行一次全面的测试对比。
讯飞星火 V3.5 的全语音交互体验极为流畅,首先在音色上,完全消除了“机器感”,几乎不会出现前后音调不搭的情况,声音听上去就像是真人在你旁边说话一样。
其次,其AI合成的声音自然逼真,甚至连语气词,例如“嗯”、“这个”、“那个”等都运用的恰到好处。
并且,语音输出语速适中,该快的时候快,该慢的时候慢,如果有一个外行人在身边,真的会认为这是一个真人在说话,拟人化程度相当惊人。
另外,在对线 的反应特迅速,一般都是笔者的话音刚落,它就能立即作出回应,并且对语义的理解能力相当精准,对问题的判断相当准确,相比其他的语音助手答非所问、自问自答、反应慢半拍的情况,可以说讯飞真正做到了跟人“交互”的程度。
文心一言V4.0在前几天还是不具备语音交互的,但这两天也推送了支持语音交互的新版本,我们也来测试一下它的语音交互能力。
在我们的测试中,文心一言V4.0的声音连贯性比较和谐,几乎不会出现断裂和不自然的过渡,但回答的细腻程度不及讯飞星火V3.5,而且一些问题都是直问直答,没有扩展性,并且缺少一些过渡用于,就有点像手机语音助手的那种感觉,听着会有一些紧巴巴的感觉,给人的感受没有讯飞那么自然。
通过视频我们可以感受到,ChatGPT4.0的语音输出字句前后也比较自然,但还是会出现一些语调不均的情况,听着会让人有些别扭。
接着,为了测试讯飞星火 V3.5在国际中的地位,我们使用国内的另一大模型文心一言和国外的ChatGPT 4.0进行一次全面的测试对比。
三个大模型的回答准确无误,讯飞星火 V3.5和文心一言V4.0均给到了各大产业的占比以及增幅比,不过讯飞分析的更加透彻,说到2020年这一特殊的年份,国内GDP增长的不易和国家正确的决策,能够深入理解复杂的趋势和事件。
第二个问题,只有讯飞星火3.5给出了正确的答案,文心一言则仅给到了前三的国家和奖牌数量,没有完整地回答问题,而ChatGPT的答案则出现了错误(中国共89枚奖牌)。
第三个问题,面对机圈的问题,只有Chat-GPT4.0给到了正确答案,全球第一款16GB内存的智能手机,是2020年年初发布的三星Galaxy S20 Ultra。
对于世界之最这类问题,讯飞星火V3.5给出的是岩面高度差,回答正确,文心一言和Chat-GPT给到的则是雪面高度差,精度一致,没有任何问题。
对于“鲁迅为什么暴打周树人”这种问题,讯飞星火、文心一言和ChatGPT4都能完美避坑,给出了鲁迅和周树人是同一个人的答案。
第二个问题,昨天的当天是明天的什么?讯飞星火V3.5和Chat-GPT4.0通过逻辑判断均给出了正确答案,“前天”,而文心一言则给出“昨天的当天是明天的昨天”的答案,回答错误。
第三个问题,三个大模型均成功避坑,讯飞和GPT4分析的最简洁最到位,文心一言则通过一顿逻辑判断和理解输出了正确的答案,过程稍有些复杂,不够简洁。
接着是一个物理常识问题,讯飞回答错误,文心一言V4.0和GPT4.0均回答正确,冰融化之后,水面既不会上升也不会下降,并且给出了详细的逻辑分析。
面对鸡兔同笼问题,讯飞和GPT4.0均以二元一次方程计算后给出了正确答案,讯飞星火给到了完整的解题过程,甚至连计算过程都精确的呈现出来,而文心一言和Chat-GPT4.0的回答过程则较为简略,以推理的过程为主。
(2)如果一个直角三角形的两条边长分别是6和8,另一个与它相似的直角三角形边长分别是3、4及x,那么x的值是多少?
接着是第二个数学问题,面对这种没有给到对应数值的两边长度,我们一般会分析到两种不同的可能性,因此这道题的标准答案会有2个,很显然讯飞星火3.5全都顾及到了,给出了两个正确的答案。
所以,通过以上测试的数学问题来看,讯飞星火V3.5的解题能力已经在国际中处于领先水平,甚至在部分能力上已经超越了Chat GPT4.0。
使用PyQt5搭建-个窗口,点击按钮之后,有50%的概率把按钮移动到窗口的随机位置,还有50%的概率把按钮的标题改成随机数。不要有多余的解释,直接给出可以运行的代码。
我们给到一段代码让三个大模型进行解释,三者均会根据每行的代码进行解释,文心一言给到的解释要更偏向小白,逻辑非常清晰,新手也能一目了然。
讯飞给到的解释与GPT4.0差不太多,所以在代码编辑和解释能力上,讯飞星火3.5、Chat GPT 4.0大体相当。
为了测试三种大型语言模型对语文理解能力的差异,我们选取了一段高中阅读理解材料,让这些模型阅读并回答相关问题。
第一个问题,讯飞星火3.5给到的原因是最全面的,也是最准确的,从根本上回答了这个问题,文心一言3.5给到的答案也比较准确,不过并没有讯飞全面。
Chat GPT4.0给到的回答比较深入,也就是说它能够进一步理解作者所表达的内在思想与含义,也就是说Chat GPT4.0对文字的理解要更加深刻。
对于语言的理解,讯飞星火 V3.5 和 GPT-4 在处理自然语言任务时都展现出了合格的理解能力,然而在综合比较中,GPT-4 在理解和表达方面显得更为精准与细腻。
不过讯飞星火V3.5和Chat GPT4.0绘制的图片细腻程度和精美程度上均优于文心一言3.5,二者在文生图的能力上,不相仲伯。
接着我们提高了难度,让三款大模型在上一幅图的基础上进行二次创作,虽然均不能还原上一幅图中的全部样貌,但讯飞星火V3.5和Chat GPT4.0均能以接近上一幅图的场景进行二次创作,并精确理解了“墙面上的画”指的是什么内容。
文心一言V4.0应该说是理解了题目中的一般要求,把“春江水暖鸭先知”的含义放在了整个画面当中,并没有理解“墙面上的画中”是什么东西,导致与要求的本意产生了较大的偏差,也让最终的呈现效果与预期有一定的出入。
反观讯飞星火V3.5和Chat GPT4.0PG电子娱乐平台,在语义理解能力方面表现出色,两者的能力接近,甚至达到了相似的水平。
在国际大模型比拼中,讯飞星火V3.5不仅在常规问答、逻辑推理和数学解题方面与Chat GPT 4.0并驾齐驱,甚至在某些方面超越了后者,尤其在解答语言相关的问题时,讯飞星火V3.5展现出了更深厚的理解能力和更广泛的知识面。
在数学能力上,讯飞星火V3.5更注重解题的过程,告诉你解题的所有步骤,就算是没有基础知识也能一看便会,而文心一言和GPT则更偏向于推理的过程,数据偏理科的那种。
就数学能力而言,国内的讯飞星火和文心一言这两款大模型的解题能力已经在国际中处于领先水平,甚至在部分能力上已经超越了Chat GPT 4.0。
多模态能力上,代码编写与解释、作图等测试,讯飞和GPT 4.0均以精确的理解力和较为复杂的作图能力完成了要求,不仅能够准确理解所提供的信息,还能够在作图任务中细致地还原或创造出接近描述的细节,展现出了它们的强大的理解能力和创造能力。
而文心一言虽然也能完成基本的任务,但在细节处理和深度理解上,与二者略有差距,很显然它在多模态交互方面的潜力还未完全发挥出来。
综合而言,讯飞星火认知大模型V3.5在各项测试中已相当出色,展现出其在多个领域的领先优势,尽管与ChatGPT 4.0在某些方面还有一定差距,但可以期待,随着科大讯飞在技术上的持续进步,未来的讯飞星火认知大模型将逐渐走到国际领先水平,全面对标GPT-4。
在当前国内人工智能领域竞争愈发激烈的背景下,我们有足够的信心和理由相信,讯飞星火将凭借其先进的语音技术和日益累积的技术算法,在不久的将来不仅能够追赶上 GPT-4 的能力水平,还将进一步推动中国在全球人工智能领域的发展和领导地位,走向新的阶梯。