久久精品欧美日韩精品/狠狠色婷婷久久一区二区三区/国产精品午夜无码av体验区/丰满人妻av无码一区二区三区/成人做爰A片免费看网站爱酱

比ChatGPT更牛?我們測試了下訊飛星火V3.0

撰文:李信馬

在科技圈,吹水是基本素養,畫餅PPT是必備技能,哪家公司的計劃能不跳票說到做到,就算得上形象優良,要是一點折扣也不打,那絕對值得交口稱贊。

在剛剛過去的10月24日,科大訊飛就把5個月前的計劃,不打折扣的實現了。今年5月,科大訊飛發布了訊飛星火認知大模型(以下簡稱“星火大模型”)V1.0,當時董事長劉慶峰宣布,將會在8月15日發布星火V2.0,在10月24日發布星火V3.0,對標ChatGPT。

自然,這個計劃不但實現了,而且也做了現場演示。據現場介紹,新版本的星火大模型,不僅整體超越了ChatGPT,在醫療領域甚至超越了GPT-4。

不過現場演示也有一個遺憾——都是大廠,不好意思把友商的大模型也拿來過直接演示對比,萬一打臉了就不好了。于是,DoNews決定,將這個遺憾給彌補上,用統一的問題,來測試下星火大模型和ChatGPT,還有目前國內一線的大模型——百度文心一言和阿里巴巴通義千問——的表現,通過橫向對比,真實稱量下星火大模型的實力。

對于大模型應該具備的基礎能力,不同廠商有不同的看法,比如科大訊飛就提出了七大能力——文本生成、語言理解、知識問答、邏輯推理、數學能力、代碼能力以及多模態。而像百度,則減少為理解、邏輯、生成、記憶四大能力。為了公平起見,我們準備的問題會盡量聚焦在目前業界公認的幾項能力上,而且多題采用今年《行測》的真題,方便進行比較。

首先,第一個問題,也算是中文語言理解方面的“老熟人”了。

小明跟小亮說小剛昨天參加了百米賽跑,這個時候小剛正好經過,小亮就說:“說曹操到,曹操就到。” 分析一下,究竟是誰到了?

以下分別是星火大模型、ChatGPT、文心一言和通義千問的回答:

可以看到,ChatGPT依舊是不太懂中文,回答錯誤,令人驚喜的是,三個國產大模型全部回答正確,儼然這個問題已經是個“小兒科”問題了,星火大模型的答案尤為簡潔。

接下來,我們將難度升級,從今年的國家公務員考試《行測》中扒來一道語言理解與表達試題,可以說,這個不但要理解能力強,還要有好的表達能力。

每個企業都有自己的核心價值觀,它是企業一切理念、制度和技術的價值基礎。企業在重視財務、營銷、技術的同時,更應重視員工。員工是企業的主人,是企業的肯本,只有建立起以“重視員工”為核心價值觀的企業文化,企業才能凝聚員工、創造個性,為自身的發展提供目標、方向和定力。 這段文字意在說明什么?(國家公務員考試《行測》語言理解與表達試題)

以下分別是星火大模型、ChatGPT、文心一言和通義千問的回答:

對這一題的回答,四家大模型都理解準確,回答清晰,如果參加考試,估計都能拿分,可見目前一線大模型的理解和表達能力已經足夠強大了。

再下一題,則是讓大模型頭疼不已的數學推斷計算題,也是來自《行測》。

甲、乙等16人參加乒乓球淘汰賽。每輪對所有未被淘汰選手進行抽簽分組兩兩比賽,勝者進入下一輪。已知除了甲以外,其余任意兩人比賽時雙方勝率均為50%。甲對乙的勝率為0%,對其他14人的勝率均為100%。則甲奪冠的概率是多少?(國家公務員考試《行測》數量關系試題)

這一題的回答,可謂慘不忍睹,由于計算步驟過于復雜,所以我們直接說結果——四家全錯,正確答案是11/15。

首先是星火大模型的回答,給出的答案是1/12,但在第一步就出錯了,似乎沒能理解甲、乙等16人的含義。

接下來是ChatGPT,看起來頭頭是道,但實際卻是在胡說八道,簡化成為了拋硬幣的問題,只能說邏輯能力讓人失望。

然后是文心一言的回答,雖然錯了,但能錯到給出3.58這樣的概率,也是令人覺得很離譜——它理解什么是概率嗎?

最后是通義千問,也是在題目理解上就出了問題,即前提的第三條,得出的第一個結論也是錯的,因為如果甲遇到乙,那么在第一輪比賽中就會輸掉。

可以看到,如果數學題上了一定的難度,對目前的大模型來說,還是比較大的挑戰。

接下來,我們考驗一下大模型的生成能力,從之前的問題可以看出,生成文字已經很難拉開差距,所以我們直接上強度——生成圖片。不少讀者應該聽說過“踏花歸去馬蹄香”的典故,據說曾經是北宋皇帝宋徽宗趙佶給畫家們出的考題,最后被一位畫作中馬兒疾馳馬蹄高舉,幾只蝴蝶追逐著馬蹄蹁躚飛舞的畫家奪得頭籌。我們就以這個問題,要求大模型作圖。

在這個環節,ChatGPT和通義千問因為無法生成圖片,于是就變成了星火大模型和文心一言的比拼,以下分別是它們的作品:

兩幅畫作都很唯美,著重體現了花和馬的元素,區別在于星火大模型像是讀懂了詩句,直接做了一副國風范的圖片,而文心一言的作品則更接近油畫風。

經過多輪的比拼,可以看到,在語義理解、邏輯和生成等大模型核心能力上,星火大模型絕對可以說超過了ChatGPT,達到了世界領先的水平,國內也可以說至少前三了。不過,目前國產大模型與真正世界頂尖的大模型——GPT-4,仍還有一定的差距,這一點也得到了劉慶峰的承認:“國產大模型在復雜知識推理、小樣本快速學習、超長文本處理、跨模態統一理解上距GPT4還有差距。”

但這種差距正在以肉眼可見的速度縮進,作為同樣免費的大模型服務,星火大模型已經超越了ChatGPT(GPT-3.5),并且還在多個領域快速落地應用,本次本屆大會,就重點提到了編程、教育和醫療等領域的進展,科大訊飛還宣布與法律、工業、智能汽車等12個行業龍頭聯合發布行業模型。

演講中,劉慶峰也為星火大模型立下了新的Flag——明年上半年對標GPT-4。“現在就是把速度干得更快。”半年之后,也許我們就能看到,新的星火大模型,在和GPT-4的評測對比中不相上下,甚至更勝一籌了。

比ChatGPT更牛?我們測試了下訊飛星火V3.0
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2025 All Rights Reserved