DoNews2月7日消息,近日,APUS與深圳大學大數據系統計算技術國家工程實驗室(以下簡稱“大數據國家工程實驗室”)聯合研發的伶荔Linly-70B中文大模型,在GitHub上正式開源,這是APUS大模型3.0的首個開源大模型。
此次,APUS和大數據國家工程實驗室強強聯合,集成各自優勢,更有大數據國家工程實驗室陳國良院士權威背書,APUS大模型3.0伶荔在中文基準測評榜單C-Eval上獲得80.6分,在所有參評模型中排名第三,更加適配中文場景,中文場景能力更加突出。
躋身700億以上參數開源大模型第一梯隊
當前市場中,700億以上參數的開源大模型寥寥無幾。700億參數規模的大模型能力接近GPT-4,在局部水平上甚至可以超越GPT-4。
在深圳大學李煜東博士看來,700億參數規模的開源大模型市面上很少的原因在于三個方面:一是訓練成本更高,二是增量預訓練時需要更大數據量,三是使用時需消耗更多的資源。
此次開源意味著APUS大模型3.0伶荔邁出至關重要的一步。
「APUS大模型3.0伶荔」中文能力大幅提升
基于APUS鄭州智算中心強大的計算能力,APUS大模型3.0伶荔在中文擴表后進行了嚴格訓練,顯著提高了模型的訓練效率和準確性。
該模型的上下文長度設定為4,096,能夠處理大約8,000-10,000個漢字的文本輸入,從而更好地理解和生成中文語境下的自然語言,提高其在各種中文任務中的表現。在中文自然語言處理領域,APUS大模型3.0伶荔表現非常優秀。
訓練能力定制化調優,綜合實力凸顯
為了提高在中文場景中的表現,APUS大模型3.0伶荔在語料、訓練框架和訓練方法上進行了定制化調優。基于自研模塊化增量預訓練框架,針對中文特點擴充詞表,增加了對漢字和中文符號的支持。在訓練語料方面,精選高質量中英文公開數據源,包括悟道、萬卷、MNBVC等,并結合自研的數據選擇策略,構建了適合模型高效訓練的混合語料庫。
此外,項目團隊還提出創新性課程學習策略,通過動態數據采樣,在訓練過程中不斷調整數據分布,確保模型的英文語言能力能夠平穩遷移到中文語言能力。這一策略的運用,使得模型在中文語境下能夠更加自然、準確地理解和生成文本。
正式開源的APUS大模型3.0伶荔在中文自然語言處理領域,展現出了卓越的性能和巨大的潛力,并已經準備好應對各種中文任務和挑戰。APUS與大數據國家工程實驗室已邁出構建中文場景大型語言模型的關鍵一步,在中文大模型領域樹立了全新標桿。
未來雙方將持續密切合作,共同探索模型在知識、推理和長文本處理等方面的通用能力,并深化其在工具使用、劇情生成和角色扮演以及醫療等專業領域的應用,進一步提升模型的能力和應用范圍。此外,雙方還將擴展到視覺模態,構建跨模態生成模型,以更好、更精準地滿足通用和領域特定的需求。