DoNews9月7日消息,從去年12月ChatGPT的浪潮席卷全球以來,幾乎所有的科技企業都想抓住這個機會。經過大半年的沸騰后,大模型行業出現了一股新的浪潮:從閉源到開源。
LLaMA2發布于今年7月19日,由美國互聯網大廠Meta推出,當時在全球引起轟動,外界評價說,LLaMA2的開源將可能影響大模型最終格局。而在百川智能創始人兼CEO王小川看來,全新發布的Baichuan 2系列開源大模型,已經全面超越了LLaMA2的性能。
DoNews攝
北京時間9月6日,百川智能召開主題為“百川匯海,開源共贏”的大模型發布會。會上,百川智能宣布正式開源微調后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat與其4bit量化版本,并且均為免費可商用。
同為大模型創業者的瀾舟科技創始人兼CEO周明現身百川智能發布會,周明表示,國外開源模型更多是支持英文為主的西方語言,對中文的支持要么不足,要么不太友好。而Baichuan2兩款模型對中文用戶的支持非常友好,并且在性能方面都超越了英文同等尺寸模型,因此是對中國大模型領域研究和應用的利好消息。
今年4月,王小川在離開搜狗一年半后創辦了百川智能,這個成立不到半年的公司對大模型產業發展會產生哪些影響,引起了各界不小的關注。
文理兼備,性能超越LLaMA2
據了解,在新的模型上,百川智能的研究者們從數據獲取到微調進行了很多優化。
Baichuan2-7B-Base和Baichuan2-13B-Base,均基于2.6萬億高質量多語言數據進行訓練,在保留了上一代開源模型的生成與創作能力,多輪對話能力以及部署門檻較低等眾多特性的基礎上,兩個模型在數學、代碼、安全、邏輯推理、語義理解等能力有顯著提升。其中Baichuan2-13B-Base相比上一代13B模型,數學能力提升49%,代碼能力提升46%,安全能力提升37%,邏輯推理能力提升25%,語義理解能力提升15%。
DoNews攝
“我們借鑒了之前做搜索時的更多經驗,對大量模型訓練數據進行了多粒度內容質量打分,使用了 2.6 億 T 的語料級來訓練 7B 與 13B 的模型,并且加入了多語言的支持。”王小川表示,“我們在千卡 A800 集群里可以達到 180TFLOPS 的訓練性能,機器利用率超過 50%。在此之外,我們也完成了很多安全對齊的工作。”
本次開源的兩個模型在各大評測榜單上的表現優秀,在 MMLU、CMMLU、GSM8K 等幾大權威評估基準中。以較大優勢領先 LLaMA2,相比其他同等參數量大模型,表現也十分亮眼,性能大幅度優于 LLaMA2 等同尺寸模型競品。
更值得一提的是,根據 MMLU 等多個權威英文評估基準評分 Baichuan2-7B 以 70 億的參數在英文主流任務上與 130 億參數量的 LLaMA2 持平。
百川供圖
值得一提的是,根據MMLU等多個權威英文評估基準評分Baichuan2-7B以70億的參數在英文主流任務上與130億參數量的LLaMA2持平。
7B參數模型的Benchmark成績 百川供圖
13B參數模型的Benchmark成績 百川供圖
Baichuan2-7B和Baichuan2-13B不僅對學術研究完全開放,開發者也僅需郵件申請獲得官方商用許可后,即可以免費商用。
?
全程開源模型訓練Check Point,助力學術研究
大模型訓練包含海量高質量數據獲取、大規模訓練集群穩定訓練、模型算法調優等多個環節。每個環節都需要大量人才、算力等資源的投入,從零到一完整訓練一個模型的高昂成本,阻礙了學術界對大模型訓練的深入研究。
本著協作和持續改進的精神,百川智能本次開源了模型訓練從220B到2640B全過程的 Check Ponit。這對于科研機構研究大模型訓練過程、模型繼續訓練和模型的價值觀對齊等極具價值,將極大推動國內大模型的科研進展,開源訓練模型過程對國內開源生態尚屬首次。
百川供圖
值得一提的是,在大會現場,中國科學院院士、清華大學人工智能研究院名譽院長張鈸對大模型發展提出了自己的看法。張鈸認為,雖然大模型行業取得了廣泛關注,但是“大模型產生”的現象仍然缺乏可解釋性。
到現在為止,全世界對大模型的理論工作原理、所產生的現象都是一頭霧水,所有的結論都推導產生了「涌現現象」,所謂「涌現」,就是給自己一個退路,解釋不清楚的情況下就說它是涌現,實際上這反映了我們對它一點不清楚。
張鈸表示,對于模型的訓練與推理的過程,仍然是人工智能學術領域需要不斷去探索的課題。到現在為止國內的大模型主要集中在垂直領域的應用上,因此,他很支持百川智能把這次的開源模型定位在助力學術研究上。
張鈸院士 百川供圖
技術報告揭示訓練細節,繁榮開源生態
當前大部分開源模型在開源過程中只是對外公開自身的模型權重,很少提及訓練細節,企業、研究機構、開發者們只能在開源模型的基礎上做有限的微調,很難進行深入研究。
百川智能在發布會上宣布,公開Baichuan 2的技術報告。技術報告將詳細介紹Baichuan 2 訓練的全過程,包括數據處理、模型結構優化、Scaling law、過程指標等。
王小川表示,“這對于大家理解預訓練,或者進行微調強化能夠帶來幫助。這也是在國內首次有公司能開放這樣的訓練過程。”
百川供圖
百川智能自成立之初,就將通過開源方式助力中國大模型生態繁榮作為公司的重要發展方向。成立不到四個月,便相繼發布了 Baichuan-7B、Baichuan-13B 兩款開源免費可商用的中文大模型,以及一款搜索增強大模型 Baichuan-53B,兩款開源大模型在多個權威評測榜單均名列前茅,目前下載量超過 500 萬次。
不僅如此,在今年創立的大模型公司中,百川智能是唯一一家通過《生成式人工智能服務管理暫行辦法》備案,可以正式面向公眾提供服務的企業。憑借行業領先的基礎大模型研發和創新能力,此次開源的兩款Baichuan 2大模型,得到了上下游企業的積極響應,騰訊云、阿里云、火山方舟、華為、聯發科等眾多企業均參加了本次發布會并與百川智能達成了合作。
未來,百川智能將在開源大模型領域持續深耕,將更多的技術能力、前沿創新開放出來,與更多的合作伙伴們共同助力中國大模型生態發展。