DoNews12月19日消息,12月19日,百川智能宣布開放基于搜索增強的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K 及Baichuan2-Turbo。在支持192K超長上下文窗口的基礎上,還增加了搜索增強知識庫的能力。
即日起,API用戶可上傳文本資料來創建自身專屬知識庫,從而根據自身業務需求打造更完整、高效的智能解決方案。百川智能在引領國內大模型開源生態之后,再次引領行業開啟了企業定制化的新生態。
此外,百川智能還升級了官網模型體驗,目前其官網大模型已支持PDF、Word等多種文本上傳以及URL網址輸入,用戶可通過官網入口體驗搜索增強和長窗口加持后的通用智能。
百川智能認為,搜索增強是大模型落地應用的關鍵,能夠有效解決幻覺、時效性差、專業領域知識不足等阻礙大模型應用的核心問題。一方面,搜索增強技術能有效提升模型性能,并且使大模型能“外掛硬盤”,實現互聯網實時信息+企業完整知識庫的“全知”;另一方面,搜索增強技術還能讓大模型精準理解用戶意圖,在互聯網和專業/企業知識庫海量的文檔中找到與用戶意圖最相關的知識,然后將足夠多的知識加載到上下文窗口,借助長窗口模型對搜索結果做進一步的總結和提煉,更充分地發揮上下文窗口能力,幫助模型生成最優結果,從而實現各技術模塊之間的聯動,形成一個閉環的強大能力網絡。
大模型+搜索構成完整技術棧,實現了大模型和領域知識、全網知識的全新鏈接
盡管大模型是劃時代的技術突破,但現階段大模型并不完美,幻覺、時效性差、缺乏專業領域知識等問題,是其落地千行百業必須要面對的挑戰。
對此,業界探索了多種解決方案,包括擴大參數規模、擴展上下文窗口長度、為大模型接入外部數據庫,使用特定數據訓練或微調垂直行業大模型等。這些路線各有優勢,但也都存在自身的局限。
例如,持續擴大模型參數雖然能夠不斷提升模型智能,但是需要海量數據和算力的支撐,巨額的成本對中小企業非常不友好,而且完全依靠預訓練也很難解決模型的幻覺、時效性等問題。
業界亟需找到一條集諸多優勢于一體的路徑,將大模型的智能切實轉化為產業價值。在百川智能的技術思考中,大模型+搜索增強是大模型時代的新計算機,大模型類似于計算機的CPU,通過預訓練將知識內化在模型內部,然后根據用戶的Prompt生成結果;上下文窗口可以看做計算機的內存,存儲了當下正在處理的文本;互聯網實時信息與企業完整知識庫共同構成了大模型時代的硬盤。
基于這一技術理念,百川智能以Baichuan2大模型為核心,將搜索增強技術與大模型深度融合,結合此前推出的超長上下文窗口,構建了一套大模型+搜索增強的完整技術棧,實現了大模型和領域知識、全網知識的全新鏈接。
用行業大模型解決企業應用不是最佳方法,大模型+搜索增強可以解決99%企業知識庫的定制化需求
企業自有數據/知識庫,是企業的核心競爭力。大模型如果不能結合企業自有數據/知識庫,對企業沒有價值。對此,業界的傳統做法是做行業大模型,通過預訓練或者微調訓練大模型。
但是基于特定數據預訓練或微調垂直行業大模型需要高密度的技術人才團隊、大量的算力支持,并且每更新一次數據都要重新訓練或微調模型,不僅成本高昂、靈活性差,更關鍵的是不能保證訓練的可靠性和應用的穩定性,多次訓練后仍會出現問題。此外,大部分企業數據,都是結構化的數據,也不適合SFT,模型無法準確記憶結構化信息,會帶來幻覺。
為解決傳統方法的缺陷,業內探索了長上下文窗口和向量數據庫兩種較好的路徑。在此基礎上,百川智能更進一步,不僅將向量數據庫升級為搜索增強知識庫,極大提升了大模型獲取外部知識的能力,并且把搜索增強知識庫和超長上下文窗口結合,讓模型可以連接全部企業知識庫以及全網信息,能夠替代絕大部分的企業個性化微調,解決99%企業知識庫的定制化需求,不僅為企業節省巨大成本,還能夠更好地實現垂直領域知識的沉淀,讓專有知識庫能夠真正成為企業不斷增值的資產。
百川智能構建的大模型+搜索增強解決方案解決掉幻覺和時效性問題后,有效提升了大模型的可用性,拓展了大模型能夠覆蓋的領域,例如金融、政務、司法、教育等行業的智能客服、知識問答、合規風控、營銷顧問等場景。
而搜索增強相比微調,在提升可用性的同時還顯著降低了應用成本,讓更多中小企業也能夠享受到大模型帶來的變革,特別是在電商行業可幫助廣大店家提升營銷效率乃至轉化率。此外,這種應用方式還可以幫助提升企業各種場景應用創新的效率,加速大模型在千行百業創造實際價值。
突破搜索增強技術多個難點,稀疏檢索與向量檢索并行召回率提升至 95%
雖然搜索增強能夠有效解決大模型落地應用的諸多問題,但在技術層面構建這樣一套系統卻并不容易,需要深厚的搜索和模型研發經驗來發現并解決各個環節的技術難點與挑戰。
在大語言模型時代,用戶的需求表達不僅口語化、多元化,并且還與上下文強相關,因此用戶需求(Prompt)與搜索的對齊成為了大模型獲取外部知識過程中最為核心的問題。
為了更精準地理解用戶意圖,百川智能使用自研大語言模型對用戶意圖理解進行微調,能夠將用戶連續多輪、口語化的Prompt信息轉換為更符合傳統搜索引擎理解的關鍵詞或語義結構。
此外,百川智能還參考Meta的CoVe(Chain-of-Verification Reduces Hallucination in Large Language Models)技術,將真實場景的用戶復雜問題拆分成多個獨立可并行檢索的子結構問題,從而讓大模型可以針對每個子問題進行定向的知識庫搜索,提供更加準確和詳盡的答案。
同時通過自研的TSF(Think Step-Further)技術,百川智能的知識庫可以推斷出用戶輸入背后深層的問題,更精準的理解用戶的意圖,進而引導模型回答出更有價值的答案,為用戶提供全面和滿意的輸出結果。
在精確理解用戶需求的基礎上,想要進一步提升知識獲取的效率和準確性,還需要借助向量模型解決用戶需求和知識庫的語義匹配問題。為實現更好的向量檢索效果,百川智能自研的向量模型使用了超過 1.5T token 的高質量中文數據進行預訓練,通過自研的損失函數解決了對比學習對于 batchsize 的依賴,在C-MTEB評測集 6 個任務(分類、聚類、文本推理、排序、檢索、文本相似度) 中的 5 個任務上都取得了效果的大幅領先,綜合分數登上榜首。
雖然當下構建大模型知識庫的主流方法是向量檢索,但是向量模型的效果過于依賴訓練數據的覆蓋,在訓練數據未覆蓋的領域泛化能力會有明顯折扣,并且用戶 prompt 和知識庫中文檔長度的差距也給向量檢索帶來了很大挑戰。
對此,百川智能在向量檢索的基礎上融合了稀疏檢索和 rerank模型。通過稀疏檢索與向量檢索并行的混合檢索方式,將目標文檔的召回率提升到了 95%,大幅領先于市面上絕大多數開源向量模型的80%召回率。
不僅如此,對于大模型在回答過程中由于引用資料不準確以及與大模型不匹配,導致模型的“幻覺”加重的現象。百川智能還在通用RAG(檢索增強生成)的技術基礎上首創了Self-Critique大模型自省技術,該技術能夠讓大模型基于Prompt對檢索回來的內容從相關性、可用性等角度進行自省,篩選出最優質、最匹配的候選內容,有效提升材料的知識密度和廣度,并降低檢索結果中的知識噪聲。
5000萬tokens數據集測試回答精度95%,長窗口+搜索實現“真·大海撈針”
長上下文窗口雖然可以接收更長的文本信息,但擴展上下文窗口長度會影響模型性能,在當前技術下存在上限。并且長窗口每次回答問題都要將文檔全部重讀一遍,推理效率低、成本高。
百川智能通過長窗口+搜索增強的方式,在192K長上下文窗口的基礎上,將大模型能夠獲取的原本文本規模提升了兩個數量級,達到5000萬tokens。通過搜索增強,模型可以先根據用戶的Prompt在海量的文檔中檢索出最相關的內容,再將這些文檔與Prompt一起放到長窗口中,有效節省了推理費用和時間成本。
“大海撈針”測試(Needle in the Heystack)是由海外知名AI創業者兼開發者 Greg Kamradt 設計的,業內公認最權威的大模型長文本準確度測試方法。
對于192k token以內的請求,百川智能可以實現100%回答精度。
而對于192k token以上的文檔數據,百川智能結合搜索系統,將測試集上下文長度擴展到 5000w tokens,分別評測了純向量檢索和稀疏檢索+向量檢索的檢索的效果。測試結果顯示,稀疏檢索+向量檢索的方式可以實現95%的回答精度,即使在 5000萬tokens的數據集中也可以做到接近全域滿分,而單純的向量檢索只能實現 80%的回答精度。
本次測試,百川智能使用中文場景,實驗配置如下:
- 大海(HayStack):博金大模型挑戰賽-金融數據集中的80份長金融文檔。
- 針(Needle):2023 年 12 月 16 日,在極客公園創新大會 2024 的現場,王小川進一步分享了大模型的新思考。在王小川看來,大模型帶來的新的開發范式下,產品經理的出發點,應該從思考產品市場匹配(PMF),到思考技術與產品的匹配怎么做,即 TPF(Technology Product Fit,技術產品匹配)。
- 查詢問題:王小川認為大模型時代下,產品經理的出發點是什么?
不僅如此,百川智能搜索增強數據庫的表現也十分優秀,在博金大模型挑戰賽-金融數據集(文檔理解部分)、MultiFieldQA-zh和DuReader三個行業主流知識庫測試集上的得分均領先GPT-3.5、GPT-4等行業頭部模型。
據了解,目前多個行業的頭部企業已與百川智能達成合作,同時,基于搜索增強的Baichuan2-Turbo系列API原生支持昇騰AI基礎軟硬件平臺。
百川智能未來也將持續聯合華為在技術層面深度合作,并融合百川智能的長上下文窗口和搜索增強知識庫能力為客戶提供多樣化智能化解決方案。