专访云知声黄伟：多模态是人工智能的必经之路- DoNews

撰文 | 李信馬

題圖 | 云知聲

幾天前，云知聲發布了一段視頻，視頻里女聲與男聲的人機對話聽起來十分自然，以至于聽到一半，才會分辨出哪個是人類哪個是機器。而機器模仿女聲的時候，幾乎聽不出來差別——這是剛剛發布的山海多模態大模型的實機展示。

對話中，山海可以做到實時流暢回復，幾乎沒有延遲，甚至可以打斷和插話，還有對話中富有感情的語氣、節奏、音調變化等，就像在和真人對話。能夠流暢對話的大模型，意味著進入了人工智能最前沿的多模態領域，此前，在OpenAI 發布 GPT-4o 時，類似的展示中GPT-4o表現出了堪比人類的水平，一度讓人感覺中美大模型之間的差距被拉大，但僅僅3個月后，這一領先優勢就被國產大模型追上。

人工智能是當下全球科技領域競爭的焦點，多模態技術上更復雜，應用場景更廣泛，是類似賽點一般的存在。正是少數如云知聲這樣的科技公司存在，才填補了我們在前沿領域的空白，并沖擊世界一流水平，也讓行業在未來商業化落地的時候，有強大且可靠的大模型支持。

但對科技公司而言，為什么要投入到多模態大模型的競賽？多模態大模型又是如何煉成的？未來會創造什么樣的價值？懷揣著這些疑問，我們采訪了云知聲的創始人兼CEO黃偉博士。

一、人工智能的必經之路

2012年，云知聲在北京正式成立，當時國內人工智能的熱潮才剛剛興起，以“AI四小龍”為代表的創業公司們即將迎來十年的“黃金時代”。

不過，在今天的黃偉看來，那是屬于“AI 1.0”的時代；2022年底，隨著ChatGPT的橫空出世，“AI 2.0”的時代大幕就此拉起。

“以前我們更多把 AI 看作是一種判別式 AI，也就是說，它只能做一些判斷題，是對我們已有事物的分類，而生成式 AI 可以無中生有，創造一個完全不同的新世界。”

對于如何實現 AI 2.0 ，云知聲也有自己的探索規劃。2022年底，云知聲開始大模型立項；2023年5月24日，云知聲發布了自研的千億規模的大模型“山海”；在今年的8月23日，云知聲進一步推出了山海多模態大模型。

實際上，GPT-4o發布時，山海多模態大模型已經在緊鑼密鼓的研發之中，云知聲可以說是國內最早一批清楚認識到多模態的價值，并統一思想進行規劃和投入的科技公司。

采訪中，黃偉認為，從大語言模型到多模態大模型，是人工智能發展必然的路徑，大語言模型做到了從 0 到 1 的突破，而突破后一方面通過 Agent、RAG 等技術持續提高大語言模型“智商”，另一方面則以多模態引領從1到2，“二生三，三生萬物”。

“我覺得多模態才是人工智能的本源，我們談人工智能的時候，通常會把機器智能和人的智能進行類比。人的智能不光有大腦，還有眼睛、耳朵、鼻子、嘴巴、觸覺等，今天人工智能的數據來源更多是文字，未來只有將聲音、圖片、視頻，還有嗅覺、觸覺等更多的感知數據納入，才會真正變成一種類人的智能。”

他舉了個例子，人類想要和機器通過自然語言來交流，如果通過純粹的大語言模型，那么要分成三個階段：首先，是將人類的聲音識別轉化成文字；其次，大語言模型根據輸入生成文字內容；第三，將文字內容再轉化成音頻播放。

這樣，一個任務就被分成了三個任務，每個任務都會引入短暫的延遲，最終人機交互的延遲就會很明顯，用戶體驗差。而要有較快的響應速度，那就要通過多模態大模型來實現。目前山海多模態大模型的時延大概在 0.3 秒到 0.4 秒左右，基本上已經和正常人的交流速度相差無幾了，而且聲音還會帶上對應的感情，而非冰冷的播音腔。

黃偉預測，未來的大模型會是“世界模型”，大模型可以通過感知設備和技術來感知物理世界，理解物理世界的運行規律，從而解決現實中的復雜問題。

自2018年，云知聲連續六年上榜了 CB Insights 全球人工智能獨角獸榜單，在人工智能領域是少有能達成這一成就的創業公司。尤其在大模型興起后，不少曾經的明星創業公司也開始“星光黯淡”，而云知聲卻與時俱進，在大模型領域的勢頭兇猛。

黃偉介紹，山海大模型的目標是通用能力達到世界一流，在醫療等關鍵領域達到世界第一。目前，山海大模型在多個國際權威評測中都位列前茅，在剛剛最新發布的SuperCLUE 國內外通用大模型基準榜單中，山海大模型位列第一梯隊；在醫療領域，也曾登頂MedBench、MedQA、C-Eval等多個評測榜單。

但知易行難，云知聲的技術轉型，又是如何順利實現的呢？

二、舊的傳承，新的征程

黃偉認為，從技術本源上來講，大語言模型以及多模態大模型都不是從零開始的，而是對原有技術的升級。“之前是BERT，再之前是Transformer，技術上是一脈相承的，只是今天我們的規模更大，數據量也更大，量變引發了質變，模型產生了涌現能力，我們過去積累的優勢，依舊會在產品得到體現。”

在技術研發的路徑上，云知聲選擇“分步走”，簡單來說，就是分階段做多模態大模型，先做文本和語音的融合，再做圖像視頻的融合。這樣的好處是相對比較穩健，畢竟多模態大模型全球都還處于探索之中，沒有確定成功的經驗，另一方面，是能夠發揮出云知聲在智能語音領域的優勢。

作為國內對話式 AI 獨角獸，云知聲在智能語音領域有著豐富的積累，曾在interspeech、VoxSRC 2023、BC國際語音合成大賽等多項國內外頂尖的語音交互評測/比賽中獲得過冠軍或收錄論文，也有著豐富的工程化和產品化經驗。

山海多模態大模型，是在山海大模型的基礎上演進的。據黃偉介紹，在算法和數據方面，首先，云知聲團隊用不同的編碼器，將海量的不同模態的數據（文本、音頻、圖片等）進行了編碼，然后通過適配器和原有的山海大模型進行融合預訓練。

“這里面的難點，第一個是數據配比，文字的數據密度很高，但音頻和圖片的數據密度并不高，比如5TB的數據，里面不同類型數據的比例不同，那數據要怎樣合理分配效果才最好？第二個是我們要通過多任務的指令微調和對齊，讓模型來理解各種指令，但你怎么快速地構造這個指令訓練器？靠人工的話，無法滿足數量和速度的需求。此外，數據平臺要怎么搭建？所以說真正想把多模態大模型做好，這里面有很多的挑戰。”

還有一些難點，來自于算力和存儲。多模態大模型預訓練對算力的要求極高，而音頻、圖片數據由于更加稀疏，對存儲的要求也更高，因此，團隊要有非常成熟的搭建計算平臺和分布式訓練的經驗。

比如云知聲，目前僅語音訓練數據就有幾十萬小時，“我們構建了非常完善的分布式數據的核心流程，幾十萬小時數據，你不能光靠錄音來獲得，我們通過算法合成的方式，差不多可以做到每天合成幾萬小時的數據。”

解決這些難點，對研發團隊的工程化能力也提出了極高的要求，需要豐富的經驗和技巧。回顧過去的兩年，云知聲的研發團隊經歷了無數困難，黃偉感慨道：“我覺得克服困難的過程，是比困難更大的困難，團隊不止需要足夠的能力，還需要強大的韌性。今天來看，可以云淡風輕的總結經驗，但當時卻是不斷的出現問題和煎熬，好在我們都解決了。”

三、商業化：新酒、新瓶

做大模型最重要的是什么？

作為跨越 AI 1.0 時代的行業老兵，黃偉認為，是將大模型變成真正在場景中為客戶創造價值的產品和服務。

“拿著錘子找釘子”，是長期以來對人工智能行業商業化的描述，早些年，不少創業公司講一個好故事，就能拿來融資，提高估值，但技術遲遲不能轉化為收入，故事就像泡沫一樣被吹爆了，公司也迅速從“黃金時代”進入“黑暗時代”。

初創階段、膨脹階段和黑暗階段，云知聲都經歷過，因此面對市場更加清醒，在黃偉看來，大模型帶來了機遇，但大模型本身并不是商品，而是巨大的成本支出。

“在 AI 1.0 時代，我們無論是做語音識別還是圖像識別，可能幾臺服務器就夠用了。但今天做生成式AI，我們需要幾百臺服務器，未來還需要更多，光這些服務器本身就是不小的成本，還有人力、電力和數據等。你做一個模型，能不能帶來商業轉化是一個重大的挑戰，對中國的創業者來說尤其如此，因為在中國的商業環境里，哪怕你花了一個億去做研發，客戶可能都不愿意付給你一百萬。”

成本的陡增，也讓商業化更加迫在眉睫，不少大模型廠商選擇按tokens計費“賣模型”的模式，不過黃偉認為，這并不是唯一的方向。云知聲規劃的大模型商業化路徑，可以描述為“先用舊瓶裝新酒，再用新酒注新瓶”。

“舊瓶”是指云知聲已經成熟落地的商業化場景，比如在醫療領域，云知聲推出過語音病歷錄入系統，提高了醫生的工作效率。而“新酒”則是指大模型技術，可以讓產品的能力進一步升級。黃偉舉了個例子，在問診環節，醫生和患者對病情不斷進行問答：

醫生：您好，沒來看過是吧，您有什么不舒服啊?

患者：之前體檢，說我甲狀腺功能不正常。

醫生：什么時候查的？

患者：有半年啦

醫生: 您有心慌、怕熱、出汗多的癥狀嗎?

患者：沒有

醫生：拉肚子呢?

患者：也沒有

醫生：除了體檢化驗，其他異常的感覺都沒有？那你報告帶了嗎？

患者：是這樣，當時我去我們社區醫院看過，大夫說我是甲亢，給我開了賽治

醫生：賽治吃的多大量?

患者：一頓兩片，一天就吃一次

醫生：現在一直吃著呢是嗎?

患者：沒有，我吃了一段時間，也沒感覺有什么不一樣，朋友跟我說不一定是甲亢，藥盒上還寫了一大堆可能出現的副作用，我就停啦。

雙方對話的同時，大模型也在不斷輸入對話的內容，當對話結束時，就會給出了一份診斷建議和治療方案。中國醫療資源相對缺乏，分布也不均衡，這樣的人工智能，在中西部地區和社區康養的場景下，就相當于給醫生提供了助手，也給患者安排了私人醫生。

還有在手術室，醫生手術負擔重也是醫院的常態，以往手術結束后，醫生還要寫手術記錄，既增加了疲憊感，也可能會忘記中間的具體細節。而云知聲的產品，可以現場記錄醫生和護士之間的對話，然后基于對話識別手術的關鍵信息，當手術結束后，自動生成一份記錄。

“我們并不是手里拿著錘子找釘子，我們是把錘子升級，快速滿足現有客戶的需求。”多年前，云知聲嘗試讓醫生使用麥克風來溝通，很多醫生用不慣，但當他們發現產品的確好用后，慢慢用的人就越來越多了，技術和產品就是這樣不斷迭代和推廣。

而當產品打磨成熟后，云知聲又可以開拓新的行業，新酒注入“新瓶”中。黃偉介紹，除了醫療行業，山海大模型在互聯網、汽車、交通等行業也在逐漸落地。

正確的道路不止一條，市場的需求也各式各樣，商業模式存在即有其合理性，重要的是，企業要選擇適合自己的商業模式。人工智能賽道是一場漫長而殘酷的淘汰賽，無論是“四小龍”還是“五小虎”，都是時代的符號，但能活到最后的，才算是跑完了全程。

對于行業未來的發展，黃偉給出了“任重道遠”四個字，“無論是大語言模型，還是多模態大模型，我們都看到了非常清晰的遠景，但是挑戰也非常大，對所有從業者來說，想要做更好的技術、更好的產品，打造更健康的商業模式，就要放棄浮躁的心態，去追求產品落地。只有這樣，中國人工智能行業才能健康發展，而不是充滿泡沫——如果泡沫破裂的話，對中國人工智能行業將是巨大的傷害。”

久久精品欧美日韩精品/狠狠色婷婷久久一区二区三区/国产精品午夜无码av体验区/丰满人妻av无码一区二区三区/成人做爰A片免费看网站爱酱