久久精品欧美日韩精品/狠狠色婷婷久久一区二区三区/国产精品午夜无码av体验区/丰满人妻av无码一区二区三区/成人做爰A片免费看网站爱酱

專訪云知聲黃偉:多模態是人工智能的必經之路

撰文 | 李信馬

題圖 | 云知聲

幾天前,云知聲發布了一段視頻,視頻里女聲與男聲的人機對話聽起來十分自然,以至于聽到一半,才會分辨出哪個是人類哪個是機器。而機器模仿女聲的時候,幾乎聽不出來差別——這是剛剛發布的山海多模態大模型的實機展示。

對話中,山海可以做到實時流暢回復,幾乎沒有延遲,甚至可以打斷和插話,還有對話中富有感情的語氣、節奏、音調變化等,就像在和真人對話。能夠流暢對話的大模型,意味著進入了人工智能最前沿的多模態領域,此前,在OpenAI 發布 GPT-4o 時,類似的展示中GPT-4o表現出了堪比人類的水平,一度讓人感覺中美大模型之間的差距被拉大,但僅僅3個月后,這一領先優勢就被國產大模型追上。

人工智能是當下全球科技領域競爭的焦點,多模態技術上更復雜,應用場景更廣泛,是類似賽點一般的存在。正是少數如云知聲這樣的科技公司存在,才填補了我們在前沿領域的空白,并沖擊世界一流水平,也讓行業在未來商業化落地的時候,有強大且可靠的大模型支持。

但對科技公司而言,為什么要投入到多模態大模型的競賽?多模態大模型又是如何煉成的?未來會創造什么樣的價值?懷揣著這些疑問,我們采訪了云知聲的創始人兼CEO黃偉博士。

一、人工智能的必經之路

2012年,云知聲在北京正式成立,當時國內人工智能的熱潮才剛剛興起,以“AI四小龍”為代表的創業公司們即將迎來十年的“黃金時代”。

不過,在今天的黃偉看來,那是屬于“AI 1.0”的時代;2022年底,隨著ChatGPT的橫空出世,“AI 2.0”的時代大幕就此拉起。

“以前我們更多把 AI 看作是一種判別式 AI,也就是說,它只能做一些判斷題,是對我們已有事物的分類,而生成式 AI 可以無中生有,創造一個完全不同的新世界。”

對于如何實現 AI 2.0 ,云知聲也有自己的探索規劃。2022年底,云知聲開始大模型立項;2023年5月24日,云知聲發布了自研的千億規模的大模型“山海”;在今年的8月23日,云知聲進一步推出了山海多模態大模型。

實際上,GPT-4o發布時,山海多模態大模型已經在緊鑼密鼓的研發之中,云知聲可以說是國內最早一批清楚認識到多模態的價值,并統一思想進行規劃和投入的科技公司。

采訪中,黃偉認為,從大語言模型到多模態大模型,是人工智能發展必然的路徑,大語言模型做到了從 0 到 1 的突破,而突破后一方面通過 Agent、RAG 等技術持續提高大語言模型“智商”,另一方面則以多模態引領從1到2,“二生三,三生萬物”。

“我覺得多模態才是人工智能的本源,我們談人工智能的時候,通常會把機器智能和人的智能進行類比。人的智能不光有大腦,還有眼睛、耳朵、鼻子、嘴巴、觸覺等,今天人工智能的數據來源更多是文字,未來只有將聲音、圖片、視頻,還有嗅覺、觸覺等更多的感知數據納入,才會真正變成一種類人的智能。”

他舉了個例子,人類想要和機器通過自然語言來交流,如果通過純粹的大語言模型,那么要分成三個階段:首先,是將人類的聲音識別轉化成文字;其次,大語言模型根據輸入生成文字內容;第三,將文字內容再轉化成音頻播放。

這樣,一個任務就被分成了三個任務,每個任務都會引入短暫的延遲,最終人機交互的延遲就會很明顯,用戶體驗差。而要有較快的響應速度,那就要通過多模態大模型來實現。目前山海多模態大模型的時延大概在 0.3 秒到 0.4 秒左右,基本上已經和正常人的交流速度相差無幾了,而且聲音還會帶上對應的感情,而非冰冷的播音腔。

黃偉預測,未來的大模型會是“世界模型”,大模型可以通過感知設備和技術來感知物理世界,理解物理世界的運行規律,從而解決現實中的復雜問題。

自2018年,云知聲連續六年上榜了 CB Insights 全球人工智能獨角獸榜單,在人工智能領域是少有能達成這一成就的創業公司。尤其在大模型興起后,不少曾經的明星創業公司也開始“星光黯淡”,而云知聲卻與時俱進,在大模型領域的勢頭兇猛。

黃偉介紹,山海大模型的目標是通用能力達到世界一流,在醫療等關鍵領域達到世界第一。目前,山海大模型在多個國際權威評測中都位列前茅,在剛剛最新發布的SuperCLUE 國內外通用大模型基準榜單中,山海大模型位列第一梯隊;在醫療領域,也曾登頂MedBench、MedQA、C-Eval等多個評測榜單。

但知易行難,云知聲的技術轉型,又是如何順利實現的呢?

二、舊的傳承,新的征程

黃偉認為,從技術本源上來講,大語言模型以及多模態大模型都不是從零開始的,而是對原有技術的升級。“之前是BERT,再之前是Transformer,技術上是一脈相承的,只是今天我們的規模更大,數據量也更大,量變引發了質變,模型產生了涌現能力,我們過去積累的優勢,依舊會在產品得到體現。”

在技術研發的路徑上,云知聲選擇“分步走”,簡單來說,就是分階段做多模態大模型,先做文本和語音的融合,再做圖像視頻的融合。這樣的好處是相對比較穩健,畢竟多模態大模型全球都還處于探索之中,沒有確定成功的經驗,另一方面,是能夠發揮出云知聲在智能語音領域的優勢。

作為國內對話式 AI 獨角獸,云知聲在智能語音領域有著豐富的積累,曾在interspeech、VoxSRC 2023、BC國際語音合成大賽等多項國內外頂尖的語音交互評測/比賽中獲得過冠軍或收錄論文,也有著豐富的工程化和產品化經驗。

山海多模態大模型,是在山海大模型的基礎上演進的。據黃偉介紹,在算法和數據方面,首先,云知聲團隊用不同的編碼器,將海量的不同模態的數據(文本、音頻、圖片等)進行了編碼,然后通過適配器和原有的山海大模型進行融合預訓練。

“這里面的難點,第一個是數據配比,文字的數據密度很高,但音頻和圖片的數據密度并不高,比如5TB的數據,里面不同類型數據的比例不同,那數據要怎樣合理分配效果才最好?第二個是我們要通過多任務的指令微調和對齊,讓模型來理解各種指令,但你怎么快速地構造這個指令訓練器?靠人工的話,無法滿足數量和速度的需求。此外,數據平臺要怎么搭建?所以說真正想把多模態大模型做好,這里面有很多的挑戰。”

還有一些難點,來自于算力和存儲。多模態大模型預訓練對算力的要求極高,而音頻、圖片數據由于更加稀疏,對存儲的要求也更高,因此,團隊要有非常成熟的搭建計算平臺和分布式訓練的經驗。

比如云知聲,目前僅語音訓練數據就有幾十萬小時,“我們構建了非常完善的分布式數據的核心流程,幾十萬小時數據,你不能光靠錄音來獲得,我們通過算法合成的方式,差不多可以做到每天合成幾萬小時的數據。”

解決這些難點,對研發團隊的工程化能力也提出了極高的要求,需要豐富的經驗和技巧。回顧過去的兩年,云知聲的研發團隊經歷了無數困難,黃偉感慨道:“我覺得克服困難的過程,是比困難更大的困難,團隊不止需要足夠的能力,還需要強大的韌性。今天來看,可以云淡風輕的總結經驗,但當時卻是不斷的出現問題和煎熬,好在我們都解決了。”

三、商業化:新酒、新瓶

做大模型最重要的是什么?

作為跨越 AI 1.0 時代的行業老兵,黃偉認為,是將大模型變成真正在場景中為客戶創造價值的產品和服務。

“拿著錘子找釘子”,是長期以來對人工智能行業商業化的描述,早些年,不少創業公司講一個好故事,就能拿來融資,提高估值,但技術遲遲不能轉化為收入,故事就像泡沫一樣被吹爆了,公司也迅速從“黃金時代”進入“黑暗時代”。

初創階段、膨脹階段和黑暗階段,云知聲都經歷過,因此面對市場更加清醒,在黃偉看來,大模型帶來了機遇,但大模型本身并不是商品,而是巨大的成本支出。

“在 AI 1.0 時代,我們無論是做語音識別還是圖像識別,可能幾臺服務器就夠用了。但今天做生成式AI,我們需要幾百臺服務器,未來還需要更多,光這些服務器本身就是不小的成本,還有人力、電力和數據等。你做一個模型,能不能帶來商業轉化是一個重大的挑戰,對中國的創業者來說尤其如此,因為在中國的商業環境里,哪怕你花了一個億去做研發,客戶可能都不愿意付給你一百萬。”

成本的陡增,也讓商業化更加迫在眉睫,不少大模型廠商選擇按tokens計費“賣模型”的模式,不過黃偉認為,這并不是唯一的方向。云知聲規劃的大模型商業化路徑,可以描述為“先用舊瓶裝新酒,再用新酒注新瓶”

“舊瓶”是指云知聲已經成熟落地的商業化場景,比如在醫療領域,云知聲推出過語音病歷錄入系統,提高了醫生的工作效率。而“新酒”則是指大模型技術,可以讓產品的能力進一步升級。黃偉舉了個例子,在問診環節,醫生和患者對病情不斷進行問答:

醫生:您好,沒來看過是吧,您有什么不舒服啊?

患者:之前體檢,說我甲狀腺功能不正常。

醫生:什么時候查的?

患者:有半年啦

醫生: 您有心慌、怕熱、出汗多的癥狀嗎?

患者:沒有

醫生:拉肚子呢?

患者:也沒有

醫生:除了體檢化驗,其他異常的感覺都沒有?那你報告帶了嗎?

患者:是這樣,當時我去我們社區醫院看過,大夫說我是甲亢,給我開了賽治

醫生:賽治吃的多大量?

患者:一頓兩片,一天就吃一次

醫生:現在一直吃著呢是嗎?

患者:沒有,我吃了一段時間,也沒感覺有什么不一樣,朋友跟我說不一定是甲亢,藥盒上還寫了一大堆可能出現的副作用,我就停啦。

雙方對話的同時,大模型也在不斷輸入對話的內容,當對話結束時,就會給出了一份診斷建議和治療方案。中國醫療資源相對缺乏,分布也不均衡,這樣的人工智能,在中西部地區和社區康養的場景下,就相當于給醫生提供了助手,也給患者安排了私人醫生。

還有在手術室,醫生手術負擔重也是醫院的常態,以往手術結束后,醫生還要寫手術記錄,既增加了疲憊感,也可能會忘記中間的具體細節。而云知聲的產品,可以現場記錄醫生和護士之間的對話,然后基于對話識別手術的關鍵信息,當手術結束后,自動生成一份記錄。

“我們并不是手里拿著錘子找釘子,我們是把錘子升級,快速滿足現有客戶的需求。”多年前,云知聲嘗試讓醫生使用麥克風來溝通,很多醫生用不慣,但當他們發現產品的確好用后,慢慢用的人就越來越多了,技術和產品就是這樣不斷迭代和推廣。

而當產品打磨成熟后,云知聲又可以開拓新的行業,新酒注入“新瓶”中。黃偉介紹,除了醫療行業,山海大模型在互聯網、汽車、交通等行業也在逐漸落地。

正確的道路不止一條,市場的需求也各式各樣,商業模式存在即有其合理性,重要的是,企業要選擇適合自己的商業模式。人工智能賽道是一場漫長而殘酷的淘汰賽,無論是“四小龍”還是“五小虎”,都是時代的符號,但能活到最后的,才算是跑完了全程。

對于行業未來的發展,黃偉給出了“任重道遠”四個字,“無論是大語言模型,還是多模態大模型,我們都看到了非常清晰的遠景,但是挑戰也非常大,對所有從業者來說,想要做更好的技術、更好的產品,打造更健康的商業模式,就要放棄浮躁的心態,去追求產品落地。只有這樣,中國人工智能行業才能健康發展,而不是充滿泡沫——如果泡沫破裂的話,對中國人工智能行業將是巨大的傷害。”

專訪云知聲黃偉:多模態是人工智能的必經之路
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2025 All Rights Reserved