撰文 | 李信馬
題圖 | DoNews制圖
《圣經·創世記》中記載,所有的人類曾經說同一種語言,他們計劃合力建造一座通天巨塔,工程如火如荼之際,上帝耶和華降臨察看,說:“看哪,他們成為一樣的人民,都是一樣的言語,如今既做起這事來,以后他們所要做的事就沒有不成就的了。”
上帝讓人類變得言語不通、彼此無法溝通,于是工程中止,人們四散各方,這座未完成的巨塔便被稱作“巴別塔”。
故事是假的,但語言不同對人類造成的困擾是真的。就連美國總統卡特,1977年訪問波蘭時,因為翻譯的水平不行,也曾鬧了笑話,甚至影響了美國和波蘭的外交關系。
《亮劍》中攻打平安縣城的劇情,是全劇的高潮所在,被劇迷們戲稱為第二次世界大戰的轉折點,不過,這場仗差點沒打起來,原因在于我軍雖然監聽到了敵人通話,但“咱們的電報員日語是個二把刀,只能聽個大概。他發現他們反復提到一個地名,但他不知道這代表了什么”,后來問了日本翻譯,才知道這是平安縣城。
從古至今,要解決語言不通這個大難題,基本就兩個辦法:一是你自己學,但費時費力,而且不一定學會;二是找個翻譯,但昂貴又麻煩,還不一定翻譯的對。
人工智能的發展,卻在今天大大降低了我們聽懂另一門語言的門檻,重建“巴別塔”這一故事中的不可能,成為了可能的未來。
01、一副耳機,跨國無障礙交流
不久前,在上海的世界會客廳,戴著一副AI翻譯耳機的演講者,遠程連線了迪拜Gitex Global展會的現場。
DoNews拍攝
兩人跨越大半個亞洲,隔著足夠馬可·波羅走上好幾年的距離,操著不同的語言,卻在流暢清晰地交流。
其中用到的機器,就是新一代訊飛AI翻譯耳機。據了解,這款耳機支持:
- 通話實時翻譯,支持跨洲際對話與多任務并行;
- 面對面翻譯,可雙人無按鍵互譯,且支持18組語種對的離線使用;
- 線上同傳,具備雙語轉譯與錄音復盤功能;
- 旁聽同傳,憑借5-8米定向拾音適配會場需求。
除此之外,它還能語音喚醒 “小飛” ,實現口語陪練、資訊查詢等服務,還能生成專屬語音播客。
這件事的重要性毋庸置疑,科大訊飛副總裁、消費者事業群常務副總裁趙翔在會后的采訪中表示:“現在中國依然堅持對外開放,即便全球有一些地緣因素的不確定性,但國與國之間的交流其實是更緊密的。雖然局部地緣政策影響明顯,但‘開放式人員交流深化’是大趨勢。不管是中國還是全球,翻譯市場其實一直在增長,核心原因就是 ‘交流反向促進需求’——翻譯做得越好,人們越愿意深入交流,進而帶動翻譯需求進一步擴大。”
比起要堆人力的人工翻譯,AI翻譯顯然更有想象力,意義也更大。比如科大訊飛發現,隨著 “一帶一路” 推進,中國企業出海越來越多,跨國商務溝通的需求激增:海外展會洽談、工廠跨境協作,這些場景需要 “即時、準確、便攜” 的翻譯工具。這也推動科大訊飛針對性地開發了翻譯機、翻譯耳機,還做了會議室同傳系統。
還有他們發現,企業在跨境溝通中,不僅需要語言翻譯,還需要文化解讀 —— 比如某些國家的商務禮儀、專業術語的本地化表達,所以在產品里加入了 “文化相關知識訓練”,并提供輕量化的行業術語庫。
科技的發展,讓人類的幻想變成了現實,不過,這樣的產品又是如何實現的呢?又為什么現在才出現?
02、AI翻譯是怎樣煉成的?
早在人工智能誕生之初,科學家們就嘗試用AI來代替人做翻譯。1954年,美國喬治敦大學與IBM合作完成英俄翻譯實驗,標志著機器翻譯研究的正式啟動,不過,早期的AI翻譯主要依賴詞典和語法規則生成翻譯,質量只能說……慘不忍睹。
直到神經網絡機器翻譯(NMT)的出現,解決了長句翻譯問題,才使AI翻譯的質量大幅提升;大模型時代,生成式AI又讓AI翻譯的水平大幅提升,變得更加流暢自然,“機器味”顯著減少。
今天,科大訊飛也自主研發了大模型,“如果只是在別人的開源模型上做微調,很難做到國際領先。因為我們的很多產品應用,需要大量場景化數據(在保護隱私的前提下)不斷打磨,沒有自主可控的模型底座,進度和效果都無法保證,也沒法適配真實場景的需求。”
不過趙翔也表示,科大訊飛的AI翻譯不是靠大模型這兩三年 “一蹴而就” 的。“我們的優勢來自20多年的技術積累,從底層的語音識別、語音合成,到中間的語音翻譯算法,再到上層的語音平臺,整個技術鏈條是自然銜接、持續迭代的。”
下面這張圖可以看到,科大訊飛的語音同傳在歷經了十余年的發展后,終于達到了專業譯員的水平,期間,訊飛從語音技術起家,形成了“語音識別 - 翻譯 - 語音合成 - 端側產品” 的完整技術鏈條。
據國際權威咨詢機構 IDC最新發布的《中國 AI 翻譯技術評估,2025》報告顯示,科大訊飛在AI翻譯速度、效果、專業度、擬人度、產品應用成熟度、商業化規模、研發投入及用戶推薦度8大核心維度中排名第一,其中6項滿分。
DoNews拍攝
值得一提的是,語音識別的準確率,成了當下制約語音翻譯大規模應用的關鍵。科大訊飛的解決方案覆蓋了全國202個地市級方言,并在小語種上,支持101個語種的識別、55個語種的合成。大模型的遷移學習能力在這方面幫了大忙,以往一個新語種的識別,可能需要上千乃至上萬小時的標注數據,現在需要的資源量大幅減少。
最后,還要打磨對應的硬件,落地到具體的行業場景。比如,上文提到的耳機,其降噪技術就經歷了十余年的研發,以做到在工廠、展會等嘈雜場景精準降噪;醫療、金融、法律等行業在翻譯上存在高壁壘,科大訊飛的新模型也通過將專業詞庫擴充至10萬+來攻克。
DoNews拍攝
不過,正如我們對自動駕駛的要求不僅僅是超過人類司機的平均水平,而是追求“0事故”,對AI翻譯,我們也希望精益求精。趙翔表示,目前在方言、小語種的翻譯準確率上,和中英這種大語種還有差距。未來,科大訊飛計劃將持續打磨核心技術,投入大量資源做 “臟活累活”,比如覆蓋更多小語種、方言的數據積累,在語音識別、多語種翻譯的準確率上不斷突破,并針對工廠跨境溝通、國際展會洽談等具體場景做定制化開發,解決真實場景里的痛點。
在我們的有生之年,甚至更近,在不久后的未來,我們也許就能看到,地球上任何的兩個人,都可以通過設備進行無障礙的溝通。神話時代建不成的“巴別塔”,終會在人類的科技時代矗立。