久久精品欧美日韩精品/狠狠色婷婷久久一区二区三区/国产精品午夜无码av体验区/丰满人妻av无码一区二区三区/成人做爰A片免费看网站爱酱

智能體重構金融業:AI廠商如何“造錘找釘”?

撰文 | 李信馬

題圖 | DoNews制作

不久前,國務院印發了《關于深入實施“人工智能+”行動的意見》(下文簡稱“《意見》”),其中,“智能體”一詞被反復提到。

比如在總體要求中提到,到2027年和2030年,新一代智能終端、智能體等應用普及率分別超70%和90%,到2035年,我國全面步入智能經濟和智能社會發展新階段。《意見》中還進一步提到:“在軟件、信息、金融、商務、法律、交通、物流、商貿等領域,推動新一代智能終端、智能體等廣泛應用。”

還有在優化應用發展環境方面:“培育人工智能應用服務商,發展‘模型即服務’、‘智能體即服務’等,打造人工智能應用服務鏈。”

“智能體”的英文是“Agent”,早在上世紀有關人工智能的學術探討中就已出現。但當下的“智能體”概念,卻是大模型興起后的“舊瓶裝新酒”。中國信息通信研究院不久前發布的《智能體技術和應用研究報告(2025年)》中,定義“智能體通常是指能夠感知環境、理解指令、規劃決策、執行任務的軟件系統或硬件實體”。?

理論上,具身智能也是智能體的一種形態?制圖:DoNews

2025年,“智能體”的概念開始爆火,在不久前的世界人工智能大會(下文簡稱“WAIC”)上,相關的產品和發布幾乎與具身智能平分秋色。啟明創投主管合伙人周志峰在演講中曾表示,智能體的爆火,根本原因是基礎模型能力提升:“上下文窗口更大、能使用外部工具,核心還是‘推理能力’的增強。現在甚至出現了‘智能體的摩爾定律’——任務處理復雜度每七個月翻一倍。”

而直接原因,就是年初DeepSeek V3/R1 模型的發布,將推理成本大幅降低至當時OpenAI對應模型的5%。之后全球的主流大模型陸續跟進,推理成本差不多降到了去年同期的1/100。在啟明創投對人工智能未來的十大展望中,智能體就占到了兩個:

未來12-24個月,Agent形態將從“工具輔助”走向“任務承接”,首批真正意義上的“AI員工”將進入企業,廣泛參與客戶服務、銷售、運營、研發等核心流程,不再僅作為助手存在,而是具備協同作業、主動反饋、承擔OKR等能力,推動從成本工具向價值創造轉變。

多模態Agent將不斷走向實用化,能夠融合視覺、語音、傳感器等多源輸入,進行復雜推理、工具調用與任務執行,在醫療、金融、法律等行業率先實現突破。

無論是政策的指向,還是在機構的預測中,金融行業都被重點提到。相比其他行業,金融行業在落地智能體方面有得天獨厚的優勢:有場景、有數據,重要的是“有錢”,有預算。

服務金融行業的人工智能應用服務商層出不窮,而“落地智能體”也成為時下金融行業熱門的話題。在WAIC,就有多家企業進行了相關產品的發布。比如,螞蟻數科發布了金融推理大模型Agentar-Fin-R1,容聯云推出了容犀Agent & Copilot平臺。人工智能行業被戲稱為“拿著錘子找釘子”,本文也將以這兩家企業為例,從“造錘子”和“找釘子”的角度,來分析智能體應用在金融機構的落地。

(注:文中內容來自DoNews對兩家企業的采訪,有整理。)

01、“造錘子”之算力

通過下面螞蟻數科AI產品矩陣的示意圖,可以直觀的看出,智能體的落地,一般分為四個層次。

最底層依舊是算力,再往上是我們熟悉的大模型,再往上則是智能體平臺,上文提到容聯云的容犀Agent & Copilot平臺,還有螞蟻數科此前發的智能體平臺Agentar都位于這一層級,再上一層就是應用層,也對應不同場景下的智能體。

拍攝、整理:DoNews

容聯云大模型產品負責人唐興才認為,在智能體的構建方式上,不同的服務商是大同小異的,都是從底層算力平臺管理入手,進一步構建模型體系,模型管理之上,再結合具體的應用場景搭建平臺,例如質檢系統、洞察分析系統、客服系統或營銷系統等。

不同企業的算力水平不可同一而論,比如銀行財大氣粗,可以撥款幾十億建數據中心,有的機構則選擇花幾百萬買小型機,但用更少的算力,得到更好的業務效果,是所有企業共同的追求。

所以服務商首先要幫金融企業把算力用好,比如螞蟻數科集成了一整套云原生架構,在AI工程能力上也有所積累,可以為客戶建立算力平臺和私有化算力中心。容聯云在產業鏈上的定位更接近于應用廠商,會與阿里云、騰訊云等云廠商達成算力方面的合作。

對服務商來說,將算力用好,更多是看用什么尺寸的大模型。一般來說,參數規模越大,大模型的能力越強,大模型的能力直接決定了智能體的能力,而模型的參數規模越大,對算力的要求自然也就越高。

螞蟻數科發布的金融推理大模型Agentar-Fin-R1就包含32B和8B兩個版本,對此,螞蟻數科CTO王維的看是,模型的尺寸取決于在什么樣的場景下,需要什么樣的算力:“模型的尺寸越大越好嗎?它一定存在邊際效應的衰減。今天選擇8B或者32B,就是說在絕大多數場景下,這是一個比較主流、折中的選擇。我賣你一個手機十萬塊錢,你肯定不會買,賣五千塊錢你就會買,但是賣三五百,你會嫌性能不夠好,它就是消費價值中合適的折中。”

唐興才也舉了個例子,他們會從實際的數據量出發,比如金融質檢這個場景,一天要檢測多少通會話,假如有一萬通會話,再去判斷選用多大尺寸的模型。“我們對7B、14B、32B、72B的模型都進行了測試,最終選擇的是32B的模型,在保證效果和算力消耗上達到一個均衡,大概一兩張卡就能很好的覆蓋這個場景,整體投入也不是特別高。”

另外,金融行業對合規類的要求極高,還需要做國產GPU的適配,保證在信創的環境下也能跑出比較好的效果。比如唐興才介紹,之前容聯云主要適配的是昇騰,最近也在做阿里平頭哥的適配。

02、“造錘子”之大模型

在WAIC上,螞蟻數科喊出了一句口號:AI智能體產業價值釋放的關鍵,在于“水平通用”向“垂直專用”的戰略轉變。

首先明確幾個點:通用大模型在垂直領域并不好用;人工智能應用服務商也并不需要構建通用大模型;重要的是如何將通用大模型打造成好用的行業大模型,其核心就是“數據”。

對第一個點,螞蟻數科金融AI產品總經理曹剛的解釋是:“為什么通用大模型到了垂直領域不能開箱即用?因為大家最常見用大模型的方式是Prompt,非常簡單和初級。在金融領域,你想用Promp把最簡單的投資策略或者市場分析給搞出來,都是不切實際的,它沒有足夠深入的行業知識。”

王維也表示:“一個不能理解行業的大模型,它就不懂行。什么是懂行的呢?你是A銀行,我是B銀行,你們銀行有你們銀行的‘行話’,在我們銀行就是另外的說法。而且,不同銀行的數據集合策略不一樣,即使同一個行業,不同的企業也有不同的稟賦,同一個業務,比如說理財推薦,A銀行更推薦理財基金類的產品,B銀行可能更傾向存款類的產品。”

不過,開源的通用大模型可以成為行業大模型可靠的基座。有趣的是,在基礎模型的選擇上,螞蟻數科和容聯云都選擇了Qwen3.0,可見對其成熟度的普遍認可,在第二選擇上,螞蟻數科選擇螞蟻集團自研的百靈大模型,而容聯云選擇了DeepSeek。不過王維也表示:“今天做產業AI,不應該局限于某個特定的基礎模型,我們后面會出螞蟻百靈模型版本,甚至我們客戶需要用DeepSeek或者其他的開源模型,我們也會考慮。”

金融行業是一個要求極高、審慎的行業,對幻覺的容忍度極低。和文章開頭提到的模型推理能力的提升,直接推動了智能體發展的觀點類似,王維通過過去幾個月螞蟻數科的實踐,認為模型推的推理能力正變得越來越重要:“金融行業復雜場景的業務,需要模型整個推理的鏈條和推理的邏輯都很清晰,才能真正解決問題。”

想要用智能體解決金融行業的問題,金融推理模型是必選項,而想要提升模型的推理能力,螞蟻數科將重點總結為“3個E”——高質量數據、過程中要兼顧數據和訓練的消耗,還有持續迭代。

拍攝:DoNews

“金融專業能力必須用好的金融數據去投喂,”王維說:“說到底,大模型是解決問題的,你必須要對任務有足夠多的識別,就像考試要有明確的大綱一樣。考試大綱決定了會考你什么知識點,以及對知識點你掌握的怎么樣。掌握好了就不要浪費過多的算力,掌握得不好要如何進行加訓?所以,要減少幻覺和對算力的消耗,就必須持續對這件事情進行修正和追蹤。我們的邏輯就是,特定的金融任務體系和高質量的數據,成為我們金融推理大模型專業度的表現。”

在數據層面,螞蟻數科背靠螞蟻集團這棵大樹,能獲取千億級金融專業數據語料,構建的金融任務分類體系包括6大類、66小類場景,覆蓋了銀行、證券、保險、基金、信托等金融全場景。相較之下,容聯云訓練金融大模型早期是通過以往積累的存量數據,之后則是在金融客戶中尋找創新意愿較強的企業共創,后者提供數據,容聯云提供技術和資源,來推動應用落地,再基于標桿案例去開拓新的客戶。“開源的Qwen3.0和場景落地之間隔的是數據,選擇數據的能力是我們產品的核心競爭力。具體來說,就是按照規范,在客戶龐雜的歷史數據里面快速選擇出符合場景的優質數據跑到模型里面去。”唐興才說。

服務商基于同樣的開源模型,獲取不同的數據,再通過各自的訓練算法來提高大模型對復雜金融任務的學習效率與性能,在實際應用中,都表現出了相對通用大模型的明顯優勢。螞蟻數科曾宣布,Agentar-Fin-R1金融推理大模型在多個主流金融基準測試中,力壓一眾通用模型取得最高分。

圖源:螞蟻數科

“舉個例子,有些場景中不使用一些核心的智能體技術和支持工程的技術,它(通用大模型)可能只打50分、60分,但是你使用了這些技術,能夠對數據進行微調,對知識進行有效的提取,它的分數可能到90分。”王維解釋道。

唐興才也表示:“你拿Qwen3.0的裸模型去直接跑質檢業務,也就百分之五六十的準確率。我們靠選數據的能力,把這個場景的數據標準定下來,訓練好的模型準確率能達到96%以上。”

03、“造錘子”之智能體

人工智能的發展,一直是從技術驅動不斷向市場驅動轉移。從通用大模型到行業推理大模型,再到智能體,AI能夠解決的問題越來越多,落地的價值也越來越高。

《智能體技術和應用研究報告(2025年)》中指出:“智能體通過多模態交互、大小模型協同、任務分解與規劃、工具調用等技術,構建起從感知到執行的完整閉環系統,有效解決了大模型‘有腦無手’的難題,進而實現更廣泛的互動和功能擴展。隨著多智能體系統正逐步成為構建智能生態的重要支撐形態,以MCP、 A2A等為代表的大模型和智能體通信協議,為信息孤島和通信兼容性問題提供了有效的技術解決方案,降低了智能體系統集成復雜性,進一步拓寬了智能體能力邊界。”

智能體的核心價值,不在于多,而在于突破了以往的AI產品達不到的業務深度。就像螞蟻數科CEO趙聞飆在WAIC的演講中所說,與其做一兩千個智能體業務,不如在一到兩個業務里解決難題。

智能體的爆火始于去年年底,當時螞蟻數科就投入到這一賽道,之后推出了Agentar智能體開發平臺,在今年7月16日,中國信通院發布的2025年首批可信AI智能體評估結果中,螞蟻數科占據了不同方向的兩個席位。

圖源:中國信通院

中國信通院對通用智能體和場景智能體的定義在于,前者關注智能體平臺和工具、智能體技術能力、智能體應用服務、多模態智能體、多智能體協同等維度,后者聚焦數據分析智能體、客服智能體、搜索智能體、知識管理智能體等場景智能體。

不過這里筆者是有一些疑惑的,按照這個標準,Agentar其實也符合中國信通院對行業智能體的定義:面向金融、政務、汽車、手機、工業、教育、醫療等垂直行業。

而容聯云的容犀Agent & Copilot平臺,主要包括質檢代理、坐席助理、坐席代理、洞察代理四個智能引擎,覆蓋營銷、客服、質檢、數據洞察等,倒是比較標準的金融行業智能體。

雖然在王維看來,智能體元年的高峰期已經快過去了,但智能體還處于發展的早期,無論是對其的定義,還是產品層級的明確,都還未塵埃落定。在智能體賽道,王維認為,螞蟻數科處于第一梯隊,尤其是在金融和能源領域做的很深入,不過,他也承認,當下是智能體“百花齊放”的時期,賽道的競爭將會是一場長跑。

“用三年之后智能體的水平評判,今天的大家都不合格,螞蟻數科想走的路就是在垂直領域持續奔跑,特別是在金融領域把螞蟻的稟賦更大程度的發揮出來。”

對于未來的智能體,唐興才倒是覺得,基礎模型和智能體是上下層的關系,也許有一天,基礎模型足夠強大了,能夠完全理解所有的場景,智能體自然而然就消失了。“這一天可能會來到,或者未來它會發展成什么程度,我們也不知道。但到來之前,我們作為應用廠商,只能擁抱現在的AI,盡快的讓它落地去做出價值,做一些力所能及的事情,不管我們是大浪潮里的一滴水,或者是什么別的,都必須先把自己投入到大浪潮里去做。”

04、“找釘子”

聊完“造錘子”的事情,再聊下具體的應用落地。在上一輪的AI浪潮(大模型之前)中,金融行業的諸多場景就被反復挖掘過,理由有幾個:

其一,金融行業數字化水平高,有良好的數字化基礎設施。

其二,金融行業有較高的附加值,AI技術能帶來的價值創造空間更大。

其三,金融行業普遍具備較充裕的預算支持,更傾向于擁抱新技術,對創新的包容度也較高。

不過,由于以往的技術水平限制,金融行業中的智能體市場依舊是一個“富礦”。曹剛認為,智能體在營銷、風控、銷售等場景的滲透率較低,首先是因為技術成熟度的原因,很多機構還處于觀望狀態,對于是否在核心業務上應用智能體還是比較謹慎;其次,是許多場景對專業度的要求極高,比如銀行的零售業務包括十四個大場景,上百個小的細分場景,智能體需要一個個去深入攻克;再就是成本的問題,即使大模型的推理成本已經大幅降低,但技術投入的成本,還是不一定低于其帶來的商業價值。

螞蟻集團本身就有龐大的金融業務,其自研的金融大模型,包括AI云平臺、智能體應用開發平臺等,都是脫胎于螞蟻集團自身的長期實踐,比如在支付寶App里,就有理財顧問和問答咨詢的智能體服務,再由螞蟻數科作為螞蟻集團AItoB的排頭兵,對外做商業化的輸出。

螞蟻數科的打法偏向于“大而全”,先覆蓋通用的場景,再深入解決業務難題。王維總結螞蟻數科的優勢,首先是人才多,“做大模型這個東西,沒有一定的人才密度很難做”;其次是有錢,“沒有足夠多的錢,買不到足夠多的算力,做不出足夠好的訓練效果,甚至你買不起卡,人才也不會來你這里”;再然后是有場景,許多智能體應用在螞蟻集團的場景中已經跑通了。

“我們是不是最好的,不好說,但我們都占一點,”王維說:“把螞蟻的經驗輸出出來,我們認為是非常有價值的,也能夠給行業帶來更多的智能體應用標桿。”

在Agentar平臺上,也積累了不少來自銀行、證券、保險等行業的案例,還有部分典型的智能體應用,以及上百種MCP服務,螞蟻數科也在不斷提升Agentar平臺的兼容性和適配性。

而容聯云更傾向于“找場景,先算帳”。這個算帳,既要算場景的價值產出,還有算要投入多少的算力、數據和模型開發成本,看是否值得去做。再然后,是看能不能做,既要科研部門有做的意愿和能力,也要業務部門能主動參與合作。第三,是上線之后,還能不斷的迭代。滿足這些條件的,才能做成標桿案例。

比如金融行業中的質檢場景,如果營銷業務因為觸犯合規被投訴,就要停止展業,對部門影響極大。“之前快速發展期,可能也不是那么嚴地查你,大家都用人去抽檢,或者睜一只眼閉一只眼不怎么查,現在消保金融監管總局都在嚴查這個事情,之前的一些常規手段像是用敏感詞、人工抽檢就不夠用了——一天幾萬通電話人工沒法檢查的。”

唐興才介紹,之前長江證券計劃招募二三十人來做這件事,但與容聯云合作,最后完全用AI完成,這樣單個項目的價格是45萬到60萬之間,后續每年只需要六七萬的服務費。“我們現場有兩個人在那兒待了一個多月,和質檢員天天坐在一起,理解這個場景,看質檢到底是怎么要求的,要響應到什么程度,把這些東西都融合到我們的AI產品里面。”

容聯云未來的規劃是將業務鏈條上的場景節點串起來,在智能體深入場景的基礎上,做的更寬,成為業務線或者網絡的結構。“現在有一種說法是,一個企業可能會有50到100個智能體,每個智能體就像以前的AI應用一樣,就負責一個小場景,但未來大模型變得特別聰明,我感覺這些場景是不是也能打通,這樣一個智能體就可以干很多活。就像鋼鐵俠里的賈維斯,它可以做很多事情,至于它是不是還有AI管家,那無所謂。”唐興才說。

在今年5月19日舉辦的微軟 2025 Build 大會上,微軟CEO薩提亞·納德拉宣布:“我們已經進入了AI Agent時代,正在見證AI系統如何以全新方式幫助我們解決問題。”類似的觀點,黃仁勛、扎克伯格、馬斯克等也做過表達。

對金融行業來說,當企業更關注成本、部署效率和實用性等現實問題時,可能就意味著智能體已經經過了技術驅動到市場驅動的關鍵拐點。對于未來,王維認為,在一個開放競爭的市場中,一些公司有各自擅長的某些領域,相互間形成生態和產業,才是最健康的狀態。

“我相信產業當中不僅有螞蟻數科,還會有很多很好的參與者,讓金融行業變得更加務實,解決真實的問題。只有這樣,才會有更多的預算被投入進來,行業的效率也會更高,增長的本質是生產力的提升,如果說AI在金融行業得到了比較好的落地,一定會產生更大的經濟效益和社會效益。”王維說。

標簽: AI 人工智能
智能體重構金融業:AI廠商如何“造錘找釘”?
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2025 All Rights Reserved