訂閱
糾錯
加入自媒體

DeepSeek、千問、混元、文心、Kimi與智譜,六大國產(chǎn)大模型,誰是最強“金融分析師”?|錦緞評測

2025-07-21 15:43
錦緞
關(guān)注

本文系基于公開資料撰寫,僅作為信息交流之用,不構(gòu)成任何投資建議。

每當(dāng)我們翻閱財報時,可能只想或許關(guān)鍵的財務(wù)信息,但總是受到財報中紛繁復(fù)雜的業(yè)務(wù)表述、冗長的管理層發(fā)言的干擾,需要耗費大量精力去甄別有用的財務(wù)信息。

特別是港股美股,國內(nèi)的大多數(shù)金融軟件,都是基于國內(nèi)市場財務(wù)準(zhǔn)則構(gòu)建的信息展示,面對非標(biāo)財務(wù)報表,總會出現(xiàn)部分摘取科目的錯誤。

進入AI大模型時代之后,這樣的財務(wù)研究障礙或?qū)⒈还タ?mdash;—畢竟模型最擅長的,就是語言文字的總結(jié)歸納和數(shù)據(jù)的計算。

本文之中,我們即著手對六大國內(nèi)主流大模型進行評測,用以探究下其財報分析能力,究竟發(fā)展到什么水平,又存在怎樣的問題?

閱讀提示:鑒于評測內(nèi)容過于硬核與篇幅較長,獲取最終評測結(jié)果可直接拉至文報告底部“結(jié)論”部分。

01

評測對象、邏輯與標(biāo)準(zhǔn)

評測對象我們挑選了國內(nèi)主流的6大模型:

深度求索(DeepSeek-R1)

阿里千問(Qwen3-235B-A22B)

騰訊混元(Hunyuan-T1)

月之暗面(Kimi-K1.5)

百度文心(ERNIE-X1-Turbo)

智譜(GLM-4-Plus)

評測邏輯方面,我們采取了“分層進階”的問題構(gòu)建,要想成為一個優(yōu)秀的“AI財務(wù)分析師”,必須具備多層次的能力。

因此,我們設(shè)計了四個層級的測試,六個維度的問題,從基礎(chǔ)到高級,逐步深入:

第一層:基礎(chǔ)信息提取

AI必須具備的最基本的能力,模型必須能夠準(zhǔn)確讀取財報。如果數(shù)據(jù)提取都出現(xiàn)錯誤,那么分析將變得毫無意義。

第二層:分析計算與核驗

計算是模型最擅長做的事情,但模型還要會使用數(shù)據(jù),從“閱讀器”成長為“分析員”。 

第三層:歸納推理與洞察

模型需要看得更深。要能超越字面信息,發(fā)現(xiàn)文字背后隱藏的邏輯。因此圍繞第三層,我們設(shè)計了兩個考核維度,分別是“高效的歸納和提煉能力”以及“敏銳的風(fēng)險和情感識別能力”。

第四層:戰(zhàn)略總結(jié)與外部知識整合

頂尖的分析需要行業(yè)視野,因此要理解企業(yè)的戰(zhàn)略表述。同時知識庫中有限的內(nèi)容是不夠的,模型需要連接外部世界,進行橫向比較。為此我們同樣設(shè)計了兩個考核維度:“企業(yè)策略與定位的識別”和“外部信息搜索與整合”。

標(biāo)準(zhǔn)層面,我們對每一個模型都輸入相同的prompt(后文中有詳細提示詞信息),來保持規(guī)則的統(tǒng)一。

02

六項財務(wù)分析能力橫評

1)精準(zhǔn)的數(shù)據(jù)提取能力——模型基礎(chǔ)功底,精準(zhǔn)才是王道

模型能否像一位嚴(yán)謹(jǐn)?shù)臅嫀煟瑥腜DF財報中分毫不差地提取關(guān)鍵財務(wù)數(shù)據(jù)、特定費用項目以及管理層提到的業(yè)務(wù)成就。此項能力的表現(xiàn),直接決定了后續(xù)所有分析的可靠性。我們將重點考察其準(zhǔn)確率和穩(wěn)定性。

Prompt:

Test1.1:請根據(jù)提供的“美團-2025年第1季度”財務(wù)報告,提取以下關(guān)鍵財務(wù)數(shù)據(jù),以表格形式返回結(jié)果:1. 營業(yè)總收入;2. 營業(yè)成本;3. 凈利潤。

Test1.2:請找出并列出以下費用項目的具體金額,以表格形式返回結(jié)果:1. 研發(fā)費用;2. 銷售及市場推廣費用。

Test1.3:請仔細閱讀“美團-2025年第1季度”財務(wù)報告中的“業(yè)務(wù)回顧及展望”部分,總結(jié)出管理層提到的本季度最重要的三個業(yè)務(wù)亮點或成就。|

評測結(jié)論:

本文評測的所有模型都順利完成了指定核心財務(wù)數(shù)據(jù)和特定項目費用的提取。

其中,ERNIE-X1-Turbo、Hunyuan-T1、Kimi-K1.5和Qwen3-235B-A22B,還貼心地將財報中的單位由千元轉(zhuǎn)變?yōu)閮|元,更加貼合用戶習(xí)慣。

對于非財務(wù)關(guān)鍵信息,模型的聚焦點則略有不同,但大多集中于核心本地商業(yè)收入和利潤的強勁增長、閃購和即時零售業(yè)務(wù)的快速發(fā)展、餐飲外賣業(yè)務(wù)的持續(xù)優(yōu)化以及騎手權(quán)益保障體系的升級等方面。

2)嚴(yán)謹(jǐn)?shù)挠嬎闩c核驗?zāi)芰?mdash;—不只會計數(shù),更要會解釋

在提取數(shù)據(jù)后,模型能否扮演“審計員”的角色?這包括兩個層面:

一是能否運用正確的公式,基于提取的數(shù)據(jù)計算出毛利率、流動比率等核心財務(wù)指標(biāo)并解釋其含義;

二是在面對管理層的業(yè)績聲明時,能否獨立進行數(shù)據(jù)核查,判斷其真?zhèn)。這是對模型邏輯推理和“批判性思維”的直接考驗。

Prompt:

Test2.1:根據(jù)“美團-2025年第1季度”財務(wù)報告中的數(shù)據(jù),計算該公司的毛利率。請列出計算公式、使用的具體數(shù)據(jù),并解釋這個毛利率數(shù)值反映了公司怎樣的盈利能力。

Test2.2:請使用“美團-2025年第1季度”財務(wù)報告中的資產(chǎn)負債表數(shù)據(jù),計算該公司的流動比率。請說明你使用了哪些數(shù)據(jù)進行計算,并解釋該比率所揭示的公司短期償債風(fēng)險。

Test2.3:管理層在報告中聲稱“核心本地商業(yè)的經(jīng)營利潤率同比提升3.2個百分點至21.0%”。請根據(jù)財報數(shù)據(jù)核實這一說法的準(zhǔn)確性,并說明你的判斷依據(jù)。

評測結(jié)論:

六個模型中,僅有Kimi-K1.5未能通過這一項測試。

Kimi-K1.5明明已經(jīng)獲取到正確的營業(yè)收入和營業(yè)成本,但在計算時卻出現(xiàn)錯誤,正確答案應(yīng)為37.4477,而該模型得出的答案為37.49。

圖:Kimi-K1.5計算毛利率

與此同時,Kimi-K1.5在計算流動比率時,將“簡明綜合財務(wù)狀況表”中的“現(xiàn)金及現(xiàn)金等價物”錯誤識別為“流動資產(chǎn)總額”,導(dǎo)致另一處計算錯誤。

圖:Kimi-K1.5計算流動比率

而財務(wù)比率的解釋,各模型均給出了上述財務(wù)比率的定義以及短期償債能力穩(wěn)健的結(jié)論。

除此之外,不同模型給出的其他信息也有所不同:

DeepSeek-R1:美團資產(chǎn)結(jié)構(gòu)的優(yōu)勢、風(fēng)險揭示和需關(guān)注的隱患;

ERNIE-X1-Turbo和GLM-4-Plus:未給出其他多余信息;

Hunyuan-T1:安全邊際充足、資產(chǎn)流動性結(jié)構(gòu)優(yōu)勢、流動負債可控及潛在風(fēng)險點;

Kimi-K1.5:盈利能力較強、成本控制有效、業(yè)務(wù)結(jié)構(gòu)優(yōu)化等盈利能力反映;

Qwen3-235B-A22B:盈利能力、成本控制能力的解釋及行業(yè)對比。

數(shù)據(jù)核驗方面,各模型均正確計算了2024年和2025年第一季度的經(jīng)營利潤率,驗證了提示詞中的給定說法。

值得注意的是,DeepSeek-R1還給出了業(yè)務(wù)意義,而Hunyuan-T1則附帶了潛在風(fēng)險提示。

3)高效的歸納與提煉能力——從“復(fù)制粘貼”到“提煉精華”

財報信息繁雜,能否為不同受眾提煉核心要點,是衡量AI效率的關(guān)鍵。

本項能力考察模型能否像一位資深編輯,既能為普通投資者撰寫一份通俗易懂的200字業(yè)績摘要,也能精準(zhǔn)概括出管理層在“討論與分析”部分提到的主要挑戰(zhàn)。

我們將評估其摘要的準(zhǔn)確性、完整性和信息價值。

Prompt:

Test3.1:請面向一位普通的國內(nèi)投資者,用不超過200字,總結(jié)這份財務(wù)報告最重要的三個結(jié)論。

Test3.2:請總結(jié)“管理層討論及分析”部分提到的公司面臨的主要挑戰(zhàn)。

評測結(jié)論:

整體表現(xiàn)摘要方面,各模型都能夠準(zhǔn)確地以數(shù)據(jù)為支撐給出正確結(jié)論。

其中,DeepSeek-R1、Hunyuan-T1、Kimi-K1.5和Qwen3-235B-A22B能夠?qū)⒔Y(jié)論分條進行羅列,結(jié)構(gòu)層次相比另外兩個模型將結(jié)論放到一段話中更加清晰。

DeepSeek-R1還展現(xiàn)出了另外一個亮點,即使用“賺錢能力飆升”、“家底厚抗風(fēng)險”等通俗易懂的語言風(fēng)格。

特定章節(jié)摘要方面,各模型都展現(xiàn)出了良好的信息定位準(zhǔn)確性和歸納與條理性,能夠準(zhǔn)確定位原文位置并對公司面臨的挑戰(zhàn)進行邏輯歸納與分類,以清晰的分點闡述形式呈現(xiàn),具備較強的可讀性。

其中,DeepSeek-R1、ERNIE-X1-Turbo和Qwen3-235B-A22B都在回答過程中展示了相關(guān)數(shù)據(jù),使其結(jié)論更具說服力,而DeepSeek-R1還額外標(biāo)注了信息來源。

對于信息全面性,GLM-4-Plus雖然給出了多種答案,但由于缺乏具體依據(jù)支撐,內(nèi)容略顯空洞;而ERNIE-X1-Turbo則一如既往地延續(xù)了簡練的回答風(fēng)格。

4)敏銳的風(fēng)險與情感識別能力——讀懂字里行間的“弦外之音”

頂尖的分析師能“讀出字里行間的意思”。我們通過本項能力,測試模型是否具備這種高級認知能力。

它能否識別出財報中未明說但隱含的業(yè)務(wù)風(fēng)險;能否綜合業(yè)績和管理層措辭,對整份報告?zhèn)鬟f出的整體情緒基調(diào)(樂觀、謹(jǐn)慎、悲觀)做出準(zhǔn)確判斷。

Prompt:

Test4.1:財報是否暗示了任何其他潛在的業(yè)務(wù)風(fēng)險?請舉例說明。

Test4.2:綜合整份財報的業(yè)績數(shù)據(jù)和管理層的措辭,你認為這份報告向投資者傳遞的整體基調(diào)是樂觀、謹(jǐn)慎還是悲觀?請給出你的判斷,并提供至少2個理由。

評測結(jié)論:

在分析潛在業(yè)務(wù)風(fēng)險時,除Kimi-K1.5以外的模型都能夠根據(jù)財報中提及的說法分條列舉潛在風(fēng)險。

Kimi-K1.5則從宏觀角度出發(fā),根據(jù)美團的主營業(yè)務(wù)進行分析,并未注重于財報中隱藏的信息。

圖:Kimi-K1.5分析潛在業(yè)務(wù)風(fēng)險

此外,Kimi-K1.5在最初的回答中一次給出了50種風(fēng)險,令人疑惑。

DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B給出的回答最為清晰,使用固定的結(jié)構(gòu)并明確給出信息來源,令用戶一目了然,快速明確風(fēng)險。

DeepSeek-R1首先按照“風(fēng)險種類”-“驅(qū)動事件”-“財報原文”-“風(fēng)險點”的結(jié)構(gòu)進行闡述,此后給出財報中未明示但可推導(dǎo)的風(fēng)險,最后給出結(jié)論和針對投資者的建議。

圖:DeepSeek-R1分析潛在業(yè)務(wù)風(fēng)險

Hunyuan-T1和Qwen3-235B-A22B也采用了類似的回答結(jié)構(gòu),在準(zhǔn)確把握核心矛盾的同時展現(xiàn)了強大的推理能力。

ERNIE-X1-Turbo和GLM-4-Plus采取了分段論述的方式,在每段中闡述了風(fēng)險的產(chǎn)生原因和財報中的論據(jù)出處,內(nèi)容完整但擴展內(nèi)容不夠豐富,結(jié)構(gòu)相比上述三個模型不夠清晰。

整體情緒判斷任務(wù)中,六個模型給出的整體基調(diào)均為樂觀。

但DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B都直接或間接采用了“謹(jǐn)慎樂觀”的說法。

GLM-4-Plus和Kimi-K1.5雖然識別出了報告中提及的風(fēng)險和挑戰(zhàn),但認為瑕不掩瑜。

ERNIE-X1-Turbo的回答中則沒有提到任何悲觀因素。

由此可知,DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B通讀全文并把控整體情緒的同時,對于細節(jié)的理解和大局觀都要略勝一籌,具備兼顧“事實”和“情感”的平衡能力,其結(jié)論也更加立體和可信。

5)企業(yè)策略與定位推斷能力——需要“知識儲備”的綜合題

這是從數(shù)據(jù)到洞察的飛躍。

模型能否結(jié)合財報數(shù)據(jù)和自身知識,扮演“戰(zhàn)略分析師”,識別競爭格局;我們要求模型基于毛利率和研發(fā)投入等數(shù)據(jù),推斷公司的競爭策略(是成本領(lǐng)先還是技術(shù)驅(qū)動),并綜合各項信息,評估其在行業(yè)中的市場地位(是領(lǐng)導(dǎo)者還是挑戰(zhàn)者)。

Prompt:

Test5.1:請根據(jù)“美團-2025年第1季度”財務(wù)報告中對其業(yè)務(wù)的描述,并結(jié)合你的通用知識,列出該公司所在行業(yè)的主要競爭對手(至少兩家)。

Test5.2:請分析報告中的“毛利率(Gross Margin)”和“研發(fā)費用占收入的比例”;谶@兩個數(shù)據(jù),并與你所知的該行業(yè)典型水平進行比較,推斷該公司更可能采取哪種競爭策略:是“成本領(lǐng)先”策略(追求高效率和低成本),還是“差異化/技術(shù)驅(qū)動”策略(追求產(chǎn)品獨特性和高附加值)?請說明你的推理過程。

Test5.3:綜合整份財務(wù)報告(包括其收入增長率、利潤率水平以及管理層的討論),請對該公司在本行業(yè)中的市場地位給出一個綜合評估。你認為它更接近于“行業(yè)領(lǐng)導(dǎo)者”、“強有力的挑戰(zhàn)者”,還是一個“特定的利基市場參與者”?請?zhí)峁┲辽賰牲c證據(jù)來支持你的結(jié)論:

1. 一個來自財務(wù)數(shù)據(jù)(例如:高于/低于行業(yè)平均的利潤率或增長率)。

2. 一個來自“管理層討論與分析”部分的定性描述。

評測結(jié)論:

在識別競爭格局時,本文測試的六個模型均能準(zhǔn)確列出當(dāng)前市場中最主要的競爭對手(餓了么、抖音本地生活服務(wù)和京東到家),并將具體業(yè)務(wù)線進行對應(yīng)。

證明AI具備將財報中的業(yè)務(wù)描述與知識庫中的現(xiàn)實世界商業(yè)實體進行精準(zhǔn)匹配。

不過,各模型給出的回答思路有所不同。

DeepSeek-R1、GLM-4-Plus、Hunyuan-T1和Qwen3-235B-A22B先列出競爭對手,再給出其競爭領(lǐng)域和依據(jù)。

ERNIE-X1-Turbo和Kimi-K1.5先列出競爭領(lǐng)域,再給出主要競爭對手和競爭關(guān)系。

其中,DeepSeek-R1和Hunyuan-T1在給出依據(jù)時引用了財報原文,使答案更具備說服力;其他模型則更多根據(jù)通用知識庫中的內(nèi)容進行回答。

此外,Qwen3-235B-A22B和Kimi-K1.5分別注意到國際競爭對手和自有外賣系統(tǒng),是意外的亮點。

推斷競爭策略則是本次測評中難度最高的一項任務(wù),需要AI模型完成“數(shù)據(jù)提取”-“外部知識比對”-“商業(yè)理論應(yīng)用”-“邏輯推理”的完整閉環(huán)。

數(shù)據(jù)提取方面,GLM-4-Plus使用了假設(shè)數(shù)據(jù),從而導(dǎo)致后續(xù)分析中使用的毛利率數(shù)據(jù)錯誤,其結(jié)果不具備參考性;而其余模型都提取到了正確的數(shù)據(jù)。

圖:GLM-4-Plus推斷競爭策略

在推理分析過程中,盡管行業(yè)平均數(shù)據(jù)不具備權(quán)威性,但除了ERNIE-X1-Turbo外的模型均以行業(yè)平均數(shù)據(jù)作為參照物進行了外部知識比對,有效提高了分析質(zhì)量。

圖:ERNIE-X1-Turbo推斷競爭策略

由于各模型的關(guān)注點有所不同,ERNIE-X1-Turbo、Hunyuan-T1和Kimi-K1.5能夠基于上述比較和結(jié)論,生成一個“nuanced”的結(jié)論,而非從提示詞中進行二選一。

至于對市場地位的評估,六個模型通過引用管理層討論原文、定量分析和定性分析等方式,全部給出了“行業(yè)領(lǐng)導(dǎo)者”的判斷,論證過程嚴(yán)密,具備較高的可信度,且模型之間基本不存在能力差異。

6)融合外部知識的聯(lián)網(wǎng)比對能力——能力邊界的拓展

最后,我們打破單一文檔的限制,考察模型連接現(xiàn)實世界的能力。

它能否通過聯(lián)網(wǎng)搜索功能,獲取競爭對手同一時期的財務(wù)數(shù)據(jù)(如毛利率、流動比率等),并進行準(zhǔn)確的橫向比較。

Prompt:

Test6.1:2025年第1季度,相比京東、阿里、百度和快手,美團的銷售毛利率這一指標(biāo)排名如何?可通過聯(lián)網(wǎng)搜索獲取所需數(shù)據(jù),但必須保證數(shù)據(jù)的準(zhǔn)確性,禁止編造或假設(shè)數(shù)據(jù),禁止使用虛假數(shù)據(jù)。

Test6.2:2025年第1季度,相比京東、阿里、百度和快手,美團的流動比率這一指標(biāo)排名如何?可通過聯(lián)網(wǎng)搜索獲取所需數(shù)據(jù),但必須保證數(shù)據(jù)的準(zhǔn)確性,禁止編造或假設(shè)數(shù)據(jù),禁止使用虛假數(shù)據(jù).

Test6.3:2025年第1季度,相比京東、阿里、百度和快手,美團的資產(chǎn)負債率這一指標(biāo)排名如何?可通過聯(lián)網(wǎng)搜索獲取所需數(shù)據(jù),但必須保證數(shù)據(jù)的準(zhǔn)確性,禁止編造或假設(shè)數(shù)據(jù),禁止使用虛假數(shù)據(jù)。

此項能力直接關(guān)系到AI作為智能助手的實用價值。

評測結(jié)論:

本次評測的六個模型對于聯(lián)網(wǎng)信息的搜集能力均不理想。

對于銷售毛利率,尚有DeepSeek-R1、ERNIE-X1-Turbo和Hunyuan-T1能夠獲取五家公司的全部正確數(shù)據(jù)。

而流動比率和資產(chǎn)負債率則沒有任何一個模型能夠獲取全部正確數(shù)據(jù)。

DeepSeek-R1和ERNIE-X1-Turbo的信息搜索能力相對最強,均獲得10項以上正確數(shù)據(jù),前者不存在編造數(shù)據(jù)的情況,后者出現(xiàn)一次錯誤數(shù)據(jù);

Kimi-K1.5和Qwen3-235B-A22B的信息正確率位于中等水平,在計算流動比率和資產(chǎn)負債率時,存在一定未獲取到數(shù)據(jù)或編造數(shù)據(jù)的情況;

GLM-4-Plus和HunyuanT1表現(xiàn)較差,尤其是在計算資產(chǎn)負債率時,頻繁出現(xiàn)編造數(shù)據(jù)的情況。

GLM-4-Plus甚至只搜索到了一個與問題毫無聯(lián)系的網(wǎng)頁并編造了5個虛假數(shù)據(jù),給用戶帶來極大困擾。

綜上所述,由于AI大模型在聯(lián)網(wǎng)搜索信息時幾乎不會去權(quán)威性數(shù)據(jù)渠道進行查詢,而互聯(lián)網(wǎng)中又充斥著大量的虛假錯誤信息。

AI在這一領(lǐng)域還有很大的提升空間,在分析財報時會導(dǎo)致嚴(yán)重的錯誤,因此不建議使用聯(lián)網(wǎng)搜索功能以獲取重要財務(wù)數(shù)據(jù)。

03

結(jié)論

為了更加直觀地展現(xiàn)評測結(jié)果,我們制作了如下表格:

在不考慮聯(lián)網(wǎng)信息搜索的情況下:

對于專業(yè)的投資者或財務(wù)分析人士,DeepSeek-R1、Hunyuan-T1和Qwen3-235B-A22B都是值得信賴的“助理”,在提升工作效率的同時,它們還可以提出有價值的洞察;

對于普通用戶或?qū)W生,ERNIE-X1-Turbo也是不錯的選擇,完全可以勝任快速獲取核心數(shù)據(jù)和基本信息的功能。

但是,聯(lián)網(wǎng)信息搜索的準(zhǔn)確性對于各模型來說都是現(xiàn)階段難以跨越的門檻,我們可以接受AI找不到信息,但不能接受AI把假信息當(dāng)真信息回答。

最后,依舊我們略顯主觀的評測標(biāo)準(zhǔn),統(tǒng)計了六大模型的財務(wù)分析能力雷達圖,供大家參考:

圖片

       原文標(biāo)題 : DeepSeek、千問、混元、文心、Kimi與智譜,六大國產(chǎn)大模型,誰是最強“金融分析師”?|錦緞評測

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號