訂閱
糾錯(cuò)
加入自媒體

像素取代文本?DeepSeek-OCR引發(fā)AI底層范式之思

近日,DeepSeek宣布開(kāi)源最新大模型DeepSeek-OCR。所謂的OCR,據(jù)DeepSeek在論文中解釋稱,是通過(guò)光學(xué)2D映射壓縮長(zhǎng)上下文可行性的初步研究。DeepSeek-OCR由兩部分組成:DeepEncoder和作為解碼器的DeepSeek3B-MoE-A570M。DeepEncoder作為核心引擎,設(shè)計(jì)為在高分辨率輸入下保持低激活,同時(shí)實(shí)現(xiàn)高壓縮比,以確保視覺(jué)tokens數(shù)量?jī)?yōu)化且可管理。

通俗而言,這是一種視覺(jué)-文本壓縮范式,通過(guò)用少量的視覺(jué)token來(lái)表示原本需要大量文本token的內(nèi)容,以此降低大模型的計(jì)算開(kāi)銷。

01. 讓AI長(zhǎng)出“眼睛”和學(xué)會(huì)“遺忘”

這一創(chuàng)新不僅解決了長(zhǎng)文本處理的技術(shù)難題,更讓我們重新審視大模型的認(rèn)知方式。傳統(tǒng)以大模型始終通過(guò)文本token這一抽象符號(hào)來(lái)理解世界,而DeepSeek-OCR的革命性在于,它讓模型首次真正擁有了“視覺(jué)感知”的能力。通過(guò)將文本轉(zhuǎn)化為圖像再進(jìn)行壓縮處理,模型得以繞過(guò)語(yǔ)言的抽象過(guò)濾層,直接從更豐富的視覺(jué)信息中提取特征,這類似于人類通過(guò)眼睛直接觀察世界而非僅依靠他人描述。

過(guò)去的大模型,不管是什么 ChatGPT、Gemini、Llama、Qwen、還是 DeepSeek 過(guò)去的自己,在讀取數(shù)據(jù)的用的都是一種方式:文字,也就是平時(shí)常說(shuō)的 token。

但目前的大模型普遍面臨一個(gè)超長(zhǎng)文本的效率處理問(wèn)題。當(dāng)下主流大模型的上下文窗口大多在 128k-200k tokens,可財(cái)報(bào)、科研論文、書(shū)籍等動(dòng)輒上千頁(yè),還混著表格、公式,傳統(tǒng)辦法只能 “切片段、多輪傳”,不僅邏輯斷檔,還會(huì)有延時(shí)等問(wèn)題。而 DeepSeek-OCR 用了個(gè)反常規(guī)思路:把文本轉(zhuǎn)成圖像再壓縮,需要用到文本時(shí)候再解壓縮。不但 Tokens 消耗直接降一個(gè)數(shù)量級(jí),精度還沒(méi)怎么丟。

為此DeepSeek-OCR模型,首次提出了“上下文光學(xué)壓縮(Contexts Optical Compression)”的概念,通過(guò)文本轉(zhuǎn)圖像實(shí)現(xiàn)信息的高效壓縮。

這一方法的可行性已經(jīng)得到驗(yàn)證,在10倍壓縮比下,DeepSeek-OCR的解碼精度可達(dá)97%,近乎實(shí)現(xiàn)無(wú)損壓縮;在20倍壓縮比下,精度仍保持約60%。

在論文中DeepSeek團(tuán)隊(duì)還提出用光學(xué)壓縮模擬人類的遺忘機(jī)制。

例如近期記憶就像近處的物體,清晰可見(jiàn)。所以可以將其渲染成高分辨率圖像,用較多的視覺(jué)token來(lái)保留高保真信息。

遠(yuǎn)期記憶 就像遠(yuǎn)處的物體,逐漸模糊。所以可以將其漸進(jìn)式地縮放成更小、更模糊的圖像,用更少的視覺(jué)token來(lái)表示,從而實(shí)現(xiàn)信息的自然遺忘和壓縮。

這樣一來(lái),理論上模型就可以在處理超長(zhǎng)對(duì)話或文檔時(shí),動(dòng)態(tài)地為不同時(shí)期的上下文分配不同數(shù)量的計(jì)算資源,從而可能構(gòu)建出一種無(wú)限長(zhǎng)上下文的架構(gòu)。

團(tuán)隊(duì)表示,雖然這還是個(gè)早期研究方向,但不失為模型處理超長(zhǎng)上下文的一種新思路。

這樣的創(chuàng)新無(wú)疑引發(fā)了AI社區(qū)對(duì)視覺(jué)路線的深入思考。OpenAI聯(lián)合創(chuàng)始成員、前特斯拉自動(dòng)駕駛總監(jiān)Andrej Karpathy表示,它是一個(gè)很好的OCR模型,但更值得關(guān)注的是它可能帶來(lái)的范式轉(zhuǎn)變。

Karpathy提出一個(gè)大膽設(shè)想:對(duì)于大語(yǔ)言模型來(lái)說(shuō),像素是否比文本更適合作為輸入?

02. 像素對(duì)于文本的優(yōu)勢(shì)和目前的問(wèn)題

從信息密度的角度看,像素作為原始視覺(jué)信號(hào),其承載的信息遠(yuǎn)超經(jīng)過(guò)高度抽象和壓縮的文本。一段文字描述“夕陽(yáng)下的金色麥田”,雖能傳達(dá)概念,但丟失了光影的漸變、麥穗的紋理和空間的層次感。而這些細(xì)節(jié),恰恰蘊(yùn)含在像素矩陣之中。大模型直接處理像素,等于繞過(guò)了人類語(yǔ)言的“過(guò)濾層”,能從更本源、更豐富的感官數(shù)據(jù)中學(xué)習(xí)世界的復(fù)雜模式。

DeepSeek-OCR的團(tuán)隊(duì)認(rèn)為:“一張包含文檔文本(document text)的圖像,可以用比等效數(shù)字文本(digital text)少得多的token,來(lái)表示豐富信息。這表明,通過(guò)視覺(jué)token進(jìn)行光學(xué)壓縮可以實(shí)現(xiàn)更高的壓縮比。”

其次,像素具有跨文化的通用性。文本受限于特定語(yǔ)言體系和文化背景,存在理解壁壘。而一幅圖像或一段視頻的像素,其所呈現(xiàn)的物理世界規(guī)律(如重力、光影)是普適的,這為模型構(gòu)建一個(gè)更統(tǒng)一、更底層的世界模型奠定了基礎(chǔ)。模型無(wú)需先掌握英語(yǔ)或中文的語(yǔ)法,就能理解“球體滾動(dòng)”這一物理現(xiàn)象。

最終,這種以像素為起點(diǎn)的學(xué)習(xí)路徑,更接近人類“眼見(jiàn)為實(shí)”的認(rèn)知過(guò)程。它迫使模型從混沌的感官輸入中主動(dòng)抽象出對(duì)象、屬性和關(guān)系,從而可能催生出更魯棒、更具泛化能力的智能。當(dāng)模型能夠理解并生成連貫的像素序列(如視頻),它便掌握了模擬和創(chuàng)造視覺(jué)世界的能力,這無(wú)疑是邁向通用人工智能更為堅(jiān)實(shí)的一步。因此,像素作為信息載體,為大模型提供了更接近現(xiàn)實(shí)、更本真的學(xué)習(xí)素材。

那么DeepSeek-OCR模型是不是完美無(wú)缺的呢?那也不是。論文里也坦誠(chéng)提到問(wèn)題。

例如超高壓縮比有風(fēng)險(xiǎn)。壓縮比超過(guò) 30 倍,關(guān)鍵信息保留率會(huì)跌破 45%,法律、醫(yī)療這種對(duì)精度要求極高的場(chǎng)景不太適用。其次是復(fù)雜圖形識(shí)別還不夠強(qiáng),三維圖表、手寫(xiě)藝術(shù)字的識(shí)別準(zhǔn)確率比印刷體低 12-18 個(gè)百分點(diǎn)。

03. 結(jié)語(yǔ):DeepSeek-OCR提供了新的解題思路

DeepSeek-OCR的推出,標(biāo)志著AI發(fā)展進(jìn)入了一個(gè)新的探索階段。它不僅僅是一個(gè)技術(shù)工具的升級(jí),更是一次認(rèn)知框架的重構(gòu)——當(dāng)大模型開(kāi)始通過(guò)像素而非純文本來(lái)理解世界時(shí),我們正在見(jiàn)證一場(chǎng)從“符號(hào)處理”到“感知理解”的范式轉(zhuǎn)移。這種轉(zhuǎn)變的意義遠(yuǎn)超出解決長(zhǎng)文本處理這一具體問(wèn)題,它暗示著未來(lái)AI可能建立起更接近人類感官體驗(yàn)的認(rèn)知體系,從多模態(tài)的原始數(shù)據(jù)中直接構(gòu)建對(duì)世界的理解。

然而,正如研究團(tuán)隊(duì)所提示的,這仍是一個(gè)早期研究方向。技術(shù)突破往往伴隨著新的挑戰(zhàn):如何在壓縮效率與信息保真度之間找到最佳平衡?如何讓模型在“學(xué)會(huì)遺忘”的同時(shí)不丟失關(guān)鍵信息?這些問(wèn)題都需要學(xué)術(shù)界和產(chǎn)業(yè)界的共同探索。更重要的是,這種技術(shù)路徑的轉(zhuǎn)變將如何重塑人機(jī)交互的方式,又將催生哪些全新的應(yīng)用場(chǎng)景,都值得我們持續(xù)關(guān)注。

從更廣闊的視角看,DeepSeek-OCR所代表的視覺(jué)路線,與當(dāng)前主流的文本路線并非替代關(guān)系,而是互補(bǔ)共生的兩種認(rèn)知維度。未來(lái)的通用人工智能,或許正是需要融合文本的抽象推理與視覺(jué)的具象感知,才能構(gòu)建出真正全面、魯棒的智能體系。這條探索之路剛剛開(kāi)始,但其指向的未來(lái)已足夠令人期待。

- End -

       原文標(biāo)題 : 像素取代文本?DeepSeek-OCR引發(fā)AI底層范式之思

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)