訂閱
糾錯(cuò)
加入自媒體

DeepSeek-OCR:大模型技術(shù),正站在一個(gè)新的十字路口

DeepSeek OCR

想象一下,在這個(gè)AI技術(shù)如潮水般涌來(lái)的時(shí)代,我們忽然發(fā)現(xiàn),一張簡(jiǎn)單的圖像,竟然能以驚人的效率承載海量文字信息。這已不是“想象”,而是剛剛發(fā)生的現(xiàn)實(shí)。

本周,DeepSeek開源了一個(gè)名為“DeepSeek-OCR”的模型,它首次提出了“上下文光學(xué)壓縮”(Context Optical Compression)的概念,技術(shù)細(xì)節(jié)和背后的論文也隨之公開。

雖然市場(chǎng)上的討論還不多,但這或許是AI演進(jìn)史上一個(gè)悄然卻深刻的轉(zhuǎn)折點(diǎn)——它讓我們開始質(zhì)疑:圖像,是否才是信息處理的真正王者?

01

圖像的隱秘力量:為什么圖像可能勝過(guò)文本

回想一下,我們?nèi)粘L幚淼奈臋n、報(bào)告、書籍,往往被分解成無(wú)數(shù)的文本標(biāo)記(tokens),這些標(biāo)記像磚塊一樣堆砌成模型的“理解墻”。

但DeepSeek-OCR卻另辟蹊徑:它將文字視為圖像來(lái)處理,通過(guò)視覺編碼,將整頁(yè)內(nèi)容壓縮成少量“視覺標(biāo)記”,然后再解碼還原為文字、表格甚至圖表。

結(jié)果呢?效率提升了十倍之多,準(zhǔn)確率高達(dá)97%。

這不僅僅是技術(shù)優(yōu)化,而試圖證明:圖像不是信息的奴隸,而是它的高效載體。

拿一篇千字文章來(lái)說(shuō),傳統(tǒng)方法可能需要上千個(gè)標(biāo)記來(lái)處理,而DeepSeek只需約100個(gè)視覺標(biāo)記,就能以97%的保真度還原一切。這意味著,模型可以輕松應(yīng)對(duì)超長(zhǎng)文檔,而不必為計(jì)算資源發(fā)愁。

02

架構(gòu)與工作原理

DeepSeek-OCR的系統(tǒng)設(shè)計(jì)像一部精密的機(jī)器,分成兩個(gè)模塊:強(qiáng)大的DeepEncoder負(fù)責(zé)捕捉頁(yè)面信息,輕量級(jí)的文本生成器則像一位翻譯家,將視覺標(biāo)記轉(zhuǎn)化為可讀輸出。

編碼器融合了SAM的局部分析能力和CLIP的全局理解,再通過(guò)一個(gè)16倍壓縮器,將初始的4096個(gè)標(biāo)記精簡(jiǎn)到僅256個(gè)。這正是效率的核心秘密。

更聰明的是,它能根據(jù)文檔復(fù)雜度自動(dòng)調(diào)整:簡(jiǎn)單的PPT只需64個(gè)標(biāo)記,書籍報(bào)告約100個(gè),而密集的報(bào)紙最多800個(gè)。

相比之下,它超越了GOT-OCR 2.0(需要256個(gè)標(biāo)記)和MinerU 2.0(每頁(yè)6000+標(biāo)記),標(biāo)記量減少了90%。解碼器采用混合專家(MoE)架構(gòu),擁有約30億參數(shù)(激活時(shí)約57億),能快速生成文本、Markdown或結(jié)構(gòu)化數(shù)據(jù)。

在實(shí)際測(cè)試中,一臺(tái)A100顯卡,每天能處理超過(guò)20萬(wàn)頁(yè)文檔;如果擴(kuò)展到20臺(tái)八卡服務(wù)器,日處理量可達(dá)3300萬(wàn)頁(yè)。這已不是實(shí)驗(yàn)室玩具,而是工業(yè)級(jí)利器。

03

一個(gè)深刻的悖論:圖像為何更“節(jié)約”?

這里藏著一個(gè)有趣的悖論:圖像明明包含更多原始數(shù)據(jù),為什么在模型中反而能用更少標(biāo)記表達(dá)?答案在于信息密度。

文本標(biāo)記雖表面簡(jiǎn)潔,但在模型內(nèi)部需展開成數(shù)千維度的向量;圖像標(biāo)記則像連續(xù)的畫卷,能更緊湊地封裝信息。這就好比人類記憶:近期事件清晰如昨,遙遠(yuǎn)往事漸趨模糊,卻不失本質(zhì)。

DeepSeek-OCR證明了視覺標(biāo)記的可行性,但純視覺基礎(chǔ)模型的訓(xùn)練仍是謎題。傳統(tǒng)大模型靠“預(yù)測(cè)下一詞”這個(gè)清晰目標(biāo)成功,而圖像文字的預(yù)測(cè)目標(biāo)模糊不清——預(yù)測(cè)下一個(gè)圖像片段?評(píng)估太難;轉(zhuǎn)為文本,又回到了老路。

所以,目前它只是現(xiàn)有體系的增強(qiáng),而非替代。我們正站在十字路口:前方是無(wú)限可能,卻需耐心等待突破。

如果這項(xiàng)技術(shù)成熟推廣,它將如漣漪般擴(kuò)散影響:

首先,改變“標(biāo)記經(jīng)濟(jì)”:長(zhǎng)文檔不再受上下文窗口限制,處理成本大幅降低。其次,提升信息提。贺(cái)務(wù)圖表、技術(shù)圖紙能直接轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù),精準(zhǔn)高效。最后,增強(qiáng)靈活性:在非理想硬件下仍穩(wěn)定運(yùn)行, democratize AI應(yīng)用。

更妙的是,它還能改善聊天機(jī)器人的長(zhǎng)對(duì)話記憶。通過(guò)“視覺衰減”:將舊對(duì)話轉(zhuǎn)為低分辨率圖像存儲(chǔ),模擬人類記憶衰退,擴(kuò)展上下文而不爆表標(biāo)記。

04

結(jié)語(yǔ)

DeepSeek-OCR的探索意義,不止于十倍效率提升,更在于它重繪了文檔處理的邊界。它挑戰(zhàn)了上下文限制,優(yōu)化了成本結(jié)構(gòu),革新了企業(yè)流程。

雖然純視覺訓(xùn)練的曙光尚遙,但光學(xué)壓縮無(wú)疑是我們邁向未來(lái)的一個(gè)新選項(xiàng)。

相關(guān)常見問題索引:

問:為什么不能直接從文字圖像開始訓(xùn)練基礎(chǔ)模型?

答:大模型成功靠“預(yù)測(cè)下一詞”的明確目標(biāo)和易評(píng)估方式。對(duì)于文字圖像,預(yù)測(cè)下一個(gè)圖像片段評(píng)估困難、速度慢;轉(zhuǎn)為文本標(biāo)記,又回到了傳統(tǒng)路徑。DeepSeek選擇在現(xiàn)有模型基礎(chǔ)上微調(diào),解碼視覺表征,但未取代標(biāo)記基礎(chǔ)。

問:與傳統(tǒng)OCR系統(tǒng)相比,速度表現(xiàn)如何?

答:處理一張3503×1668像素圖像,基礎(chǔ)文本提取需24秒,結(jié)構(gòu)化Markdown需39秒,帶坐標(biāo)框的完整解析需58秒。傳統(tǒng)OCR更快,但準(zhǔn)確率同等時(shí)需數(shù)千標(biāo)記——如MinerU 2.0每頁(yè)6000+,DeepSeek僅需800以內(nèi)。

問:這項(xiàng)技術(shù)能否改善聊天機(jī)器人的長(zhǎng)對(duì)話記憶?

答:是的。通過(guò)“視覺衰減”:舊對(duì)話轉(zhuǎn)為低分辨率圖像,模擬記憶衰退,擴(kuò)展上下文而不增標(biāo)記消耗。適用于長(zhǎng)期記憶場(chǎng)景,但生產(chǎn)實(shí)現(xiàn)細(xì)節(jié)待詳述。

       原文標(biāo)題 : DeepSeek-OCR:大模型技術(shù),正站在一個(gè)新的十字路口

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)