當(dāng)前位置:

OFweek 人工智能網(wǎng)

評(píng)測(cè)

再見(jiàn)VAE!英偉達(dá)PixelDiT硬剛SD/FLUX:破局像素生成,端到端效果比肩隱空間模型

作者:Yongsheng Yu等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 PixelDiT,一種單階段、完全基于Transformer的像素空間擴(kuò)散模型,無(wú)需單獨(dú)的自編碼器即可進(jìn)行端到端訓(xùn)練。 證明了高效的像素

2025-11-27 15:29 評(píng)論

Nano Banana Pro再次封神!我總結(jié)了9種邪修用法

這哪是"出圖更好",簡(jiǎn)直是把AI圖像生成推進(jìn)了下一個(gè)紀(jì)元。 一致性王者圖片模型Nano Banana Pro(基于Gemini 3 Pro Image)發(fā)布才20小時(shí),人類(lèi)創(chuàng)作者的進(jìn)度可能還停在“剛摸

2025-11-26 17:29 評(píng)論

端到端像素?cái)U(kuò)散天降外掛!北大&華為等開(kāi)源DeCo:生圖質(zhì)量超越SD3、OmniGen2等

作者:Zehong Ma等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 DeCo解耦框架:DiT專(zhuān)注低頻語(yǔ)義建模(采用下采樣輸入);輕量級(jí)像素解碼器重建高頻信號(hào)。 創(chuàng)新頻率感知損失函數(shù):通過(guò)DCT轉(zhuǎn)換至頻域;基于J

2025-11-26 16:37 評(píng)論

重磅!阿里達(dá)摩院發(fā)布首個(gè)VLA與世界模型統(tǒng)一架構(gòu)RynnVLA-002:97.4%成功率刷新認(rèn)知

作者:Jun Cen等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 統(tǒng)一架構(gòu):RynnVLA-002,這是一個(gè)將視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型與世界模型統(tǒng)一在單一框架中的“動(dòng)作世界模型”。 雙向增強(qiáng):實(shí)現(xiàn)了 VLA

2025-11-25 16:04 評(píng)論

豆包輸入法1.0實(shí)測(cè):干凈是最大優(yōu)勢(shì),功能是最大短板

優(yōu)缺點(diǎn)分明。 豆包已成為小雷日常生活中使用頻率最高的AI應(yīng)用,無(wú)論是各類(lèi)疑難問(wèn)題解答、群訪文檔總結(jié),還是文字內(nèi)容調(diào)整,都能放心交給它處理。 就在最近,小雷發(fā)現(xiàn)自己的手機(jī)應(yīng)用商店上架了一款名為豆包輸入法

2025-11-25 10:10 評(píng)論

硬剛GPT-Image-1?蘋(píng)果最新UniGen-1.5強(qiáng)勢(shì)發(fā)布:一個(gè)模型搞定理解+生成+編輯!

作者:Rui Tian等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 推出UniGen-1.5統(tǒng)一多模態(tài)大模型,通過(guò)創(chuàng)新的架構(gòu)設(shè)計(jì)與訓(xùn)練流程,實(shí)現(xiàn)了先進(jìn)的圖像理解、生成與編輯能力融合。 開(kāi)創(chuàng)統(tǒng)一強(qiáng)化學(xué)習(xí)訓(xùn)練框架,借

2025-11-24 17:22 評(píng)論

告別文字想象!快手可靈團(tuán)隊(duì)開(kāi)源VANS:實(shí)現(xiàn)從“語(yǔ)言描述”到“動(dòng)態(tài)演示”跨越,多項(xiàng)SOTA

作者:Junhao Cheng等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 開(kāi)創(chuàng)VNEP新范式:將下一代事件推理從文本描述推進(jìn)到動(dòng)態(tài)視頻演示的新階段。 提出VANS框架及核心Joint-GRPO策略:通過(guò)強(qiáng)化學(xué)習(xí)

2025-11-24 15:54 評(píng)論

NeurIPS`25 | 感嘆歲月神偷!南開(kāi)&三星開(kāi)源Cradle2Cane:完美破解“年齡-身份”兩難困境!

作者:Tao Liu, Dafeng Zhang等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 直擊痛點(diǎn),提出“Age-ID Trade-off”: 深入分析了人臉老化任務(wù)中“年齡準(zhǔn)確性”與“身份保持”之間的內(nèi)在矛

2025-11-21 15:51 評(píng)論

Gemini 3 自述:我不是要替代人類(lèi),我是為了終結(jié)平庸

來(lái)源:@首席數(shù)智官 在硅谷的計(jì)算機(jī)歷史博物館里,靜靜躺著早期的真空管和穿孔卡片。它們沉默不語(yǔ),卻定義了那個(gè)時(shí)代計(jì)算的極限。 而在Google DeepMind的數(shù)據(jù)中心里,無(wú)數(shù)個(gè)TPU正在以微秒級(jí)的

2025-11-21 10:20 評(píng)論

第二彈!MIT何愷明團(tuán)隊(duì)再發(fā)重磅成果VARC:ARC原來(lái)是個(gè)視覺(jué)問(wèn)題!性能匹敵人類(lèi)水平

作者:Keya Hu、Kaiming He等 解讀:AI生成未來(lái) 圖 1:ARC 基準(zhǔn)(上圖)由許多不同的任務(wù)組成,其中每個(gè)任務(wù)都有少量(如 2-4 個(gè))測(cè)試樣本。本文提出了視覺(jué) ARC (VARC)

2025-11-20 15:15 評(píng)論

新加坡國(guó)立等發(fā)布WEAVE:首個(gè)上下文交錯(cuò)式跨模態(tài)理解與生成全套解決方案

作者:Wei Chow、Jiachun Pan等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 數(shù)據(jù)集創(chuàng)新:WEAVE-100k——首個(gè)面向多輪上下文感知圖像理解與生成的大規(guī)模數(shù)據(jù)集。包含10萬(wàn)個(gè)樣本、37萬(wàn)輪對(duì)話和

2025-11-18 15:24 評(píng)論

文生圖也會(huì)“精神分裂”?北大、字節(jié)聯(lián)手揭秘:越思考越畫(huà)錯(cuò)!并行框架終結(jié)AI“左右互搏”

作者:Ye Tian、Ling Yang等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 深入的基準(zhǔn)測(cè)試與分析:ParaBench,一個(gè)新的基準(zhǔn)測(cè)試,旨在系統(tǒng)性地評(píng)估“思考感知”型圖像生成與編輯任務(wù)。它不僅關(guān)注最終生

2025-11-17 16:46 評(píng)論

一步直接封神!單步擴(kuò)散媲美250步教師模型!中科大&字節(jié)發(fā)布圖像生成“分層蒸餾術(shù)”

作者:Hanbo Cheng等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 系統(tǒng)性分析與統(tǒng)一視角:對(duì)軌跡蒸餾(TD)進(jìn)行了系統(tǒng)性分析,揭示了其本質(zhì)是一種有損壓縮過(guò)程。這一視角解釋了為何TD方法雖然能有效保留全局結(jié)構(gòu)

2025-11-14 16:24 評(píng)論

視頻模型在真推理還是“演”推理?港中文等提出新基準(zhǔn)拷問(wèn):Chain-of-Frame到底是真是假?

作者:Ziyu Guo等 解讀:AI生成未來(lái) 引言 近年來(lái),以 Veo、Sora 等為代表的視頻生成模型展現(xiàn)出驚人的生成能力,能夠合成高度逼真、時(shí)間連續(xù)的動(dòng)態(tài)畫(huà)面。這些進(jìn)展暗示,模型在視覺(jué)內(nèi)容生成之外

2025-11-13 16:00 評(píng)論

直播革命來(lái)了!StreamDiffusionV2:140億參數(shù)實(shí)時(shí)視頻飆上58FPS!伯克利&韓松團(tuán)隊(duì)等

作者:Tianrui Feng等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 StreamDiffusionV2,這是一個(gè)免訓(xùn)練的流式系統(tǒng),專(zhuān)為視頻擴(kuò)散模型設(shè)計(jì),用于實(shí)現(xiàn)動(dòng)態(tài)交互式的視頻生成。 巧妙整合了SLO-a

2025-11-12 14:18 評(píng)論

一文講透自動(dòng)駕駛中的“點(diǎn)云”

在談及自動(dòng)駕駛感知系統(tǒng)時(shí),經(jīng)常會(huì)看到一個(gè)專(zhuān)業(yè)詞匯,那便是“點(diǎn)云”。作為連接物理現(xiàn)實(shí)與數(shù)字世界的橋梁,它賦予機(jī)器一種超越人類(lèi)視覺(jué)的深度感知能力,讓車(chē)輛得以精確地“理解”自身在環(huán)境中的位置與周遭物體的真實(shí)

2025-11-11 14:18 評(píng)論

主題一致超越所有開(kāi)源與商業(yè)模型!中科大&字節(jié)開(kāi)源統(tǒng)一創(chuàng)新框架BindWeave

作者:Zhaoyang Li等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 BindWeave:針對(duì)現(xiàn)有視頻生成技術(shù)在主題一致性方面的瓶頸,提出了一個(gè)專(zhuān)為主題一致性視頻生成設(shè)計(jì)的新型框架。 引入多模態(tài)大語(yǔ)言模型作為

2025-11-11 13:50 評(píng)論

頂刊TPAMI 2025!一個(gè)模型搞定所有!多模態(tài)跟蹤“全能王”UM-ODTrack橫空出世

作者:Yaozong Zheng等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 1.為視覺(jué)跟蹤領(lǐng)域提供了首個(gè)通用的視頻級(jí)模態(tài)感知跟蹤模型。UM-ODTrack?僅需訓(xùn)練一次,即可使用相同的架構(gòu)和參數(shù)實(shí)現(xiàn)多任務(wù)推理,

2025-11-10 16:40 評(píng)論

好聽(tīng)、好用、好安全,海康威視打造全套網(wǎng)絡(luò)音頻系統(tǒng)

你能想象嗎?在數(shù)字化技術(shù)、網(wǎng)絡(luò)技術(shù)席卷全球的今天,會(huì)議音頻與擴(kuò)聲系統(tǒng)竟然還大量采用模擬信號(hào)技術(shù)。然而這種誕生于上世紀(jì)的音頻技術(shù),正面臨“三重困境”: 首先,信號(hào)裸奔。模擬系統(tǒng)通過(guò)模擬信號(hào)傳輸,像天線一

2025-11-07 16:11 評(píng)論

首個(gè)基于LLM的開(kāi)源音頻大模型!階躍星辰重磅開(kāi)源Step-Audio-EditX:P聲音如此簡(jiǎn)單!

作者:Chao Yan等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 首個(gè)開(kāi)源的 LLM 音頻編輯模型:Step-Audio-EditX,首個(gè)基于大語(yǔ)言模型(LLM)的開(kāi)源音頻模型,不僅擅長(zhǎng)表現(xiàn)力豐富和可迭代的音頻

2025-11-07 14:54 評(píng)論
上一頁(yè)   1  2 3 4 5 6 7  下一頁(yè)

資訊訂閱

粵公網(wǎng)安備 44030502002758號(hào)