在實(shí)時(shí)數(shù)字人賽道,開發(fā)者們?cè)L(zhǎng)期面臨一個(gè)困擾:追求高畫質(zhì)就需要具備昂貴的 H800 集群,追求低成本就得忍受“面癱”和畫面崩壞。
為解決這一問(wèn)題,繼開源 14B 的實(shí)時(shí)數(shù)字人生成模型SoulX-FlashTalk 之后,近日,Soul App AI團(tuán)隊(duì)(Soul AI Lab)推出了SoulX-FlashHead。這款1.3B參數(shù)的輕量化模型,能夠在單張消費(fèi)級(jí)顯卡( RTX 4090 )上跑出96FPS的工業(yè)級(jí)速度,同時(shí)實(shí)現(xiàn)高質(zhì)量畫質(zhì),為行業(yè)提供新的實(shí)時(shí)數(shù)字人方案。

目前,SoulX-FlashHead 的權(quán)重與代碼已全面開放:
論文:https://www.arxiv.org/pdf/2602.07449
項(xiàng)目:https://soul-ailab.github.io/soulx-flashhead/
代碼:https://github.com/Soul-AILab/SoulX-FlashHead
模型:https://huggingface.co/Soul-AILab/SoulX-FlashHead-1_3B
數(shù)據(jù)集:https://huggingface.co/datasets/Soul-AILab/VividHead
SoulX-FlashHead核心亮點(diǎn):
不僅是實(shí)時(shí),更是“算力自由”
在消費(fèi)級(jí)顯卡上,SoulX-FlashHead 的表現(xiàn):
·Lite版本(高速率):單卡4090推理幀率可達(dá)96FPS,僅需6.4G顯存,最高支持3路并發(fā),讓實(shí)時(shí)數(shù)字人模型真正走到了消費(fèi)級(jí)終端上。
·Pro版本(高畫質(zhì)):單卡5090推理幀率16.8FPS,雙卡可實(shí)時(shí)(25fps+),FID(視覺(jué)質(zhì)量指標(biāo))和Lip-sync(唇形一致指標(biāo))在benchmark上達(dá)到了SOTA,甚至超過(guò)了更大參數(shù)量的模型,解決了“小模型沒(méi)好畫質(zhì)”的行業(yè)痛點(diǎn)。
原理介紹
如何讓 1.3B 模型“以小博大”?SoulX-FlashHead創(chuàng)新引入了:
訓(xùn)練“先知”:雙向蒸餾機(jī)制 (Oracle-Guided Distillation)
長(zhǎng)視頻生成的“身份漂移”一直是行業(yè)痛點(diǎn)。SoulX-FlashHead引入了“上帝視角”教師模型,利用 Ground Truth 作為先知錨點(diǎn)進(jìn)行強(qiáng)約束。
效果: 像給模型裝了校準(zhǔn)器,無(wú)論視頻多長(zhǎng),人物特征始終穩(wěn)定。

8秒記憶:時(shí)序音頻上下文緩存 (TACC)
流式生成中,音頻切片太短會(huì)導(dǎo)致口型抖動(dòng)。
創(chuàng)新: 強(qiáng)制模型緩存 8秒 歷史音頻特征,補(bǔ)償上下文缺失。
體驗(yàn): 解決“嘴瓢”和“對(duì)不上號(hào)”問(wèn)題,開播即進(jìn)入理想狀態(tài)。
高質(zhì)量數(shù)據(jù)底座:自研 VividHead 數(shù)據(jù)集
從 10,000+ 小時(shí)素材中精煉出 782 小時(shí)高質(zhì)量音畫數(shù)據(jù):
嚴(yán)苛篩選: 經(jīng)過(guò)切分、DWpose 關(guān)鍵點(diǎn)、唇形一致分?jǐn)?shù)過(guò)濾等多個(gè)處理步驟,為模型提供了最純凈的“養(yǎng)料”。

客觀表現(xiàn)
在 HDTF 與 VFHQ 兩大權(quán)威數(shù)據(jù)集的實(shí)測(cè)中,SoulX-FlashHead 展現(xiàn)了出色的表現(xiàn):
畫質(zhì)新標(biāo)桿:在高清視頻(HDTF)評(píng)測(cè)中,Pro 版本以 8.31 (FID) 和 103.14 (FVD) 的成績(jī)刷新紀(jì)錄,視覺(jué)細(xì)膩度超過(guò) 一些“大參數(shù)”模型。
口型精準(zhǔn)捕捉:面對(duì)野外復(fù)雜場(chǎng)景(VFHQ),憑借獨(dú)創(chuàng)的“時(shí)序音頻上下文緩存”策略,其 Sync-C 得分高達(dá) 5.60,大幅領(lǐng)先此前相關(guān)工作,解決對(duì)不上口型的尷尬。
速度“快”:僅憑 1.3B 的輕量化體量,Lite 版本在單張 RTX 4090 上跑出了 96 FPS 的吞吐量。這不僅是實(shí)時(shí)基準(zhǔn)(25 FPS)的 近4倍,推理效率更是行業(yè)同類主流模型的 100倍以上。


應(yīng)用場(chǎng)景:
“人人可用”的數(shù)字人技術(shù)
今年1月,Soul AI Lab開源了實(shí)時(shí)數(shù)字人生成模型SoulX-FlashTalk,能夠?qū)崿F(xiàn)0.87s亞秒級(jí)超低延時(shí)、32FPS高幀率,并支持超長(zhǎng)視頻穩(wěn)定生成。
對(duì)比SoulX-FlashTalk,SoulX-FlashHead的價(jià)值在于,將高保真技術(shù)進(jìn)一步從“算力機(jī)房”解放到了“個(gè)人工作站”,讓更廣泛的場(chǎng)景應(yīng)用成為可能:
·7x24h矩陣直播:個(gè)人主播用一臺(tái)游戲 PC,即可搭建高保真電商直播間。
·游戲NPC引擎:1.3B 體積極易集成,NPC 毫秒級(jí)響應(yīng),且不搶占核心渲染資源。
·AI一對(duì)一外教:支持 15 種語(yǔ)言,實(shí)時(shí)將音頻轉(zhuǎn)化為生動(dòng)的教學(xué)畫面。
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: