騰訊混元團(tuán)隊(duì)近日宣布了一項(xiàng)重要技術(shù)進(jìn)展,他們開源了一款名為InstantCharacter的定制化圖像生成插件,并成功實(shí)現(xiàn)了與開源文生圖模型Flux的兼容性。這一創(chuàng)新工具為內(nèi)容創(chuàng)作者帶來了前所未有的便利。
通過InstantCharacter插件,用戶只需提供一張圖片和一句簡短的描述,就能讓任意角色以期望的姿勢出現(xiàn)在任何場景中。這一功能極大地豐富了視覺創(chuàng)作的可能性,讓角色在不同場景中的表現(xiàn)更加真實(shí)且富有連貫性。
InstantCharacter的顯著優(yōu)勢在于其出色的角色一致性、畫質(zhì)和精度,以及靈活的文本編輯功能。創(chuàng)作者可以根據(jù)需要輕松切換場景,并讓人物生成各種動(dòng)作,從而高效地創(chuàng)作出符合需求的視覺作品。無論是連環(huán)畫、影片創(chuàng)作還是其他視覺表達(dá)場景,這款插件都能提供強(qiáng)大的支持。
例如,只需輸入一張?jiān)紙D片和描述“一只兔子在廚房里拿著勺子喝湯”,InstantCharacter就能生成一張生動(dòng)的圖片,展示兔子在廚房中的場景。同樣地,輸入“一只兔子在城市中,賽博朋克風(fēng)格”的描述,也能迅速得到一張充滿未來感的圖片。
在實(shí)際測評(píng)中,InstantCharacter的表現(xiàn)與業(yè)界領(lǐng)先的GPT 4o等模型不相上下。騰訊混元團(tuán)隊(duì)表示,現(xiàn)有的基于學(xué)習(xí)的方法在泛化能力和圖像質(zhì)量上存在局限性,而基于優(yōu)化的方法則需要針對(duì)特定主體進(jìn)行微調(diào),這降低了文本的可控性。為了克服這些挑戰(zhàn),InstantCharacter采用了創(chuàng)新的DiT模型框架。
該框架引入了一個(gè)可擴(kuò)展的適配器,采用多個(gè)transformer encoder來處理開放域的角色特征,并與現(xiàn)代擴(kuò)散變換器的潛在空間無縫交互。這種設(shè)計(jì)使得InstantCharacter能夠靈活適應(yīng)不同的角色特征,從而生成更加真實(shí)、連貫的圖像。
騰訊混元的這一技術(shù)突破,無疑為內(nèi)容創(chuàng)作者提供了更加強(qiáng)大的工具,讓他們能夠更高效地創(chuàng)作出優(yōu)質(zhì)的視覺作品,滿足日益增長的視覺內(nèi)容需求。