近期,蘋果公司在AI圖像生成領域的研究引發了廣泛關注。與業界普遍采用的擴散模型或自回歸模型不同,蘋果選擇了一條較為冷門的路徑——歸一化流技術,來開發其AI圖像生成模型。
歸一化流技術,這一被業界“遺忘”的方法,其核心在于通過數學變換,將現實世界的數據(如圖像)轉換為結構化噪聲,并能夠從噪聲中還原出圖像樣本。這一技術的最大亮點在于,它能夠精確計算生成圖像的概率,這是擴散模型所不具備的能力。然而,歸一化流模型并不常見,主要是因為其研發成本高昂,且早期模型生成的圖像往往較為模糊,缺乏細節。
在蘋果的最新研究論文中,公司推出了一種名為TarFlow的新型歸一化流技術模型。TarFlow的創新之處在于,它將待生成的大圖分割成多個“小區塊”,然后以區塊為單位生成一系列像素值。每一塊圖像的像素值都依賴于前面已生成的部分,從而避免了圖像在壓縮為固定詞匯表時產生的質量損失和表現僵化問題。這種逐步生成的方式,使得TarFlow能夠生成更為細膩、真實的圖像。
盡管TarFlow在圖像生成方面取得了顯著進展,但在生成高分辨率圖像時仍面臨挑戰。為此,蘋果在TarFlow的基礎上進一步提出了增強版本——STARFlow。STARFlow的最大改進在于,它不再直接在像素層面生成圖像,而是在“潛空間”中工作。通過首先生成圖像的壓縮表示,再通過解碼器進行放大還原,STARFlow能夠在不損失質量的前提下,顯著提升生成效率。
STARFlow還改進了對文本提示的處理方式。與TarFlow不同,STARFlow不再內建專用文本編碼器,而是支持調用現有語言模型來處理用戶的語言指令。這一改進使得STARFlow的圖像生成部分能夠更專注于圖像細節的生成與優化,從而進一步提升圖像質量。
蘋果公司的這一系列研究,不僅展示了歸一化流技術在AI圖像生成領域的潛力,也為業界提供了新的思路和方法。隨著技術的不斷進步和完善,相信未來會有更多基于歸一化流技術的AI圖像生成模型涌現,為人們的生活帶來更多便利和驚喜。