在大家沉迷于Midjourney、Stable Diffusion 技術(shù)中無法自拔時,一時被人遺忘的GAN又帶著新技術(shù)重出江湖了?,F(xiàn)在P圖,你只需要“輕輕點兩下”,AI就能迅速理解你的想法,秒速生成結(jié)果圖。
DragGAN是由Max Planck研究所開發(fā)的一種新的人工智能工具,它允許用戶通過幾個點擊和拖動來真實地修改照片,目前還未對外開源。王道控股旗下的「李白實驗室」算法團隊搶先「復(fù)刻」出了DragGAN。

目前,可直接使用的模型能夠讓你輕松掌控圖片中的人物和動物,通過拖拽控制點和目標(biāo)點來調(diào)整他們的位置、形狀、姿勢等等?,F(xiàn)在已經(jīng)可以在 Hugging Face 上直接使用了。

一、效果展示
修改微笑弧度,讓一張嚴(yán)肅的照片變成露牙甜美笑。

放大圖片中小哥哥的眼睛。

拍照臉型不好看,一鍵瘦臉,毫無PS痕跡。

覺得貓咪太瘦不夠可愛,可以給它拉大臉龐,增加可愛度。

發(fā)際線拯救神器,這簡直就是禿頭星人的救命工具。

輕輕一拖,在不影響美觀的情況下,可以讓貓咪的耳朵縮小。

讓獅子向右側(cè)方向移動,終于有一天,可以完成甲方提出「讓大象轉(zhuǎn)個身」的需求。

可以隨意改變模特的發(fā)型,短發(fā)變長發(fā);本來雙腳分開站立的模特,可以瞬間把腿拉至并攏。

二、關(guān)于DragGAN技術(shù)原理
雖然上述的效果展示很多,但是其實DragGAN也就兩個技術(shù)原理:
1、基于特征的運動監(jiān)督,驅(qū)動手柄點向目標(biāo)位置移動;
2、一個新的點追蹤方法,利用鑒別性的發(fā)生器特征,不斷定位手柄點的位置。
DragGAN是一種基于GAN的圖像編輯方法,可以實現(xiàn)運動監(jiān)督和精確點跟蹤。任何人都可以通過DragGAN對像素進行精確的控制,進而編輯如動物、汽車、人類、風(fēng)景等多種類別的姿態(tài)、形狀、表情和布局。

DragGAN還允許用戶選擇感興趣的區(qū)域以執(zhí)行特定于區(qū)域的編輯,而不需要依賴其他網(wǎng)絡(luò)。 李白實驗室復(fù)現(xiàn)的「DragGAN」只需要幾秒就能完成效果,你可以選擇不同的迭代步數(shù),步數(shù)越多效果越夸張,其生成時間就越慢。
此外,DragGAN的無損優(yōu)化功能可以讓用戶輸入二進制掩碼,指示圖像中的可移動區(qū)域,從而實現(xiàn)更細(xì)致的控制,避免損壞圖片的原屬性。

與傳統(tǒng)PS的液化功能相比,DragGAN在編輯圖片時可以更好地保持圖片的原始屬性,并且具有更廣泛的應(yīng)用范圍。例如,可以使用DragGAN來改變圖片中車輛的位置、大小和輪胎的形狀等。這種方法可以在幾次鼠標(biāo)拖動的時間內(nèi)完成,非常方便快捷。
三、團隊介紹
「李白實驗室」是一個年輕且有活力的人工智能技術(shù)團隊,其中主創(chuàng)始人唐勇博士,畢業(yè)于美國賓夕法尼亞州立大學(xué),具備深厚的學(xué)術(shù)背景,在美國知名500強企業(yè)擔(dān)任技術(shù)學(xué)科專家,高級工程師等。其他成員均畢業(yè)于國內(nèi)外知名高校,清華、北大、浙大、英國皇家理工和美國常青藤范圍等。

在開啟創(chuàng)業(yè)征程之前,李白人工智能實驗室的創(chuàng)始人唐博士曾在美國的知名研究機構(gòu)以及世界五百強企業(yè)中獻身于科研事業(yè)。他主導(dǎo)并參與了眾多關(guān)乎社會、環(huán)境和能源的重大項目,這些項目的合作伙伴包括美國環(huán)保署,美國國家海洋和大氣管理局以及全球頂尖能源公司。他專注于運用數(shù)學(xué)物理模型、高性能計算、多目標(biāo)優(yōu)化以及人工智能技術(shù),解答現(xiàn)實世界中大尺度、多模態(tài)、多變量的復(fù)雜難題,這其中包括洪水預(yù)報、氣候變化、能源管道設(shè)備優(yōu)化設(shè)計以及系統(tǒng)安全等一系列棘手問題。
然而,唐博士深知現(xiàn)實世界的問題千絲萬縷,影響因子五花八門,充滿了無法預(yù)料的不確定性。完全理解其數(shù)學(xué)物理機理似乎是一項幾乎無法完成的挑戰(zhàn)。因此,在遇見志同道合的合伙人并得到杭州王道創(chuàng)投基金的堅定支持后,唐博士毅然決定成立李白人工智能實驗室,希望通過人工智能技術(shù)提升模型的泛化能力,從而更有效地解決現(xiàn)實世界的復(fù)雜問題。
除此之外,郭銘濤作為主創(chuàng)人員,為李白實驗室?guī)頍o限的全新可能性,在團隊攻堅克難之下,終于復(fù)現(xiàn)了DragGAN。郭銘濤來自四川大學(xué)圖像所,目前在讀博士一年級,主要研究方向就是深度生成模型,此前他還獲得了CVPR 2023 工業(yè)圖像缺陷生成競賽冠軍。
李白實驗室自創(chuàng)立之初,便秉持“讓人人都能享有技術(shù)帶來便捷”的使命,投入大量精力研發(fā)計算機視覺、語音以及自然語言處理等前沿技術(shù)。在推動技術(shù)進步的同時,李白實驗室也已經(jīng)在設(shè)計、營銷、生命科學(xué)等多個領(lǐng)域進行了商業(yè)落地,使得我們的科技成果得以在實際生活中發(fā)揮作用,惠及社會。
我們深信,李白實驗室的未來將會在科研進步的道路上繼續(xù)前行,將最先進的技術(shù)成果轉(zhuǎn)化為社會的生產(chǎn)力,推動人類社會的科技進步,為構(gòu)建一個更美好的未來做出我們的貢獻。
四、團隊成果
「李白實驗室」在2019年創(chuàng)辦了“PicUP.Ai皮卡智能”項目,海外同步上線“cutout.pro”項目,海外月活超千萬用戶,海外站更是躋身圖像編輯工具分類排名前十。基于GAN技術(shù)實現(xiàn)圖像分割、圖像修復(fù)增強、視頻處理等實用性功能,其中圖像背景分割算法模型在全球圖像分割alphamatting.com的模型評比中斬獲全球第一,獲得國內(nèi)外近30項學(xué)術(shù)和研究成果專利,80%為發(fā)明專利。皮卡智能計算機視覺模型目前已應(yīng)用到各行業(yè)場景,例如互聯(lián)網(wǎng)醫(yī)療、互聯(lián)網(wǎng)金融、文旅智慧景區(qū)、電商圖像處理、APP/小程序素材設(shè)計開發(fā)等等。

2023年在AIGC爆火期間,「李白實驗室」推出“神采PromeAI”的項目。該項目通過算法優(yōu)化升級,可直接應(yīng)用于建筑、室內(nèi)、產(chǎn)品、游戲/動漫場景設(shè)計中,不需要復(fù)雜的關(guān)鍵詞及參數(shù)設(shè)置,就可一鍵生成效果圖、線稿、電商產(chǎn)品圖等,實現(xiàn)把AIGC從玩具到工具的實用性轉(zhuǎn)變。

從此次DragGAN的「復(fù)刻」表現(xiàn)程度來看,「李白實驗室」一直走在AI技術(shù)革新的前列,并不斷創(chuàng)新發(fā)展,致力于讓每一個普通用戶都能簡單使用這些工具。若將DragGAN與圖像生成工具結(jié)合使用,用戶將能夠更接近他們心目中理想圖像的輸入。下一代內(nèi)容革新技術(shù)產(chǎn)品或許即將誕生!
免責(zé)聲明:市場有風(fēng)險,選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: