芝加哥大學(xué)新研究「隱身衣」幫你保護(hù)隱私數(shù)據(jù)
今天,在社交網(wǎng)絡(luò)平臺上分享自己的照片,已經(jīng)成了很多人的一種生活習(xí)慣。但是不知道你有沒有擔(dān)心過,那就是這些我們曬出來的生活照,很可能會(huì)被一些企業(yè)在未經(jīng)允許的情況下搜集和濫用。特別是這些年隨著AI技術(shù)的發(fā)展,識別和追蹤照片里的人像,變得越來越容易了。我們在社交平臺上發(fā)布的照片,在AI算法看起來,可能就是一個(gè)不設(shè)防的個(gè)人隱私數(shù)據(jù)庫。
那有沒有什么辦法,既能讓我們隨心所欲地曬照片,又不用擔(dān)心被AI算法發(fā)現(xiàn)呢?
8月3號,芝加哥大學(xué)計(jì)算機(jī)系的官網(wǎng)上,報(bào)道了他們近期的一項(xiàng)研究成果。在這項(xiàng)研究里,科研人員發(fā)明了一種圖片的“隱身濾鏡”。經(jīng)過這種濾鏡處理之后的圖片,人的肉眼幾乎察覺不到任何變化;但是AI算法在看到這些圖片的時(shí)候,就會(huì)突然變成了臉盲,完全沒有辦法從圖片里正確識別出你的頭像了。
科研人員在這篇論文中用自己的照片進(jìn)行了測試,以100%的成功率欺騙了目前微軟、亞馬遜和曠世科技的人臉識別算法。我在文稿區(qū)附上了一張這篇論文里的圖片,左側(cè)是照片原圖,右側(cè)是經(jīng)過隱身濾鏡處理之后,AI算法無法正確識別的圖片。
左右圖,你能看出區(qū)別嗎?
其實(shí),算法已經(jīng)悄悄給右邊的照片加了一些微小的修改。
但就是這樣肉眼根本看不出來的變化,就能100%騙過來自亞馬遜、微軟、曠視——全球最先進(jìn)的人臉識別模型!
所以它的意義究竟何在?
它代表著你再也不用擔(dān)心放在網(wǎng)上的照片被某些軟件扒得干干凈凈,打包、分類,然后幾毛錢一整份賣掉喂AI了。
這就是來自芝加哥大學(xué)的最新研究:給照片加上一點(diǎn)點(diǎn)肉眼根本看不出的修改,就能讓你的臉做到成功「隱形」。
這樣一來,即使你的照片在網(wǎng)絡(luò)上被非法抓取,用這些數(shù)據(jù)訓(xùn)練出來的人臉模型,也無法成功識別到你的臉。
這項(xiàng)研究的目的,就是為了幫助網(wǎng)友們在分享自己的照片的同時(shí),還能有效地保護(hù)自己的隱私。
因此,「隱身衣」本身也得「隱形」,這樣才能避免對照片的視覺效果產(chǎn)生影響。
也就是說,這件「隱身衣」,其實(shí)是對照片進(jìn)行像素級別的微小修改,從而蒙蔽AI的審視。
其實(shí),對于深度神經(jīng)網(wǎng)絡(luò)而言,一些帶有特定標(biāo)簽的微小擾動(dòng),就能夠改變模型的「認(rèn)知」。
比如,在圖像里加上一點(diǎn)點(diǎn)噪聲,熊貓就能變成長臂猿:
Fawkes就是利用了這樣的一個(gè)特性。
用 x 指代原始圖片,xT為另一種類型/其他人臉照片,φ 則為人臉識別模型的特征提取器。
具體,F(xiàn)awkes是這樣設(shè)計(jì)的:
首先:選擇目標(biāo)類型 T
指定用戶 U,F(xiàn)awkes的輸入為用戶 U 的照片集合,記為 XU。
從一個(gè)包含有許多特定分類標(biāo)簽的公開人臉數(shù)據(jù)集中,隨機(jī)選取 K 個(gè)候選目標(biāo)類型機(jī)器圖像。
使用特征提取器 φ 計(jì)算每個(gè)類 k=1…K 的特征空間的中心點(diǎn),記為 Ck。
而后,F(xiàn)awkes會(huì)在 K 個(gè)候選集合中,選取特征表示中心點(diǎn)與 XU 中所有圖像的特征表示差異最大的類,作為目標(biāo)類型 T。
其次:計(jì)算每張圖像的「隱身衣」
隨機(jī)選取一幅 T 中的圖像,為 x 計(jì)算出「隱身衣」δ(x, xT) ,并按照下列公式進(jìn)行優(yōu)化。
其中 |δ(x, xT)| < ρ。
研究人員采用DDSIM(Structural Dis-Similarity Index)的方法。并在此基礎(chǔ)上進(jìn)行隱身衣的生成,能保證隱身后的圖像與原圖在視覺效果上達(dá)到高度一致。
實(shí)驗(yàn)結(jié)果表明,不論人臉的識別模型被訓(xùn)練得多么刁鉆,F(xiàn)awkes都能提供95%以上的有效防護(hù)率,從而保證用戶的臉不被識別。
即使有一些不小心泄露的未遮擋的照片被加入人臉識別模型的訓(xùn)練集,通過進(jìn)一步的擴(kuò)展設(shè)計(jì),F(xiàn)awkes也可提供80%以上的防識別成功率。
在Microsoft Azure Face API、Amazon Rekognition以及曠視Face Search API這幾個(gè)最先進(jìn)的人臉識別服務(wù)的面前,F(xiàn)awkes的「隱身」效果竟達(dá)到了100%。
目前,F(xiàn)awkes已開源,Windows、Mac和Linux都可使用。
這里以Mac系統(tǒng)為例,給大家簡單介紹一下軟件的使用方法。使用的筆記本是MacBook Air,1.1GHz雙核Intel Core i3的處理器。
第一步,我們從GitHub上下載壓縮安裝包,并進(jìn)行解壓。
第二步,把想要修改的所有照片放入一個(gè)文件夾里,并記住其路徑。
以桌面上的一個(gè)名為test_person的圖片文件夾為例子,里面我們放了三張照片,其中一張圖片包含了兩個(gè)人。
這里的圖片路徑是~/Desktop/test_person,根據(jù)你的圖片保存的位置來確定。
第三步,打開啟動(dòng)臺中的終端,進(jìn)入到壓縮包所在的文件夾。
注意,如果MacOS是Catalina的話,需先修改權(quán)限,以管理員的身份運(yùn)行,sudo spctl —master-disable就可以了。
這里,我們的壓縮包直接放在下載的文件夾里,直接cd downloads就可以。
進(jìn)入下載文件夾后,輸入./protection -d 文件路徑(文件路徑是圖片文件夾所在的位置,這里輸入~/Desktop/test_person),運(yùn)行生成圖片的「隱身衣」。
嗯?挺好,看起來竟然能識別一張圖中的2個(gè)人臉。
緩慢地運(yùn)行中……
據(jù)作者的介紹說,生成一張「隱身衣」的平均速度在40秒左右,這么看速度還是比較快的。
如果電腦的配置足夠好,應(yīng)該還能再快一點(diǎn)。
不過,雙核的電腦就不奢求了…我們耐心地等一下。
從時(shí)間上來看,處理速度還算能接受。
Done!
圖片中可看出,生成3張圖片的「隱身衣」,電腦用了大約7分鐘。
一起來看看生成的結(jié)果。
可以看見,文件夾中的3張圖片,都生成了帶有_low_cloaked的后綴名圖片。
雖然介紹中提及,生成的后綴是_mid_cloaked的圖片,不過軟件提供的模式有「low」、「custom」、「ultra」、「mid」、「high」、「custom」幾種,所以不同的模式就會(huì)有不同的后綴名。
以川普為例,來看看實(shí)際的效果。
左、右兩張圖片幾乎看不出差別,并沒有變丑,并且川普臉上的皺褶看起來還光滑了一些。
這樣一來,我們就能放心地將經(jīng)過處理后的人臉照片放到網(wǎng)上了。
即使被某些不懷好意的人拿去使用,被盜用的數(shù)據(jù)也并不是我們的人臉數(shù)據(jù),再也不用擔(dān)心隱私被泄露的問題。
不僅如此,這個(gè)軟件還能「補(bǔ)救」你在社交網(wǎng)站上曬出的各種人臉數(shù)據(jù)。
比如,你曾經(jīng)是一名沖浪達(dá)人,之前就將大量的生活照放到社交網(wǎng)站上——
照片可能已經(jīng)被軟件扒得干干凈凈了……
不用擔(dān)心!
如果po上這些經(jīng)過處理后的圖片以后,那些自動(dòng)扒圖的人臉識別模型就會(huì)想要添加更多的訓(xùn)練數(shù)據(jù),以提高準(zhǔn)確性。
這個(gè)時(shí)候,穿上「隱身衣」的圖片在AI看來甚至「效果更好」,就會(huì)將原始圖像作為異常值放棄掉。
論文的一作是一名華人學(xué)生單思雄,高中畢業(yè)于北京十一學(xué)校,目前剛拿到了芝加哥大學(xué)的學(xué)士學(xué)位,將于今年9月入學(xué)攻讀博士學(xué)位,師從趙燕斌教授以及Heather Zheng教授。
作為芝加哥大學(xué)SAND Lab實(shí)驗(yàn)室的一員,他的研究主要側(cè)重于機(jī)器學(xué)習(xí)以及安全的交互,像如何利用不被察覺的輕微數(shù)據(jù)擾動(dòng),去保護(hù)用戶的隱私。
從單同學(xué)的推特來看,他一直致力于在這個(gè)「透明」的世界中,為我們爭取一點(diǎn)點(diǎn)僅存的隱私。
論文的共同一作Emily Wenger同樣來自芝加哥大學(xué)的SAND Lab實(shí)驗(yàn)室,現(xiàn)正攻讀CS博士,研究方向是機(jī)器學(xué)習(xí)與隱私的交互,目前正在研究神經(jīng)網(wǎng)絡(luò)的弱點(diǎn)、局限性和可能對隱私造成的影響。
▼
AI算法在識別一張圖片的時(shí)候,它的關(guān)注點(diǎn)跟我們?nèi)祟愖R別圖片的過程很可能是不一樣的。甚至算法關(guān)注的維度可能更多、更復(fù)雜。具體來說,在我們?nèi)搜劭磥硗耆珶o法分辨區(qū)別的兩張圖片,在AI程序的分類標(biāo)準(zhǔn)下可以是截然不同的兩組數(shù)據(jù)。在這個(gè)意義上,這款隱身濾鏡欺騙的并不是AI算法,反而是人的大腦。
按照這個(gè)思路延伸下去,這種隱身濾鏡技術(shù),未來可能還可以變成一種信息加密的手段,用來制造出一類我們?nèi)说母泄贌o法分辨,只有AI算法能夠識別內(nèi)在區(qū)別的圖像甚至音頻數(shù)據(jù)。
關(guān)于AI到底智不智能的兩點(diǎn)看似矛盾的推論,正式我們推薦這項(xiàng)研究的原因。
今天的人工智能算法,依然處在快速發(fā)展的階段;很多類似這篇研究中暴露出的關(guān)于AI算法的新特質(zhì),正在被快速地挖掘出來。這也是AI領(lǐng)域吸引人的重要原因之一。
? Copyright 2013 南京奧特賽人工智能技術(shù)研發(fā)有限公司 版權(quán)所有 備案號:蘇ICP備19032300號-1 蘇公網(wǎng)安備32011602010459 技術(shù)支持:科威鯨網(wǎng)絡(luò)