谷歌研究院發布NIMA:能評價圖像有多美,還能讓圖像變得更美
本文發布于 Google Research Blog,作者為 Hossein Talebi, 機器感知領域軟件工程師兼 Peyman Milanfar 研究科學家。雷鋒網 AI 科技評論做了不改動原意的編輯和修改。
美是否存在標準?在圖像處理與計算機視覺領域,圖像質量與美學的量化問題一直困擾著研究者們。從技術的角度來說,圖片質量的評估主要與像素降級相關,比如噪聲、模糊、壓縮等等。而圖像在美學層面的評估,則需要根據圖片所傳達的情感或美感所連接的語義級特征來評判。
近年來,在人類標記數據的訓練下,CNN 能解決圖像質量評估的部分問題,不過只限于特定種類的圖片(如風景照)。但這類方法通常會把圖片分為兩類:質量好和遜色的,這也使得它所應用的領域非常局限。谷歌采用的方法能夠預測評級的分布,提供更好的質量預測,與實際評分有著更高的相關性,并能夠應用于一般圖像。
在 NIMA: Neural Image Assessment 這篇論文中,谷歌研究團隊提出了一種深度 CNN,能夠從直接觀感(技術角度)與吸引程度(美學角度)預測人類對圖像評估意見的分布。
雖然圖像萬千各異,但這一神經網絡不僅能對圖像進行與人類審美相符的評分,而且能幫助以智能照片編輯、優化視覺質量等需要大量人力與主觀任務的處理,并盡可能減少在圖像可能引致的視覺錯誤。
論文地址:https://arxiv.org/abs/1709.05424
背景
一般來說,圖像質量評估可以分為全參考(full-reference)和無參考(no-reference 或 Blind, BIQA)的方法。(AI 科技評論注:客觀質量評價方法還有一種,名為半參考方法,Reduced-Reference, RR,在這不作討論)如果可采用全參考方法,則有諸如 PSNR,SSIM 等的圖像質量度量。如果要采用無參考方法,需要依賴統計模型來預測圖像質量。
這兩類方法主要是預測一個符合人類感知的質量分數。在利用 CNN 做圖像質量評估時,通過相關數據集(ImageNet)進行訓練以實現初始化權重,并針對感知質量評估任務對注釋的數據進行微調。
NIMA
雖然在訓練數據集中,每張圖像都會與人類評分的直方圖相連接(而非單個二進制分數)。但典型的美學預測方法依然會根據質量好壞將圖像分為兩類。通過直方圖的評分,我們擁有了一個評價圖像質量的指標,這也同樣是評價者共同達成的協議。在谷歌所采用的方法中,NIMA 模型并不是簡單地將圖像劃出高分或低分,也不是針對平均分做回歸,而是對任意圖像都做一個評分分布——在 1 到 10 的范圍內,NIMA 會將這張圖的得分可能性分配給這 10 個分數。這這方法更直接地揭示了訓練數據是如何被捕獲的,此外,當與其它方法進行對比時,它能呈現對于人類偏好的更好預測。
NIMA 的向量得分(如平均值)采用不同的函數將圖像用美學的標準進行排序。一些在 AVA 數據集中的大范圍數據庫測試圖經 NIMA 進行評估后,按得分高低排序的結果如下圖所示(括號內的數字為實際得分)。每張 AVA 圖片通過 DPChallenge(一個攝影師社區)的 200 名評分員進行打分,所得到的平均分即為這張圖片的實際得分。經過訓練的 NIMA,對這些給定圖片的打分與人類所給定的分數非常相近,這也意味著相近的審美排序。谷歌研究者也發現,同樣地,NIMA 在其它數據集上的表現也非常優異。
NIMA 將這些來自 AVA 數據集,且標有「風景」標簽的圖像進行打分并排序,預測的 NIMA 得分(括號內為實際得分)如圖所示。
此外,NIMA 的得分也可以用于比較圖像的失真程度。下圖所展示的 TID 2013 數據集的例子呈現了,在不同程度的失真情況下,圖片的得分反映了圖片質量。
來自 TID 2013 數據集的樣例。NIMA 所計算的分數如圖所示。
在感知層面增強圖像
在本月月初的一篇論文《Learned Perceptual Image Enhancement》中,谷歌研究者們了解到,質量與美感分數同樣也能被用于輔助圖像增強的操作中。也就是說,如果將 NIMA 得分最大化作為損失函數的一部分,能夠提升圖像增強的感知質量。下面的例子表明,NIMA 可以作為一種訓練損失,對色調增強算法進行調節。研究者發現,圖像增強前后的得分發生了提升。因此,模型能夠作為 CNN 的過濾器更好地調整圖像的最佳觀感,如亮度、高光與陰影等。
NIMA 能夠當作訓練損失函數的一部分以增強圖像。以 MIT-Adobe FiveK 數據集的圖片為例,經過帶有 NIMA 的 CNN 訓練后,圖片原本的色調與對比度都有了更好的效果提升。
未來
這份工作揭示了,基于機器學習的質量評估模型有著廣泛的應用前景。比如,谷歌研究員們能夠讓用戶們輕松地在一大堆照片里進行精選最佳照片;或是為用戶提供實時反饋,提升拍照質量。這些模型能夠引導圖像增強操作器,以產生觀感更佳的圖像處理結果。而從更直接地說,NIMA 的網絡(或其它同類型網絡)能夠提供(雖然)不夠完美的,但至少合理且符合人類審美的照片甚至是視頻。谷歌研究團隊很樂于分享這些研究結果,雖然他們也深知,在照片質量與美感的可解釋性、可理解性上,仍然任重道遠。
論文地址:https://arxiv.org/abs/1709.05424
來自: 雷鋒網