低阶视觉学习简介-cmlab

上传人:小** 文档编号:47375421 上传时间:2018-07-01 格式:PDF 页数:14 大小:2.87MB
返回 下载 相关 举报
低阶视觉学习简介-cmlab_第1页
第1页 / 共14页
低阶视觉学习简介-cmlab_第2页
第2页 / 共14页
低阶视觉学习简介-cmlab_第3页
第3页 / 共14页
低阶视觉学习简介-cmlab_第4页
第4页 / 共14页
低阶视觉学习简介-cmlab_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《低阶视觉学习简介-cmlab》由会员分享,可在线阅读,更多相关《低阶视觉学习简介-cmlab(14页珍藏版)》请在金锄头文库上搜索。

1、July 7, 2006, v.1.0 1Introduction to Low-Level Vision Learning 低階視覺學習簡介 鄭文皇 (wisleycmlab.csie.ntu.edu.tw),謝致仁 (jerrycmlab.csie.ntu.edu.tw) 內容大綱 1. 低階視覺學習初步 2. 馬可夫網 (Markov Network) (1) 無迴圈網推 (Inference in networks without loops) (2) 迴圈網推 (Inference in networks with loops) (3) 協調函式學習 (Learning the co

2、mpatibility functions) 3. 相關應用 (1) 超級解析 (Super-resolution) (2) 遮光與反射估計 (Shading & reflectance estimation) (3) 移動估計 (Motion estimation) 4. 結 5. 考資 1. 低階視覺學習初步 一般而言,低階視覺學習指的是在給定拍攝影像(image)資的情況下,評估該 影像所對應之真實場景(scene)的問題。舉,所欲評估的場景可以 是經投影後的物體速(projected object velocity)、表面形與反射形態(surface shape & reflectan

3、ce pattern)、缺損之高頻細節(missing high frequency detail)等等。 圖一、低階視覺學習問題實。給定“影像”資訊,評估其所對應之真實“場景”。 July 7, 2006, v.1.0 2在文獻中,傳統低階視覺學習問題的解法可分為大。第一是採用貝氏 (Bayesian)與規則化(regularization)技巧。基本上,它們對於事件發生的事前機 (prior probability)或條件限制是經由假設而非學習而得,因此難以處內容複雜 的真實影像。第二則是計算影像的統計資,並將其與人視覺系統(human visual system)的特性相關,如用分析並合

4、成幾可真的影像材質 (texture)。然而,它們並沒有處視覺系統如何解影像的問題,如評估所對 應的真實場景。 因此,目前文獻提出以機器學習的方式整合傳統解法的優點,稱為 VISTA 架構。具體,此種方式是針對某種場景,給定部份對應的影像與場景做 為訓資(training data),藉由研究影像的統計特性學習如何由給定的任一影 像推(infer)出其相對應的場景。我們以圖二進一步明,我們一開始先對原始 真實場景進特定運算(operations)以得到相對應的影像。此運算的選擇與我們的 目的有關,所欲評估的場景為移動估計(motion estimation),則運算則是人 為的影像平移;同樣地

5、,評估為超級解析(super-resolution),則運算為 高頻波器(high-frequency filter)。如此一,即可得到多組同的場景/影像組, 並透過馬可夫網(Markov network)自動學習出影像與場景間的對應關係。得到 這樣一個經訓的馬可夫網後,將只要輸入任何一張影像,則可經由自動的 貝氏可信傳遞(Bayesian belief propagation)測試,找到該影像最可能的對應場景 (使得事後機 P(scene|image)最大),而得知該影像所隱含的場景。 圖二、VISTA(Vision by Image/Scene TrAining)架構1。 2. 馬可夫網

6、馬可夫網是低階視覺學習架構的核心,其可視為貝氏網(Bayesian network) 的一種變形。與貝氏網所同之處在於其邊(edge)為無向性的(undirected),因 此可表示循環式的依賴關係(cyclic dependence) , 圖三所示為貝氏網的基本形式 與應用於肺癌檢測關係推的實。 July 7, 2006, v.1.0 3(a) (b) 圖三、貝氏網(a)基本形式6與(b)推應用實。 基本上,馬可夫網可視為一個隨機變(random variable)集合 X 中的所有合 機分布(joint probability distribution)的表示模型。就學定義而言,一個馬可夫

7、 網包含部份,分別為: 一個無向性圖(undirected graph) G = (V, E),其中每個節點(vertex) vV 代表 一個 X 中的隨機變,而每個邊u,vE 代表隨機變 u,v 間的依賴關係。 一群潛在函式(potential functions) k的集合,其中每一個函式對應於一個 G 中的派系(clique) k 。 每一個 k是一個由 k 中元素(element)所產生的可能合 指定(joint assignment)到非負實的對應。 在這我們先回憶一下之前所提的 VISTA 架構。在圖二中,我們知道當給定影 像 y,其所得的對應場景即是使事後機 P(x|y) = c

8、P(x,y)為最大的場景 x,其中 c=1/P(y)為事前機常 。 此外 , 我們必需事先定義好事後機 P 的損失函式(loss function)以得到一個最佳的場景評估 x。一般而言,損失函式需根據同應用的特性決定,常用的有 MMSE(minimum mean squared error)及 MAP(maximum a posterior)種。為使影像/場景組能有效套入馬可夫網,我們將影像與場景 分割成較小塊的補丁(patch),然後將馬可夫網中的一個節點對應到一個補丁, 而接的邊表示統計上的依賴關係,如圖四。當我們知道位置 j 上的場景即可 同時獲得該處影像與相鄰場景的資訊。因此,解決一

9、個完整的馬可夫網包含 個階段:首先為學習階段(learning phase),網的結將由訓資中學習 而得;接著是推階段(inference phase),對應於特定影像的場景將由已訓之網 中推與評估而得。 圖四 、 用於低階視覺問題之馬可夫網 , 每一個節點代表一個影像或場景的補丁 。 July 7, 2006, v.1.0 4圖五、適合性函式 與 。 在 VISTA 架構中,我們定義 與 個適合性函式(compatibility function),它 們就是馬可夫網中的潛在函式,由訓資中自動學習而得,如圖五。因此事 後機 P(x,y)可表示為 =kkk jijiNNyxxxyyyxxxP)

10、,(),(),.,.,(),(2121, 其中 N 為影像與場景的節點。對於散變而言,以 MMSE 損失函式為基礎 之 j 節點的事後機 P 可寫為 =jixallNN xjjMMSEijyyyxxxPxx, 2121),.,.,(。 同樣地,以 MAP 損失函式為基礎之 j 節點的事後機 P 則可寫為 ),.,.,(max maxarg2121, NNjixallxjMAPyyyxxxPxij=。 (1) 無迴圈網推無迴圈網推 在無迴圈網中 , 可採用“信息傳遞(message-passing)”規則計算 MAP 及 MMSE 的估計值。以圖五為,節點 x1的 MAP 計算式可表示成 ).,

11、(),(max),(),(max),(maxarg ),(),(),(),(),(maxmaxmaxarg ) ,(maxmaxmaxarg333222211132213322113213211321321321yxxxyxxxyxxxxxyxyxyxyyyxxxPxxxxxxxxxxMAP=我們可注意到其中每個子部份的計算僅需要知道該節點與其相鄰的節點資訊,在 相鄰節點間進本地端信息傳遞即可有效地計算出所需的估計值。也就是,任 一節點的估計值可寫成 =kk jjj xjMAPMyxxj),(maxarg , 其中k代表節點j所有的相鄰場景節點,而Mjk是由節點k傳遞至節點j的信息, 也就是

12、=jll kkkkjxk jMyxxxMk),(),(max 。 在文獻上已證明對於網中的每個節點只需進最多一次Mjk的全域遞迴計July 7, 2006, v.1.0 5算,jMAPx 即可給定每個節點j的最佳(optimal)估計值。 一:在圖五的馬可夫網中進全域遞迴計算以求得節點x1的MAP估計 值。在經過第一次遞迴計算後,各Mjk的值分別如下, ),(),(max22212 1 2yxxxM x=, ),(),(max33323 2 3yxxxM x=, ),(),(max11121 2 1yxxxM x=, ),(),(max22232 3 2yxxxM x=, 接著,經過第二次遞迴

13、計算後,各Mjk的值新如下, 3 222212 1),(),(max2MyxxxM x=, ),(),(max33323 2 3yxxxM x=, 1 222232 3),(),(max2MyxxxM x=, ),(),(max11121 2 1yxxxM x=, 最後,經過第三次遞迴計算後,即可求得x1的MAP估計值為 ),(),(max),(),(max333222212 1 32yxxxyxxxM xx=, 2 111 1),(maxarg1Myxx xMAP=。 (2) 迴圈網推迴圈網推 由於本地端信息傳遞的複雜性,在迴圈網中無法以上節所提之計算方式求得 確的MAP或MMSE估計值,需

14、以近似(approximation)技巧加以輔助。根據文獻 上的討,無迴圈與迴圈網推的確性整如下表。 表一、關於可信傳遞之收歛(convergence)情況在無迴圈與任意(包含迴圈)網 推的確性比較。 July 7, 2006, v.1.0 6(3) 協調函式學習協調函式學習 在本節中,我們針對種較廣為接受的協調函式學習方法加以明。第一種方法 採用個信息傳遞規則,分別為 =jll kkkjkxk jMxyPxxPM k)|()|(max, =kk jjjjxjMAPMxyPxPx j)|()(maxarg。 對於場景節點k的可能值xlk與相鄰節點j的可能值xmj所形成的所有機組P(xlk|xm

15、j)進求值運算(考圖),得到相對的協調函式矩陣與向,即可 於推階段中以查表方式得到對應機。 圖 、 任意相鄰節點的協調函式矩陣與向在馬可夫網中的關係示意圖 。 第二種方法在分割影像與場景補丁時採用部份重疊(overlapping)的方式,因此協 調函式的計算是直接由補丁重疊部份的差性而得(考圖七): 222/|exp),(sm kjl jkddm jl kxx=, 222/|exp),(iol kyy kl kyx=, 其中yo為正確的場景,而2s與2i為高斯雜訊的共變。 圖七、部份重疊補丁示意圖。 July 7, 2006, v.1.0 73. 相關應用 (1) 超級解析超級解析 超級解析指的是當給定一張低解析(low-resolution, LR)影像時,求得其相對 應的高解析(high-resolution, HR)場景。因此其目標是希望從訓資中建模

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 经营企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号