深度學習網路在影像的應用上為近年來十分熱門的議題,專家學者歷次提出各種不同特性之神經網路,在不同的影像應用上提供解決方案。本文將從應用面出發,探討與分享各類網路在各種不同領域的應用情形,透過實際場域需求與神經網路的媒合,提出各類可運行可應用的實際解決方案。

工研院資通所 陳澤世


影像辨識與深度學習網路技術的結合可應用於生活中各種面向,創造新商機

深度學習網路在影像的應用上為近年來十分熱門的議題,專家學者歷次提出各種不同特性之神經網路,在不同的影像應用上提供解決方案。本文將從應用面出發,探討與分享各類網路在各種不同領域的應用情形,透過實際場域需求與神經網路的媒合,提出各類可運行可應用的實際解決方案。

什麼是深度學習網路?

現階段大家俗稱的人工智慧(AI),所對應的背景技術可視為是深度學習網路(Deep Neural Network, DNN)的統稱。深度學習網路可以簡單描述為「透過不斷的修正錯誤與回饋,讓很多層的矩陣交互記憶與學習所要達成的正確任務」。在這短短的一句話中,內含了許多數學背景,從最基礎的工程數學、矩陣乘法到物理動量、熱力學再到資訊工程的工作排程、記憶體管理等等,各類理工相關的技術,都在近年來不斷與深度學習網路產生聯結。

深度學習網路透過不斷的嘗試錯誤,記憶與學習我們所要教會它的東西,就像是小學生上學所用的教材,一個學得比較好的學生(神經網路),多數都會課前預習、上課學習與課後複習,透過一次又一次的重複學習讓記憶深刻。然而,仔細回想你我「學會」英文單字的過程,你無法說出你是用了哪種演算法或是規則,讓腦子記住單字,反而是經歷重複觀看、聽與背誦之後,相關訊息就會烙印在腦中,從而透過記憶到理解。

因此,透過深度學習網路所學會的事物,我們很難用演算法去描述。舉例來說,傳統的車牌辨識引擎,都會處理與偵測車輛尾端後,找到車牌的位置,之後再找出車牌號碼位置並切割字元,再辨識字元後回傳辨識結果,其中牽涉到許多物件偵測與判定的演算法以及字元比對的演算法設計手法,這些動作我們可以很清楚地一步一步敘述。但是,一個辨認車牌號碼的深度學習網路,他的動作會是讀取影像後,直接穿過網路回答車號,與傳統手法差異甚大,也因此,深度學習網路擁有更大的環境忍受度與自由度,這些彈性的賦予我們都可以由訓練資料來控制與變化取得。

環保與城市安全應用

在各類需要花費人力監看以取得資訊的工作,都可以用監督式學習網路來協助人們大幅降低工作量,所謂監督式學習網路是指透過大量的已標記資料,去訓練一個深度學習網路,讓此深度學習網路可以學會標記資料中的資訊。以圖1為例,透過標記大量的海灘寶特瓶垃圾製成學習資料(標記),以及正確的選擇可辨認物件所在位置的深度學習網路,透過數萬次的來回訓練與回饋修正(訓練),我們就可取得一個模型,此模型可在日後協助我們標記任何影像中的寶特瓶物件(運行),應用於環保與垃圾量評估,大幅降低傳統評估方式所需的人力。在訓練過程中,我們需要對資料標記作微調、對神經網路作微調以及對回饋修正作微調,但是在整個過程中,我們不需要對「辨認保特瓶」這件工作設計任何的數學演算法。也就是說,同樣的手法可以套用至辨認海灘球或是海面航行船隻,而神經網路的架構與標記手法、修正手法等大部分都可以延用。




採用同樣的訓練過程,我們可以更換資料,讓深度學習網路可以分辨出路口監視器中的各類物件,諸如:公車、行人、機車、小客車等(圖2)。這個應用可以協助過去需要過濾與觀看大量影帶,尋找走失兒童或是老人的工作,亦或是協助判定交通違規事件,節省警方大量的人力,對城市的治安治理有極大的幫助。


由上兩例可知,採用監督式深度學習網路辨認各類物件,首先需準備大量正確的標記資料,並透過大量的嘗試錯誤與訓練網路後,慢慢的調整網路,最後取得可用的辨識引擎。也因此,與傳統影像辨識不同,深度學習網路的應用,在一開始沒有資料集可供訓練測試的狀況下,很難給予一個預測的準確率,因為辨識的準確率完全與資料集、網路選擇以及嘗試錯誤的修正有關。

深度學習網路設計師須深入特定需求

物件辨識的應用十分廣泛,如圖3中的各種辨識引擎,可協助辨識無人機房中各類線頭的脫落(圖3a),以及協助夜間熱感攝影機所拍攝到的物件屬性辨認(圖3b),又或者是在生產線製造過程中,計數螺絲與螺帽的數量(圖3c)等等,各類繁瑣、需長時間關注的工作,都可以透過訓練深度學習網路取得模型後,協助人們處理工作。須注意的是,各類的應用都需要熟悉深度學習網路的工程師,深入場域了解需求後,才能規劃資料如何蒐集,網路如何挑選,參數如何修正以及應用如何運行與呈現。


智慧手機運行智慧辨認引擎

透過訓練取得的各類模型,如何快速有效的佈署到應用端十分重要,圖4中為我們所實作的兩個例子,分別是在手機(iPhone 8)上,透過手機提供的神經網路晶片,運行我們所訓練的模型。圖4(a)為文字切割與單字辨認,圖4(b)則為即時物件辨認。以這兩個模型為基礎的後續應用可套用至:隨身的車牌辨識用於巡邏員警、導航應用用於商場導引、品牌商店促銷活動、大地遊戲以及隨身助理、交通站點維安等等,應用範圍非常廣,結合手機鏡頭便可提供即時偵測的服務,讓現場人員可在第一時間作出反應。


除了前端裝置外,城市中四處可見的監視器網路則可與ITRI DeepLook™平台整合,有效簡化繁瑣的影帶瀏覽工作,透過各類的深度學習網路模型整合,協助治理單位快速的過濾與前處理,縮短人員觀看影帶所需的時間,大幅提高執行效率。ITRI DeepLook™平台目前已整合完成容器技術並運行數個深度學習網路模型,被積極應用於智慧城市中城市安全的各項議題。


深度學習網路與影像辨識應用適用於各行各業,可有效協助傳統上需要大量人力的工作,縮短人員工時,讓人員可執行更有價值的工作。在警政、環保、產線、零售、交通等各類場域都有可實際實施應用的機會,各類前端運行的設備也已成熟到可執行即時應用偵測,協助人員注意應注意而未注意的事項,在近期的未來,影像辨識與深度學習網路的結合可見度預期會相當高,相關應用也會發展並融入人們的生活,值得進一步的關注。