由於深度學習技術的演進,機器處理原始資料的能力越來越強,高維度的影像處理問題不再像過去一樣需要仰賴繁雜的前處理特徵工程,原始影像就可直接做為模型的輸入。本技術使用地圖影像,如:衛星圖、道路圖或是國土使用調查圖等資訊,利用深度學習技術,建立預測房價及通訊品質的模型。

工研院資通所 黃彥皓、張仕穎、徐彬海


智慧圖資除了能預估房價及通訊品質外,亦可發展其它應用

由於深度學習技術的演進,機器處理原始資料的能力越來越強,高維度的影像處理問題不再像過去一樣需要仰賴繁雜的前處理特徵工程,原始影像就可直接做為模型的輸入。本技術使用地圖影像,如:衛星圖、道路圖或是國土使用調查圖等資訊,利用深度學習技術,建立預測房價及通訊品質的模型。

地圖影像會說話

現在圖資服務越來越越發達,除了google map之外,政府的內政部國土繪測中心[1],也提供了不少豐富的圖資讓民眾使用或串接應用,包含基本的道路圖、衛星圖,也有比較進階的國土使用調查圖等等。而除了將資料顯示在地圖上,做資料的視覺化之外,豐富資訊量是不是還有其他更進階的應用呢?

能不能直接把圖資作為模型的輸入資料,來建立分析系統?以房價為例,許多人買房第一個考量的因素就是地段,影響房價的一個重要因素,也就是周邊的生活機能,例如:學區、交通、商店等等。地段因素,通常是可以判別房屋實際價值,保不保值的關鍵因素。就如同在房仲業,影響房價最有名的一句話就是「Location,Location, Location」,也就是影響房價的前三名因素是「地點,地點,地點」。

而過去要分析地段,通常是使用事先定義結構化的資料,例如:附近1公里內有幾間學校、有幾間醫院等等,通常可透過圖資公司取得,如下圖1左側所示,這類資料很容易透過傳統機器學習方法來建立模型,但是這些人為定義資訊卻限制了分析的可能性。例如:為何是1公里,為何不是五百公尺?不同大小的商店跟醫院權重是相同的嗎?


圖 1 機器學習與深度學習在輸入資料上的差別

為了使預測不被任何原因所限制,以及透過深度學習的特性,我們想要直接透過分析原始資料來建立預測模型,什麼原始資料包含這些地段的資料呢?就是圖資影像資料,例如:google map的道路圖上,有不同的地標資訊,你可以看出有幾間學校、幾間醫院與餐廳等等,而且還可以更近一步看出學校的大小、商店的大小,以及這些商店的密集程度及分佈,如圖1右側所示。換言之,圖資這種非結構化資料,包含了遠比傳統結構化資料更多更豐富的資料。

基於地圖影像的房屋鑑價應用

概念上,透過實價登入的房價資訊,我們可以取得成交的房價資料,以此當作訓練模型的目標,而開放性的多種圖資就當成輸入,透過深度學習,我們就可以建立一個藉由分析週遭的居住環境因子而對房價有預測功能的模型,以後只要輸入想要知道房價地點的週遭圖資,就可以得知該地點房價,真正從原始資料來預測分析地段對房價的影響。相對於實價登錄成交紀錄數量來講,沒有成交資料的區域占全台更大的範圍,所以常會遇到最近幾年內附近區域沒有成交紀錄,所以房價並沒有好的參考值,只能由房仲說了算,房價預測系統最大的好處是收集了全台的成交資料以及環境圖資資料當成訓練資料,任一個地區的房價,即使周邊過去並無任何成交易紀錄,也可以利用所訓練出的模型預測來預測房價。

此外,不同的圖資也包含不同的訊息,像是國土利用圖,就包含不同土地的使用情況,衛星圖比較可以看出建物的密集程度、房屋的座向以及綠地的比例等等,道路圖可以看出附近的建設如捷運醫院商場的分布等,所以我們選擇了多種的原始圖資搭配深度學習的能力來做預測。

我們使用國土利用圖和道路圖來當成我們的輸入,而將實價登入資料做成一個區域地段裡價格高低的分佈圖如下圖2中ground truth,經過了CNN(convolutional neural network)的訓練之後我們可以得到圖2中的預測結果,在這個應用中實際的成交房屋的登錄價格和我們所預測的價格關係係數(pearson correlation)為0.4,可見房價和周遭的環境因子有相當大的關聯性。目前的輸入及實驗結果如圖2所示。若是再結合房屋本身的特徵,例如:樓高、屋齡等資訊,其準確率可再進一步提升。

未來使用者只要輸入想要查詢的地址,系統就會抓取相關的圖資輸入到預測模型裡,就可以產生地段好壞的預測結果,這結果能反應地段真實的好壞,因為模型是使用真實原始的圖資,而不是其他修飾過或是量化過後的失真資料。


圖 2 目前實驗結果,比較ground truth及預測結果,兩張圖是相近的(關係係數0.4),也證明圖資的確包含影響房價的因素。

基於地圖影像的無線網路佈建應用

同理,任何要預測的標的,其影響的關鍵因子是可以從圖資上看出來的,就可以透用同樣的邏輯,透過深度學習來建立更好的預測模型。

以智慧電表網路為例,其中無線網狀網路技術(wireless mesh networks),如ZigBee、WiSUN等通訊技術,對建築物的穿透力並不如4G/5G等巢狀網路。所以當考慮兩個電錶間是否可以連線,就需要考慮兩者之間的環境,傳統機器學習可能考慮兩個電表所在的位置,中間是否有障礙物阻隔(Line of Sight)等結構化資料,但是影響無線電波,需要考慮穿透、折射、繞射等物理現象,所以需要考慮完整的周邊環境,才可以準確的預測訊號強弱。

而透過深度學習直接分析圖資,剛好可以完整取得這些環境因素,完整考慮建築物所造成的穿透、折射、繞射等影響,可以提高預測準確率。而搭配多重圖資影像,可以更精準的預測,例如:從道路圖跟衛星圖,可以取得建築物的輪廓外觀,但是無法得知裡面的格局。像是一般住宅、賣場、倉儲跟工廠,內部格局是相當不同的,對訊號的穿透影響也相當不同。所以可以透過其他圖資,例如國土使用調查圖,來取得建物的使用類型,以便區分不同建物的特性。

只要有這些圖資跟量測的連線資料,如電表間的通訊品質(RSSI),我們就可以透過CNN[2]來做一個通訊品質與訊號數值的預測模型,我們系統的輸入是國土利用圖以及衛星圖,利用CNN裡的卷積層將環境的因數訓練進去,再將智慧電表rssi的資訊所做成訊號強度分布圖當成訓練目標,如下圖中的灰階訊號分布圖,在訓練CNN的預測模型之後,就可以使用考慮環境的影響來預測所有電表和中心電表的連線訊號資訊,在下表中越明亮的區域代表與中心電表的連線品質越好。實驗中測量電表的訊號值與模型預測值相關係數高達0.67,電表間可連通與不可連通的評估也達到80%準確率,這樣的預測模型在電表訊號的評估上可說是相當不錯。目前的實驗結果如圖3所示。

未來使用者,如:通訊模組廠商或是系統整合廠,想要知道一個電表或是集中器的涵蓋範圍,只需輸入該電表或集中器的座標,系統就會抓取相關的圖資輸入到預測模型裡,就可以產生如下圖的訊號強弱的圖。相較於傳統的通訊品質預測方法,不需要實際到現場做環境探勘(Site Survey)來收集大量的環境資訊,因為所有環境資訊都是來自於地圖影像,所以可以大幅降低現場環境探勘的人物力成本;另外相較於傳統確定性模型(Deterministic Model)需要設定調整複雜的參數,並隨時需要專家因地制宜做出調整,我們的預測是透過深度學習模型,直接從測試過程中所收集的通訊品質資料來學習影響通訊品質的複雜因素,可以大幅降低調整模型的複雜度。


圖 3 基於地圖影像的通訊品質預測模型

未來發展潛力

豐富的圖資其實富含了各種資訊,只要結合適當標的,就可以透過深度學習創造出全新的價值。但現在深度學習需要大量的計算,如何加速處理多重圖資、更高解析度的圖資以及時間序列的圖資,將是下一步需要克服的問題。另外,目前方法還是採取監督式學習的方式,所以除了圖資,還需要取得大量的輸出或是預測的標的資料,以產生有標記的訓練資料,例如:文中預測房價,需要實價登入資料,而預測通訊品質,需要有通訊測試資料。只要能克服這些運算及資料問題,以地圖影像為基礎的預測技術,應可以帶來更多嶄新的新應用。

參考文獻

[1] 內政部國土繪測中心,國土繪測圖資服務雲,https://maps.nlsc.gov.tw

[2] Convolutional neural network介紹,https://en.wikipedia.org/wiki/Convolutional_neural_network