::: 智拍無人機-工研院產業學習網 :::

工業技術研究院　資訊與通訊研究所林子揚、陳國睿、郭慧冰

在這個網紅自拍盛行的時代，拍出一張帶有獨特風格的美照，是每到一個打卡熱點最重要的事。然而想要拍張好的相片往往需要他人的幫助，但一個熟悉流行美照取景構圖手法的專業攝影助手可不是那麼容易找到的。在這篇文章中，將介紹一套結合智慧分析與聯網無人機控制的系統與方法，透過分析畫面中的人體資訊、環境資訊、顯著物資訊等特徵，來自動決定構圖及與控制無人機拍照的方式，幫助不懂攝影理論的人也能輕鬆拍出媲美專業攝影師的好照片。

自拍（Selfie）是自我拍攝相片的形式之一，多數使用手持的數位相機或智慧型手機拍攝，此類表現自我的象徵常與社群網路相關。自拍類型的照片已經存在了很長時間。自1990年以來，自拍文化在日本從拍貼機開始流行。2010年智慧型手機iPhone 4問世提供高品質前置鏡頭，以及社群網站如Facebook及Instagram推波助瀾下蔚為風潮。

然而使用手持或自拍棒自拍仍受拍攝距離與鏡頭視角限制，導致人物主體拍攝過近、構圖不易、畫面邊緣扭曲、自拍棒入鏡及人物無法全部容納等問題發生。因此改善方法為延伸攝影機與被攝物距離，使用固定腳架雖然可以解決距離不足問題，但局限於固定角度拍攝，在拍攝照片時無法隨時調整想要的角度。

圖1 自拍流行風潮與目前常見自拍方式與問題

為求不受距離空間等限制，近年來配合無人機應用興起，許多人紛紛使用空拍機進行自拍，優點是可以一邊確認預覽影像一邊手動調整拍攝角度，然而手動遙控調整到滿意的拍照角度需要耗費不少時間，坊間也開始出現可透過使用者手勢自動拍照無人機，此類產品多透過人物追蹤與手勢辨識模組，拍攝人物肖像，但仍無法解決構圖不佳的缺點。本文後續將著重說明如何用智慧運算結合無人機控制來拍出一張會自動構圖的人像自拍。

圖2 以聯網無人機自動判斷構圖與飛行完成人像系統架構

構圖分析與比對

構圖（Composition）指的是構成圖像的元素，而「元素」包含景物排列的規則、人物的大小比例、顏色對比或視覺延伸的方向性等，簡單來說就是「圖像的組合」。由於構圖的圖像組合與人眼視覺相關，在具有重複性及仿效性下，如網美拍照有其公式可參考，腳底貼地、頭頂留白、雙腳交叉等方式[4][5]，可模仿其特性拍出相似美照。在本篇將介紹如何讓自拍無人機依據當下的背景與姿勢決定最佳構圖，自動地飛到最佳的位置完成智慧自拍。

常見人像照片的構圖，可分為「人像特寫」、「人景合照」、「多人合照」幾類，分析這幾類照片的構圖其特點分別說明如下。

1.人物特寫

人物特寫類的照片，通常較不需要明確背景主題，其構圖常著重在被拍攝者的姿態，特別是肢體的方向與角度往往與構圖結合來強調神情、突顯比例或營造空間延伸感。

圖3 網路常見人像特寫的構圖與其效果比較

為了拍攝這一類的人像特寫，我們首先從網路收集此類型熱門照片，先利用OpenPose[6]計算照片的骨架特徵。這套方法透過CNN模型預測出關節位置，再由關節間的向量關係產生骨架，如圖4左。

接著我們使用FSA-Net[7]這套DNN方法，利用單張影像來判斷影像中頭部的方向，如圖4右。利用這2個方法，我們可以將所收集的人像特寫照片產生特徵資料庫。

圖4 人物特寫所使用的OpenPose（左）與FSA-Net（右）說明

當無人機進行自動構圖比對時，首先採用OpenPose的方法計算目前被拍攝的姿態骨架，並先試圖從特徵資料庫找到與目前最相像的照片。為了解決直接計算骨架向量總和來比對姿態相似度容易受照片部分肢體被遮擋而誤判的問題，我們設計了一套骨架姿勢權重的相似度比對方法如圖5，將人體骨架依據離身體軀幹距離與軀幹大小配與不同權重，使姿態相似度計算結果更能貼近視覺感受。

圖5 姿態比對公式及整體運算流程

透過動態骨架與相似度的計算找到最合適照片候選後，我們接著計算頭部姿態來進一步從候選照片中篩選出與目前被拍攝者意圖或神情可能最接近的照片。接著我們計算這張照片被拍攝人於整張照片邊界比例，藉此模仿無人機後續最合適的構圖方式。

2.人景合照

相較於人物特寫模式重點在於人的姿態，人景合照這一類的照片通常會有一個明顯的主體，如建築這類具有強烈輪廓特徵作為背景。因此這一類照片的構圖著重在分別找出人與顯著主體所在位置，再依照人與景的相對位置來調整無人機，使人跟景能夠以最佳構圖合照。

圖6 常見人景合照構圖

由於人景合照常為了配合背景主體大小，人臉在照片中的大小比例變化較大，所以較適合使用如RetinaFace[8]這類型的人臉偵測演算法來先找出人所在的位置，因為它應用了FPN的UpSample的方法，適合用來偵測多種不同尺度的人臉偵測（圖7上）。

圖7 人景合照所使用到的方法RetinaFace（上）及BASNet（下）

對於背景主體的偵測，雖然可以使用Object Recognition類型的方法找出訓練過的知名場景，如圖6中範例的女王頭或是巴黎鐵塔進行辨識，但卻無法辨別它沒有看過的物體。所以在顯著物的偵測，我們採用了BASNet[9]這類以深監督編解碼器及殘差細化模塊和三種混合損失函數來做訓練的顯著物偵測演算法，相比於一般的物件偵測演算法需要預先決定偵測與訓練的類別，顯著物偵測的目標在於找出影像中的主體，只要是相對顯著的部分，不論是哪個類別都會被找到，如圖7下方示意。對於我們自動拍照來說，我們無法預知使用者會和哪一個類別的物件合照，所以不適用需要預先訓練類別的物件偵測演算法，需要的是不論類別皆能找出關鍵主體的顯著物偵測演算法。

圖8 顯著物偵測遮罩與人景合照流程

圖8可以用來說明影像顯著物偵測的結果，以及如何進行人景合照的拍攝流程。可以看見照片中相對明顯的主體都可以被偵測出來並產生一個對應的遮罩。因此人景合拍的流程為，一開始透過人臉偵測及人臉辨識找到要拍攝的目標人物並移動無人機讓目標出現在畫面的中央，再來因為人在照片中屬於明顯的顯著物，故先用Image Inpainting的方法將人消除，以利於周遭景物的偵測。接著針對人以外的區域做顯著物偵測得到顯著主題的遮罩，找到使用者可能會想要合照的景物後選區，之後再依據使用者和顯著物後選區的距離來做判斷，將使用者和顯著物區域的聯集作為目標區域來追蹤並調整無人機位置，讓目標區域能夠在畫面的中央，然後拍照降落。透過這樣的流程能夠確保人跟景物同時完整的被保留在畫面中央，而不會有人或景物被切掉部分的情況。

3.多人合照

多人合照的構圖重點，通常不會在於強調有誇張姿勢的人身上，而是確保控制無人機能夠確實將所有人都被拍進畫面之中，但仍保有應有的邊界構圖關係。因此適合採用如Yolo[10]的演算法，在偵測出畫面中所有標示為人區域取以一最小外接長方形成為一個集合區域，並控制無人機依據構圖範本調整位置來進行構圖。

圖9 合照模式下先做行人偵測，後以外接區域來調整構圖

無人機控制與聯網整合

整合上述模式與無人機控制流程之系統如下的流程圖。當飛機起飛到定點取得影像時，會先判斷目前符合的模式，根據不同模式會分別取得不同的特徵當作構圖依據，人物特寫模式會提取目標人物的姿勢特徵並根據與資料庫的比對找到適合的構圖及影像比例，而人景合照模式會搜尋目標人物周遭的景物並依據人與景物的相對位置調整構圖，最後多人合照模式則會偵測多個目標並將多個目標組成一個聯集人群，並依據人群邊界調整構圖位置，無人機會根據不同模式取得的特徵邊界來移動如圖10。

圖10 無人機移動說明

圖11 系統流程圖與利用投影面積估算3D位置示意

為了加速控制無人機位置過程的速度與精確度，可以進一步在調整過程中，利用不同飛機位置所偵測到的特徵區域ROI的面積變化以及投影關係，計算各ROI區域與飛機所在位置的3D空間關係，加速移動座標的計算，藉此決定飛機的移動方式來到達構圖與取景目標位置，如圖11。

最後，當移動到最合適的構圖位置後，會控制無人機進行拍照，若有需要模仿範本調整照片長寬比則最後會進行影像裁切，最後智慧自拍就完成啦。

圖12 3種智拍模式測試結果

智拍無人機未來應用

智拍無人機一文說明如何透過聯網及影像串流，結合多種深度學習框架即時計算影像特徵與構圖的方式，自動控制無人機於3D空間中的移動與拍攝來完成多種不同類型的自拍主題。本技術未來可進一步結合不同類型的攝影機或移動載具，並針對不同特點的場景及拍攝主題特徵進行學習，將可更廣泛地用在如虛擬展覽或是網路直播自拍等當紅5G聯網應用。

參考資料

[1] Charlize Theron nabbed an epic Oscars selfie, https://edition.cnn.com/2020/02/12/entertainment/charlize-theron-oscars-selfie/index.html

[2] White House Objects To Samsung’s Commercial Use Of Ortiz-Obama Selfie, https://www.sportsbusinessdaily.com/Daily/Issues/2014/04/04/Marketing-and-Sponsorship/Samsung.aspx

[3] Obama And The Rise Of The Selfie Presidency, https://www.ndtv.com/offbeat/obama-and-the-rise-of-the-selfie-presidency-1423224

[4] [手機攝影技巧教學] 男友必學拍照課, https://blog.ofuphoto.com/2014/01/blog-post.html

[5] 約會的時候，怎麼給女朋友拍出美美的照片?, https://kuaibao.qq.com/s/20190722AZPW9200?

[6] Zhe Cao, et al., OpenPose: Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 7291-7299.

[7] Tsun-Yi Yang, et al., FSA-Net: Learning Fine-Grained Structure Aggregation for Head Pose Estimation From a Single Image, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 1087-1096.

[8] Jiankang Deng,et al., RetinaFace: Single-stage Dense Face Localisation in the Wild [Online], available https://arxiv.org/abs/1905.00641 .

[9] Xuebin Qin, et al., BASNet: Boundary-Aware Salient Object Detection, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 7479-7489.

[10] Bo Li, et al., SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks [online], available https://arxiv.org/abs/1812.11703 .

文章轉載來源網址
工業技術研究院電腦與通訊季刊

工研院產業學習網

熱門文章

相關文章