近年來,在Tesla此指標性電動車大廠的努力下,基於純視覺的自駕系統已被證實能夠落地,過去幾年Tesla的AI Day為許多跟隨者展示了其先進的純視覺模型是如何實現多攝影機影像辨識系統,這其中包括物件偵測、紅綠燈偵測,可行駛區域偵測以及車道線預測。
Tesla的模型,主要是多任務共享單一的骨幹網路,以節省計算負擔。本課程將從物件偵測以及語義分割模型的介紹開始,逐步設計出共享backbone的物件偵測與語義分割模型。在物件偵測部份,我們會一路從one-stage的2D物件偵測模型、3D物件偵測模型、實例分割模型開始介紹各模型的原理以及實作方式。
近年來Transformer這樣的模型架構已被證實極大的增強了自然語言處理模型的效能,而Transformer應用在電腦視覺上也被證實能進一步的提升效能。Transformer此模型較佳的融合多攝影機以實現複數攝影機的3D物件偵測以及車道線偵測,然而,若沒有Transformer,運用傳統CNN實現多攝影機物件偵測會遭遇怎樣的困境?,為何近年來各自駕車開發/製造公司,全部在自駕車影像辨識系統上改用Transformer這樣的網路架構?
近年來,Diffusion model已被證實效果比GAN更好,2022年Stable Diffusion橫空出世,只要給予一段充滿細節的文字,其生成的影像極為真實,然而,生成模型該如何運用在ADAS與自駕車之辨識系統呢?本課程將會從生成式對抗網路開始,逐步介紹生成模型是如何的進化到Diffusion(擴散)模型,使得實用性以及真實度大幅提升,具體內容包括如何透過生成模型修改行車影像的情境,甚至是透過物件偵測的標記資料,直接生成多樣化的”原始”影像。
本課程的所有原始碼都使用近年來最受歡迎的PyTorch深度學習框架,所有的原始碼都可在Google的Colab上運作(請學員攜帶筆電,作業系統不限,只需Google帳號及安裝Chrome即可),期待學員可從此課程迅速切入自動駕駛系統,掌握台灣繼3C產業後,商機無限的第四C(Car)市場