課程代號:2326010024  

PyTorch深度學習CNN與Transformer影像辨識與生成模型實作

1. 熟悉Python此程式語言以及PyTorch此深度學習框架 2. 協助具影像處理專長之學員切入電腦視覺/深度學習領域 3. 學會在應用各種CNN與Transformer模型解決各種電腦視覺的工業應用 4. 未來可銜接各類進階深度學習課程

課程型態/
數位課程
上課地址/
線上直播會議室(使用Cisco Webex Meetings,將於課前提供會議室資訊)
時  數/
12 小時
起迄日期/
2026/03/14 ~ 2026/03/28
聯絡資訊/
李小姐   02-2370-1111#316
報名截止日期:2026/03/07
課程介紹

深度學習在過去十年徹底革新了電腦視覺領域。這一切的起點可以追溯到卷積神經網絡 (CNN)的崛起,透過獨特的卷積核設計,層層堆疊,從邊緣、紋理到複雜的物件結構,構建出強大的視覺表示能力。從開創性的 AlexNet 誕生標誌著 CNN 時代的開啟,隨後 ResNet 等架構的提出更解決了深層網絡訓練的難題,將CNN 推向頂峰。

然而,隨著 Transformer 架構挾其強大的全局關聯捕捉能力 (Attention Mechanism) 開始引起視覺研究者的關注。Vision Transformer (ViT) 的誕生,證明了 Transformer 能直接處理圖像序列,並在多項任務中超越傳統 CNN,正式開啟了視覺領域從 CNN  Transformer 的典範轉移新篇章。

本課程將深入探索剖析為何在圖片分類、語意分割、物件偵測、生成模型乃至自動駕駛等關鍵視覺任務中,模型架構正經歷著從 CNN  Transformer 的深刻變革。在圖片分類任務中,Transformer 透過捕捉全局上下文信息,進一步提升了分類的準確性;在語意分割和物件偵測等需要精細定位的任務中,Transformer 的注意力機制能更有效地建模物件間的長距離依賴關係,從而實現更精確的分割與偵測結果。生成模型領域,從早期的 GANs 到如今爆紅的 Stable Diffusion  Diffusion ModelsTransformer 的引入使得生成高品質、高解析度的圖像成為可能,並帶來了強大的可控性。

應用案例將分享將針對自動駕駛這個高度整合多種感測技術的應用場景中,Transformer 更展現出處理多模態數據(如相機、雷達)和時序信息的巨大潛力,為更安全、更智慧的自動駕駛系統奠定了基礎。本課程將帶領您深入理解這些技術背後的原理,掌握如何應用這些先進模型解決實際問題,為進入高階 AI 應用領域奠定堅實基礎。

 

課程目標

  1. 熟悉Python此程式語言以及PyTorch此深度學習框架
  2. 協助具影像處理專長之學員切入電腦視覺/深度學習領域
  3. 學會在應用各種CNNTransformer模型解決各種電腦視覺的工業應用
  4. 未來可銜接各類進階深度學習課程

 

課程對象

  1. 學會在應用各種CNNTransformer模型解決各種電腦視覺的工業應用
  2. 未來可銜接各類進階深度學習技術或想掌握深度學習視覺技術的工程與研究人員
  3. 影像處理、電腦視覺、自動駕駛相關從業者
  4. 欲了解 CNN  Transformer 於各項視覺任務應用的開發者
  5. 具程式基礎、希望進入 AI 領域的學生與轉職者

 

課程大綱

課程大綱

內容

CNNTransformer於圖片分類人臉辨識/瑕疵檢測之原理與實作
  • Alexnet

  • VGG

  • Googlenet

  • ResNet

  • Vision Transformer(ViT)

語義分割模型簡介
  • FCNDeepLabv3+,基於Transformer更為強大的SETR

  • 可透過文字/UI介面實現的語義分割模型Segment Anything Model (SAM)

物件偵測模型簡介
  • 基於CNN2D物件偵測模型YOLOv1-v13, 3D物件偵測模型FCOS-3d

  • Transformer-based2D物件偵測模型DETR, Anchor DTR, RT-DETR以及3D物件偵測模型DETR-3D

GAN生成模型簡介
  • 影像生成GANDCGAN, StyleGAN, BigGAN, VQ-GAN

  • 影像轉換GANPix2pixCycleGAN;  超解析度模型:SRGAN

  • 去模糊模型: DeblurGAN; 結合TransformerGAN模型:VQ-GAN

  • 基於TransformerGAN的人臉模糊影像還原模型:CodeFormer

Diffusion生成模型
  • 影像生成DDPM, DDIM  Classifier-free guidance

  • 影像轉換:Palette, Latent Diffusion Model

  • 影像編輯:InstructPix2Pix; Stable Diffusion 

  • 及其微調:Controlnet, Dreambooth, LORA, Textual Inversion

自駕車的影像辨識模型

  • 多攝影機之鳥瞰物件語意分割模型:SimpleBEV

  • 多攝影機之3D物件偵測模型:DETR3D 基於Transformer,更為先進的3D物件偵測模型

  • PETR  多攝影機之車道線偵測模型:Lift, Splat, Shoot

  • 骨幹網路共享之多任務模型:物件偵測+語意分割

★本課程所有程式都將在Colab此雲端平台上開發,會提供所有實作範例資料及程式碼

 

講師簡介

  1. 學歷:台灣大學應用力學研究所碩士/清華大學資訊工程研究所博士
  2. 現職:瑞典自駕車軟體開發公司Zenseact(Volvo Cars)深度學習工程師
  3. 經歷:

    • 馬來西亞偉特科技公司(ViTrox)研發顧問

    • 馬來西亞10 EPOCH科技公司研發顧問

    • 工研院機械所副研究員/研究員/資深研究員

    • 加州大學聖塔芭芭拉分校資工系訪問研究員

    • 上奇資訊-計算機概論 共同譯者

    • 2010 伽利略創新大賽 台灣區季軍

    • 2011 伽利略創新大賽 特別獎(GNSS Living Lab)得主

    • 2013 伽利略創新大賽 瑞士區冠軍

    • 2016 日本立命館大學英文演講比賽 清華大學代表

    • 2017 CVGIP 行人偵測競賽 亞軍

    • 2017 MOST 生成式對抗網路競賽 佳作

    • 2018第八屆兩岸清華研究生學術論壇 清華大學代表

    • 2019 IEEE ICIP Three Minute Thesis Competition (3MT®): Finalist

    • 2020 AI智慧應用新世代人才培育計畫-人才解題實證(倒車攝影機影像識別-障礙物與逼近偵測):佳作

    • 2020 中華民國影像處理與圖形識別學會第十三屆博碩士論文獎博士論文佳作

  4. 專長:Computer Vision, Image Processing, Pattern Recognition, Machine Learning, Deep Learning, Python/C/C++ Programming

     

已於電腦視覺/深度學習/駕駛輔助/自駕車領域中發表過三十七篇國際論文,十五篇國內論文,以及十三篇專利。

 

報名資訊與費用

  • 主辦單位:工研院產業學院 台北學習中心
  • 舉辦地點:線上直播會議室 (使用Cisco Webex Meeting)
  • 上課時間:115/03/142128 (週六13:00~17:0012小時)
  • 招生人數:本班預計20人為原則,最低開課門檻為10
  • 課程費用:

報名方案

費用

課程原價

每人10,800

早鳥價 (開課前21)

每人9,800

團報價 (三人以上)

每人9,200

  • 繳費方式:報名時可選擇信用卡線上繳費或匯款,主辦單位將於確認開班後通知您相關匯款資訊。
  • 退費標準:若欲取消報名,請於開課前三日以傳真或email告知主辦單位,並電話確認退費事宜,逾期將郵寄講義,恕不退費。若您未於期限內申請退費,則不得於任何因素要求退費,惟可轉讓與其他人參訓。
  • 課程洽詢:02-2370-1111 *316李小姐 *315 陳先生
  • 注意事項:
  1. 為確保您的上課權益,報名後若未收到任何回覆,敬請來電洽詢方完成報名。
  2. 若原報名者因故不克參加,但欲更換他人參加,敬請於開課前三日通知。
  3. 配合講師時間或臨時突發事件,主辦單位有調整日期或更換講師之權利。
  4. 報名時請註明欲開立發票完整抬頭,以利開立收據;未註明者,一律開立個人抬頭,恕不接受更換發票之要求
  5. 為尊重講師之智慧財產權,課程進行中請勿錄音及錄影。