課程大綱 | 內容 |
| CNN與Transformer於圖片分類人臉辨識/瑕疵檢測之原理與實作 | Alexnet VGG Googlenet ResNet Vision Transformer(ViT)
|
| 語義分割模型簡介 | |
| 物件偵測模型簡介 | 基於CNN的2D物件偵測模型YOLOv1-v13, 3D物件偵測模型FCOS-3d Transformer-based的2D物件偵測模型DETR, Anchor DTR, RT-DETR以及3D物件偵測模型DETR-3D
|
| GAN生成模型簡介 | 影像生成GAN,DCGAN, StyleGAN, BigGAN, VQ-GAN 影像轉換GAN,Pix2pix與CycleGAN; 超解析度模型:SRGAN 去模糊模型: DeblurGAN; 結合Transformer的GAN模型:VQ-GAN 基於Transformer與GAN的人臉模糊影像還原模型:CodeFormer。
|
| Diffusion生成模型 | 影像生成DDPM, DDIM 與 Classifier-free guidance 影像轉換:Palette, Latent Diffusion Model 影像編輯:InstructPix2Pix; Stable Diffusion 及其微調:Controlnet, Dreambooth, LORA, Textual Inversion
|
自駕車的影像辨識模型 | 多攝影機之鳥瞰物件語意分割模型:SimpleBEV 多攝影機之3D物件偵測模型:DETR3D 基於Transformer,更為先進的3D物件偵測模型 PETR 多攝影機之車道線偵測模型:Lift, Splat, Shoot 骨幹網路共享之多任務模型:物件偵測+語意分割
|
★本課程所有程式都將在Colab此雲端平台上開發,會提供所有實作範例資料及程式碼