隨著巨量時代的到來,資料分析與探勘成為科技顯學,各行各業對於大數據的濃厚興趣也直接反映在大數據人才的豐厚薪資中。「資料分析師」指的是不同行業中,專門從事行業內數據蒐集、整理、分析,並依據這些數據做出研究、評估的專業人員。本課程選擇以Python程式語言教學,帶領您從零基礎開始,一步步進入資料分析的專業領域。
產業發展署補助課程
經濟部產業發展署『推動機電產業智慧製造計畫』
主辦單位:經濟部產業發展署 / 執行單位:工業技術研究院
產業發展署補助計畫課程費用30%
培訓證書發放準則
1. 參加本課程之學員,研習期滿,出席率超過80%(含)以上,且參加實作演練或考試成績合格者,即可獲得工研院頒發的培訓證書。
2. 測驗平均總成績在60分(含)以上為合格。
課程對象
大專畢業,對從事巨量資料分析與程式開發工作有興趣者。
講師簡介
- 【單元一講師】鄭老師,僑光科技大學機械與電腦輔助工程系助理教授,中興大學大數據產學研發博士學位學程博士生/專長:深度學習、點雲數據分析、大型語言模型、知識圖譜、人機協作。
- 【單元二與單元三講師】張老師,清華大學資訊工程研究所畢,主要研究領域為巨量資料之實務應用,曾經擔任資料科學年會/行動科技年會講者。擅長資料科學與網站開發技術,熟悉的語言是 Python 跟 JavaScript。是資料科學的信仰者,試圖用資料科學的方法導入到不同領域解決問題。喜歡與不同背景的人進行交流,分享資訊思維與跨領域的整合經驗。
- 【單元四講師】杜老師,Julia Taiwan 發起人,目前為 Taiwan AI Labs 機器學習工程師,中央研究院/台灣大學生物資訊學國際學程博士,專注於使用機器學習與深度學習方法開發計算生物模型,擁有生物醫學及電腦科學背景。他至今發表了七篇國際論文,其中四篇為第一作者,發表期刊包含 Briefings in Bioinformatics 以及 BMC Genomics。他是一位開源軟體貢獻者,Julia 的 GNN 套件 GeometricFlux.jl 維護者。擁有著作《Julia 程式設計:新世代資料科學與數值運算語言》及《Julia 資料科學與科學計算》二書。
開課資訊:上課時間:114/7/12-8/17,共10天,64小時。
上課方式:線上直播本課程使用Microsoft Teams系統 請學員先安裝此會議軟體(並註冊報名時填寫的MAIL為帳號)https://www.microsoft.com/zh-tw/microsoft-teams/ group-chat-software
【自備設備】具有耳麥、筆電或桌上型電腦、穩定的網路環境(建議使用有線網路)並於課前統一軟體測試後,寄出紙本講義 請務必上線進行連線測試,以利課程進行
課程洽詢:有任何課程或報名上的問題,請洽:04-25678652 林智君小姐
單元一: Python程式設計入門
Python程式語言比C或Java語言更容易學習,語法簡易功能強大,有高效的內建資料結構及優雅的語法,其優質的設計架構及豐富的程式套件更讓Python在許多領域廣泛應用。此外,Python也可在Linux, MAC, Windows, Android, 與iOS等平台上執行。
Python在網路爬蟲、數據處理、與雲端基礎設施等領域都有大量運用,是您學習數據資料分析不可或缺的工具。
課程目標
1. 快速瞭解Python基礎知識與技術
2. 深入淺出學會流程控制與邏輯判斷
3. 高階資料結構的運用
4. 物件導向基礎能力養成
5. 完整程式碼範例強化實作能力
課程大綱&日期:114/7/12、7/13(六日) 9:00~17:00,共計14小時
主題 |
內容 |
Python簡介 |
程式語言發展、編譯器與直譯器、Python 語言特性與禪思、Python 的應用、設定開發環境、安裝套件、整合式開發環境、程式基本要素、陳述與表示式、輸出指令與註解 |
資料與模組 |
資料值與資料型態、字串、資料型態轉換、變數、運算子與運算元、Python模組 |
資料結構 |
Python型態、字串與字串方法、串列與串列方法、字組、字典 |
決策迴圈與函式 |
半導體產業就業輔導 |
物件與類別 |
物件簡介、類別、物件的產生、程序式與物件導向式設計的比較、物件導向程式設計範例 |
單元二: Python網路爬蟲實作技術
處理大數據的目標使效率越來越高,成本不斷減少,從而造就了基於大數據的商業智能。而網際網路大量的資料等待著挖掘與分析,如何取得正確與精準的資料,網路爬蟲技術是一項非常實用的技能。這堂課深入淺出地教您如何打造自己的網頁爬蟲,透過實際的範例練習,讓您了解基礎的網頁爬蟲實戰技術。
課程大綱&日期:7/19-7/20 (六日) 9:00~17:00,共計14小時
主題 |
內容 |
資料來源與取得 |
* 介紹公開的資料來源與如何使用 Python 存取資料 * 所需套件與環境準備 * API 資料來源與 Request 串接存取 |
認識 HTTP 網站架構與資料溝通方式 |
* 介紹目前網站前後端架構 * 網頁結構的解析與拆解 |
資料爬蟲靜態網頁篇 |
*使用 Request 與 Beatifulsoup 套件進行靜態網頁的爬蟲教學 *運用正規表示式有效率的整理資料
*實機操作
|
資料爬蟲動態網頁篇 |
* 使用 Selenium套件進行動態網頁的爬蟲教學
* 實機操作 |
利用 AI 加速爬蟲資料收集 |
* 結合 AI 解析 API 回應內容,提升數據處理效能
* 如何運用 AI 自動識別並提取網頁關鍵元素
* 利用 AI 自動分類與清理爬取的數據,提高準確度 |
實務上的爬蟲應用 |
* 爬蟲被擋了怎麼辦?淺談常見防爬蟲機制與處理策略 * 如何建構一個可以自動持續更新的爬蟲程式 |
有了資料之後,然後呢? |
* 資料儲存與管理(CSV、EXCEL、SQL) * 介紹 Python 的資料科學生態系* 初探視覺化與資料探索 |
QA |
|
※主辦單位保留課程調整及講師更動之權利
單元三: Python資料分析及工具運用
隨著電腦運算效率提升與大數據資料取得便利,讓資料分析的應用範圍擴及各個產業,也大大提高資料處理的效益。本課程選擇的程式語言是Python,理論搭配實作教學,讓您能夠理解數據分析的基本概念與技巧,將所學運用在您的專業領域。
課程大綱&日期:7/26-7/27 8/9-8/10 (六日) 9:30~16:30,共計24小時
主題 |
內容 |
以Python功能與語法學習資料科學 |
*資料科學與 AI 的發展趨勢
資料科學簡介
*資料科學的價值及 AI 在資料分析中的應用案例 |
運用Numpy與Pandas進行資料操作 |
*Numpy 與 Pandas 套件操作與使用
*基本資料結構(Series, DataFrame)
*資料匯入與匯出(Excel、CSV、JSON、SQL) |
運用Pandas進行資料前處理 |
*遺失值處理語法與運用(填補缺失值、刪除遺失值)
*資料合併與 JOIN 語法運用(concat、merge)
*分組計算(groupby、pivot_table)
*數值運算與統計分析(describe, mean, median, std, corr) |
主題 |
內容 |
運用Matplotlib與Seaborn進行資料視覺化 |
*Matplotlib 的架構簡介
*Seaborn 的視覺化特性與分類(風格設定、調色盤)
*圖解資料,運用語法繪製以下圖形:
- 折線圖(Line plot)
- 散佈圖(Scatter plot)
- 直方圖(Histogram)
- 長條圖(Bar plot)
箱型圖(Box plot)等 |
探索性資料分析(EDA)與AI輔助應用 |
*異常值偵測
- 拆解與實現業界資料科學模型建置前的重要準備工作
- AI 輔助異常值偵測(Isolation Forest、LOF)
*補值策略分析
- 常見的遺失值與異常值補值策略(均值、中位數、眾數補值)
- 進階補值方法:K-Nearest Neighbors(KNN)、回歸補值
*特徵工程與 AI 輔助特徵選取
- 從資料中自動生成新特徵(Feature Engineering)
- 好特徵的特性剖析
- 常見的特徵生成方法(數值變換、類別編碼)
- 特徵選取
- 如何從眾多特徵中篩選出重要特徵
- 過濾法(Filter Method)、包裝法(Wrapper Method)
- 使用 AI 自動選取最佳特徵(Recursive Feature Elimination, SHAP)
- 特徵降維
Principal Component Analysis(PCA)、t-SNE |
專題實作:AI 資料分析應用 |
*從真實的資料集出發,綜合運用 EDA 與特徵工程技術
*發掘資料中的重要模式與趨勢
|
|
*在課堂上參與 Kaggle 挑戰,實戰數據分析技能! |
QA |
|
※主辦單位保留課程調整及講師更動之權利
單元四: 機器學習與深度學習模型應用
AI已經進入到不同產業,不論在電子、金融、資訊、醫療、零售、通訊、交通、物流等領域,您都可能透過機器學習(Machine Learning)解決過去難以解決的問題。機器學習與深度學習是人工智慧的分支,是一門很深的學問,本課程從基礎切入,由淺入深,包含理論及實作技術,讓學習者了解何時可以使用機器學習與深度學習、為何機器可以學習、機器如何學習、如何讓機器學得更好,幫助您掌握機器學習最核心的觀念與技術本質。
課程大綱&日期:8/16-8/17 (六日) 9:30~16:30,共計12小時
主題 |
內容 |
Introduction to Machine Learning |
1.何謂機器學習? 2.機器學習的核心與框架 3.機器學習的種類? 監督式學習? 非監督式學習? 強化學習?... 4.為什麼要分訓練資料集與測試資料集? 5模型複雜度與資料複雜度 |
Machine Learning I: Regression & Classification |
1.機器學習實作是以Scikit Learn為主,以線性迴歸 (Linear Regression)為出發點, 帶你深入淺出迴歸模型與分類問題 (Classification) 2.Linear binary classification、羅吉斯迴歸(Logistic Regression)、 支持向量機(Support Vector Machine)、Kernel method 評估機器學習模型的學習效果 3.損失函數(Loss Function)、均方根誤差(RMSE)、 梯度下降法(Gradient Descent)、如何縮小RMSE? 模型與參數的選擇 4.判斷模型預測能力的指標 混淆矩陣、準確率 (Accuracy)、精準度(Precison)、召回率(Recall)、F-分數 (F-Score)、ROC曲線、AUC |
Machine Learning II: Model evaluation |
1.什麼是Overfitting? 2.如何避免 Overfitting? Regularization 技巧 3.如何挑選好的模型? 交叉驗證法(Cross Validation) |
Machine Learning III: Clustering |
分群 (Clustering) o K-means o K-medoids o Hierarchical clustering o DBSCAN |
Machine Learning IV: Ensemble learning |
1.Bagging 2.決策樹 (Decision tree) 3.剪枝演算法 4.隨機森林 (Random forest) |
Machine Learning V: Feature engineering & Dimensional reduction |
特徵工程的應用技術:遺失值處理、特徵縮放、轉換、建構、組合、萃取 降維演算法與應用:PCA、MDS、tSNE、應用 |
Machine Learning VI: Deep learning fundations |
1.Autoencoder 2.CNN 3.RNN |
※主辦單位保留課程調整及講師更動之權利
課程費用:(限本國籍)
身份別(本國籍)
|
費用
|
說明
|
一般身分補助30%
|
每人40,600元
|
原價NT$ 58,000,政府補助 NT$17,400,學員自付 NT$40,600
|
|
|
|
◎本課程經政府補助,上課學員皆需依規定填寫相關資料,且學員出席時數需達報名課程時數八成以上,方可適用補助辦法,若未符合規定者,則需將其政府補助費用繳回。
--------------------------------------------
★因應性別主流化國際趨勢,打造友善職場之發展,優先保留女性參訓名額。
報名專線:04-25678652林小姐
預計招生名額:20名為原則,依報名及繳費完成之順序額滿為止(本班預計10人即開課)。
單元 |
課程名稱 |
課程時間 |
時數 |
全系列 |
Python AI人工智慧資料分析師 |
7/12-8/17 |
64 |
單元一 |
Python程式設計入門 |
7/12-7/13 |
14 |
單元二 |
網路爬蟲實作技術 |
7/19-7/20 |
14 |
單元三 |
Python資料分析及工具運用 |
7/26-7/27 8/9-8/10 |
24 |
單元四 |
機器學習與深度學習模型應用 |
8/16-8/17 |
12 |
◆以下注意事項─敬請您的協助,謝謝!
1、為確保學員的上課權益,報名後若未收到任何回覆,敬請主動詢問是否完成報名。
2、為尊重講師之智慧財產權,請勿錄影、錄音,恕無法提供課程講義電子檔。
3、請註明服務機關之完整抬頭,以利開立收據;未註明者,一律開立個人抬頭,恕不接受更換發票之要求。
4、若報名者不克參加者,可指派其他人參加,並於開課前三日通知。
5、退費辦法:學員於開訓前退訓者,將依其申請退還所繳上課費用90%,另於培訓期間若因個人因素無法繼續參與課程,將依上課未逾總時數1/3,退還所繳上課費用之50%,上課逾總時數1/3,則不退費。
6、若因臨時突發事件或不可抗力之因素,主辦單位保有調整日期或更換講師之權利。
7、結訓學員應配合培訓後電訪調查。