在真實世界的工程與商業場景中,AI 決策面對的從來不是「平均情況」,而是高不確定性、極端風險與少數但致命的邊界事件。傳統強化學習(Reinforcement Learning, RL)以「期望回報最大化」為目標,雖在模擬環境中表現亮眼,卻常在實務部署時暴露出風險失控、行為不穩定等問題。「分佈式強化學習」(Distributional Reinforcement Learning)正是為了解決這些痛點而誕生。它不再只學一個「期望值」,而是學整個回報分佈,讓決策模型能清楚知道「好結果有多好、壞結果有多糟」。
本課程聚焦於近年快速發展的「分佈式強化學習」(Distributional Reinforcement Learning) 與 風險管控型決策設計,教導學員如何從「只看平均回報」進階到「理解整個回報分佈」,讓 AI 能感知極端損失、罕見事件與不確定性,進而做出更穩健的行動選擇。
課程將由淺入深的說明強化學習的核心概念,包括:C51、QR-DQN、IQN 等主流分佈式演算法與其適用場景。同時引入 CVaR (Conditional Value at Risk)、變形 Bellman 算子、分位數迴歸等風險量化方法,讓學員學會如何把「風險偏好」嵌入 AI 決策流程。
透過金融交易、資源調度、自動控制與高風險系統案例,本課程協助工程師與資料科學家打造「不只聰明、而且安全」的 AI 決策模型。
課程提供【數位同步學習】報名方案,歡迎學員報名參加。