ai深度学习吧 关注:202贴子:1,579
  • 0回复贴,共1

深度学习技术开发与应用

只看楼主收藏回复

时间安排 大 纲 具体内容 实操案例
三天 关键点 1.强化学习的发展历程2.马尔可夫决策过程3.动态规划4.无模型预测学习5.无模型控制学习6.价值函数逼近7.策略梯度方法8.深度强化学习-DQN算法系列9.深度策略梯度-DDPG,PPO等
第一天9:00-12:0014:00-17:00 一、强化学习概述 1.强化学习介绍 2.强化学习与其它机器学习的不同3.强化学习发展历史 4.强化学习典型应用5.强化学习基本元素 6.强化学习算法分类
二、马尔科夫决策过程 1.马尔可夫性 2.马尔可夫决策过程3.策略与价值 4.最优化原理5.MDPs扩展
三、动态规划 1.动态规划 2.价值迭代3.策略迭代 4.迭代策略评估5.广义策略迭代 6.维数灾 1.python环境下简单扫地机器人环境2.价值迭代python实现3.策略迭代python实现4.迭代策略评估python实现
四、无模型预测学习 1.蒙特卡洛方法 2.时间差分学习3.n-步回报 4.TD(lambda)5.资格迹 1.蒙特卡洛方法python实现2.时间差分方法python实现
第二天9:00-12:0014:00-17:00 五、无模型控制学习 1.蒙特卡洛控制 2.Sarsa3.重要性采样 4.Q-学习4.Double Q学习 5.探索与利用 1. Sarsa方法python实现2. Q学习方法python实现3. Sarsa(lambda)方法python实现
六、价值函数逼近 1.函数逼近器 2.线性函数逼近3.常见的特征表示方法4.价值迭代+离散化方法5.Fitted Q Iteration6.策略迭代+最小二乘7.预测学习+随机梯度下降法8.控制学习+随机梯度下降法 1. 离散化Q迭代方法python实现2. LSPI方法python实现
七、策略梯度方法 1.基于策略的强化学习2.有限差分策略梯度3.解析法策略梯度4.REINFORCE算法5.Actor-Critic6.策略梯度引入基准7.自然梯度8.确定型Actor-Critic 1. 策略迭代方法python实现2. actor-critic方法python实现
第三天9:00-12:0014:00-17:00 八、深度强化学习 1.Deep Q learning(DQN)2.Double DQN3.Dueling DQN4.Prioritized Experience Replay5.A3C/A2C6.DDPG7.PPO8.SAC 1.深度强化学习训练场-OpenAI Gym 安装与使用2.Pytorch安装与使用3.自动驾驶赛车任务4.月球飞船降落任务
实操解析与训练一 实验:倒立摆和冰壶控制实践1.环境编写 2.算法设计 3.实验结果高频问题:如何将一个控制问题设计成马尔可夫决策问题并使用强化学习算法进行训练关键点:1.基于模型的离线强化学习方法 2.基于数据的在线强化学习方法
实操解析与训练二 实验:OpenAI Gym实践1.Gym安装 2.Gym使用 3.强化学习高频问题:1.如何基于Gym实现强化学习训练与测试关键点:1.掌握马尔可夫决策过程 2.低维输入的强化学习方法
实操解析与训练三 实验:月球飞船降落任务1.DQN/Double DQN/Dueling DQN 2.PER高频问题:1.深度强化学习网络训练稳定性 2.探索与利用关键点:1.经验回放技术的实现 2.目标网络更新
实操解析与训练四 实验:自动驾驶赛车任务1.连续控制任务 2.策略梯度方法DDPG/PPO高频问题:1.适用于高维输入的连续控制任务的深度强化学习方法关键点:1.掌握DDPG和PPO具体编程实现 2.根据实际需求,选用合理的深度强化学习方法
感兴趣的朋友欢迎留言讨论


IP属地:北京1楼2022-04-21 11:09回复