当前位置: 首页 > news >正文

安徽平台网站建设公司淘宝客静态网站

安徽平台网站建设公司,淘宝客静态网站,php 网站 服务器,网站简介模板文章目录 1. 什么是在线MC强化学习2. 什么是离线MC强化学习3. 在线MC强化学习有何缺点 1. 什么是在线MC强化学习 在线强化学习(on-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ …

文章目录

  • 1. 什么是在线MC强化学习
  • 2. 什么是离线MC强化学习
  • 3. 在线MC强化学习有何缺点

1. 什么是在线MC强化学习

在线强化学习(on-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample(as),与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(as)都是同一个策略,即: π = π s a m p l e \pi=\pi_{sample} π=πsample

简而言之:所谓在线,就是在对一个初始策略评估的同时,利用 ϵ − \epsilon- ϵ贪心算法对它进行及时改进。

2. 什么是离线MC强化学习

所在离线强化学习(off-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample(as),与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(as)不是同一个策略,即: π ≠ π s a m p l e \pi\ne\pi_{sample} π=πsample

3. 在线MC强化学习有何缺点

  • 所学到的策略可能不适合作为最终的策略使用。
    • 为什么?
      • 因为它引入的 ϵ − \epsilon- ϵ贪心算法虽然确保了完整轨迹覆盖状态的多样性,但却以牺牲较快找到最优策略为代价,它总是小心翼翼,认为最优行为有可能存在于依赖经验确定的最优行为之外;
      • 它没有考虑这一常识:随着轨迹覆盖了更多的状态和行为,随着这些状态行为对出现次数的增多,依赖完全贪心算法所确定的最优行为应该越来越具有获得更高累积回报期望的把握
      • 如果智能体已经有关于如何更快更好地获得完整轨迹采样的先验策略,而这样的策略能够帮助自己更快地优化最终所要采取的策略,就没有必要在策略评估和策略控制中采用同一策略了。

由于以上缺点,人们已经发展出了离线强化学习算法,它可以进一步细分为

  • 重要性采样MC强化学习算法
  • 加权重要性采样MC强化学习算法
http://www.hyszgw.com/news/47000/

相关文章:

  • html网站设计源码用什么网站做海报
  • 天津做网站找津坤科技在线注册公司营业执照
  • 建设商务网站的费用网站怎么引入微信支付
  • 万维网使用的网站中国宁波网宁波新闻
  • 网站开元棋牌怎么做app百度seo搜索排名
  • 广告图片网站wordpress 资讯类 模版
  • 在哪里找个人做网站的浙江省住房与和城乡建设厅网站
  • 做网站的公司现在还 赚钱吗住房和城乡建设部网站评估
  • 我国档案网站建设比较分析西安网站建设方案外包
  • 网站建设网站网页模板wordpress在线报名插件
  • 工会网站建设管理工作总结wordpress文章怎么打开空格
  • 发泡机 东莞网站建设网站开发交付
  • 网站做资讯需要获取许可证吗温州快速排名优化
  • 网站开发设计公司网站便宜建设
  • 东莞网站建设备案学院网站开发网站定位
  • 自己做网站麻烦吗网站结构优点
  • 网站后台管理入口百度官网优化
  • 游戏微网站模板网站建设 需要ae吗
  • 怎么做网站图片wordpress html音乐播放器
  • 做结构图用什么网站百度搜到自己的网站
  • 网站会员注册系统一份优秀的网络推广方案
  • 烟台做网站系统邯郸网站建设选哪家好
  • 网站优化员seo招聘公司网站做二维码网址
  • 重庆网站建设公司怎么做网站县区分站点建设
  • 西青做网站设计公司名字logo
  • 太原网站建设司如何做手机app开发
  • 网页的创新型网站策划wordpress适合做什么
  • 手机wap网站用什么语言开发软件工程师是什么专业
  • 河北省住房城乡建设局网站响应式网站哪里做
  • 商城网站策划天津做系统集成的公司网站