强化学习实例场景 介绍什么是强化学习

发布:2022-10-14 10:57:01
阅读:4022
作者:网络整理
分享:复制链接

训练狗最好方法是使用奖励机制,当它表现良好时给它奖励,当它做错事时惩罚它。同样的策略也可以应用于机器学习!而这种使用奖励机制来训练模型的方法,便称为强化学习。

强化学习是机器学习的一个子分支,它训练模型通过做出一系列决策来返回问题的最佳解决方案。

为了使模型更加准确,在算法执行更接近正确答案时,给予正奖励,如果它偏离目标,就给它一个负奖励。

只需要明确目标,再对数据进行建模,模型与数据开始交互,并自行提出解决方案,无需人工干预。

强化学习实例

我们还是以训练狗为例,我们提供诸如狗饼干之类的奖励来让狗执行各种动作。

狗会遵循一个策略来最大化它的奖励,因此它会遵循每一个命令,甚至可能会独自学习一个新的动作,比如乞讨。

狗也想四处奔跑,玩耍和探索它的环境。在强化学习算法中的这种行为称为探索。狗将奖励最大化的倾向称为利用。探索和利用之间总是存在权衡,因为探索行动可能会导致较少的回报。

强化学习中的重要术语

  • 代理:代理是通过强化学习训练的模型
  • 环境:模型必须优化到的训练情况称为它的环境
  • 行动:模型可以采取的所有可能步骤
  • 状态:模型返回的当前位置/状态
  • 奖励:为了帮助模型朝着正确的方向前进,它会获得奖励/给予积分以评估某些动作
  • 策略:策略决定代理在任何时候的行为方式。它充当动作和当前状态之间的映射
扫码进群
微信群
免费体验AI服务