训练狗最好方法是使用奖励机制,当它表现良好时给它奖励,当它做错事时惩罚它。同样的策略也可以应用于机器学习!而这种使用奖励机制来训练模型的方法,便称为强化学习。
强化学习是机器学习的一个子分支,它训练模型通过做出一系列决策来返回问题的最佳解决方案。
为了使模型更加准确,在算法执行更接近正确答案时,给予正奖励,如果它偏离目标,就给它一个负奖励。
只需要明确目标,再对数据进行建模,模型与数据开始交互,并自行提出解决方案,无需人工干预。
强化学习实例
我们还是以训练狗为例,我们提供诸如狗饼干之类的奖励来让狗执行各种动作。
狗会遵循一个策略来最大化它的奖励,因此它会遵循每一个命令,甚至可能会独自学习一个新的动作,比如乞讨。
狗也想四处奔跑,玩耍和探索它的环境。在强化学习算法中的这种行为称为探索。狗将奖励最大化的倾向称为利用。探索和利用之间总是存在权衡,因为探索行动可能会导致较少的回报。
强化学习中的重要术语
- 代理:代理是通过强化学习训练的模型
- 环境:模型必须优化到的训练情况称为它的环境
- 行动:模型可以采取的所有可能步骤
- 状态:模型返回的当前位置/状态
- 奖励:为了帮助模型朝着正确的方向前进,它会获得奖励/给予积分以评估某些动作
- 策略:策略决定代理在任何时候的行为方式。它充当动作和当前状态之间的映射