强化学习详细操作教程
人用媒介具有与传感器平行。诸如眼睛,耳朵,鼻子,舌头和皮肤之类的感觉器官以及用于效应器的诸如手,腿,嘴等其他器官。
机器人媒介取代了传感器的摄像头和红外测距仪,以及各种效应器的马达和执行器。
软件媒介已将位串编码为其程序和操作。
代理的性能测量 - 这是决定代理成功程度的标准。
代理的行为 - 代理在任何给定的感知顺序之后执行的行为。
感知 - 它是特定实例中代理的感知输入。
感知序列 - 这是代理人迄今为止所了解的所有历史。
代理功能 - 它是从训示序列到动作的映射。
离散/连续 - 如果环境的数量有限且截然不同,则环境是离散的,否则它是连续的。 例如,象棋是一个离散的环境,驾驶是一个连续的环境。
可观察/部分可观察 - 如果可以从知觉中确定每个时间点环境的完整状态,则可观察到; 否则它只是部分可观察的。
静态/动态 - 如果环境在代理正在执行时没有改变,那么它是静态的; 否则它是动态的。
单个代理/多个代理 - 环境可能包含其他代理,这些代理可能与代理的类型相同或不同。
可访问/不可访问 - 如果代理的传感设备可以访问完整的环境状态,则可以访问该代理的环境; 否则它是无法访问的。
确定性/非确定性 - 如果环境的下一个状态完全由当前状态和代理的行为决定,那么环境是确定性的; 否则它是非确定性的。
情节式/非情节式 - 在情节化环境中,每个情节由代理人感知并然后行动组成。 其行动的质量取决于情节本身。 随后的剧集不依赖于前几集中的动作。 情景环境要简单得多,因为代理人不需要提前思考。
# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-26
pip install gym
# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-26
import gym
env = gym.make('CartPole-v0')
env.reset()
for _ in range(1000):
env.render()
env.step(env.action_space.sample())
# Filename : example.py
# Copyright : 2020 By Lidihuo
# Author by : www.lidihuo.com
# Date : 2020-08-26
import gym
env = gym.make('CartPole-v0')
for _ in range(20):
observation = env.reset()
for i in range(100):
env.render()
print(observation)
action = env.action_space.sample()
observation, reward, done, info = env.step(action)
if done:
print("Episode finished after {} timesteps".format(i+1))
break