1
qscasdqwezxc 9 天前 via Android
目测不是模型的问题
Rl 不是做这个的 你采集的数据本来就不是收敛的 你可以贴一下你的 reward 怎么算的 |
2
jeddida OP @qscasdqwezxc 我用 sac 训练的话不能直接在线在 dcs 训练,所以我采集了数据通过 lstm 建模,自定义 gym 环境,然后用 sb3 开始训练,目的是水压稳定在 0.5:reward:
error = abs(pressure - self.target_pressure) if error <= 0.005: reward = 1.2 elif error <= 0.01: reward = 1.0 + (0.005 - error) * 40 elif error <= 0.05: reward = 1.0 - 15 * (error - 0.01) elif error <= 0.1: reward = 0.4 - 4 * (error - 0.05) else: reward = -5.0 * (error - 0.1) |
![]() |
3
Sawyerhou 9 天前
不太懂这个,
如果你训练好的 sac 的确能让你的 lstm 稳定在 0.5 ,却不能让真实水压稳在 0.5 , 那可能的确是 lstm 的问题,否则就不一定是 lstm 的问题, 如果确实是 lstm 的问题,有没有可能在线学习?用水压表直接进行训练,省略环境模型( lstm ) |
4
jeddida OP @Sawyerhou 在线训练太慢了,效果很差。我测试 lstm 环境下可以稳定在 0.5 ,我希望误差可以稳定在 0.02 ,但是实际上有的都在了 0.04 ,我对 lstm 训练不太了解,大佬了解吗?大佬也在做强化学习方面的研究吗?可否留个绿泡泡。
|
![]() |
5
Sawyerhou 8 天前
|
6
zhangeric 8 天前
先找一下算法吧,工业上有很多专用算法,比如 pid 控制.
|