想了好久决定起这样一个名字。“HuangJie啊,你再这样下去就真的堕落了。” 这是Mr.J这周一给我说的话。虽然不能完全这样说,但是还是真的有一些道理的。或许Mr.J看我,就像是我看爸爸一样。虽然人确实是有能力的,但是由于自身的局限性,一辈子可能就会陷入到一个局部最优值里面。周围都是高高的山峰,即使自己去探索,最后也翻越不了那一座座的高山,最后现实让爸爸说出了"我这辈子就这样了",“我们这家人没有一个人像是做生意的”。不能去责怪爸爸,作为一个探索的人,不是没有去探索,而是环境的复杂性没有让他得到相应的正向奖励,所以他学会了待在原地或许就是最好的策略。
强化学习虽然和人生有几分相似,但是人生去比强化学习复杂太多。在强化学习中,只要你的算力够强,你可以去做很多次的尝试,玩很多个Episod。但人生的Episod却是十分有限的。所以人生更是一个残酷的问题。对世界来说,我或许就是他的A3C算法中的其中一个Agent。但是对于我自己来说,我就是自己的人生啊。我们所处的环境,各种关系,见到的风景,遇到的人就是我们的环境啊。我们要如何去最大化我们的人生轨迹呢? 如何去得到最大的奖励呢。个人的力量是有限的,几乎没有改变环境的能力,我们唯一能够做的就是改变自己的策略,利用现有的知识,也要不断小小地去探索。所有的改变都来自与和现实世界的交互,不管交互的结果是什么,多去交互,总是可以为自己积累经历,才有优化策略的可能。
人生能够遇到这样严厉的老师对我而言,真的是一件好事。我正在局部最优的地方,他就像是一个好的引导,虽然他的位置并不一定是全局最优,但是他的最低点却远远低于我的。因此我的经历他是经历过的,所以有好的导师就像是RewardShape, 这样给到一个好的引导,就够了。谢谢,Mr.J给我的打击。
“HuangJie今天也不错啊,花花绿绿的,看得出啦做了很多工作。” 昨晚做完报告后得到了Mr.J的肯定,得到了一个正的Reward。肯定了我这几天整个轨迹的基本正确。同时也得到了一个值为0的奖励。“有些细节其实并不是那么重要,将主要的故事就可以了。”
环境始终都再那里,几乎不曾改变。一个人的幸福感来自于Reward的多少。很努力很努力地工作,在过程中不断的调整自己的参数,有时可能会牺牲掉当前的Reward,让自己暂时感觉很不舒服,但是到最后的Return或许会很多。所以,继续加油吧。RL虽然是一套算法,但同样也是一套生活的哲学。突然感觉世界都便清晰了呢。