局部最优 | 時光屋

想了好久决定起这样一个名字。“HuangJie啊，你再这样下去就真的堕落了。” 这是Mr.J这周一给我说的话。虽然不能完全这样说，但是还是真的有一些道理的。或许Mr.J看我，就像是我看爸爸一样。虽然人确实是有能力的，但是由于自身的局限性，一辈子可能就会陷入到一个局部最优值里面。周围都是高高的山峰，即使自己去探索，最后也翻越不了那一座座的高山，最后现实让爸爸说出了"我这辈子就这样了"，“我们这家人没有一个人像是做生意的”。不能去责怪爸爸，作为一个探索的人，不是没有去探索，而是环境的复杂性没有让他得到相应的正向奖励，所以他学会了待在原地或许就是最好的策略。

强化学习虽然和人生有几分相似，但是人生去比强化学习复杂太多。在强化学习中，只要你的算力够强，你可以去做很多次的尝试，玩很多个Episod。但人生的Episod却是十分有限的。所以人生更是一个残酷的问题。对世界来说，我或许就是他的A3C算法中的其中一个Agent。但是对于我自己来说，我就是自己的人生啊。我们所处的环境，各种关系，见到的风景，遇到的人就是我们的环境啊。我们要如何去最大化我们的人生轨迹呢? 如何去得到最大的奖励呢。个人的力量是有限的，几乎没有改变环境的能力，我们唯一能够做的就是改变自己的策略，利用现有的知识，也要不断小小地去探索。所有的改变都来自与和现实世界的交互，不管交互的结果是什么，多去交互，总是可以为自己积累经历，才有优化策略的可能。

人生能够遇到这样严厉的老师对我而言，真的是一件好事。我正在局部最优的地方，他就像是一个好的引导，虽然他的位置并不一定是全局最优，但是他的最低点却远远低于我的。因此我的经历他是经历过的，所以有好的导师就像是RewardShape, 这样给到一个好的引导，就够了。谢谢，Mr.J给我的打击。

“HuangJie今天也不错啊，花花绿绿的，看得出啦做了很多工作。” 昨晚做完报告后得到了Mr.J的肯定，得到了一个正的Reward。肯定了我这几天整个轨迹的基本正确。同时也得到了一个值为0的奖励。“有些细节其实并不是那么重要，将主要的故事就可以了。”

环境始终都再那里，几乎不曾改变。一个人的幸福感来自于Reward的多少。很努力很努力地工作，在过程中不断的调整自己的参数，有时可能会牺牲掉当前的Reward,让自己暂时感觉很不舒服，但是到最后的Return或许会很多。所以，继续加油吧。RL虽然是一套算法，但同样也是一套生活的哲学。突然感觉世界都便清晰了呢。