Search results
17 hours ago · MLP:FIM Imageboard - Post #3267624 - safe, ai content, derpibooru import, machine learning generated, fluttershy, pegasus, pony, g4, belly, big belly, female, image ...
17 hours ago · Q-Learning是一个决策过程,如何决策的?. 假设行为准则已经学习好:. 目前处于S1状态,将要选择接下来的a1、a2行为,并且已知a2的潜在奖励比a1高,可以用一个Q表来表示奖励。. 这样就可以:Q (S1,S2)现实=R+γ*maxQ (. little茜儿. 文章浏览阅读22次。. 目前处于S1状态 ...