POMDP基于点的近似求解方法研究任务书
2021-12-25 16:14:40
全文总字数:1892字
1. 毕业设计(论文)的内容、要求、设计方案、规划等
基于点的近似求解方法是求解部分可观察马尔可夫决策过程(pomdp)问题的一类有效算法,它能解决精确算法是np-hard的问题。
本课题的内容是研究探索信念点集合的过程的启发式策略,以探索的信念点集合模拟整个信念空间,通过在信念点集合上的贝尔曼迭代近似精确值迭代。
目的是在原有的算法上进行优化,从而保证收敛效率,并能收敛到更好的全局最优解。
2. 参考文献(不低于12篇)
[1] l.-j. lin,mitchell t. m.reinforcement learning with hidden states. proc. of the second int. conf. on simulation of adaptive behavior: from animals to animats . 1992
[2] michael l littman,nishkam ravi,eitan fenson,rich howard.an instance-based state representation for network repair. proceedings of the nineteenth national conference on artificial intelligence (aaai) . 2004
[3] cassandra a. r.exact and approximate algorithms for partially observable markov decision processes. . 1998