强化学习中探索策略优化算法设计【字数:24958】
目 录
第一章 绪论 1
1.1 研究背景及意义 1
1.2研究现状 2
1.3研究内容 3
1.4本章小结 4
第二章 基础理论概述 5
2.1强化学习 5
2.2 探索与利用 6
2.3 随机多臂街机模型 7
2.4 上下文街机模型 8
2.5 本章小结 9
第三章 随机多臂街机算法优化策略 10
3.1 随机多臂街机算法概述 10
3.1.1 εgreedy算法 10
3.1.2 Softmax算法 11
3.1.3 UCB算法 12
3.1.4 Thompson sampling算法 13
3.1.5 随机多臂街机算法比较 13
3.2评估动作 14
3.3 ASMBA算法设计 14
3.4 ASMBA算法实现 15
3.5 ASMBA算法分析 16
3. *51今日免费论文网|www.jxszl.com +Q: #351916072#
6 regret分析 16
3.7 本章小结 20
第四章 上下文街机算法优化策略 21
4.1 上下文街机算法概述 21
4.1.1 LinUCB算法 21
4.1.2 LinTS算法 22
4.1.3 其他上下文算法 23
4.2 相似度度量 23
4.3 ContextASMBA算法设计 24
4.4 ContextASMBA算法实现 25
4.5 ContextASMBA算法分析 26
4.6 本章小结 27
第五章 实验结果分析 28
5.1 实验数据集 28
5.1.1 随机数据集 28
5.1.2 Yahoo!R6A数据集 28
5.2 ASMBA算法实验 29
5.2.1 随机数据集实验 29
5.2.2 推荐系统 34
5.3 Contextual ASMBA算法实验 35
5.3.1 数据说明 35
5.3.2 相似度对比 36
5.3.3 探索策略比较 39
5.3.4 Yahoo!R6A数据集 40
5.4本章小结 45
第六章 总结与展望 46
6.1 总结 46
6.2 遇到的困难及解决方法 47
6.3 展望 47
6.4 工程伦理 48
参考文献 49
致谢 50第一章 绪论
1.1 研究背景及意义
机器学习(Machine learning)是一门涉及概率论、统计学、逼近论、凸分析和算法复杂度的多领域交叉学科,其通过研究计算机如何模拟或实现人类的学习行为,以获取新知识和技能,从而能从数据中识别出相应的模式,以实现在面对未知环境时做出准确的预测。“机器学习”这一术语最早由IBM的科学家亚瑟塞缪尔提出[1],已经成功地应用于计算机视觉、自动控制、计算机网络等领域。近年来,由于计算机硬件资源的不断更新和算法理论的不断进步,使得作为机器学习重要内容的深度多层神经网络得到了飞速的发展。深度学习利用大量的数据通过计算能力来模拟神经网络,从理论上来说,只要隐藏层有足够多的神经元,神经网络就可以模拟任何模型。然而,其需要大量样本来学习从输入到输出的一个映射模式。
强化学习(Reinforcement learning,RL)是机器学习中另一个重要领域,由统计学、控制理论等相关学科发展而来,目前已经在博弈论、智能控制和优化调度等领域内获得广泛关注。强化学习能通过智能体与环境进行交互来获取样本,并利用样本来学习长期的累积奖赏,最终通过最大化长期累积的奖赏来学习最优策略。与深度学习不同,强化学习能与环境交互式的学习,因此无需预先准备数据集。近年来,随着DeepMind开发的AlphaGo程序利用深度强化学习算法战胜李世石之后,强化学习算法吸引了更多学者的关注。如今,强化学习算法已经应用到模式识别、机器人[2]等领域。Minsky在1954年首次提出“强化学习”概念和术语[3],基本思想是智能体通过“试错”方式在环境中进行学习,强化学习主要用来解决智能决策问题。强化学习问题通常建模为马尔可夫决策过程,采用动态规划的思想,来求出最优解。深度强化学习算法是实现人工智能的另一种新兴方法,将深度学习与强化学习相结合,通过智能感知进行决策。
多臂街机(Multiarmed Bandit,MAB)问题是强化学习中研究平衡探索和利用问题的一种经典模型。当智能体在决策时根据已有的知识经验选择当前最优动作称为利用,而尝试选择其他动作称为探索。目前,MAB模型以及相应的探索算法已广泛地应用于各个领域,其典型的应用主要包括医疗临床试验,电商广告推荐、营销策略选择等,例如,在临床医疗试验场[4]景中,治疗方案对应于MAB模型中的各个动作,这些动作包含具有已知疗效的治疗方案,也包含未知的如新研制的治疗方案。在决策过程中,可以选择已有的具有最好治疗效果的方案(最优动作),也可以选择新研制的治疗方案(探索动作),长期的奖赏则是最小化患者的健康损失或者最大化患者的健康收益。根据大数定理,当样本趋于无穷时,每个治疗方案对应的长期奖赏对应了患者治疗健康收益的期望值。因此,具有最大的健康收益的动作则对应了最优的治疗方案。在实际中,当治疗方案的长期奖赏随着样本数的增加不再变化时,可以认为其近似收敛。微软的科学家介绍了使用强化学习技术的决策服务(Decision Service)系统[5],该系统已经应用于内容推荐和广告推荐系统中。MBA模型的的其他应用还包括如直复营销[6]、实时投标在线广告系统[7]和众包[8]等领域。
原文链接:http://www.jxszl.com/jsj/rjgc/83084.html