"景先生毕设|www.jxszl.com

决策树算法的电信客户流失与挽留方案设计与实现(源码)【字数:8358】

2023-07-17 21:57编辑: www.jxszl.com景先生毕设
摘 要随着互联网业务的迅速发展,移动电信业务市场的客户流失情况成为每一个电信运营商重点关注的内容,在机器学习与商务智能快速发展的现在,运用数据挖掘的方法,实现对电信客户的挽留、转化、精准营销越来越体现出它的商业价值。怎样高程度地挽留在网用户和吸引新客户,成为电信企业最重视的问题之一。竞争对手的促销行为、公司资费软着陆措施的出台和政策法规的不断变化,影响了客户消费观念和行为,使得客户流失的特征在不断发生变化。对于电信运营商而言,客户流失会给电信企业带来很多问题。在发展用户每月增多的同时,挽留和吸取更多的用户,是一项非常重要的工作。使用机器算法来构建电信客户流失预测模型至少已经有二十多年的历史。 研究主要围绕客户流失特征提取与选择、算法的选择与优化、算法的计算效率和实时性提升来开展。对流失客户的网络社会关系特征进行了研究,决策树和随机森林来构建电信客户流失预测模型,实验都取得不错的效果。但是我们也看到,这些实验主要是基于小样本数据、采用传统数据挖掘工具和技术来实现的,当面临海量数据挖掘时,都存在性能上的瓶颈,因而在商用时存在问题。Spark是基于内存的并行计算框架开源项目,它在云计算大数据方面有着无与伦比的优势,因此本课题拟采用Spark MLlib,分别采用决策树(单棵树)和随机森林算法(多棵树)来构建电信客户流失预测模型,并对这两种算法性能进行比较。
目 录
第一章 绪论
1.1研究的背景及意义 1
1.2研究现状 1
1.2.1客户流失预测 1
1.2.2数据挖掘算法并行化 3
1.3研究的目标及内容 3
1.4.本文章节安排 3
第二章 相关知识与技术
2.1决策树C5.0算法 5
2.2随机森林算法 5
2.3大数据的相关技术 5
2.3.1Spark概念 5
2.3.2Spark原理机制 6
2.4本章小结 7
第三章 Spark MLlib RandomForest(随机森林)建模与预测
3.1处理数据 8
3.2本章小结 11
第四章 客户流失预测方案
4.1实验环 *51今日免费论文网|www.jxszl.com +Q: ^351916072
境 12
4.2数据结构查看与初步分析 13
4.3流失预测与模型评价 14
4.4客户挽留方案 16
4.5本章小结 17
第五章 总结和展望
5.1全文总结 18
5.2对本研究的展望 18
致 谢 19
参考文献 19
第一章 绪论
1.1研究的背景及意义
数据挖掘技术经过几十年的发展,已经包含了关联分析、聚类分析、分类等各个方面,分类是数据挖掘技术中极为重要的一方面,应用广泛,而在电信行业,客户流失预测就是一个典型的分类应用。客户流失预测是基于客户历史数据的基础上,对已流失的客户进行分析,找出这些流失客户的行为特征,用于分析现有客户中哪些是在未来可能会流失的客户,然后采取相应的挽救措施,从而减少客户流失[1]。
自从大数据时代到来,其数据量巨大、数据价值大但价值密度低的特点使得传统数据挖掘技术的弊端越发明显,即只能处理少量数据,当数据量巨大时,其效率十分低下,有时甚至无法完成数据挖掘任务。在电信行业中,电信运营商中保存着大量的客户数据,传统的数据挖掘方法不足以对这些数据进行处理,如何有效地分析处理大量数据是急需解决的问题。以Apache开源项目Hadoop为核心的云计算是一个好办法,其MapReduce的设计思想带来了巨大变革,提供了大数据挖掘的新的处理平台。但是,Hadoop也存在不少问题,这就急需一个新的大数据处理平台出现。分布式内存计算平台Spark就应运而生。Spark由美国加州大学伯克利分校AMP实验室开发,以其高性能而闻名,受到广泛关注,成为Apache的顶级项目。Spark平台支持批处理、流处理和图计算等多种范式,很适合进行迭代式计算和交互式数据分析。
本文以《电信客户流失与挽留》项目为基础,设计和实现了基于 Spark 平台的决策树C5.0算法和随机森林算法的并行化从而从而解决传统计算模式下,对海量数据处理缓慢和效率不高的问题。
1.2研究现状
1.2.1客户流失预测
市场经济的特性导致企业之间的竞争愈发激烈,对于企业来说,已经不存在绝对忠实的客户,客户离开原本为其服务的公司的行为称为客户流失。电信行业中客户流失的原因可以分为主动流失和被动流失。
第一种就是客户自己主动放弃现有服务提供商,转向其他服务商;
第二种是由于客户原因,如恶意欠费等,服务商停止给该客户的服务。
研究数据表明,发展一个新用户的成本是挽留一个老用户的五到七倍,并且老用户能带来远超新用户的利润,因此电信运营商要想提高经济效益,就必须在发展新客户的同时,尽可能减少老客户的流失。而要想减少老用户的流失,就需要对其进行流失预测,找出潜在流失的客户,然后针对这些客户采取相应的挽留措施[2]。
表11 客户流失预测方法
方法名
代表
二元标识法
决策树算法、贝叶斯算法、关联规则算法、逻辑回归等
生命周期法
Cox 模型、Compertz 曲线
客户流失预测的方法主要有两种:第一种是二元标识法,即将流失作为客户类别标识,分析预测客户属于哪一类,主要是利用决策树等分类算法;第二种是生命周期法, 即分析客户剩余生存期,主要是利用 Cox模型等。两种流失预测方法分类如表11所示。桂洁等人研究了客户流失预测的主要技术,并分析了各种技术的优缺点,包括决策树,神经网络等。国外的 Louis、Rosset、Nash等人把客户流失预测作为分类问题进行研究,分别采用了逻辑回归、决策树、贝叶斯建立客户流失预测模型[3]。 1.2.2数据挖掘算法并行化
海量数据环境下,数据挖掘的关键问题就是数据挖掘算法的并行化,但是传统的并行方法,如 MPI,PVM等,它们并行效率低且编程复杂,因而没有广泛的运用在数据挖掘算法的并行化上。之后,随着 MapReduce 计算模型的出现,结合分布式计算平台实现数据挖掘算法并行化成为研究的主要方向。
在分布式平台发展初期,基于 MapReduce和GFS设计的开源分布式计算平台Hadoop 成为众多学者进行数据挖掘算法并行化研究的首选.然而,Hadoop诸如作业延时过长、中间结果不可见、迭代计算不友好等缺点愈发满足不了大数据环境下数据挖掘的需求,因而出现了一个新的分布式计算平台—Spark, 学者们也开始转向研究基于 Spark 平台的数据挖掘算法的并行化,得到了众多的研究成果[4]。

原文链接:http://www.jxszl.com/jsj/rjgc/444796.html