"景先生毕设|www.jxszl.com

协同过滤的电视产品营销推荐【字数:10533】

2022-11-15 22:33编辑: www.jxszl.com景先生毕设
近年来随着互联网的广泛应用,科学技术的迅猛发展,改革开放的进一步深化,在这种社会背景下,“数据”已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。本文研究两个问题1、利用数据挖掘,分析用户的收视偏好,给出对节目的营销推荐方案。2、通过利用所给的用户数据,用户的对收视偏好进行分类(用户标签),并对产品打包(产品标签),并给出营销推荐方案。不是所有的事情都必须知道现象背后的原因,而是要让数据自己“发声”,即不是因果关系,而是相关关系。因此,对电视节目的营销推荐方案需要借鉴观众的偏好,了解家庭的主流需求。针对问题一,首先,我们先将样本数据中观看时间不足5分钟的无效数据剔除,得到用户对每个频道的观看时长和观看频率。用基于用户的协同过滤算法(userCF),计算用户的相似度矩阵;接着我们根据用户的点播信息,计算出点播电视节目的金额占比,观看时间和点播频率,用基于物品的协同过滤算法(itemCF)得出节目的相似度矩阵。接着我们利用KNN算法,将用户的相似度与用户的历史观看记录加以比较,再根据物品的相似度,从而得到推荐表。针对问题二,我们现根据用户的收视偏好,按一定收视偏好进行用户画像;接着我们借鉴爱奇艺(https://www.iqiyi.com/)以及豆瓣(https://www.douban.com/)的标签,得到产品数据标签。
目录
1 问题背景与挖掘目标
2 国内外研究现状
3 问题分析
4分析方法及过程
4.1 模型假设
4.2 总体流程图
4.3 数据预处理
4.3.1 数据分析与筛选
4.3.2 数据获取
4.4 算法设计
4.4.1协同过滤算法
4.4.2 KNN分类算法
4.5 基于协同过滤算法的数据处理
4.5.1 产品标签
4.5.2 用户画像
4.5.3 用户推荐方案
5 冷启动问题
5.1 冷启动问题的产生原因
5.2 冷启动问题的研究现状
5.2.1 不考虑冷启动的策略

 *景先生毕设|www.jxszl.com +Q: ^351916072
/> 5.2.2 考虑冷启动问题的策略
5.3 基于本题的冷启动问题的设想
6 结果分析
7 结论
8 参考文献
1.问题背景与挖掘目标
在互联网发展到今天的这个时代,各种数据呈膨胀式增长,人类社会进入了大数据时代。当今社会,互联网无论从医疗、购物、查找信息等等方面都极大地方便了人们的生活。互联网在带给我们便利的同时,还带来了这样一个问题:数据处理。每个人使用互联网都会留下许多条数据,合理地运用这些数据,那么定会推动我们社会的发展;但是倘若处理不当,那它就变成了大量的流量垃圾,这是让人很头疼的问题。而推荐系统则是利用数据,方便我们生活的一个重要的例子。那么,我们该如何在海量数据中得到对我们有价值的数据,就成为了当今大数据时代最重大的问题之一。
协同过滤 (Collaborative Filtering)【1】是当今推荐系统中应用最为广泛且最为成熟的一个算法系类。他的优点很明显,可以利用用户的相似度来划分兴趣相投的物品,从而推荐使用者感兴趣的资讯。有优点就必然存在缺点,他太过依赖对用户的行为的分析,导致他捕捉新资讯、推荐新鲜事物的能力较差(即Item的冷启动【2】问题)。
三网融合(因特网、电信网、广播电视网)已经成为当今世界媒体传播的主要方式,如此广播电视公司可以与众多家庭用户实现实时交互,得到的数据可以用来做分析,使得公司产品更加人性化,从而达到增大销售量和传播力度的目的。
本次研究的目标就是根据广播公司提供的数据,解决以下两个方面的问题:
产品的精准推荐。根据已有数据,利用数据挖掘的方法分析用户偏好,从而给用户精准推荐其喜欢的电视节目,给出电视产品营销推荐;
对相似偏好的用户通过用户画像标签并分类;对产品进行分类打包,并给出营销方案。
2.国内外研究现状
推荐系统在大数据的环境背景背景下,已经属于一项十分热门的研究。如何正确处理大数据问题已经成为了迫在眉睫的难题之一。
目前主要有以下四种推荐算法:基于内容的推荐算法[3]、协同过滤推荐算法、基于关联规则的推荐算法[4]和混合推荐[5]。
基于内容推荐即从研究内容中提取特征,根据特征中建立用户兴趣模型;这种推荐算法实现方法直接、直白,他不需要用户对内容的评分,也不需要研究人员对某一特定领域有特定理解;但是它对新用户没有办法进行推荐。
基于关联规则的推荐算法则是基于某一规则,根据商品之间的相关性,对用户进行推荐。打个比方,某一个用户在某网站上买了新手机,那么该网站就会推荐手机壳、手机膜给该用户。这是由于手机需要手机壳和手机膜的保护,他们之间存在相关性。但是此算法获取规则比较耗时,并且存在商品名同义的问题。
协同过滤算法是从网站后台对用户数据进行梳理(一般需要有用户评分的数据),对用户兴趣进行建模,并且将兴趣相似的用户进行分类,将兴趣相似的用户之间进行互相推荐。协同过滤算法的推荐个性化、自动化,对新兴趣的发现具有较好的发掘性,但是随着数据量的增大,对新用户的推荐就变得越来越困难。
而混合推荐则是将多种推荐算法糅合在一起,扬长避短。
基于当前的研究成果,协同过滤算法存在以下几个问题:
(1)冷启动问题。这种问题一般是由于缺乏某个关键性特征而无法进行推荐,一般出现在新的用户或者商品进入系统的时候;
(2)兴趣迁移问题。当今时代是一个快消费时代,每个一段时间都会出现一个新的热点。于是用户就会出现兴趣的突然转变的现象;
(3)可扩展性。随着数据量的扩展,推荐系统的推荐准确性一般都会降低,这就要求系统最好要有较强的可扩展性。
3.问题分析
针对第一个问题,通过观察可知,附件一中第一、二个文件是用户的频道数据,第三、四个文件是用户的点播节目信息。
(1)我们可以将第一、二个文件中的观看时间进行处理,得到观看时间长度以及频率,再利用基于用户的协同过滤算法(userCF)得到用户的相似度矩阵,将相似用户划分到一起;
(2)根据表三、表四,对点播金额以及观看时间进行加权,然后采用基于物品的协同过滤率算法(ItemCF)得到节目的相似度矩阵;
(3)根据节目相似度得到点播节目的推荐表;根据用户相似度得到不点播节目的推荐表。
针对第二个问题,我们可以看出附件二是电视产品的信息数据,附件三是用户的信息数据。
根据附件二,构建节目的标签体系,为产品贴上标签;
(2)根据附件三的用户信息,根据用户的入网时间,得到用户的新老用户标签;
(3)结合附件一,将用户的观看时间进行排序,观看时间最长的时间便用户的时间偏好,倘若用户观看时间差别都不大,则为无明显时间偏好用户;然后我们将用户观看节目类型的时间进行汇总排序,便可以得到用户的类型偏好,若用户观看各种类型节目的时间都差不多,则为无明显类型偏好用户。

原文链接:http://www.jxszl.com/jsj/jsjkxyjs/81776.html