基于文本挖掘的个性化推荐算法的设计与实现文献综述

2020-04-14 19:48:19

1．目的及意义

1.1 研究目的

互联网用户在今天的信息过剩中开始面临着一个问题，那就是他们可能没有充分意识到如何描述他们的需求。一旦用户无法提供准确的搜索关键字，通过用户给定的关键词来实现信息查询和检索的搜索引擎也无能为力。而推荐系统的出现正好弥补了搜索引擎在这方面的不足。搜索引擎在使用时必须给出特定的关键词，推荐系统不必如此。它可以利用用户历史所产生的行为，分析这些行为的规则，同时建立相应的模型，以便根据历史需要预测未来的需求。

简而言之，推荐系统使过去被动地等待用户关键词进行信息检索，转变为分析用户行为、预测用户需求、主动为用户提供推荐。搜索引擎的存在是为了满足不同用户独特的搜索需求，推荐系统就是在用户并不主动参与的情况下挖掘用户潜在的需求。电子商务网站一般都有用户评论的功能，为用户提供了一个反馈购物体验的直接平台。人们开始使用在线评论文本来表达自己的观点和情感。消费者的文本评论信息包含了很多用户最直接的观点，对生产厂商、商家和其他消费者都具有重要的参考价值。例如，通过浏览对比各种商品评论信息，用户可以参考商品销量或服务水平、产品本身质量和售后经验等信息。这些可以帮助客户确定货物的总体情况是否符合自己的要求，并进一步决定是否购买此类物品。

评论信息已成为消费者制定商品购买决策的重要信息来源，且对消费者的商品购买决策影响非常显著[1]，具体地，大多数消费者往往会通过综合其它消费者给出的大量在线评论信息，来对所关注产品或服务质量进行排序，进而做出商品购买决策。然而，由于在线评论信息的快速累积，信息内容越发庞杂，信息形式越发半结构化或非结构化，令消费者在使用这些信息进行商品购买决策时面临前所未有的挑战[2]。尤其是在一些购物中心的电子商务网站中，评论文本作为最常见的评论信息载体，人们对它的依赖甚至远远超过了对产品本身的信息描述。因此，大量评论的出现也促进了在推荐领域中进行文本处理的研究。如何快速、准确地从评论文本中提取有用信息逐渐成为研究热点。

若是通过对在线评论数据的研究，将其应用到个性化推荐系统中，可以使推荐结果更贴近用户的实际需求。评论信息的应用非常普遍，最重要的领域是电子商务网站。因为在这种网站涉及的产品中，人们在购物决策时更愿意参考其他用户购物后的评分和评论信息。同样，人们也愿意对他们购买的产品进行评论，这样使得产品评论更为丰富，这些评论直接反映用户的喜好和兴趣。用户浏览这种网站时，通常会阅读评论信息。如果网站能够分析和处理这些评论，首先得到目标用户可能感兴趣的产品列表。它不仅可以增加产品的出现的概率，提高网站产品的销售量，而且迅速准确的找到用户喜欢的产品，这无形中提高了用户的消费体验。个性化推荐的研究始于 20 世纪 90 年代，主要是通过数据挖掘和机器学习来推荐目标用户感兴趣的产品。在个性化推荐的普及之初，它主要应用于购物网站等等领域。

个性化推荐系统的研究无论在理论上还是实际上都有较为重要的意义：（1）理论意义个性化推荐技术集成了多个领域的知识和先进的技术，在学术领域具有重要的地位。它涉及到科学研究的领域非常广泛，包括互联网、云计算、数据挖掘、模式识别等，个性化推荐的研究不仅拓宽了在各个领域的理论研究，而且综合应用各学科知识，加快和促进学科之间相互影响[3]。（2）实际意义首先，与传统的推荐方法相比，个性化推荐通过挖掘用户兴趣，更快更准确地找到用户兴趣，然后为用户推荐适合的产品，符合当前消费者的需求。其次，现在通过互联网销售的产品数量非常大，消费者在决定购买前不仅满足于商家提供的信息，而且增加了评论信息，可以弥补传统研究方法的不足。最后，由于个性化推荐技术的研究相对较晚，其发展还不成熟，应用范围还比较有限。本文对实验数据进行文本预处理，产品属性信息和评论信息向量量化、提取评论文本主题及关键词特征，计算不同产品之间的相似度，分析用户历史兴趣偏好，对目标用户进行推荐，同时也考虑到产品的冷启动问题，有助于对个性化推荐系统领域的深入研究。

1.2评论文本挖掘相关研究

文本挖掘(TextMining)，文本数据挖掘又称文本知识发现(KnowledgeDiscovery in Texts)涵盖多种技术，涉及信息抽取、信息检索、自然语言处理和数据挖掘技术。其基本思想是首先利用文本切分技术，抽取文本特征，将文本数据转化为能描述文本内容的结构化数据，然后利用聚类，分类技术和关联分析等数据挖掘技术，形成结构化文本，并根据该结构发现新的知识和获取相应的关系。国外，Feldman[4]在 1995 年正式提出文本挖掘的概念。由于汉语语言的一词多义以及语法的复杂性，中文文本挖掘发展相对比较缓慢。刘海峰等[5]针对特征项在文本中的分布差异，有效利用特征项的频数信息，引进了特征项的频数因子和分布因子，对特征提取互信息法(MI)进行了改进；阮光册和夏磊[6]采用基于关联规则算法，通过对支持度和置信度系数的调控探索文本中主题的关联关系，进而对文本知识进行更深层的挖掘；杜芳华等[7]提出了一种基于特征映射的半监督文本分类算法，用以解决己标记数据与未标记数据分布不一致可能导致半监督分类器性能降低的问题。王鹏等[8]将 Gibbs 算法引入 LDA 模型的构建，采用 JS 距离作为衡量文本相似性的指标，再使用层次聚类法进行最终的文本聚类。黄仁和张卫等[9]提出了基于 word2vec 商品评论情感分析新方法，通过词向量计算语义相似度，建立情感词典，对测试文本进行情感分类，并验证该方法在互联网商品评论中的有效性和准确性。丁乃鹏和汪勇慧[10]使用文本挖掘技术对亚马逊中国网站中的热销手机评论的有用性进行了评估。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码