考虑顺序信息的Web推荐系统外文翻译资料
2021-12-21 22:29:45
英语原文共 10 页
考虑顺序信息的Web推荐系统
摘要
随着信息技术的快速发展,当前时代正在呈现出指数式的增长生成和收集Web数据。向合适的人投射正确的信息正变得越来越多日复一日艰难,这反过来又增加了决策过程的复杂性。推荐系统是解决这个问题的智能系统。它们被广泛用于电子商务网站推荐产品给用户。大多数流行的推荐系统仅考虑内容信息用户并忽略顺序信息。顺序信息还提供有关行为的有用见解用户我们开发了一种新颖的系统,可以考虑Web导航中存在的顺序信息模式,以及内容信息。我们还在群集期间考虑软群集,这有助于捕捉用户的多重利益。所提出的系统利用了相似性上近似和奇异值分解(SVD),用于为用户生成建议。我们测试了我们的方法在三个数据集上,MSNBC基准数据集,模拟数据集和CTI数据集。我们比较了我们的方法使用一阶马尔可夫模型以及随机预测模型。结果验证了我们做法的可行性。
介绍
数据的大规模数字化和可负担得起的处理能力促使组织从传统的大规模生产世界转向其产品的新定制世界。电子商务平台的发展使公司能够为客户提供更多选择。决策支持系统需要收集大量数据,处理数据并将其投影给管理人员以支持定制。推荐系统是一个决策支持系统,可以根据客户的需求为客户提供所需的信息。电子商务组织使用推荐系统向其客户推荐产品。可以推荐产品,基于网站上的畅销商,客户的人口统计数据,客户过去购买行为的分析等。推荐系统通过探索他们的要求和喜欢为用户生成建议。它们生成不同的推荐以适应不同的用户,从而为用户提供定制的接口。因此,使用推荐系统为每个用户个性化web推荐。目前,大多数电子商务组织已在后端启用推荐系统,向用户提供Web推荐。
已经使用数据挖掘技术,启发式开发了推荐系统,并找到了项目之间的关联模式。 流行的推荐系统的例子包括用于书籍,CD和各种其他产品的Amazon.com ,用于电影的电影镜头,用于新闻的VERSIFI ,用于网络上用户的相关信息的PHOAKS系统和Jester 笑话系统。
1.1动机和问题定义
随着技术和网络的快速发展,数字数据的生成和积累变得更加容易。来自机器学习,模式识别和统计等不同领域的技术进步使得从数据中挖掘和展开有趣和未知模式成为可能。
Web数据以各种格式存在,例如URL访问,网页内容以及页面的传入和传出超链接。 基于被分析或挖掘的数据,Web挖掘可以分为三个不同的类别,即Web使用挖掘,Web内容挖掘和Web结构挖掘。Web内容挖掘是将数据挖掘技术应用于Web上发布的内容。 Web结构挖掘在Web的超链接结构上运行。Web使用挖掘从用户的使用数据中获取新颖,隐含和有用的模式。
Web推荐系统是分析用户在网络上的行为并根据他们的偏好生成推荐的重要且流行的工具。 它通过按照自己的偏好自动化建议,支持组织根据客户的需求进行智能决策。因此,它可以作为组织的决策支持系统。
向他的网页用户展示他最有可能的下一页访问是一个有趣且具有挑战性的问题。考虑在ebay.com等在线大型商店网站注册的网络用户。在他的会议访问中,他浏览过娱乐,书籍,电子产品,鞋类等网页。作为商店经理,将提前向网络用户提供他/她可能在他/她当前会话中访问的几个网页的集合是一个有趣的问题。因此,提供对下一个或两个页面的推荐的任何系统可以有助于将期望的产品或类别投影给用户。期望的产品/类别将有更多的可能性被购买,这反过来可以提高任何在线电子商务公司的预期利润。
在构建推荐系统时,会忽略用户会话的顺序方面。在设计网络推荐系统时,已经通过诸如马尔可夫模型的概率模型考虑了网络用户会话的顺序方面。然而,概率模型的问题是网络类别之间的切换概率应该是先验已知的,并且可能需要领域专家的知识和经验。即使有域专家可用,对状态(网络类别/页面)之间的确切概率的估计也是一个悬而未决的问题,并且不容易解决。
推荐系统是一种决策支持系统,旨在发现用户偏好,并研究它们以预测他们的需求。他们根据客户在特定领域的品味向客户提供建议。形式上,在推荐框架中,存在大量(n)个项目或产品P = {P1,P2,P3,...,Pn},它们由一组k个属性或特征描述,F = {F1,F2,F3,...,FK}。每个产品都由功能集中的一个或多个功能定义。还有一大组m个用户,U = {U1,U2,U3,...,Um},并且对于每个用户,在数据库中维护一组关于观察到的产品质量的评级。现在,我们正式定义问题如下:对于新用户p,系统的任务是生成下一页页面访问集,基于数据库U中可用的类似配置文件的Web页面访问。在预测时,系统应该还要考虑网页访问顺序。
推荐系统的设计可以被视为聚类和分类任务的组合。在本文中,我们提出了使用相似性上近似技术(用于聚类Web用户会话)和奇异值分解(用于预测下一个网页访问)算法的组合来设计推荐系统的框架。为了捕获数据的顺序性属性,我们在执行聚类任务时使用了S3M相似性度量。
1.2贡献和论文组织
在本文中,我们为考虑Web用户会话的顺序方面的Web用户设计了一个推荐系统。所提出的推荐系统与顺序模式挖掘算法不同。顺序挖掘算法提供序列中存在的模式。在我们的工作中,我们提出了一个系统,它考虑到网页使用模式中存在的顺序信息,为用户生成建议。
在我们提出的模型中,已经使用基于粗糙集的相似性上近似聚类技术来生成重叠聚类。重叠的簇包含共同的元素,因此这些簇的边界变得柔软。期望软群集,因为它们捕获用户的多个兴趣。它们允许任何用户被分为多个类别。
我们已经进行了实验以验证我们的推荐系统的结果。我们已经使用了三个数据集进行实验,MSNBC数据集,模拟数据集和CTI数据集。我们已经评估了我们的推荐系统在这三个数据集上的性能,并验证了我们的结果。一阶马尔可夫模型以及随机预测模型。
本文的其余部分安排如下; 第2节讨论了相关工作。第3节讨论了拟议系统的体系结构。第4节报告了实验结果和讨论,第5节给出了结论和未来工作。
相关工作
推荐系统的旅程始于Resnick等人的协同过滤研究论文。 ,Shardanand和Maes 和Hill等。推荐系统使用各种技术设计,包括k-NN,决策树,聚类,回归,启发式方法,神经网络和关联规则挖掘。
基于所使用的技术类型,推荐系统可以被分类为基于内容和基于协作的系统。基于内容的方法源于信息检索和信息过滤域。基于内容的推荐系统基于用户的过去偏好生成推荐。基于用户给出的类似项目的评级来计算任何用户的任何项目的评级。许多研究人员将其视为一种分类问题,其目标是学习一种预测文档所属类别(即喜欢或不喜欢)的函数。其他人将其视为回归问题,其目标是学习预测数值(即文档的评级)的函数。
协作系统与基于内容的系统不同,在某种意义上,它们首先为目标用户找到类似的用户,然后根据类似用户的偏好生成推荐。 在该方法中,通过找到用户之间的相关性来做出推荐。 协同过滤的主要目的是使用类似用户的评级来查找当前用户未看到的项目的评级。
GroupLens ,Video Recommender 和Ringo 是使用协同过滤算法进行自动预测的推荐系统的示例。基于协作的推荐系统可以进一步分为两类,基于存储器(基于启发式)和基于模型的协作系统。
基于存储器的系统基于用户的评级来计算用户之间的相似性。基于存储器的系统的算法是启发式,其基于用户预先评定的整个项目集合来进行推荐。基于模型的协作推荐系统使用各种数据挖掘和机器学习技术,基于用户的偏好生成系统的描述性模型。所使用的技术包括贝叶斯模型,聚类模型,潜在语义模型作为奇异值分解,概率潜在语义分析,多重乘数因子,潜在Dirichlet分配和基于马尔可夫决策过程的模型。基于构造的模型对新用户进行预测。库马尔等人使用简单的概率模型进行协同过滤。存在用于构建推荐系统的各种其他概率建模技术,可在文献中找到。
Zang等人提出了一种基于知识的推荐系统,该系统利用意见挖掘和粗糙集关联规则挖掘来从用户数据中找出产品属性之间的关联。 Castellano等人已经提出了一种使用模糊集和神经网络进行网络推荐的新系统。其他网页推荐系统也存在于文献中。为各种重要应用开发了决策支持系统,如股票投资和医学。 Shani等人提出了一个系统,将推荐过程视为一个连续的决策过程,并利用马尔可夫的决策过程来产生推荐。马尔可夫模型恰好是一个复杂的概率模型,广泛用于建模顺序事件。还使用包括序列模式分析在内的多种技术开发了几种混合推荐系统。大多数与设计具有顺序信息的推荐系统相关的工作都使用马尔可夫模型。
已经开发了顺序和关联模式挖掘算法以在数据中找到顺序模式。这些算法试图找到数据点中存在的项之间的关联。AprioriAll 和PrefixSpan 一直是查找序列模式的基本方法。嵌入在数据中的顺序信息是可以在各种应用中探索的重要方面。在这项工作中,已经开发了一种推荐系统,该系统探索数据中存在的顺序信息以产生推荐。
设计一个考虑顺序信息的推荐系统仍然是一个需要解决的重要问题。这种推荐系统将帮助电子商务网站开发一个能够捕获顺序信息的决策支持系统。在这项工作中,我们使用了S3M测量,该测量在聚类期间考虑访问的内容和顺序以形成用户组。用户可能属于多个类别。一个好的推荐系统应该能够在形成集群时捕获这些信息。为了捕获相同的信息,我们使用基于粗糙集的聚类使用相似性上近似。
所提出的模型使用聚类和分类技术的组合来生成考虑顺序信息的推荐。聚类技术帮助系统对类似的用户配置文件进行分组,并且分类器从类似用户学习模型以生成推荐。因此,所提出的推荐系统是基于协作模型的系统。
建议的推荐系统架构
通常,基于模式识别的推荐系统包括两个阶段;第一阶段是聚类,然后是分类任务。在第一阶段,系统具有足够的学习,使得系统的分类准确度非常高或处于期望的水平。在系统学习之后,它会生成一组具有适当排名的推荐。
在我们的系统中,我们首先形成了集群以获取有关Web用户的知识,并且稍后使用分类技术来增强学习能力并生成建议。Web用户可能具有多个兴趣,他需要将其放入多个集群中。因此,我们使用了基于相似性上近似的聚类算法。为了捕获用户的连续行为,我们在形成聚类时使用了S3M 相似性度量。软群集允许元素出现在多个群集中。这意味着数据点可以表示多个集群的属性。一旦聚类形成,我们利用奇异值分解来对Web用户会话进行分类。在图1中,我们概述了系统的一般架构。第一步是通过Web日志收集Web数据。收集Web日志后,完成预处理,然后进行聚类阶段。在聚类模块中,每个序列被视为数据点,并且使用基于粗糙集的聚类算法将所有点聚类成若干组,该聚类算法生成允许用户的多种兴趣的软聚类。在群集之后,对于必须生成任何新用户,可以根据用户和群集中心之间的相似性来识别TopMclusters。使用topMclusters创建responsematrix。第3.2节介绍了创建响应矩阵的详细信息。在构造响应矩阵之后,创建了一个权重向量,该向量已经使用奇异值分解来填充。第3.3节说明了这一步骤。将生成的预测与数据集(测试数据集)的原始值进行比较,以评估预测的准确性。所提出的系统的详细说明见第3.1,3.2和3.3节。
Fig. . 建议的推荐系统
评估结果
生成下一个状态的预测
使用SVD打破矩阵
构建权重向量
根据前M个集群生成回应矩阵
为新用户找到前M个集群
生成集群(软集群)
将类别/页面转换为数字序列
查询用户点击流数据
识别用户
网络日志数据
3.1 web用户会话集群
使用聚类算法基于相似性度量对用户进行分组。我们已经使用基于粗糙集的聚类算法进行聚类。基于用户之间存在的相似性来执行聚类。相似度量用于估计对象之间的相似性。基于内容的相似性度量估计用户之间的内容相似度,而序列相似性度量估计用户之间的序列相Jaccard和Dice相似性度量是基于内容的相似性度量的示例,而Levensthein距离,最长公共子序列(LCS)和汉明距离是基于序列的相似性/距离度量的示例。基于内容和序列的相似性度量的组合导致混合相似性度量,其捕获用户之间存在的内容和序列相似性。在我们的工作中,我们在聚类期间使用了混合相似性度量,因此在聚类期间考虑内容相似性和序列相似性。 S3M 是相似性度量,其是Jaccard相似性度量和序列相似性度量的线性组合,其通过最长公共子序列(LLCS)的长度来测量。我们利用粗糙集理论的相似性上近似来得出增量软簇。
让UN成为Web用户会话(表示Universe集)的集合,以及包含n个用户会话的非空集合,表示为{x1,x2,x3,...,xn}。每个用户会话包括网页访问。让D是相似性矩阵 ij =mu;(xi,xj),表示web用户会话xi和xj之间的相似性。使用S3M测量计算两个Web用户会话之间的相似性。S3M度量在计算Web用户会话之间的相似性时考虑信息的内容和顺序(序列)。一旦计算出相似度矩阵,就使用相似性上近似形成初始聚类集。
从如此形成的所生成的簇族集合中,如果两个集合A和B相等(其中集合A和集合B是几个生成集合中的两个集合),则将仅取一个集合。此外,如果集合A是集合B的适当子集,则仅考虑集合B.因此,仅考虑形成的集群族集合中的唯一且适当的超集,生成具有减小的大小的新集合族。
但是,由于不同集合中的公共元素,集群集可能是伪分区。为了进行自然分组,有必要对宇宙进行分区。在这样的分区中,元素应该只在一个分区中。
在形成聚类之后,由于第一相似性上近似,网络用户会话将是多于一个组的成员。这些对象被称为模糊对象。这些模糊对象的集合形成了软簇。集合的较低近似值是肯定属于集群的Web用户的集合。
我们已经概述了使用相似性上近似法从顺序数据形成聚类的算法,如下所示:
这里介绍了使用的聚类技术。 为了解释这种方法,考虑从MSNBC数据集中获取的10web用户导航模式(S1,S2,S3,
资料编号:[4027]