基于网络爬虫的个性化推荐系统开题报告
2022-01-14 21:58:56
全文总字数:3421字
1. 研究目的与意义及国内外研究现状
知乎是国内最大的网络问答社区,连接各行各业的用户。这些用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。因此,知乎网站内的问答和专栏数据有着巨大的研究分析价值。显然,获取这些高质量数据无论是对于计算机领域内的人工智能的训练还是对于社会科学研究来说,都具有很大的意义。然而,依靠人工的力量来逐个获取知乎数据显然不现实,针对批量获取知乎网站数据的研究也并不多,与此同时,为了保护网站数据,知乎也大力加强了网站的反爬措施。基于此,本设计将利用一些高级网络爬虫技术,实现爬取这些高质量知乎数据的目的。
随着网络的普及,网络资源不断丰富,网络信息量不断膨胀,用户要在众多的选择中挑选出自己真正需要的信息好比大海捞针,出现了“信息过载”的情况。也就是说,社会信息超过了个人或系统所能接受、处理或有效利用的范围。个性化推荐系统的出现,是为了解决“信息过载”的问题,帮助用户从浩如烟海的数据中找到自己需要的信息,为用户提供个性化的使用体验。在本设计中,通过网络爬虫技术获取的海量信息已经让用户处于“信息过载”的状态,因此找到一种合适的个性化推荐算法是该设计必不可少的一个环节。
国内外研究现状
1、网络爬虫研究现状
2. 研究的基本内容
抓包分析知乎网站的请求格式,着重分析知乎采取的反爬措施,通过实例具体阐述目前各种爬虫手段在爬取知乎网站数据时遇到的困境,提出基于selenium和request的python网络爬虫技术并详细讲解技术细节,并展示利用该技术爬取知乎问答和专栏数据的方法。基于爬虫技术所获得的大量数据,通过一种基于用户的协同推荐算法,实现知乎数据的个性化推荐功能。随后提出一种衡量推荐算法准确性的评分机制来验证推荐结果的准确性。最终进行实验,与其他几种推荐算法做对比,分析该推荐算法的准确性与可靠性。最后利用Python TKinter,设计一个用户界面,以展示研究成果。
3. 实施方案、进度安排及预期效果
2019-1-01-2019-1-19:确定论文方向,写出开题报告
2019-1-22-2019-1-26:实习准备工作,搜集相关资料
2019-1-29-2019-2-04:完成论文第一章。
4. 参考文献
[1]周军锋, 汤显, 郭景峰. 一种优化的协同过滤推荐算法[j]. 计算机研究与发展, 2004, 41(10).
[2]王茜, 王均波. 一种改进的协同过滤推荐算法[j].计算机科学, 2010, 37(6):226-228243.
[3]杜彬. 基于selenium的定向网络爬虫设计与实现[j]. 金融科技时代, 2016(7):35-39.