社交网络中文本特征提取方法研究开题报告
2022-01-09 22:27:23
全文总字数:4376字
1. 研究目的与意义及国内外研究现状
至2018年,互联网的发展历程已经经历了几十年,但是这几十年的发展给各个地方带来了许多的变化。这些变化使得人们交流便利,人与人之间的距离越来越近。中国移动互联网的市场总体规模也在不断增大。
如今,各种电子商务、区块链、人工智能如火如荼。而其中仍然社交网络呈现出一种爆炸式的火热,如国内的微博、国外的twitter。这些类似微博客类的应用使得信息传播十分方便,同时里面还包含了大量的视频信息,使得文本信息内容更加丰富多彩。
电子商务、社交网络平台(如微博、twitter、facebook)、搜索引擎,这些主体具有许多的文本数据。其中,电子商务平台具有大量商品的信息,对商品的评价、具体信息描述。社交网络平台(如微博、twitter、facebook)上具有大量的评论信息,与电子商务商品信息不同的是,这些信息往往具有较短内容。所有的这类信息我们把之成为社交网络文本。
2. 研究的基本内容
在互信息特性选择函数方面,具体描述了其面对文本的处理流程、缺点以及优化的改进。
针对其在没有很好平衡正负相关特征方面的弱势,引入一种平衡权重属性因子和特征差异因子弥补其不足。
3. 实施方案、进度安排及预期效果
2018.2.1-2018.3.1 研究
2018.3.1-2018.4.1 编写算法
2018.4.1-2018.5.1 论文编写
4. 参考文献
[1]段会川. 高斯核函数支持向量分类机超级参数有效范围研究[D].山东师范大学,2012. [2]Lanjuan Zhu.MULTI-AGENT APPROACH FOR DISTRIBUTED FLEXIBLEMANUFACTURING SYSTEMS[J].Journal of Shanghai JiaotongUniversity,1998(02):78-82. [3]张月杰,姚天顺.英汉机译中基于相似性与猜测规则识别未登录词[J].东北大学学报,1998(06):83-86. [4] 邹涛,孙赛.文档自动分类技术及其实现[J].计算机系统应用,1999(04):37-38. [5] 黄萱菁,吴立德,石崎洋之,徐国伟.独立于语种的文本分类方法[J].中文信息学报,2000(06):1-7. [6]张剑,屈丹,李真.基于词向量特征的循环神经网络语言模型[J].模式识别与人工智能,2015,28(04):299-305. [7] 崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(02):299-302 368. [8]马海兵,毕久阳,郭新顺.文本分类方法在网络舆情分析系统中的应用研究[J].情报科学,2015,33(05):97-101. [9] 杨丽华,戴齐,郭艳军.KNN文本分类算法研究[J].微计算机信息,2006(21):269-270 185. [10] 杨创新. 基于机器学习的高性能中文文本分类研究[D].华南理工大学,2009. [11] 王爱平,徐晓艳,国玮玮,李仿华.基于改进KNN算法的中文文本分类方法[J].微型机与应用,2011,30(18):8-10 13. [12] 陆正球,王麟阁,周春良.基于贝叶斯算法的中文文本分类器设计与实现[J].信息与电脑(理论版),2018(05):59-61. [13] Chiu Yu-Chin,Esterman Michael, Han Yuefeng et al.. Decoding task-based attentionalmodulation during face categorization.[J]. Journal of Cognitive Neuroscience(Online), 2010, 23(5). [14] 武建军,李昌兵.基于互信息的加权朴素贝叶斯文本分类算法[J].计算机系统应用,2017,26(07):178-182. [15] K Qiaowei Jiang. DEEP FEATURE WEIGHTING INNAIVE BAYES FOR CHINESE TEXT CLASSIFICATION[A]. IEEE Beijing Section、(Chinese Association for Artificial Intelligence).Proceedings of 2016 4th IEEE InternationalConference on Cloud Computing and Intelligence Systems(IEEE CCIS2016)[C].IEEEBeijing Section、(Chinese Association for ArtificialIntelligence):,2016:5. [16] MitatPoyraz,Zeynep Hilal Kilimci,Murat Can Ganiz.Higher-Order Smoothing: A NovelSemantic Smoothing Method for Text Classification[J].Journal of Computer Science Technology,2014,29(03):376-391. [17] 成卫青,唐旋.一种基于改进互信息和信息熵的文本特征选择方法[J].南京邮电大学学报(自然科学版),2013,33(05):63-68.
[18] 刘健,张维明.基于互信息的文本特征选择方法研究与改进[J].计算机工程与应用,2008(10):135-137. [19] 成卫青,唐旋.一种基于改进互信息和信息熵的文本特征选择方法[J].南京邮电大学学报(自然科学版),2013,33(05):63-68. [20] 伍建军,康耀红.基于改进的互信息特征选择的文本分类[J].计算机应用,2006(S2):172-173. [21] 成卫青,唐旋.一种基于改进互信息和信息熵的文本特征选择方法[J].南京邮电大学学报(自然科学版),2013,33(05):63-68. [22] 范小丽,刘晓霞.文本分类中互信息特征选择方法的研究[J].计算机应用,2010,46(34):123-125. [23] 刘海峰,陈琦,张以皓.一种基于互信息的改进文本特征选择[J].计算机应用,2012,48(25):1-4 97. |