公司商业文案的分类判别研究开题报告
2021-12-12 14:15:08
1. 研究目的与意义及国内外研究现状
随着计算机技术和存储技术的飞速发展,人们面临越来越多的大数据问题,所面临的数据问题也越来越复杂,不仅仅有传统的数值型数据类型,还有例如在线新闻、博客、日志、商业文案等文本数据类型,如何对文本数据进行有效的分析研究具有重要的实际意义。本课题拟对商业文案数据进行判别分类,对于这类问题的解决和方案的提供具有重要的实际应用价值。
国内外研究现状
判别分析是重要的市场研究分析技术,也是多变量的分析技术。判别分析是对数据进行判别和分类的统计技术手段。它可以根据研究对象的已知信息,利用一定数量的个体的某个分类变量以及相应的其它多元变量,确定分类变量和其它多元变量之间的数量关系,建立适当的判别函数,用研究对象的大量资料确定判别函数中的待定系数,并计算判别指标。同时,利用这一数量关系对其他已知多元变量的信息进行判别分组,确定某一样本属于何类。
随着经济和科技的不断发展,数据的影响因素已经越来越多,高维数据甚至是超高维数据分析已经出现在科学、生物学、经济学、医学等各个领域当中,例如网络搜索时,用以分类的搜索语句有千万种;在基因组和代谢组中,影响因素有成百上千种;人脸识别系统中,不同的人脸体现出的特征也不同,影响因素也互不相同。对于高维数据问题的研究一直以来都备受关注,从传统的aic、bic准则、cv、gcv方法、最优子集的方法,发展到利用不同的惩罚函数进行变量选择的方法:frank等(1993)提出了brige惩罚;breiman提出nonnegative garotte方法来进行变量选择;antoniadis给出了hard thresholding惩罚函数进行变量选择;1996年tibshirani提出的lasso方法;fan和li(2001)提出scad方法,zou(2006)提出adaptive lasso方法;candes和tao(2007)提出dantzig selector方法等等。在超高维判别分析问题的研究中,为了提高预测的效果以及模型的解释性,多种特征筛选方法被提了出来:fan提出了双样本t检验法来进行筛选,并且证明了样本t检验法能够以接近1的概率保留所有重要变量;fan和song提出了基于logistic回归模型的最大边缘似然筛选,并且在一些假设条件下证明了它具有确定筛选性质;cui et al.(2014)基于条件分布函数和无条件分布函数的差异,也提出了一种模型自由的筛选方法,称之为mv;pan et al.针对多类别线性判别分析的问题,根据各类样本均值的差异,提出了一种成对准确独立筛选(psis)过程。huang et al.(2014)针对自变量是示性变量的超高维判别分析数据提出了以卡方检验为基础的pc-sis。
2. 研究的基本内容
本文选取巴西某公司的1080个文件的自由文本业务数据集,首先拟运用基于K-S统计量的Kolmogorov滤波法对巴西公司的不同的2类商业文案类别进行降维,再对降维后的新数据进行判别分析,找出不同类的分类标准。而该公司的商业文案实际并不仅仅只有2类,在面对更多类情况下,为了提高预测的准确性,拟利用M-F方法对多类文案进行降维,然后在进行判别分析,找出分类标准,并对未来不同文案的分类进行预测。
3. 实施方案、进度安排及预期效果
实行方案:
通过查阅书籍、期刊及网络上的一些共享资源,在老师、同学的帮助指导下,完成kolmogorov滤波法以及m-f方法对于高维数据的将为过程,并且运用r软件、sas统计软件等完成数据的处理,对研究对象进行分类,并进行预测
进度:
4. 参考文献
[1]何晓群,多元统计分析,中国人民大学出版社,2011.12;
[2]薛毅,陈丽萍,统计建模与r软件,清华大学出版社,2007,4;
[3]龚艳萍, 吴岳红,统计分析方法在市场调研前期的应用,中南大学 工商管理学院410083;