基于预测模型的红酒品质分析文献综述
2020-04-15 16:52:28
对于如何品鉴红酒,有经验的人会说,红酒最重要的是口感,但是口感的好坏受很多因素的影响,例如年份、产地、气候、酿造的工艺等等。但是,统计学家并没有时间去品尝各种各样的红酒,他们觉得通过一些化学属性特征就能很好的判断红酒的品质了。并且,现在很多酿酒企业其实也都这么干了,通过监测红酒中化学成分的含量,从而控制红酒的品质和口感。
另外,由于国内外葡萄种植面积基本趋于稳定,葡萄酒产量缓慢上升,消费量也呈持续增长态势,但由于红酒品质发展参差不齐,而且整个红酒品质却远远落后于整个市场的发展,缺乏科学客观的葡萄酒品质鉴定手段。但是随着时间的发展以及葡萄酒市场发展的越来越大,科学技术也发展的越来越好,这些条件已经为葡萄酒品质鉴定提供了新的可能,更加科学客观的手段应运而生。首先是在硬件设备方面,效液相色谱仪、紫外分光度设计、气相色谱仪、质谱仪乃至超高压液相串联四级杆质谱仪的出现,都为葡萄酒提供了完善的物化性质测定手段。而同时,随着信息技术的发展,大数据观念也将深入人心,数据挖掘方法开始趋向于完善,无论是聚类,分类,已广泛应用于社会各领域,尤其是分类手段,更是丰富,并且在分类评价中得到了广泛的认识。
因此,此次研究希望通过数据挖掘中的分类手段,通过对葡萄酒的理化指标分析,对葡萄酒进行品质分类,为品质测定提供一种科学客观的方法,为以后的质量支持提供指导,为完善整个葡萄酒市场品质评定提供补充,以此为国内葡萄酒市场的品质评定体系提供范例,促使国内评价体系的进步。
国外关于葡萄酒品质鉴定技术方面的研究远远领先于国内,他们不再拘泥于味觉上的感受,而是开始研究热感、触感等其它感觉上的体验,因此在进行质量评价的同时,开始结合一些现代科学技术手段(如高压液相色谱仪)进行葡萄酒的属性监测,从而能够分析出酒香和酒液的化学成分。而国内关于葡萄酒品质的鉴定的研究却相对比较落后,尤其是在早期的研究当中,大多数的分析仅仅局限在感官品尝的探讨,并没有把数据挖掘方法运用在葡萄酒品质的鉴定分析当中。但是现如今,国内也开始运用数据挖掘的方法探讨葡萄酒物化属性于品质之间的复杂关系。
总的来说,现在虽然已经开始着眼于理化性质对品质的影响,但是在数据挖掘方面的应用还比较少,所以我们需要将大数据的观念深入人心,数据挖掘手段将于更多的科学检测手段结合在一起,最终成为葡萄酒评价体系中重要的一个部分。
{title}2. 研究的基本内容与方案
{title}本次研究采用数据挖掘模型的算法,采集红酒样本数据,并检测红酒中化学成分,对数据进行建模,进行预测和判断红酒的品质和等级。
采用能够运用于葡萄酒品质分类中的分类模型算法,包括了Logistic多项模型、Tan贝叶斯分类模型、带偏差项的BP神经网络模型以及决策树C5.0;针对不平衡数据的过抽样算法SMOTE以及随机删除欠抽样算法;模型组合算法Boosting以及代价敏感学习。
实证研究是此次研究的重中之重,对于葡萄酒品质鉴定的实证分析是基于UCI数据库中的“Wine Quality Data Set”数据集,该数据集共有4898个样本数据,包含了11个表示该葡萄酒样本的物理及化学性质数据,以及一个代表该葡萄酒样本质量的标志数据。通过对这个数据集运用Logistic多项模型、Tan贝叶斯分类模型、带偏差项的BP神经网络模型以及决策树C5.0分类算法构建分类器对葡萄酒样本数据进行品质分类的实证研究,并比较各个分类器的优劣。
针对单纯运用分类器对葡萄酒不平衡数据进行品质鉴定分类出现的问题,分别在数据集中运用数据平衡算法过抽样SMOTE以及随机删除抽样,以及在分类器上运用Boosting以及代价敏感学习方法,结合实现应用情况来全面提升分类器效果,并选择出最佳分类模型。
3. 参考文献1、数据挖掘概念与技术(Data Mining Concepts and Techniques) Jiawei Han, Micheline Kamber 机械工业出版社