数据挖掘方法在降水预测中的性能分析开题报告
2022-01-14 20:49:11
全文总字数:5931字
1. 研究目的与意义及国内外研究现状
降水是水循环的重要环节,是陆地内各种水体直接或者间接的补给源。同时,降水量又是衡量干旱或者洪涝灾害发生的一个重要指标,降水量的大小影响着农业生产、水土流失和工程应用等方面的政策实施和应对方案。对降水量的统计模拟,有助于干旱和洪涝灾害的预报预警,以便农业和水利部门提前做好防旱防涝工作,减少损失;同时,降水量的预测结果也有助于水文水资源的研究。因此,降水量的模拟和预测是气象和水文领域重要的研究课题之一。但是,降水量的时空分布存在巨大的不平衡性,各个尺度影响因素众多,地域差异明显,降水量的定量分析存在很大困难[1]。
本文选取牡丹江站点降水量月值数据,对其进行质量控制,并作为降水预测模型的目标变量。同时,来自ncep的大尺度预报因子数据作为降水预测模型的物理协变量。利用多元线性回归、bp神经网络、极限学习机以及回归树这四种数据挖掘方法对上述数据进行降水预测模型的建立和预测,并计算模型结果的误差平均值、误差标准偏差、误差平均偏差、最终误差和决定系数等相关统计量,进行上述四种数据挖掘方法在降水预测方面的性能分析,得出可靠的降水预测模型。
多元线性回归通过协变量与目标值之间的线性相关关系,建立预测模型;bp神经网络和极限学习机具有自组织自学习的特点,并且对样本数据的线性没有要求;回归树是基于树的回归方程和二分准则来进行目标变量的预测,计算量较小。降水在时间和空间的分布上具有不稳定和非线性的特征,选取大尺度、多个高度层的气象预报因子建立适当的降水预测模型,有助于降水量的定量分析研究,有望提高降水预测的精度。
2. 研究的基本内容
本文构建了1958-2018年牡丹江站点月降水量和NCEP分辨率为2.5度*2.5度的大尺度预报因子组成的数据集,运用多元线性回归、BP神经网络、极限学习机以及回归树四种数据挖掘方法,建立牡丹江站点月降水量的统计模型[20-21]。在此基础上,1958-2003年作为降水预测模型的建模期,2004-2018年作为模型的预测期。计算降水预测模型的误差平均值、误差标准偏差、误差平均偏差和最终误差等相关统计量,并对四种数据挖掘方法进行性能评估,选出最佳的降水预测模型。相比于单站点的气象数据,本文选取的近地面、850hPa以及500hPa三个高度层的大尺度气象数据,具有覆盖范围广、延伸时间长的特点,能够更好地反映降水量大小的物理机理。最后,针对降水量时间分布的不平衡性和非线性,选取最佳的数据挖掘统计模型,进行月降水量的预测。
3. 实施方案、进度安排及预期效果
实行方案:
通过查阅书籍、期刊及网络上的一些共享资源,在老师的帮助指导下,运用所学知识下载并处理大尺度再分析气象数据和牡丹江站点月降水量,利用多元线性回归、bp神经网络、极限学习机以及回归树四种数据挖掘方法,建立降水预测模型,并进行模型的效果分析。
进度:
4. 参考文献
[1] 许秀红. sdsm降尺度方法在哈尔滨延伸期预报中的应用[d]. 兰州大学, 2009.
[2] chinchorkar s s, patel g r, sayyad f g. development of monsoon model for long range forecast rainfall explored for anand (gujarat-india)[j]. international journal of water resources and environmental engineering, 2012, 4(11): 322-326.
[3] 安润秋, 郝玉芹. 基于随机过程的中长期降水预测模型[j]. 唐山学院学报, 2007, 20(2): 7-9.