利用卫星遥感数据估算湖北省2018年PM2.5浓度毕业论文
2021-11-06 23:00:53
摘 要
PM2.5作为气溶胶状态下大气污染的主要成分,在我国生态文明建设的进程中,对其进行防治和治理是一项重要内容。本文针对目前无法有效对PM2.5进行大规模、高精度的时空监测的问题,提出了基于多种产品相融合的气溶胶光学厚度(AOT)数据构建的Stacking集成模型,用于湖北省2018年PM2.5质量浓度的估算。此外,本文AOT数据基础上辅以气象数据(温度、边界层高度、气压、降水量、经向风速、纬向风速)、NDVI数据、高程数据、人口密度数据,充分考虑到与PM2.5排放、扩散与稀释相关的影响因子,从而使得预测结果更加稳健可靠,进一步提升模型性能。实验结果表明,由随机森林、极端随机树、梯度提升决策树、极限梯度提升树、轻量梯度提升机作为第一层基学习器,Lasso作为第二层元学习器的Stacking集成模型,训练集决定系数(R2)、平均绝对误差(MAE)、平均方根误差(RMSE)分别为0.873、6.269μg/m3、9.663μg/m3,测试集对应为0.920、5.735μg/m3、8.214μg/m3,相比于单一模型和其它Bagging、Boosting集成学习模型,该模型模型能够集成各种模型对数据的学习能力,性能和泛化能力方面具有明显的优势。将该模型应用于湖北省区域PM2.5质量浓度反演,得到的PM2.5质量浓度在空间分布和时间分布上与地面监测结果基本吻合。这表明,该模型可用于大范围区域的大气污染监测,达到了实时动态监测大气环境的目的,对区域大气污染的监测和治理具有重要意义。
关键词:气溶胶光学厚度;PM2.5反演;机器学习;集成学习
Abstract
PM2.5 , as the main component of atmospheric pollution in the aerosol state, whose prevention and treatment is a critical content in the process of development ecological civilization in China. In this paper, to solve the current problem that PM2.5 cannot be effectively monitored on a large scale and with high accuracy, a Stacking ensemble model based on AOT data, which is a combination of multiple products, is proposed for estimation of PM2.5 mass concentration in Hubei Province in 2018. In addition, based on the AOT data in this paper, meteorological data (temperature, border layer height,barometric pressure, precipitation, longitudinal wind speed, latitudinal wind speed), NDVI data, elevation data, and population density data are supplemented with meteorological data, which fully take into account the influence factors related to PM2.5 emission, diffusion and dilution, thus making the prediction results more robust and reliable and further improving the model performance.The experimental results show that the training set R2, MAE and RMSE of the Stacking ensemble model ,which with Random Forest, Extremely Randomized Trees, Gradient Boosting Decision Tree, Extreme Gradient Boosting, Light Gradient Boosting Machine as the first layer base learner and Lasso as the second layer meta learner are 0.873, 6.269 μg/m3 and 9.663 μg/m3, respectively, and the corresponding test sets are 0.920, 5.735 μg/m3 and 8.214 μg/m3. Compared with the single model and other Bagging and Boosting ensemble learning models, this model can integrate the learning ability of various models on the data, with significant advantages in performance and generalization ability.The spatial and temporal distribution of PM2.5 mass concentrations obtained by applying the model to the derivation of PM2.5 mass concentrations in Hubei Province is in general agreement with the ground monitoring results. This shows that the model can be used for the monitoring of atmospheric pollution in a large area, which achieves the purpose of real-time dynamic monitoring of the atmospheric environment, is hightly significant for the monitoring and treatment of regional air pollution.
Key Words:AOT; PM2.5 Modeling ;Machine Learning;Ensemble Learning
目 录
第1章 绪论 1
1.1 研究背景与意义 1
1.2 研究现状 2
1.2.1 线性模型 2
1.2.2 机器学习模型 3
1.2.3 当前研究存在的问题 6
1.3 研究内容与技术路线 6
第2章 研究区域与数据 8
2.1 研究区域概括 8
2.2 数据获取与处理 8
2.2.1 PM2.5数据 8
2.2.2 AOT数据 9
2.2.3 气象数据 10
2.2.4 其他辅助数据 11
2.3 AOT 数据融合 12
2.3.1 DT 和 DB AOT 融合 12
2.3.2 Aqua 和 Terra AOT 融合 13
第3章 模型设计与实现 16
3.1 决策树算法 16
3.1.1 离散属性 16
3.1.2 连续属性 17
3.2 Bagging模型 17
3.2.1 RF算法 17
3.2.2 ET 算法 17
3.3 Boosting模型 17
3.3.1 BDT算法 17
3.3.2 GDBT 算法 18
3.3.3 XGBoost 算法 19
3.3.4 LightGBM算法 20
3.4 Lasso回归 20
3.5 Stacking模型实现 21
3.6 Stacking模型评估 22
第4章 研究结果 23
4.1 模型验证 23
4.2区域PM2.5反演 25
第5章 结论与展望 27
5.1结论 27
5.2创新点 27
5.3 不足与展望 27
参考文献 31
第1章 绪论
1.1 研究背景与意义
可吸入颗粒物(PM2.5)是指环境空气中空气动力学当量直径小于等于2.5μg/m3的颗粒物,是气溶胶状态下大气污染的主要成分,其浓度越高表示污染越严重,在我国生态文明建设的进程中,对其进行防治和治理是一项重要内容。PM2.5大气停留时间长,传播距离较远,对能见度、空气质量和天气气候都有很大影响,是造成灰霾的主要原因;且易携带大量毒害物质 ,能对呼吸系统、细血管系统、神经系统、免疫系统都会造成一定损害,严重时会损伤 DNA遗传物质,增加致癌危险[[1]]。研究数据显示,主要由 PM2.5造成的室外空气污染,在全球范围内导致人口过早死亡330万人左右,其中大多数在亚洲[[2]],所以研究PM2.5的时空变化规律已刻不容缓。对PM2.5的研究需要长期、准确的污染物空间分布数据,才能准确把握其时空变化规律,而现阶段地面监测网络是其数据的主要来源,虽然自2013年起我国各大城市开始建立PM2.5监测站,对PM2.5进行高精度实时监测,但是这些监测站较为稀疏,空间分布不均匀,集中分布在城市区域,不能很好地反映PM2.5在宏观空间范围内的细致分布,在很大程度上限制了对PM2.5时空分布理论的深入研究。为此,许多学者开始引入遥感技术来弥补地面监测站的不足,用于PM2.5质量浓度估算。
在1999年,美国航空航天局(NASA)为构建地球观测系统发射了Terra卫星,又两年后,补充发射了Aqua卫星,这两颗低轨道卫星上搭载的中分辨率成像光谱仪(MODIS)传感器由于具有全球尺度监测大气污染的特点,在颗粒物大气污染时空变化研究中得到了广泛的应用。大量研究表明,MODIS气溶胶光学厚度(AOT)产品与PM2.5浓度具有良好的相关关系,已被成功用于地面PM2.5浓度模拟,特别是大地理区域范围内PM2.5浓度估算[[3]],是目前用于大气颗粒物卫星遥感监测研究的主要数据源。AOT的物理含义为气溶胶消光系数垂直方向的积分,与垂直方向气溶胶颗粒总浓度相关。近年来,国内外学者对AOT遥感反演进行了大量的研究,其反演方法也比较成熟可靠,得到的AOT产品可满足一般研究的需要。在众多AOT反演方法中,暗目标算法(DT)应用最为广泛。DT算法由Kaufman首先提出,该算法利用红、蓝波段在浓密植被、水体等暗目标上具有低反射率的特点,通过辐亮度与气溶胶之间的相关性对AOT进行反演[[4]]。而对于沙漠、植被稀疏等亮目标,Hsu等提出了适用于该地区的深蓝算法(DB)[[5]]。NASA在2017年就已发布了3 km DT算法 和10 km DB算法最新MODIS C6.1版的AOT产品,可应用于地面PM2.5质量浓度的反演[[6]]。