基于python的地区教育投入对教育质量影响的可视化分析——以江苏省内为例开题报告
2022-01-13 21:46:00
全文总字数:4895字
1. 研究目的与意义及国内外研究现状
一个国家稳步的繁荣发展,一个国民深厚的文化底蕴,一个地区社会经济发展,都和教育息息相关。教育,对于任何社会都是至关重要的事情,只有教育得到良好的发展,国家才能富强,社会才会进步,人民对美好生活的向往才能得到满足,中华民族伟大复兴的中国梦才能得到实现。
近年来,教育领域的相关问题愈发引起社会关注,当前我国的教育发展取得了显著的成就,基本实现了九年义务教育,受教育者的受教育机会得到了保障,所以随着教育机会的满足,人们的关注开始转向对优质教育资源的追求。然而,现代社会区域贫富差距较大,教育虽然是公共产品,但不得不受区域环境的影响,于是便出现了教育在不同社会层级中的差距,在这样的背景下,我国教育领域面临的严峻挑战不容忽视。如何化解或缓解教育的地区差异问题,成为一个重要课题。
本论文拟以江苏地区为例基于各区县教育投入研究其对教育质量的影响,通过使用python语言工具,结合python语言的相关工具库资源,利用web数据挖掘的原理,对各地区的教育投入数据进行采集,并将采集的数据进行挖掘,从而对符合要求的数据进行可视化分析,最后提出教育公平的对策和建议,在理论上为提高教育公平提供新的思考角度。
2. 研究的基本内容
近年来,我国的教育事业取得了长足的发展,但教育质量和水平与发达国家还相差甚远,而我国现阶段存在着较为严重的地区教育差异问题,因此,希望通过老师的指导以及查阅各项资料并进行筛选,运用四年本科学习的专业知识,利用Python语言构建网络爬虫,采用关键字匹配技术对目标网站进行扫描,得到所需数据并抓取,并对抓取的数据进行可视化分析,从而得出有切实依据的结论,最终完成对《基于Python的地区教育投入对教育质量影响的可视化分析——以江苏省内为例》一文的写作。并希望依据数据挖掘技术和可视化分析为得出行之有效的教育发展策略提供动力。研究过程中,主要有数据采集与存储、数据预处理、挖掘建模、理论分析几个步骤。在学习各论文、文献的过程中,研究出具体各流程的关键技术如下:在数据采集阶段主要使用了爬虫和数据库相关技术。本次研究将使用基于python开发的scrapy爬虫框架进行数据采集的主要工作,对于数据存储将使用mongodb,利用其驱动pymongo进行数据转存等操作;在数据预处理阶段,需要对数据进行批量的操作处理。python的pandas、numpy、matplotlib工具提供了强大的矩阵运算操作功能。利用该工具,结合数据预处理的相关知识。能快速大批量的进行数据预处理。
此外,我认为,在数据爬取和处理的过程中,将会遇到了如下几项较为困难的问题:1.如何大量采集网页中的数据?网页数据对于网站本身存在着重要价值,在获取网页数据的过程中,网站服务器会对疑似爬虫的请求进行封锁,以此来保护网站本身的数据信息。由于网络反爬虫机制的存在,如何有效的回避反爬策略,成为本次试验将要突破的第一难点。2.如何有效的对数据进行预处理?数据预处理对于数据挖掘而言极为重要,合理有效的预处理方式,将会对后续可视化分析阶段有着重要的帮助。同时合理的预处理方法,可以提高数据可视化分析的准确率和有效性。
3. 实施方案、进度安排及预期效果
1.1月19日-2月24日:精准查找有关教育投入、教育公平、python的相关论文、期刊和书籍,储备论文写作基础知识;重点学习如何运用python爬取数据并可视化分析,在寒假期间熟练掌握python的相关应用及操作,并理解相关算法原理。2.2月25日-3月8日:进行数据采集和存储。聚焦爬虫的搜索策略,明确爬取范围,通过网络爬虫对教育网站信息进行爬取,采集到所需数据后,根据特定数据格式写入数据库。
3.3月9日-3月15日:进行数据预处理工作。对已存入数据库的数据进行清洗,对空数据、无关联属性、无效数据等错误数据进行排除,最终生成有效的总数据集。
4.3月16日-3月29日:挖掘建模。利用决策树、k-means、pca及线性回归等方法分析数据,实现地区教育投入和教育质量两个维度的可视化展示。
4. 参考文献
[1]康计良.python语言的可视化编程环境的设计与实现[d].西安:西安电子科技大学,2012.
[2]严婷,文欣秀,赵嘉豪,等.基于python的可视化数据分析平台设计与实现[j].计算机时代,2017(12):54-56.
[3]谢克武.大数据环境下基于python的网络爬虫技术[j].电子制作,2017(09):44-45.