基于CRF算法的中文社交媒体的事件发掘研究与实现开题报告
2020-10-31 09:12:02
1. 研究目的与意义(文献综述)
网络社会和现实社会处于同一时空维度下,与现实社会息息相关。随着网络社会的发展,它能越来越真实地反映出现实社会的当前关注点、指定方向关注点等社会信息,甚至对现实社会正在施以越来越大的影响力。社交媒体(social media)承载了大量的信息,从中可以发掘出很多有指导、启发意义的内容。
社交媒体的事件发掘在几年前便开始受到关注,大量以twitter为代表的英文社交媒体事件发掘系统得到研究。然而由于中文的特殊性,例如表意方式多种、理解方式多种、缩略语及新生词较多等,中文社交媒体事件发掘中很多语言处理问题,例如分词、词性标注等相对英文来说具有更大的挑战性,已有的中文自然语言处理技术并不完全适合直接用于中文社交媒体信息的处理,精确度(accuracy)和召回(recall)都比较低。
基于以上,本课题希望能够将中文自然语言处理技术与社交媒体自身特性相结合,进行中文社交媒体的事件发掘研究,设计并实现基于crf的中文社交媒体事件发掘工具。
2. 研究的基本内容与方案
本课题希望进行中文社交媒体的事件发掘研究,即不同于传统的搜索引擎、新闻网站等典型中文语句的语料研究,而是着重从社交媒体入手,从海量的、零碎的、非结构化的信息中提取有价值的信息,挖掘出用户感兴趣或其他有研究参考价值的事件。对于自然语言处理方面,现存的基本方法有基于规则、基于统计等。本课题的切入点为近年研究普遍认为较为有效的基于统计方法,当然不排除在后期添加规则信息,以实现在广泛覆盖语言知识的基础上提高对于复杂情况或特殊情况的理解。在基于统计的方法中,本课题选取条件随机场。条件随机场(crf, conditional random field)是一种概率模型方法,常用于标注或分析串行数据,在中文分词、中文命名实体识别、歧义消解等汉语自然语言处理任务中,条件随机域都有很好的应用,对自然语言相关的问题有较好的建模能力,适合于中文事件发掘的研究。本课题旨在设计并实现基于crf的中文社交媒体事件发掘工具
研究方法和研究思路(技术路线):
1. 构建crf的训练集和测试集。
3. 研究计划与安排
编号 | 起止日期 | 工作内容 |
1 | 第1-2 周 | 微博信息获取和中文语言处理工具研究 |
2 | 第3周 | 开始建立训练集和测试集 |
3 | 第4-8周 | 测试CRF方法的正确率 |
4 | 第9-10周 | 实现微博事件发掘系统 |
5 | 第11-13周 | 测试,改进参数 |
6 | 第14-16周 | 报告和答辩 |
4. 参考文献(12篇以上)
[1]. j. lafferty, a. mccallum, f. pereira. conditional random fields: probabilistic models for segmenting and labeling sequence data. in international conference on machine learning, 2001.
[2]. weng jui-yu,yang cheng-lun,chen bo-nian.imass:an intelligent microblog analysis and summarization system[c]. portland,oregon:association for computational linguistics,2011:133-138.
[3]. ritter alan,mausam,etzioni oren. open domain event extraction from twitter[c]//proceedings of kdd.[s.l.]:acm,2012:1104-1112.