反诈骗知识图谱语义查询算法研究开题报告
2020-04-22 19:14:26
1. 研究目的与意义(文献综述)
1.1 设计(论文)的目的
随着我国金融、电信和互联网的发展,电信诈骗犯罪在我国产生和蔓延,。电信诈骗是指不法分子通过电话、网络和短信方式,编造虚假信息,设置骗局,对受害人实施远程、非接触式诈骗,诱使受害人给不法分子打款或转账的犯罪行为。随着近两年电子商务和互联网金融迅速崛起,犯罪分子编造各种理由骗取受害人银行卡账户信息和短信验证码后,再通过互联网购物的方式窃取受害人资金的电信诈骗收发迅速涌现并呈现愈演愈烈之势。
2. 研究的基本内容与方案
2.1 设计的任务
本次设计的是针对反诈骗领域,首先需要了解相关的业务知识,涉及到的公检法、银行、工商、诈骗事件、诈骗电话文本等数据进行前期的调研,结合反诈骗知识图谱的查询技术,深入调查反诈骗领域方面相关的业务规则,熟悉相关的包括自然语言查询语句的分词、词性标注、实体对齐,以及如何从句法分析树转换为SPARQL的查询语句,以及与底层的数据库进行相似度匹配算法,最后实现查询的可视化。
系统的主要功能是结合底层的反诈骗知识图谱对可疑诈骗电话进行语义分析,输出诈骗风险概率,对诈骗正向与反向流程匹配,根据匹配算出概率。
(1) 进行数据需求调研。主要是反诈骗领域知识图谱构建需要抽取的数据,互联网数据主要有公检法、银行、工商、医院、学校、诈骗新闻事件等。
(2) 底层图谱搭建好之后,实现简单SPARQL查询数据。
(3) 自然语言处理NLP处理,中文分词、词性标注、命名实体识别到句法分析树实现转换为SPARQL查询语句。
(4) 对底层的知识图谱流程进行匹配查询,子图匹配查询,top-k算法匹配到相似度最高的图,并进行匹配度的计算。系统板块设计如下:
用户登录:支持用户使用帐号密码登录,暂无不同用户权限的问题。
态势分析:主要是目前诈骗流程、诈骗手段、诈骗地域的态势
图谱可视化:主要是底层知识图谱利用可视化工具Echarts表示出来,对可疑电话链接到的实体比如公检法等实体用图的形式表示出来。
查询数据:支持常规数据的查询,满足一些简单数据的查询。
可疑电话检测:一个可疑电话默认转换为语音文本格式输入,诈骗的概率输出。
数据库:主要是底层数据库的数据类型满足系统需要。
(5) 系统界面交互设计与代码实现。根据确定的功能模块设计系统的交互界面原型图,之后进行一些查询部分页面的可视化。
(6) 代码实现后进行测试与体验。测试无问题后可正式开始使用。
2.2 设计(论文)需要重点解决的问题
(1)如何将输入的语音文本,进行分词抽取,标注和实体识别,这里有很多工具可以调用,比如ansj和hanlp,哪一个是比较合适的,工具的选择以及跑通是需要花大量的时间研究和实践的。
(2)句法分析树如何转换为结构化sparql查询语句,进行子图匹配,ganswer原理以及代码的实践。
(3)流程匹配算法。查询语句如何从底层的知识库中去匹配流程,每一步流程的概率该如何附上,以及相关的模糊查询的问题。
(4)如何评估查询的效果,对于查询出来的结果怎么评价。要制定一个完善的查询结果评估指标。
2.3 设计(论文)的技术方案:用技术路线图来表示
|
3. 研究计划与安排
时间 | 内容 | 备注 |
第1-3周 | 毕业设计选题 |
|
第4周 | 查阅选题相关的文献资料 |
|
第5-6周 | 需求调研,进行可行性分析和需求分析。 |
|
第7-8周 | 查询技术的了解与实践 |
|
第9-10周 | 详细设计,包括实现自然语言查询算法 |
|
第10-11周 | 交互界面设计,功能代码实现 |
|
第12周 | 查询效果测试与评估,撰写论文 |
|
第13-14周 | 论文修改与定稿 |
|
4. 参考文献(12篇以上)
[1]汤怡洁,杨锐,刘毅. 近年来sparql查询技术的研究热点及进展[j]. 知识管理论坛,2014,(01):1-6.
[2]倪立显,吴婷. 基于领域本体的语义查询推理系统[j]. 计算机与现代化,2014,(05):74-78.
[3]刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[j].计算机研究与发展,2016,53(03):582-600.