登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 电子信息科学与技术 > 正文

基于通话行为的垃圾电话特征提取及识别毕业论文

 2021-03-15 20:34:48  

摘 要

随着国内通讯技术的蓬勃发展,使得越来越多的人享受到了通信技术带来的便利,任何人在任何地方任何时刻都能与他人进行即时的通信。然而,与此同时,垃圾电话、骚扰电话同样呈现爆发趋势,增速骇人,正变为继计算机病毒、钓鱼网站之后移动互联网世代普通人隐私安全的危险因素。

目前,国内外应对此类垃圾语音的主要技术手段是靠广大电信用户手工标记骚扰电话,如国内的百度号码卫士、360号码标记助手等,但这种方法所得结果总是滞后于实际的垃圾号码的产生,并且正常用户很容易被恶意标记,所以取得的效果差强人意,还有提高的空间。

本论文主要研究了:借助Hadoop计算框架提供的机器学习平台Mahout对湖北省一天内的所有通话数据进行分类与聚类分析,通过朴素贝叶斯算法、决策树算法以及K-MEANS等算法对通话行为数据进行深度学习,并辅以神经网络以及支持向量机等算法进行操作。研究结果表明:所得结果能够自动识别诈骗电话,对维护人民群众生命安全、减少财产损失以及维护社会稳定具有重要的指导意义。

本文的特色在于:使用了机器学习算法,通过对大规模通话记录数据进行统计以及深度学习,自动识别出诈骗电话,而不需要人工手工标记,大大节约了人力资源成本,是一种经济可行的方案。

关键词:通话行为;特征提取;朴素贝叶斯算法;决策树

Abstract

With the development of domestic communication technology,more and more people obtain the access to the convenience of communication technology, anyone could communicatewith any other instantly at anywhere and anytime. However, at the same time, many telephone-fraud gangs also emerge, spam phone calls was booming, the growth rate of spam phone calls is obvious that it become the new threaten to the mobile internet after the computer-virus and fishing sites.

Currently, the main technical means of detecting the spam phone calls used both demosticly and overseas are mainly based on the manual tabbing of users such as the Baidu phone guardian app, 360 phone assistant, but the label are always lag behind the actual generation of telephone-fraud gangs, and some normal users will be marked as telephone-fraud gangs sometimes, some the result of manual marking is not so satisfactory and still has the room for improvement.

This paper is characterized by the use of machine learning algorithm, through the large-scale call record data statistics and in-depth learning, it can identify all kinds of fraudulent calls automatically without manual working, which will contribute to significant savings in human resource costs. So,it’s an economically viable Program.

Key Words:call logs;features extract;naive Bayes algorithm;decision tree

目 录

第1章 绪论 1

1.1 研究的背景及意义 1

1.2 国内外研究的现状及发展趋势 1

1.3 本文主要研究内容 3

第2章 垃圾语音场景分析及特征字段分类 5

2.1 垃圾电话类型以及场景分析 5

2.2 垃圾电话特征字段分类 7

第3章 垃圾语音识别的实现技术方案 8

3.1 标识系统整体框架及流程 8

3.2 通话数据采集 10

3.2.1 某省份一天的通话日志记录 10

3.2.2 百度手机卫士电话号码API 11

3.3 数据清洗 11

3.3.1 数据清洗所包含的内容 12

3.3.2 数据清洗的原理与实现方式 12

3.4 数据处理 13

3.4.1 数据质量检查(合法性检查)与数据切片 13

3.4.2 PCA处理(主成分分析) 14

3.4.3 算法原理及演进 14

第4章 垃圾语音特征提取与识别的实现 17

4.1 申请云计算资源并搭建Hadoop平台 17

4.2 编写相关数据处理代码 19

4.3 使用Mahout平台进行聚类、分类 21

4.4 运行结果展示与分析 21

第5章 总结与展望 25

参考文献 26

致谢 27

第1章 绪论

1.1 研究的背景及意义

自从电话成为广大人民群众的使用通讯工具以来,它便极大地方便大家的生活与工作,促进了社会的交流与发展。然而,几乎在现代通讯技术走向千家万户的同时,不断有一些别有用心的企业、社团或者个人为了达到其不可告人的目的,通过垃圾语音不断地对普通用户进行骚扰,这些垃圾语音的内容主要表现包括但不仅限于:宣传反动信息、通过电话打广告、发布虚假信息以牟利等。通过日益成熟的网络电话技术,这些垃圾语音能够完按照特定的规则非常频繁地进行自动拨号、使得不计其数的人不单单直接或间接地遭受到了财产的损失,还对他们的心理造成了难以磨灭的影响,而对社会经济发展和繁荣稳定更是造成了难以计量的损失,使人深恶痛绝。然而,又由于网络电话难以追踪,国家公务人员追查难度很大,所以此类事件一直成为社会发展的阻力,被视作社会的毒瘤。如今,研究出一种能够自动识别垃圾语音的技术已经成为了世界各国都非常重视的具有重大战略意义的课题。

近年来,数据挖掘引起了信息产业界和整个社会的极大关注。其最初的目标是来监测、解释以及预测数据集的质量、数量以及模式等,而通过这些最终可以获得不为人们所熟知的“知识”[1]。获取的信息和知识可以广泛应用于各种应用,包括市场分析、欺诈检测、顾客保有、产品控制和科学探索等[2]

您需要先支付 50元 才能查看全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图