基于移动性大数据的地理位置预测调查外文翻译资料
2022-07-26 20:52:12
英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
基于移动性大数据的地理位置预测调查
1.绪论
地理位置预测(GP)可以应用于基于地理位置的服务(GBS),可以为用户提供未来的服务,并进行进一步应用扩展。典型的地理位置预测方案包括基于马尔科夫模型和基于贝叶斯模型的方法。新兴移动性大数据(MBD)为地理位置预测提出了新的挑战和机遇。根据地理位置数据的多样性,地理位置预测可分为两大部分:一般矿业地理位置区,这是构建地理位置预测模型(GPM)时预处理地理位置数据的第一步;特殊矿业地理位置区,这是构建地理位置预设模型的第二步。本文旨在对移动性大数据时代的现有地理位置预测解决方案进行调查,首先介绍了地理位置预测的概念、分类和特征,然后介绍了采集一般地理区域和特殊区域的基本原理和特点。除此之外,本文还讨论了用于地理位置预测的移动数据分析将会遇到的挑战、机遇和未来的发展方向。
2.简介
现如今,许多基于地理位置的服务(GBS)随着智能移动设备的普及而逐渐开始涌现。因此,可以预计每天都会生成大量地理图形数据、车辆轨迹数据和地理位置记录数据,总称为移动性大数据(MBD)。一般来说,移动性大数据是指当移动时由智能移动设备生成和收集的地理数据。以诺基亚研究中心为例,它2012年组织了移动数据挑战(MDC),收集了使用智能手机9个月的100名学生的数据,其中包括地理位置、通话记录、短信日志等,并通过人为地添加语义信息大大提高了数据的准确性。众所周知,大数据具有4V特征:体积、品种、速度和价值,移动性大数据也是如此,因为它同样是一种大数据。由于收集方式的不同,移动性大数据也具有混合性、复杂性、和稀疏性的特点。
移动大数据可分为三种不同的类型:全球定位系统(GPS)数据,这种数据通过基于卫星定位的方式收集;全球移动通信系统(GMS)数据,其正被开发应用于5G技术中;无线保真(WiFi)数据。GPS数据中的地理位置点由纬度和经度坐标极其时间轴表示,用户地理位置的变化可以通过一系列具有时间轴的协调点显示。GSM数据主要是通过移动电话用户跨越移动电话站进行收集的,数据信息可以从运营商后台获得。WiFi数据可以通过指纹方法获得,即在环境中检测无线信号。根据不同类型数据的采集方法可以称为基于卫星定位、基于位置的地理信息系统、基于无线信号的定位、基于传感器的定位、集成定位等。
GPS数据是地理位置预测模型中最广泛使用的,因为它是获取数据的最方便的方法。如上所述,GPS数据可以用纬度和经度坐标和时间轴表示,用户地理位置的变化可以通过一系列坐标点显示。然而,在现实世界中,单一经纬度坐标对于普通用户没有重要意义,因此我们需要通过聚类算法预处理原始数据集,例如分割聚类算法、基于密度的聚类算法和基于时间的聚类算法,然后将其描述为用户相关的一般地理位置区域,可以表示为如点、圆和多边形的几何图形。但是收集GPS数据有其自身的缺陷,这意味着在室内收集数据时无法获得坐标点,当人员关闭接收机或接收机的电源突然耗尽时,数据将丢失,所有的这些缺陷可能导致采集地理定位区域和地理位置预测的准确性下降。
GSM数据主要通过蜂窝电话站来定位手机用户,并从操作员的背景中获得数据信息。一般来说,运营商不能透露地理位置信息,所以很难收集这种数据。除此之外,蜂窝站可以同时通过多个站点定位用户,这可能影响地理位置定位的准确性。
WiFi数据可以通过检测环境中的无线信号,然后通过指纹法获取。当用户静止不动时,环境中的无线电信标将响应速率记录为该位置的指纹,然后通过识别指纹来判断用户是否处于相同的地理位置。WiFi数据只能在无线信号强的地方采集,然而在户外或街道等场合,由于缺少WiFi接入点,因此WiFi信号不稳定,所以实现不太现实。由于这些原因,我们收集的数据可能是无用数据。除了以上这些情况,WiFi数据不能代表实际的地理位置,使其应用受到限制。
本文的剩余部分组织如下。下一节将简要介绍移动性大数据的上下文中的地理位置预测。然后根据不同类型的数据集,我们描述了采集一般地理位置区域的不同算法。然后,基于不同类型的数据集,我们分析了采集个人轨迹中最常用的算法。然后我们分析地理位置预测中使用的不同方法。最后一节做全文总结,并讨论未来研究的几个方面。
3.地理位置预测定义
移动性大数据的地理位置预在GBS在人类活动发挥着重要的作用。移动性大数据通常包括三个要素:移动对象集、数据集观察时间和地理位置数据记录,通过传递用于维护每个对象的位置。每个地理位置数据记录包括地理位置和时间轴。基于原创流动大数据记录,公共地理位置区域(PGR)和个人轨迹(PT)公共地理位置区域是指由一系列原始数据点聚类的区域地理位置。要适用一个公共地理定位区域,其数据点必须符合某些条件。例如,该区域地理位置的起始点和终点之间的时间间隔不能超过阈值,或者该区域之间的距离不能超过阈值。个人轨迹是按时间顺序排列的一组公共地理定位区域序列。这意味着个人轨迹收集了一系列公共地理位置区域,其中包含一个对象从一个区域移动到另一个区域,并且这些区域根据其出现的时间进行排序。例如,如果一个对象在上午9点离开家,上午10点到达办公室,并在当天下午1点到达家中,那么当天这个对象的轨迹可以显示为PT={家,办公室,家}。
作为移动性大数据分析的一部分的地理位置预测以及受到学术界和行业越来越多的关注。本文讨论的地理位置预测的一般概念意味着将用户的定位位置作为地理位置预测模型的输入,然后模型给出下一个位置,该用户将作为输出。地理位置预测模型的结果可以应用于GBS,可以为用户提供未来服务,包括社交互动、个性化信息推送、驾驶安全、智能驾驶、智能社区等。同时,它也可以分析用户群体的行为来启动智能城市,包括城市规划,疾病控制、智能交通、环境保护、节能减排,应急响应,企业安排,商店选择的地理位置,广告推广,地理位置市场化等。例如,GoogleNow会根据用户当前的地理位置及其生活习惯来提供相关的服务信息,其中包括从当前位置到用户的工作地点等待多长时间。苹果还将GBS嵌入下一代iPhone中,通过该iPhone可以获取用户所在的地理位置,并根据这些地理位置提供服务(例如基于地理位置的广告)。虽然这些服务是基于用户当前的地理位置,通过准确预测用户的下一个地理位置来提供服务是未来GBS的发展趋势。如果模型预测用户将在周末旅行,例如可以将交通状况信息推送给他们;否则,如果他们留在家里,可以将食品价格信息推送给他们。
早在2003年,Ashbrook等人首先使用GPS历史地理位置数据来预测用户的下一个地理位置。之后,许多研究人员开始研究地理位置预测。大多数研究方法是机器学习算法,包括马尔科夫模型,贝叶斯网络等。通过分析,我们发现地理位置预测可以分为三个阶段/阶段。首先,我的一个公共地理位置区域预处理由智能移动设备收集的原始地理位置数据;第二,我们的个人轨迹信息由公共地理位置区域构成,这是第一步的结果;第三,构建地理位置预测模型。根据不同类型的数据,处理方法是不同的。
采集公共地理位置区域(MPGR):由于地图上用户的地理位置信息数据是连续或离散点,我们不能直接挖掘信息。所以我们必须对这些要点进行整理,然后挖掘与用户(如家庭和工作场所)有很大关联的流行地理位置区域。
采集个人轨迹(MPT):通过分析用户收集的原始地理位置数据,我们挖掘频繁的用户移动轨迹,建立用户的移动轨迹模型,在时间和空间上查找用户地理位置区域的规则,并提供具有高效信息组织模型的地理位置预测模型。
地理位置预测模型(GPM):与第一步和第二步数据处理结果相结合,建立算法模型,训练模型,最后进行预测。
上面讨论的开发地理位置预测模型的一般过程是构建地理位置预测应用的基础架构。第一步是建立数据采集系统。该系统是使用安装在智能手机或智能终端上的数据采集软件的客户端/服务器(C/S)模型,用于收集诸如汽车GPS数据,智能手机GPS数据等原始地理位置数据。然后将所有这些数据上传到服务器并将其存储在数据库中。第二步是对第一步收集的原始地理位置数据进行预处理。这包括两个步骤:挖掘一个公共地理位置区域和挖掘个人轨迹。挖掘公共地理位置区域将原始地理位置数据作为输入数据,然后使用群集算法进行处理,并获取更有意义的位置数据作为输出。这是挖掘个人运动和地理位置预测模型的数据预处理。挖掘个人轨迹将第二步的结果作为输入,并根据时间顺序构建用户轨迹作为输出。该步骤的结果可以被地理位置预测模型用作输入数据,或者用作安全域中的异常轨迹检测作为数据支持。最后,我们使用以前的步骤的结果,通过不同的算法/方法构建地理位置预测模型。在这部分中,模型将把第三步的处理结果作为输入,然后预测用户的下一个地理位置作为输出。地理位置预测的应用可以应用于GBS,可以为用户提供未来的服务,并通过建立运输,旅游和其他项目规则来支持国家。
4.采集公共地理分布地区
单个坐标点对用户毫无意义,如最后一节所述。我们必须预处理原始坐标点,并使其对用户更有意义。在本节中,我们主要讨论用于预处理原始坐标点的方法。
4.1 GPS数据处理方法
从原始GPS数据挖掘公共地理定位区域是采集个人轨迹和地理位置预测模型研究的一个组成部分。对于实际应用,单个GPS坐标点无法提供有效的信息,对用户没有任何意义。因此,我们必须通过聚集这些原始坐标点来挖掘公共地理定位区域,使其更有意义。例如,人们说“去沃尔玛购物”,他们不给沃尔玛地区的纬度和经度。对于算法部分,过多的原始GPS数据将导致算法的精度和性能急剧下降。从原始GPS数据挖掘广泛的地理定位区域提出以下三类问题:如何提高挖掘算法的准确性,如何确定区域的面积,以及如何补偿由于室内信号丢失而丢失的数据。
影响挖掘算法有效性的三个基本因素。第一个是收集时间间隔的多样性; 第二,运动速度和方向不能直接从原始GPS数据获得; 第三,GPS数据的大小随着时间的推移不断增加。对于前两个因素,Microsoft Research Asia推出了GeoLife项目,并记录了2007年4月至2012年8月的182名志愿者的GPS数据。记录仪记录了用户的GPS坐标每1/5秒或5到10米志愿者在步行,旅行等移动时,标志着他们的身份。该项目有助于提高原始GPS数据的质量。
结合GPS数据的特点,采用分类算法挖掘公共地理定位区域是非常有效的方法。K-Means聚类算法可用于挖掘流行的地理定位区域,需要预先设置簇数,并在达到异常点时具有较低的准确性。通过使用基于时间的聚类算法可以解决K-Means聚类算法的不足。首先根据时间轴分组GPS数据,然后设置时间间隔阈值,如果在新的协调点与超出的原始簇之间存在时间间隔,则将新的坐标点视为新的集群这个门槛。该方法可以自动查看群集数量,并过滤出无端口轨迹坐标点,但会形成过多的新群集。
上述聚类算法不能解决挖掘公共地理定位区域的关键问题,即如何确定区域的大小。Liu et al提出了一种基于网格的方法来挖掘广泛的地理定位区域。它们将移动物体的移动空间划分成多个不重叠的单元格,然后估计运动对象的连续轨迹并标记这些对象已经通过的所有单元格。通过保持每个单元格已经通过的时间,我们可以获得每个单元格的密度。最后,他们使用过滤精炼策略来查找所有大密度细胞作为流行的地理位置区域。他们使用两个数据集来验证该算法的准确性,结果表明,移动物体的轨迹覆盖率高达99.3%,但空间覆盖率只有40.9%。
所有这些算法都可以有效地开采流行的地理位置区域,但是它们不能处理室内丢失数据的问题。马尔马斯通过下面描述的方法定义了一个室内场所。当GPS信号消失时,如果在该区域再次出现GPS信号,则圆的半径被视为一个区域,并被视为室内场所。Ashbrook等人添加了基于马尔法斯的方法的时间因素。也就是说,如果GPS信号在一段时间内再次出现,例如10分钟,则该区域可以被认为是室内的地方。这种方法可以显着降低误报率,并且在补偿室内GPS信号丢失导致的数据丢失时可以非常有效。
4.2处理其他类型数据的方法
GSM是移动蜂窝网络的第二代标准,适用于世界上大多数国家。研究人员经常使用辅助GPS(A-GPS),增强的观察时间差(E-OTD)和到达时间(TOA)来获得移动终端在纤维网络中的位置。除了这三种方法,我们还可以使用CellID定位用户,并从移动终端设备免费获取定位信息。然而,该定位信息的精度由单元的尺寸确定。数据由CellID定位技术生成,由四部分组成。CellID表示每个单元格的唯一ID;移动国家代码(MCC)标识国家代码;移动网络代码(MNC)和位置区域代码(LAC)。这四个项目构成一个四元组实体:CellID = cellID,MCC,MNC,LAC。使用CellID挖掘公共地理位置区域包括以下步骤。首先,我们必须跟踪用户的移动轨迹。然后我们计算用户在每个单元格中花费的停留时间。在这两个步骤之后,我们可以获得每个单元格的指纹,其中包含三个部分:CellID,在该单元格中花费的总时间以及最后一次记录。最后,我们可以使用基于距离或基于时间的聚类算法根据每个单元的指纹特征来挖掘用户的公共地理位置区域。
当用户的设备访问WIFI接入点时,WIFI数据记录MAC地址。从这种数据挖掘公共地理位置区域需要计算MAC地址在每个接入点的次数。如果MAC地址在同一接入点被多次看到,则该地方必须是属于拥有该MAC地址的设备的用户的公共地理位置区域。
除了这些常见类型的数据之外,还有通过社交网络开发产生的新型数据,并且多样化的定位技术融合在一起。这种类型的数据产生了基于地理位置的社交网络(GBSN)。从基于地理位置的社交网络获取有价值的信息是移动大数据研究的另一个挑战。然而,这个研究领域最重要的领域是自动化将语义地理位置正确转换为物理地理位置的过程。
5.采集个人轨迹
挖掘个人轨迹是地理位置感知计算中的一个受欢迎的研究领域。随着GPS,WIFI等位置采集技术的普及,可以收集和存储人们的移动轨迹数据。目前有很多积极的研究工作和应用,旨在挖掘这些数据中的有价值信息,包括交通管理,安全监控,路线划分,车辆调度,目标跟踪,移动
全文共10569字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[144520],资料为PDF文档或Word文档,PDF文档可免费转换为Word