第六章 IBM InfoSphere Streams:动态大数据分析外文翻译资料
2021-12-12 22:16:20
英语原文共 166 页
第六章 IBM InfoSphere Streams:动态大数据分析
现在您已经了解了IBM如何独特地处理Hadoop环境中为企业强化的最大数据分析问题,让我们将注意力转向IBM Big Data故事的另一面:动态数据分析。 使用BigInsights可以帮助您获得信息的海洋,从而为您提供竞争优势,IBM InfoSphere Streams(Streams)为您提供来自尼亚加拉瀑布的数据流入您环境的见解。 您可以利用这一流程来获得对您的业务具有时间敏感性的竞争优势,或者您可以像尼亚加拉大瀑布的大多数人一样,只是在强大的河流流过时敬畏地观看。 这就是Streams的用武之地。它的设计允许您利用大规模并行处理(MPP)技术在流式传输时分析数据,这样您就可以实时了解正在发生的事情并采取行动,做出更好的决策并改善结果。
在我们深入研究本章之前,让我们首先澄清Streams和Stream的含义; 大写版本是指IBM InfoSphere Streams产品,小写版本是指数据流。 考虑到这一点,让我们来看看Streams的基础知识,它的用例,以及定义它如何工作的一些技术基础。
InfoSphere Streams基础知识
Streams是一个功能强大的分析计算平台,可提供实时分析数据并具有微延迟的特点。 Streams允许您动态分析,而不是像BigInsights(换句话说,对静态数据的分析)一样收集大量数据,操纵数据,将其存储在磁盘上,然后进行分析。在Streams中,数据流经能够操纵数据流(每秒可包含数百万个事件)的运算符,并对数据执行动态的分析。此分析可以触发事件,使企业能够利用即时情报来实时执行操作,最终为业务带来更好的结果。在通过分析流动数据之后,Streams提供操作员将数据存储到各个位置(包括BigInsights或数据仓库等),或者如果通过飞行中分析认为数据没有价值,则只需将数据丢弃(要么是因为它不是有趣的数据,要么数据已达到其目的并且没有持久性要求)。
如果您已熟悉复杂事件处理(CEP)系统,则可能会在Streams中看到一些相似之处。 但是,Streams旨在提供更高的可扩展性,并且能够支持比其他系统高得多的数据流速。 此外,您将了解Streams如何具有更高的企业级特性,包括高可用性,丰富的应用程序开发工具集和高级计划。
您可以将流视为一系列连接的运算符。 初始运算符集(或单个运算符)通常称为源运算符。
这些操作符读取输入流,然后向下游发送数据。中间步骤包括执行特定动作的各种操作符。 最后,对于进入动态分析平台的每一种方式,都有多种方式,在Streams中,这些输出称为接收器操作员(如从水龙头流出并进入厨房水槽的水)。 我们将在本章后面详细描述所有这些运算符。
我们将Streams称为平台,因为您可以以几乎任何可能的方式构建或自定义Streams,以提供解决业务问题的应用程序; 当然,它是一个支持企业的平台,因为每个运营商都可以在集群中的单独服务器上运行,以提高可用性,可伸缩性和性能。例如,Streams提供了丰富的工具环境来帮助您设计流应用程序(本章后面将介绍)。 另一个好处是Streams与BigInsights共享相同的Text Analytics Toolkit,允许您在整个大数据平台上重用技能和代码片段。 当您准备好部署流应用程序时,Streams会在运行时自动决定基于群集的负载平衡和可用性指标运行处理元素(PE)的位置,从而允许它重新配置运算符以在其他服务器上运行以确保 服务器或软件故障时流的连续性。 您还可以以编程方式指定在哪些服务器上运行哪些运算符,并在特定服务器上运行流逻辑。
此自动流式传输和可自定义平台允许您通过添加其他服务器并分配运算符以在这些服务器上运行来增加在流上执行分析的服务器数量。 无论运营商是在不同的服务器上运行还是在同一服务器上运行,Streams基础架构都可确保数据从一个运营商成功流向另一个运营商:这提供了高度的灵活性和灵活性,可以从小规模开始并根据需要扩展平台。
与BigInsights非常相似,Streams不仅非常适合结构化数据,同时也适用于其他80%的数据 -来自传感器,语音,文本,视频,金融和许多其他大量数据源的非传统的半结构化或非结构化数据。 最后,由于Streams和BigInsights是IBM大数据平台的一部分,因此您可以发现可以共享为动态或静态大数据构建的分析的巨大效率。 例如,从Text Analytic Toolkit构建的提取器可以部署在Streams或BigInsights中。
InfoSphere Streams的行业用例
为了让您深入了解Streams技术如何适应您的环境,我们会提供一些行业用例示例。当然,我们不能在这么短的书中涵盖每个行业,但我们认为本节会让您思考 关于Streams技术可以为您的环境提供的广泛可能性(做好准备,因为您的大脑将会兴奋地转变为超速)。
金融服务业(FSS)
金融服务部门及其子操作是一个主要的例子,对流数据的分析可以提供竞争优势(以及监管监督,取决于您的业务)。 能够以超低延迟,同时跨多个市场和国家分析大量交易和市场数据的能力,可以为公司提供微秒反应时间,通过套利交易和业务风险分析书来弥补损益之间的差异( 例如,在这个时刻发生的这种交易如何增加公司的风险位置?)。
FSS公司也可以使用Streams来进行实时交易监控和欺诈检测。 例如,Algo Trading支持每秒约1270万个期权市场消息的平均吞吐率,并为其客户生成延迟为130微秒的交易建议。
正如本章后面所讨论的,甚至还有适用于Streams的适配器,它通过无处不在的Financial Information eXchange(FIX)网关提供直接连接,并提供功能丰富的库,以帮助计算理论Put和Call选项值。 Streams甚至可以利用多种类型的输入。 例如,您可以使用Streams分析阻碍天气模式及其对证券价格的影响,作为短期持仓定位的一部分。
类似地,信用卡公司和零售商也可以使用实时欺诈检测来提供欺诈和多方欺诈检测(以及识别实时向上销售或交叉销售机会)。
健康与生命科学
医疗保健设备旨在快速生成诊断数据。 从心电图,到温度和血压测量设备,到血氧传感器等等,医疗诊断设备产生大量数据。 利用这些数据并实时分析它可以带来不同于任何其他行业的好处; 也就是说,除了为公司提供竞争优势外,Streams在医疗保健方面的使用有助于挽救生命。
例如,安大略大学理工学院(UOIT)正在多伦多建立一个更智能的医院,并利用Streams建设一个新生儿重症监护室,监测我们亲切地称之为小奇迹的健康状况,”数据婴儿”这些婴儿在新生儿病房不断产生数据:每次心跳,每次呼吸,每次异常等等。 Streams平台每秒提供超过1000条独特信息的医疗诊断信息,用作早期预警系统,帮助医生找到新方法,比过去更快地避免危及生命的感染24小时。这里也有协同效应。可能是单独监控的流的情况
绝对属于正常参数(血压,心率等);然而,具有某些特定值范围的若干流的组合可以证明是即将发生疾病的预测因素。由于Streams即时对动态数据进行分析而不仅仅是寻找超出限制的值,因此它不仅具有挽救生命的潜力,而且还有助于降低医疗成本。
电信
电信(电信公司)公司必须管理的呼叫详细记录(CDR)的数量是惊人的。 此信息不仅有助于提供准确的客户账单,而且可以通过近乎实时执行的CDR分析收集大量信息。 例如,CDR分析可以通过分析社交网络中“群组领导者”的访问模式来帮助防止客户流失。 这些小组负责人可能会影响他们的联系人从一个服务提供商转移到另一个服务提供商的倾向。 通过传统和社交媒体分析的结合,Streams可以帮助您识别这些个人,他们所属的网络以及他们影响的对象。
Streams还可用于启动实时分析处理(RTAP)活动管理解决方案,以帮助提高活动效率,缩短新促销和软件包的上市时间,帮助寻找新的收入来源,并丰富客户流失 分析。 例如,Globe Telecom利用从其手机收集的信息来确定每个客户的最佳服务促销以及提供服务的最佳时间,这对其业务产生了深远的影响。 Globe Telecom将新服务的上市时间从10个月缩短至40天,通过实时促销引擎大幅增加销售额等等。
对CDR有利的还可以应用于Internet协议详细记录(IPDR)。 IPDR提供有关基于互联网协议(IP)的服务使用和其他活动的信息,运营支持可以使用这些活动来确定网络质量,并在导致网络设备故障之前检测可能需要维护的问题。(当然,同样的用例可以应用于CDR。)在CDR和IPDR处理方面,Streams的实时性和低延迟性如何? 我们已经看到支持的某些详细记录的峰值吞吐率等于每秒500,000,每天分析超过60亿条详细记录(是的,您读得单位正确)每年超过4 PB(4000 TB)的数据; 使用Streams技术进行CDR处理的持续率为1 GBps,X射线衍射(XRD)率为100 MBps。 确实,Streams是改变游戏规则的技术。
执法,防御,监视和网络安全
Streams为改进执法和提高安全性提供了巨大的机会,并且提供了可在此空间中构建的各种应用程序的无限潜力,例如实时名称识别,身份分析,态势感知应用程序,多模式监控 ,网络安全检测,线控,视频监控和人脸识别。 公司还可以通过流式网络和其他系统日志来利用流式分析来检测和防止网络攻击,以阻止入侵或检测其网络中任何位置的恶意活动。
TerraEchos使用InfoSphere Streams提供隐蔽的传感器监控系统,使具有敏感设施的公司能够在入侵建筑物或其他敏感设施附近之前检测入侵者。 他们的技术获得了许多奖项(其光纤传感器系统寄宿生应用的Frost and Sullivan年度创新产品奖等)。 Streams的最新版本
包括一个名为Streams Processing Language(SPL)的全新开发框架,它允许他们以前所未有的速度提供这些类型的应用程序45%,使其功能和交付时间更快。
本书中我们没有空间......
正如我们所说,我们不可能涵盖Streams等强大产品可以帮助解决的所有用例和行业,因此我们将在本节中详细介绍更多细节。
政府机构可以利用Streams的广泛实时分析功能,通过监控和天气预报来管理野火风险,以及通过实时流量分析管理水质和水消耗。 一些政府还利用通过出租车,交通流摄像头和道路中嵌入的交通传感器传输的GPS数据来改善一些最拥挤城市的交通流量,以提供智能交通管理。 这种实时分析可以帮助他们预测交通模式并调整交通灯时间以改善交通流量,从而通过允许他们更有效地上下班来提高公民的生产力。
公用事业行业产生的数据量正以爆炸性增长。 智能电表以及现代能源电网中的传感器正以惊人的速度向公用事业公司发送实时信息。 Streams内置的大规模并行性允许实时分析这些数据,使得能量分配器和发电机能够根据消费者不断变化的需求来修改其电网的容量。 此外,公司可以将自然系统(如天气或水管理数据)的数据纳入分析流,使能源交易者满足客户需求,同时预测消费(或缺乏消费)需求,以提供竞争优势和 最大化公司利润。
制造商需要更具响应性,准确且数据丰富的质量记录和质量过程控制(例如,在微芯片制造领域,但适用于任何行业),以更好地预测,避免和确定超出容差的事件等。 诸如空间天气预报,瞬态事件检测和同步辐射原子研究等电子科学领域是Streams的其他机会。 从更智能的网格到文本分析,再到“谁在与谁交谈?”分析等等,正如我们之前所说,Streams用例几乎是无限的。
InfoSphere Streams的工作原理
如前所述,Streams完全是关于动态数据的分析。您可以将流视为有点像一行中的多米诺骨牌。当你把第一个推过来时,你最终会产生一个连锁反应(假设你已经把所有东西都排好了),一个倒下的多米诺骨牌的动量就足以开始下一个倒下了,依此类推。如果你很好,你甚至可以将多米诺骨牌线分成几行同时掉落的瓷砖,然后将它们合并在一起的某个位置。通过这种方式,你可以让许多多米诺骨牌平行下降,这些多米诺骨牌都会向他们的下一个多米诺骨牌提供动力。 (如果你想知道,根据吉尼斯世界纪录,一次性被一组人推翻的多米诺骨牌数量最多的一次超过430万。)流的性质相似,因为一些数据元素从一个数据元素开始流动,从一个运营商转移到另一个运营商,输出一个操作员成为下一个操作员的输入。类似地,数据的记录或元组可以分成多个流并且可能在下游连接在一起。当然,最大的区别在于,使用游戏Domino,一旦瓦片掉落,这就是它的结束,而对于Streams,数据以非常高的速度不断地流过系统,让你分析一个永无止境的信息流不断.
什么是流?
在更技术意义上,流是由边连接的节点的图。 图中的每个节点都是一个操作员或适配器,它将以某种方式处理流中的数据。 节点可以具有零个或多个输入以及零个或多个输出。 来自一个节点的输出(或输出)连接到另一个节点的输入(或输入)。 连接节点的图的边缘一起表示在运算符之间移动的数据流。 图6-1
表示一个简单的流图,它从文件中读取数据,将数据发送给称为仿函数的运算符(此运算符以某种编程方式转换传入的数据),然后将该数据提供给另一个运算符。 在此图中,流数据被馈送到拆分运算符,然后分割运算符将数据提供给文件接收器或数据库(取决于拆分运算符内部的内容)。
数据流经称为元组的流。 在关系数据库意义上,您可以将它们视为数据行。
资料编号:[5556]