大数据分析 :利用向外扩展技术深入挖掘商业价值

导语:大数据分析技术的价值在企业领域已经非常明确。充分利用良好信息的能力一直是摆在IT部门面前的重要难题与挑战。现在我们已经拥有了足以解决这一难题的工具,接下来要做的就是想办法使其为自己服务了。

方方面面的发展改进已经让从半结构化数据中获取有价值信息成为可能。以Hadoop为代表的新型解决方案在构建层面就充分考虑到了要如何适应跨商用服务器集群的分布式运行环境。

大数据:以需求为导向的审视角度

新型分析工具与极大丰富的处理能力为我们敞开了一道大门,如今企业已经能够借此对庞大的业务及外部数据加以审视并获取有价值结论。

从数据池当中挖掘有价值信息,从而实现知识提升的能力早已不算什么新鲜事。事实上,早在一个多世纪以前,这样的处理方式就已经成为科学与商务领域的支柱性机制——其诞生时间甚至远早于计算机、数据库以及其它主流技术成果。

举例来说,来自伦敦的医师John Snow曾在1854年记录下霍乱疫情在伦敦苏活区的具体病例爆发位置。他根据这些数据所绘制的疫情分布图帮助医护人员建立起霍乱与水源之间的病理性联系,并确定宽待的一处公共水泵正是此次疾病的源头。政府方面立即依数据指引采取了行动,从拆除该水泵开始一步步控制住了疾病的继续蔓延。

Snow在十九世纪的研究成果可能被普遍视为“小数据”分析的胜利。当然,时至今日,万众瞩目的焦点其实是“大数据”,这一新兴词汇指的是两类数量庞大的数据集合——其一为由传统数据库负责打理的结构化数据,其二则是以日志文件、位置数据、社交媒体内容以及富媒体信息为代表的半结构化数据。

Gartner公司对大数据进行了更为准确的规范性定义,大家可以将其概括为“3V”概念,即:“高容量(volume)、高速率(velocity)以及/或者多类别(variety)信息,需要通过新型处理机制才能借此对决策制定、结论发现以及处理优化起到辅助作用。”在这里,“速率”指的是数据会以极高节奏进行内容更新,而“类别”则代表大数据会显示出多种格式及结构层级。

大数据时代的救世主:向外扩展计算

最终,大数据已经成为IT部门不可忽视的一类沉重负担——其数据存储规模开始成倍扩大。如果不解决这一首要难题,企业根本无法从中提取到具备指导意义的实际价值。

大约十年之前,对如此规模的庞大数量集合、特别是半结构化数据进行分析处理简直可以说是痴人说梦——即使是财力最为雄厚的企业也无从下手。能够保存、整理并分析这类数据的工具根本不存在; 换言之,即使真实存在,其高昂的购买、部署与维护成本也会令企业望而却步。

不过时至今日,方方面面的发展改进已经让从半结构化数据中获取有价值信息成为可能。以Hadoop为代表的新型解决方案在构建层面就充分考虑到了要如何适应跨商用服务器集群的分布式运行环境。包括MongoDB、Cassandra、Couchbase、Neo4j在内的多种开源NoSQL数据库带来了类似于规模经济的扩展机制:要添加更多计算与存储容量,用户只需在整套架构当中纳入新的商用服务器即可——该架构能够在面临个别节点故障的情况下保证数据不致丢失。

大数据解决方案既能够运行在内部环境当中,又可以栖身在公有云平台之上——后者也正是众多大数据解决方案的主要指向目标。像Amazon EC2(全称为弹性计算云,即Elastic Compute Cloud)这样的商业云能够根据实际需求提供成千上万颗处理器计算核心以及几乎不设上限的数据存储容量。目前,只需一套网络浏览器、一根网线外加一张个人信用卡,每位用户都能以每小时1.70美元的实惠价格享受到具备32个虚拟CPU、60GB内存以及600GB存储容量的云基础设施服务。

向外扩展计算允许数据科学家们通过分而治之的方式处理大数据计算难题,这种分布式处理几乎能够在瞬间从庞大的数据集中返回对应结果。与此同时,先进的分析与数据可视化技术则让庞大而复杂的数据集变得易于理解,足以供不同领域的专家据此探寻更深层次的趋势与规律。

大数据技术的市场规模近年来呈现出陡峭的上升曲线。根据IDC公布的2014预测报告显示,大数据技术与服务市场将保持26%的年复合增长率、并于2018年达到415亿美元的整体估值——这一速度基本相当于信息技术整体市场增幅的六倍。A.T.Kearney公司则预计,全球市场在大数据硬件、软件以及服务领域所投入的开销截至2018年将始终保持30%的年复合增长率。而到2018年,大数据服务与技术的整体市场规模将达到1140亿美元。根据Wikkbon的统计,2014年大数据市场总体价值为285亿美元,而这一数字在2015年将增长至501亿美元。

商业案例:老数据中蕴藏新机遇

大数据给企业业务带来的助益可以说显而易见。一方面,企业能够从数据中获取到原本只能经由应用程序服务器或者(时间更久远的)备份磁带乃至文件柜提供的重要信息。最直观的例子就是网站点击流数据、系统事件日志以及其它一些重要记录。这些数据随后即可被全新的垂直应用程序体系所使用。

配合适当的数据可视化工具之后,大数据就能够帮助各个领域的专业人士与有价值信息建立起更为直观的联系,并从中获取到分析师们有可能忽略的重要模式。

不夸张地说,大数据所蕴藏的力量将只受到我们想象力的约束。下面举几个实例:

? 零售商已经开始应用这项新技术

举例来说,苹果的iBeacon会对客户的活动轨迹进行追踪,而且追踪对象并非哪些客户进入了直营店、而是这些客户在经过店内各检测位置时正在做什么。其中包括他们在哪些产品或者演示内容前驻足,具体驻足时间有多长等等。将这些数据整理起来,再结合他们最终所购买的产品,苹果就能发现如何更加有效地对直营店组织以及产品的标注与销售作出改革。

? 快捷脚本

快捷脚本每年能够帮助医生开具14亿份处方。它会利用来自医生办公室、药店、医院以及实验室的数据分析结果来诊断哪些病患有可能拒绝服药或者不同药品之间可能产生的副作用。

? 航班信息收集

在2013年进行的一次试点活动中,通用电气公司对来自25条不同航线的15000次航班进行了完整的飞行信息收集,每次飞行产生的各项指标数据高达14GB。通用电气最终将这些TB级别的飞行数据集整理起来,从而实现高达十倍的成本节约效果。到2015年,通用电气计划每年对100万次航班进行监控,其完整飞行操作数据总量将达到1500TB。

数据分析机制的应用已经相当高效且演变速度极快,这甚至让FTC(即美国联邦贸易委员会)被迫向部分企业发出警告、称大数据分析技术有可能给某些实施目标带来公平性违反或导致特定群体受到损害。他们还特别强调了原本一直被认为是安全无害的某些常见数据,例如电费单、点击流数据、信用卡交易信息甚至是收费站记录——这些如今都能够在大数据分析的处理下得出新型结论,且极有可能令隐私受到侵犯。

向云敞开怀抱

目前大数据领域最令人兴奋的要素就是找寻那些与业务紧密相关、但却一直未被划入收集范畴或者受到保存的数据源。从简单层面讲,这可能需要大家将现有销售趋势与关键性经济数据进行混合——或者采用时下最为流行的方式,在社区网络站点上获取与趋势性议题相关的数据。这样的处理机制让个人隐私关注者们变得非常紧张。由外部数据供应商所提供的数据可能会描绘出细致程度惊人的隐私信息详情。

随着云计算变得愈发流行,能够与数据分析机制相对接的可用数据源的数量也呈现出爆发式增长。其中包括对社交媒体数据、财务数据以及医疗数据的挖掘能力,这些数据通常都由经过充分定义的API加以访问,并能够通过互联网进行交付。尽管本身并不具备什么实际价值,但这类数据往往会在与其它时间序列型数据结合后带来极具意义的关键性信息。举例来说,我们可以通过对个人完整履历的深入分析来推断此人在未来几年中犯罪入狱的可能性,预测某款新型产品线到底是疯狂大卖还是无人问津,甚至检测到某人或某个群体所携带的未确诊健康问题将给人寿保险赔付成本带来的显著影响。

各供应商现在开始专门在企业商务智能体系内提供这种按需数据服务,其中包括以谷歌及AWS为代表的大型IaaS以及PaaS云计算供应商。甚至政府机构也着手提供按需数据,正如世界各地不断涌现的数据供应商根据需求为企业用户提供关键性商务智能服务支持一样。事实上,经营大数据分析服务的数据供应商群体的不断扩大也反映出商务智能专家以及企业股东对于大数据分析中所蕴含潜在价值的肯定。

换句话来说,大数据分析并不属于利基业务。它实际是一块复杂的区域,在这里用户可以从大量平台当中作出选择,而每种平台都拥有着自己的优势与不足。事实上,大多数企业用户在现有传统数据库之外,最终都会同时使用多种不同类型及品牌的新型数据库方案。

最后,如今我们也拥有了能够实现这一系列分析任务的能力。越来越多的自动化系统足以将大数据分析与业务流程结合在一起,从而允许运营系统以近实时方式对多种阈值设定作出响应。技术业界将这种机制称为嵌入式分析,其中可能还引入了可编程、针对性配置方案或者足以支持此类服务的相关工具等。这些技术方案在业务环境下的作用实例包括分析实时交付的各项指标、将订单路由至拥有更出色追踪记录的供应商或者利用已知的关键性预测数据整理出销售趋势展望、并借此以自动化方式制定生产计划。

平台数量增长

Hadoop可以说是目前处理大规模结构化与非结构数据的首选平台。该技术方案采用分布式处理框架与开发环境,通常来讲只有借助特定的应用程序开发技能才能对其加以高效利用。

数据处理流程与大数据分析即服务的崛起同样起到了巨大而深远的颠覆性作用。Amazon目前将其Kineses平台作为数据处理流程方案,而谷歌则将数据处理流程引入了其BigQuery——也就是该公司打造的基于云的大数据产品。利用这种数据处理流技术,开发人员能够每秒发送高达10万行实时数据,并以近实时方式对这些数据加以分析。这种能力对于那些要求使用实时信息的商务智能应用程序来说显然至关重要。

dawei

【声明】:北京站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。