您现在的位置:ITGov-IT治理研究中心>> 研究>> 战略性新兴产业>>正文内容
大数据在2012:新机会,新挑战
发布时间:2012年02月29日点击数: 作者:张瑾 来源:转载
【字体: 收藏 打印文章 查看评论( 0 )】
摘要:
现在来说,大数据看到的挑战更多一些,实际上也蕴藏着一些机会。首先来看几个数据,其实信息大爆炸这个词很不贴切,因为信息量的增长是常态、持续的状态,而不是一个突发事件。

数据量的增长变成一个突发事件是最近两年的事情。基于互联网的应用产生的社会性变革,使得一系列数据开始从客户端产生,而不是从企业里产生。数据量的增长速度有了新的级数上的增加。在这个基础上,70%-85%的数据是“多种数据格式的复合体”。未来数据的管理模型跟今天会有很大的差别。另外,87%的数据库性能问题都与数据量的增长相关。这是基于Oracle的一次数据调研。Gartner发现数据量直接影响的是现有处理模式的性能。所以,现在数据量的高速增长,如果按照原来的管理模式,把数据都放在一起保存,未来会遇到更多的挑战。因为现有数据库结构和数据管理的模型,已经不能满足基于大数据的数据规模。

如果一些企业提前采用大数据技术,能在竞争中取得一些先机。Gartner对未来五年的预测,其中有一条引起了轰动。到2015年,85%的世界五百强企业如果不采取大数据的策略将失去竞争力。所以大数据的竞争是非常关键的时机,也是非常残酷的事情。现在大家的确需要有足够先进有力的应对措施。

一、“大数据”是什么?大数据带来的问题是什么?

“大数据”指的不仅仅是数据量,而是会带来一系列新的挑战。Bigdata的概念首先是由Gartner一位叫道戈拉里的分析师提出的。他提出Bigdata面临三个V的挑战:数据量(Volume)、数据多样性(Variety)、高速(Velocity)。

在这个前提下,Gartner去年发布了Bigdata的12个模型。最关注的是最下面的区间,即有关Bigdata最开始产生的几个量化指标:数据量、数据种类和处理速度。一般企业所面对的数据管理管理的是数据库、结构化数据,以及所能预先安装好的管理软件所带来的数据。大数据管理的往往是我们无法管理的数据,比如来自企业外部,微博、社交网站和多媒体等各种载体。

数据多样性将是大数据的一个重点。它意味着未来数据的产生本身就是一个很大的区别。高速,与CIO关注的系统性能不是等同的关系。这里的高速指的是从数据产生到最终针对数据产生决策的速度,里面包括了存储的过程、计算的过程、整个模型和以什么方式提交出最后的结果。所以,不仅是计算能力和存储性能的问题,更多是在数据管理方面如何保护它的处理速度。在大数据问题中,速度往往是性命攸关的。比如对于灾难的预测,当灾难发生时,要很快对灾难发生的程度、影响的区域范围、对长远的影响等都需要量化出来。这是大数据很典型的应用,如果短时间内没有计算出来,那么数据就没用了。

大量、多样性和高速必然带来复杂性的问题。到现在为止很难找到一个很好的解决方案,能够应对所有的数据格式问题。虽然现在有很多不同行业开始采用标准化手段来回避这个问题,但仍然是很严峻的问题。

现在在医疗界有一个数据标准Dicom,即医疗数据的影像传输协定。当初只是针对制药,不过现在医疗行业包括医院都在采用这个数据格式,这是很好的趋势。通过一个中立机构,制定数据格式的标准,由它来解决一部分数据复杂性的问题。但如果放到更大范围,面向所有企业的话,数据格式还不存在。虽然现在有SML这种相对来说适用范围更广的格式,但在具体的定义以及应用方面还有很多挑战。

极限的信息管理:12个象限


“大数据”将对信息管理的各个方面的需求推向极限。访问权限管理和控制,包括数据敏感性分级(Classification)、共享协议(Contracts)、热点数据(Pervasiveness)、技术实现(Technologies)。这个层级是用户很少提到的,有了如此大的数据量,未来会是很严重的问题。数据敏感性分级,把所有数据放在一起是数据管理的灾难,数据管理的前提是所有数据产生的价值是不同的,不同时期产生的价值也是不一样的,必须要定义哪些是有价值的,哪些没有价值,还要定义价值的时间区限。共享协议,数据提交的方式是怎样的,如何提交,提交的格式是怎样的,这些都需要通过合同以法律形式确定下来。热点数据,大数据时代热点数据在不断变化。热点的程度和时间未来对访问权限和控制很重要。技术实现,能够管理大数据的技术手段有哪些。

质量管理包括保真度(Fidelity)、数据的相关性(Linking)、数据的有效性(Validation)、数据的有效期限(Perishability)。在访问权限之上是质量管理,这是原来数据仓库中的重要概念。数据拿进来之后保真度怎样,每个数据都有上下文的关系,这些上下文关系会不会影响在下一个场景中使用。数据的相关性,不同来源的数据组合的模

分享到:
点击按钮自动加关注代码——新浪微博 点击这里给我发消息
共3页 您在第1页 首页 上一页 1 2 3 下一页 尾页 跳转到页 本页共有1999个字符
相关文章
    没有关键字相关信息!
推荐文章
订阅
  关于ITGov | 联系ITGov | 收藏本站 | 服务条款 | 隐私保护 | 人员招聘 | 网站地图

京ICP备06004481号   Copyright 2002 - By ITGov.org.cn, All Rights Reserved

 

我要啦免费统计