当前位置:首页 > 新闻资讯 > 科技生活 > 新闻
拥抱大数据 走近大数据分析工具
  • 2013-8-13 9:03:11
  • 类型:原创
  • 来源:电脑报
  • 报纸编辑:薛昱
  • 作者:
【电脑报在线】若要说目前IT领域热度最高词的话,除了云计算外,恐怕就是大数据了。当前数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。大数据正在推动生产力迅速发展和创新,对于海量数据的应用也预示着新一波生产率大幅增长时期的到来。

Hadoop,大数据分析利器

  对于较大的公司来说,海量数据处理已经不是什么新鲜的东西了。例如,Twitter和LinkedIn已经是大数据的著名用户了,这两家公司已经奠定了明显的竞争优势,通过挖掘他们的大规模数据仓库来判断发展趋势。那么,中型企业的CIO该怎么办呢?幸运的是,手边就有可用的工具。这些工具中有一款是免费的,那就是Hadoop,它基于Java的Apache Hadoop编程框架。Hadoop是一个分布式系统基础架构,由Apache基金会开发,用户可以在不了解分布式底层细节的情况下开发分布式程序。简单来说,Hadoop是一套开源的、以Java为基础的、可对PB级别的大数据进行存储和计算的软件平台,它能够让数千台X86服务器组成一个稳定的、强大的集群。而对那些想充分利用大数据的IT专业人员,Hadoop解决了与大数据相关联的最常见的问题:高效的存储和访问海量数据。

利用Hadoop可进行高效存储和访问海量数据

    Hadoop主要由HDFS、MapReduce和Hbase组成,其内在设计让它能够在大量不共享任何内存和磁盘的计算机平台上运行。考虑到这一点,就能很容易看到Hadoop提供的价值——网络管理员可以购买许多商品服务器,将它们放在机架上,然后在每台服务器上运行Hadoop软件,Hadoop有助于减少大型数据集相关联的管理开销。在操作上,一旦企业的数据加载到Hadoop平台,软件就会把数据分解成可管理的段,然后自动将这些数据分配给不同的服务器。同时Hadoop跟踪数据驻留的位置,并通过创建多个存储副本进一步保护这些信息。这样,系统的伸缩性增强了,如果某个服务器脱机或者失败了,数据可以自动复制已知的正常副本。

 Hadoop的工作原理

  Hadoop在过去一年半时间里在大数据领域获得了极大的肯定。调查显示,以Hadoop为代表的分布式存储与计算技术成为最受关注的数据分析管理新技术,市场比例达到29.86%;其次是以SAP HANA为代表的内存数据库技术,市场比例达到23.30%;以Google Cloud SQL为代表的云数据库排名第三市场比例为16.29%。考虑到Apache Hadoop1.0版是在2011年11月底发布的这一事实,Hadoop获得这么多企业的认可确实令人惊讶。作为大数据分析方面的一项重要技术,大规模使用Hadoop已是必然趋势。目前谷歌、雅虎、亚马逊、Facebook,以及国内的淘宝、百度等都采用了Hadoop技术来处理海量数据。Hortonworks公司的CEO Eric Baldeschwieler预测:在2017年Hadoop将处理全世界数据的半数之多,而全球的行业专家和用户们都把Hadoop称为事实上的数据分析标准。 

本文出自2013-08-12出版的《电脑报》2013年第31期 A.新闻周刊
(网站编辑:pcw2013)


我来说两句(0人参与讨论)
发表给力评论!看新闻,说两句。
匿名 ctrl+enter快捷提交