大数据利器Hadoop的应用现状和发展趋势

本文讲的是大数据利器Hadoop的应用现状和发展趋势,Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式系统;MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。

  Hadoop的历史

  Hadoop的源头是Apache Nutch,该项目开始于2002年,是Apache Lucene 的子项目之一。2004年,Google在“操作系统设计与实现”(OSDI,Operating System Design and Implementation)会议上公开发表了题为“MapReduce:Simplified Data Processing on Large Clusters”(MapReduce:简化大规模集群上的数据处理)的论文,之后受到启发的Doug Cutting等人开始尝试实现MapReduce计算框架,并将它与NDFS(Nutch Distributed File System)结合,以支持Nutch引擎的主要算法。由于NDFS和MapReduce在Nutch引擎中有着良好的应用,所以它们于2006年2月被分离出来,成为了一套完整而独立的软件,起名为Hadoop。到了2008年年初,Hadoop已成为 Apache的顶级项目,它被包括Yahoo!在内的很多互联网公司所采用。现在,Hadoop已经发展成为包含HDFS、MapReduce、Pig、ZooKeeper等子项目的集合,用于分布式计算。

  Hadoop的功能与作用

  我们为什么需要Hadoop呢?众所周知,现代社会的信息量增长速度极快,这些信息里又积累着大量的数据,其中包括个人数据和工业数据。预计到2020年,每年产生的数字信息将会有超过1/3的内容驻留在云平台中或借助云平台处理。我们需要对这些数据进行分析和处理,以获取更多有价值的信息。那么我们如何高效地存储和管理这些数据,如何分析这些数据呢?这时可以选用Hadoop系统,它在处理这类问题时,采用了分布式存储方式,提高了读写速度,并扩大了存储容量。采用MapReduce来整合分布式文件系统上的数据,可保证分析和处理数据的高效。与此同时,Hadoop还采用存储冗余数据的方式保证了数据的安全性。

  Hadoop中HDFS的高容错特性,以及它是基于Java语言开发的,这使得Hadoop可以部署在低廉的计算机集群中,同时不限于某个操作系统。Hadoop中HDFS的数据管理能力,MapReduce处理任务时的高效率,以及它的开源特性,使其在同类的分布式系统中大放异彩,并在众多行业和科研领域中被广泛采用。

  Hadoop的优势

  Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

  ·高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

  ·高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

  ·高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此其处理速度非常快。

  ·高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

  Hadoop的应用现状和发展趋势

  由于Hadoop优势突出,基于Hadoop的应用已经遍地开花,尤其是在互联网领域。Yahoo! 通过集群运行Hadoop,以支持广告系统和Web搜索的研究;Facebook借助集群运行Hadoop,以支持其数据分析和机器学习;百度则使用Hadoop进行搜索日志的分析和网页数据的挖掘工作;淘宝的Hadoop系统用于存储并处理电子商务交易的相关数据;中国移动研究院基于Hadoop的“大云”(BigCloud)系统用于对数据进行分析和并对外提供服务。

  2008年2月,Hadoop最大贡献者的Yahoo!构建了当时规模最大的Hadoop应用,它们在2000个节点上面执行了超过1万个Hadoop虚拟机器来处理超过5PB的网页内容,分析大约1兆个网络连接之间的网页索引资料。这些网页索引资料压缩后超过300TB。Yahoo!正是基于这些为用户提供了高质量的搜索服务。

  Hadoop目前已经取得了非常突出的成绩。随着互联网的发展,新的业务模式还将不断涌现,Hadoop的应用也会从互联网领域向电信、电子商务、银行、生物制药等领域拓展。相信在未来,Hadoop将会在更多的领域中扮演幕后英雄,为我们提供更加快捷优质的服务。

作者: 陆嘉恒

来源: IT168

原文标题:大数据利器Hadoop的应用现状和发展趋势

时间: 2017-09-28

大数据利器Hadoop的应用现状和发展趋势的相关文章

大数据利器:Hadoop的十大应用场景

本文讲的是大数据利器:Hadoop的十大应用场景,谁在用Hadoop?这是个问题.在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深.但谁才是Hadoop的最大用户呢?首先想到的当然是它的"发源地",像Google这样的大型互联网搜索引擎,以及Yahoo专门的广告分析系统.也许你会认为,Hadoop平台发挥作用的领域是互联网行业,用来改善分析性能并提高扩展性.其实Hadoop的应用场景远不止这一点,深入挖掘的话你会发现Hado

如何挑选合适的大数据或Hadoop平台?

文章讲的是如何挑选合适的大数据或Hadoop平台,今年,大数据在很多公司都成为相关话题.虽然没有一个标准的定义来解释何为 "大数据",但在处理大数据上,Hadoop已经成为事实上的标准.IBM.Oracle.SAP.甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop.然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品.你有多种选择来安装Hadoop的一个版本并实现大数据处理.本文讨论了不同的选择,并推荐了每种选择的适用场合

Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此对:译者:贾艳成 QQ:496830205 表示感谢. 二.意见征集: 本章节由<Hadoop专业解决方案群:313702010>翻译小组完成,为小组校验稿,已经通过小组内部校验通过,特此面向网络征集意见,如果对本章节内容有任何异议,请在评论中加以说明,说明时,请标明行号,也可以以修订的方式,发送

大数据和Hadoop时代的维度建模和Kimball数据集市

维度建模已死? 在回答这个问题之前,让我们回头来看看什么是所谓的维度数据建模. 为什么需要为数据建模? 有一个常见的误区,数据建模的目的是用 ER 图来设计物理数据库,实际上远不仅如此.数据建模代表了企业业务流程的复杂度,记录了重要的业务规则和概念,并有助于规范企业的关键术语.它清晰地阐述.协助企业揭示商业过程中模糊的想法和歧义.此外,可以使用数据模型与其他利益相关者进行有效沟通.没有蓝图,不可能建造一个房子或桥梁.所以,没有数据模型这样一个蓝图,为什么要建立一个数据应用,比如数据仓库呢? 为什

大数据与Hadoop:并不能简单划等号

当前,我国已经进入大数据时代,在这样的时代背景下,Hadoop的应用也逐渐深入,正在从互联网企业,逐渐拓展到电信,金融,政府,医疗这些传统行业.虽然目前Hadoop应用场景还是以日志存储.查询和非结构化数据处理为主,但是Hadoop技术的不断成熟以及生态系统相关产品的完善,包括Hadoop对SQL不断加强的支持,以及主流商业软件厂商对Hadoop支持的不断增强,会带动Hadoop 渗透到越来越多的应用场景中. 2013年是中国大数据的应用落地年,越来越多的行业用户开始重视并启动大数据相关的项目.

大数据与Hadoop之间的关系

我们都听过这个预测:到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB.根据IDC数据显示,截止到2010年,这个数字已经达到了120万PB,或1.2ZB.如果把所有这些数据都存入DVD光盘,光盘高度将等同于从地球到月球的一个来回也就是大约 480,000英里. 对于那些喜欢杞人忧天的人来说,这是数据存储的末日即将到来的不祥预兆.而对于机会主义者们而言,这就好比是个信息金矿,随着技术的进步,金矿开采会变得越来越容易. 走进大数据,一种新兴的数据挖掘技术,它正在让数据处

必读!大数据:Hadoop,业务分析及更多(1)

翻译:Cady Wang(王楠楠) 你想了解大数据,却对生涩的术语毫不知情?你想了解大数据的市场和应用,却又没有好的案例和解说?别担心,这本来自Wikibon社区的小书想要帮你. 是的,这是一本小书而不是一篇文章,因为它详实细致的让你从一个完全不了解大数据技术及相关应用的门外汉,变成一个熟知其概念和意义的"内行人",所以它很棒! 译者Cady王楠楠花费了很多心血翻译这本小书,不足之处也请朋友们多指正.我们分成数篇连载. --世界大数据观察,宋星 主要内容 · 1来自Wikibon社区的

解密大数据良药——Hadoop的十二个事实

现如今,Apache Hadoop已经无人不知无人不晓.当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软件库,并以自己儿子的大象玩偶为其命名的时候,谁能想到它有一天会占据"大数据"技术的头把交椅呢. 虽然Hadoop伴随大数据一同火爆起来,但相信还是有许多用户对于它不甚了解.在上周名的TDWI解决方案峰会中, TDWI研究主任兼行业分析师Philip Russom发表了"关于Hadoop的12点事实"的主题演讲,编辑在本文中将对其

大数据与Hadoop之间是什么关系?

大数据在近些年来越来越火热,人们在提到大数据遇到了很多相关概念上的问题,比如云计算. Hadoop等等.那么,大数据是什么.Hadoop是什么,大数据和Hadoop有什么关系呢? 大数据概念早在1980年,著名未来学家阿尔文·托夫勒提出的概念.2009年美国互联网数据中心证实大数据时代的来临.随着谷歌MapReduce和 GoogleFile System (GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度.目前定义:大数据(big data),或称巨量资料,指的是所涉及的