hadoop,

基于大数据背景下的图形处理技术变革探索

03-16
基于大数据背景下的图形处理技术变革探索 赵锐 随着信息技术的不断发展,云计算及物联网技术出现之后,又出现了一种新的技术变革,即大数据.大数据给计算机网络相关的很多领域带来了不同层次的影响,图形处理技术就是其一,本文以大数据背景为基础,对这一背景下图形处理技术的变革进行了深入的探索. 基于大数据背景下的图形处理技术变革探索

基于并行编程计算型的索贝尔滤波技术

03-16
基于并行编程计算型的索贝尔滤波技术 徐昌荣 王聪颖 袁秀华 随着遥感影像数据量的骤增,单机环境下完成索贝尔边缘滤波运算所需的计算时间也剧增.根据遥感数据的分幅特征,结合MapReduce并行分布式计算模型,本文提出了一种将该运算迁徙到Hadoop集群环境中的方法,以完成海量影像数据的索贝尔滤波运算.实验结果表明集群运算能够显著缩短计算时间,并且该计算时间会随着集群节点数目的增加而趋于减少. 基于并行编程计算型的索贝尔滤波技术

Hadoop 的 12 个技术痛点

03-16
章作者Andrew C. Oliver是一位专业的软件顾问,同时还是北卡罗来纳州达勒姆大数据咨询公司Open Software Integrators的总裁和创始人.长时间的使用Hadoop,他发现了这12件事情真的影响了Hadoop的易用性. Hadoop是一个很神奇的创造,但它发展过快而表现出一些瑕疵.我爱大象,大象也爱我.不过这世上没什么是完美的,有的时候,即使是再好的朋友间也会起冲突.就像我和Hadoop之间的存在斗争一样.下面是我列举的12个痛点. 1. Pig vs. Hive 你

“大云”Hadoop平台及应用

03-16
"大云"Hadoop平台及应用 王宝晗  中国移动研究院云计算系统部 王宝晗老师主要为我们介绍了Hadoop在中国移动"大云" 云计算平台中的应用.据悉,中国移动"大云" 云计算平台主要包含两部分-PaaS层.IaaS层.而Hadoop主要是被部署在PaaS层面. "大云"Hadoop平台及应用

国外大数据研究热点及发展趋势探析

03-16
国外大数据研究热点及发展趋势探析 黄永勤 大数据时代的到来引起了业界和学界的广泛关注,大量研究成果不断涌现.对Web of Science数据库中收录的国外研究大数据的相关文献进行分析和综述.通过绘制关键词的知识图谱,梳理了国外大数据研究的5个热点:"大数据源起.概念和特点"."生物信息学"."云计算"."MapReduce和Hadoop"."可视化",并揭示了它们的研究现状.现存问题和发展方向. 国外大数

大数据测试技术研究

03-16
大数据测试技术研究 代亮 陈婷 许宏科 钱超 梁殿鹏 在对大数据分析平台研究的基础上,根据国内外大数据测试的研究现状和在交通信息大数据分析平台测试中遇见的问题,对大数据测试技术进行了深入研究.首先分析了大数据测试的特点和难点,分析了在Hadoop处理过程各个阶段测试的主要特点与挑战;然后从功能测试和非功能测试两个方面,分析了大数据分析系统的测试方法.针对于大数据的"4V"特性,分析了测试的难点和解决方案,分析了对于具体业务背景的大数据分析系统在测试前期需要的准备工作和测试环境的搭建要注

一种基于Hadoop的多表链接策略

03-16
一种基于Hadoop的多表链接策略 徐剑  陈群  王卓  李战怀 Hadoop系统在处理多表链接问题时,每轮都会将大量的中间结果写入本地磁盘,从而严重降低了系统的处理效率.为解决该问题,提出一种"替换-查询"方法,该方法通过对链接表建立索引,将预输出的元组集替换为索引信息输出到中间结果,以索引的形式参与多表链接,以此减少中间结果的I/O代价.运用缓冲池.二次排序和多线程技术对索引信息进行优化管理,加快索引查询速度.最后在TPC-H数据集上,设计了与原Hadoop的对比实验,结果表明该

大数据综述

03-16
Big Data: A Survey Min Chen Shiwen Mao Yunhao Liu In this paper, we review the background and state-of-the-art of big data. We first introduce the general background of big data and review related technologies, such as could computing, Internet of Th

Apache Hadoop

03-16
Apache Hadoop JERRIN JOSEPH Hadoop Hadoop Distributed File System (HDFS) Hadoop MapReduce Introduction Architecture Operations Conclusion References Apache Hadoop

基于Hadoop系统的MapReduce数据流优化

03-16
1 Hadoop管道改进思想 在Hadoop系统的实现中,Map端的输出数据首先被溢写入本地磁盘,当本机任务完成后通知JobTracker,然后Reduce端在得到 JobTracker的通知后会发出HTTP请求,利用复制的方式从相应的Map端拉回其输出.这样的方式只能等该Map任务完成后才能开始执行 Reduce任务,并且Map任务和Reduce任务的执行是分离的. 我们的改进思想是使Map任务和Reduce任务能够以管道的方式执行,即Map任务开始产生输出后直接发送给相应的Reduce任务,

解读:基于Hadoop的大规模数据处理系统

03-16
Hadoop的组成部分 Hadoop是Google的MapReduce一个Java实现.MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行. Hadoop主要由HDFS.MapReduce和HBase等组成.具体的组成如下图: Hadoop的组成图 1. Hadoop HDFS是Google GFS存储系统的开源实现,主要应用场景是作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase. HyperTable)的

Hadoop白皮书(4):数据仓库Hive简介

03-16
Hive 是一种建立在 Hadoop 之上的数据仓库架构.它提供了: • 一套方便的实施数据抽取(ETL)的工具. • 一种让用户对数据描述其结构的机制. • 支持用户对存储在Hadoop中的海量数据进行查询和分析的能力. Hive 的基本特点是它采用 HDFS 进行数据存储并利用 Map/Reduce 框架进行数据操作.所以从本质上来说,Hive 就是个编译器,它把用户的操作(查询或者 ETL)变换成Map/Reduce 任务,利用 Map/Reduce 框架执行这些任务以对HDFS上的海量数

Hadoop白皮书(2):分布式数据库HBase简介

03-16
HBase 是一个面向列的分布式数据库.HBase 不是一个关系型数据库,其设计目标是用来解决关系型数据库在处理海量数据时的理论和实现上的局限性.传统关系型数据库在上世纪七十年代为交易系统设计,以满足数据一致性 (ACID)为目标,并没有考虑数据规模扩大时的扩展性,以及单点系统失效时的可靠性.虽然经过多年的技术发展,产生了一些对关系性数据库的修补(并行数据库),然而受限于理论和实现上的约束,扩展性从来没有超过 40 个服务器节点.而 HBase 从一开始就是为 Terabyte 到Petabyt

Hadoop白皮书(1):分布式文件系统HDFS简介

03-16
Hadoop 分布式文件系统 (HDFS) 是运行在通用硬件上的分布式文件系统.HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案.HDFS 已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为各大网站等在线服务公司的海量存储事实标准,多年来为网站客户提供了可靠高效的服务. 随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使用者快速地访问.传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展,成为了业务发展的瓶颈和障碍. HDFS 通过一

初学hadoop的一些学习记录

03-16
倒排索引 简介 倒排索引(英语:Inverted index),也常被称为反向索引.置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射.它是文档检索系统中最常用的数据结构. 有两种不同的反向索引形式: · 一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表. · 一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置. 例子 以英文为例,下面是要被索引的文本: · "it is what it is&

云计算架构之Hadoop:从小象变大象的发展历程

03-16
由于具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台.就像30年前SQL(Structured Query Language)出现一样,Hadoop正带来了新一轮的数据革命.如今Hadoop已从初出茅庐的小象变成了行业的巨人,但Hadoop仍需继续完善. 基于Java语言构建的Hadoop框架实际上一种分布式处理大数据平台,其包括软件和众多子项目.在近十年中Hadoop已成为大数据革命的中心.MapReduce 作为Hadoop的核心是一种处理大型及超大型数据集(T

基于Hadoop平台下的Canopy-Kmeans高效算法

03-16
基于Hadoop平台下的Canopy-Kmeans高效算法 赵庆 介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法.针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行改进,避免了Cannopy选取的盲目性.采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景.实验结果表明,此方法相对于传统Kmeans和Canopy算法有

基于Hadoop平台的大数据分析关键技术标准化探讨

03-16
基于Hadoop平台的大数据分析关键技术标准化探讨 高洪  杨庆平  黄震江 分析基于Hadoop平台的大数据分析关键技术面临的标准化问题,从数据采集.并行计算框架.分析结果输出.并行数据分析算法四个方面进行标准化的分析和调研,提出包含架构模型等四个方面的标准化方向以及相关API等方面的标准化建议. 关键词--大数据分析: 计算框架: 并行分析算法: Hadoop 基于Hadoop平台的大数据分析关键技术标准化探讨

压缩对Hadoop性能影响研究

03-16
压缩对Hadoop性能影响研究 向丽辉,缪力 压缩是I/O 调优的一个重要方法,它能减少I/O 的计算负载,从而提高I/O 的性能.当今,磁盘I/O 的发展速度永远赶不上有着摩尔定律发展的CPU 速度,所以I/O 常常成为数据处理的瓶颈.在Hadoop 中,如何使用压缩来进行I/O 调优还未被完全研究.本文通过实验,得出了一个压缩使用策略来帮助Hadoop 的使用者来确定何时何地使用压缩以及使用何种压缩.基于这个策略,有些Hadoop 应用在合理使用压缩后能提高达65%的效率. 压缩对Hadoo

#2012年中国云计算“七宗最”有奖转发#

03-16
#2012年中国云计算"七宗最"有奖转发#盘点你心目中2012年中国云计算的"七宗最",参与投票关注@中国云计算论坛 并@ 两个好友,即有机会获得中国云计算领军人物刘鹏教授亲笔签名的<云计算>或<实战Hadoop>共10本,活动截止时间为2月4日.详情访问:http://e.weibo.com/chinacloudbbs