name

SQL versus MapReduce

03-16
SQL versus MapReduce A Comparison between two Approaches to Large Scale Data Analysis Livio Hobi  University of Zurich This paper compares two different approaches to large scale data analysis, namely MapReduce and parallel database management systems

使用 Eclipse 在 Google App Engine 上创建 mashup,第 2 部分: 构建 Ajax mashup

03-12
使用社会网络可以更轻松地获取并聚合数据,从而创建富有革新精神的新 Web 应用程序.但是,仍然必须处理创建可伸缩 Web 应用程序的所有常见问题.现在,使用 Google App Engine (GAE) 也可以简化工作.使用 GAE,可以不必考虑管理应用服务器池的所有事务,而是集中精力创建优秀的 mashup.本文是共分三部分的系列文章 "使用 Eclipse 在 Google App Engine 上创建 mashup" 的第二部分,在本文中,将利用并增强在第 1 部分中构建的应用

源云计算技术系列(七)Cloudera (hadoop 0.20)

03-12
虚拟一套centos 5.3 os. 下载 jdk-6u16-linux-i586-rpm.bin [root@hadoop ~]# chmod +x jdk-6u16-linux-i586-rpm.bin [root@hadoop ~]# ./jdk-6u16-linux-i586-rpm.bin [root@hadoop ~]#  java -version java version "1.6.0" OpenJDK  Runtime Environment (build 1.6.0

开源云计算技术系列(六)hypertable(hadoop hdfs)

03-12
选择virtualbox建立ubuntu server 904 的虚拟机作为基础环境. hadoop@hadoop:~$ sudo apt-get install g++ cmake libboost-dev liblog4cpp5-dev git-core cronolog libgoogle-perftools-dev libevent-dev zlib1g-dev libexpat1-dev libdb4.6++-dev libncurses-dev libreadline5-dev ha

Hadoop的安装部署以及使用

03-12
本文主要是以安装和使用hadoop-0.12.0为例,指出在部署Hadoop的时候容易遇到的问题以及如何解决. 硬件环境共有3台机器,均使用的FC5系统,Java使用的是jdk1.6.0.IP配置如下:dbrg-1:202.197.18.72dbrg-2:202.197.18.73dbrg-3:202.197.18.74 这里有一点需要强调的就是,务必要确保每台机器的主机名和IP地址之间能正确解析. 一个很简单的测试办法就是ping一下主机名,比如在dbrg-1上ping dbrg-2,如果能p

用 Linux 和 Apache Hadoop 进行云计算

03-12
IBM®.Google.VMWare 和 Amazon 等公司已经开始提供云计算产品和战略.本文讲解如何使用 Apache Hadoop 构建一个 MapReduce 框架以建立 Hadoop 集群,以及如何创建在 Hadoop 上运行的示例 MapReduce 应用程序.还将讨论如何在云上设置耗费时间/磁盘的任务. 云计算简介 近来云计算越来越热门了,云计算已经被看作 IT 业的新趋势.云计算可以粗略地定义为使用自己环境之外的某一服务提供的可伸缩计算资源,并按使用量付费.可以通过 Intern

Azure实战:如何创建一个Cloud Queue

03-12
Azure Queue提供了一个简单的异步工作调度机制,通过Azure Queue可以连接云应用程序的不同组件,Azure Queue的优点是高可用,持久,性能好,它提供了REST接口,允许非C#语言编写的应用程序从任何地方访问Queue,让云应用程序和本地应用程序集成不再困难,在云应用程序和本地应用程序都可以使用Azure,Queue,主要用途有两个: · 消息通信总线 · 组件或功能模块解耦 可从W orker 角色或Web角色创建Queue,为了体验Worker角色和Web角色之间的协作,

开源云计算技术系列(四)(Cloudera体验篇)

03-12
Cloudera  的定位在于 Bringing Big Data to the Enterprise with Hadoop Cloudera为了让Hadoop的配置标准化,可以帮助企业安装,配置,运行hadoop以达到大规模企业数据的处理和分析. 既然是给企业使用,Cloudera的软件配置不是采用最新的hadoop 0.20,而是采用了Hadoop 0.18.3-12.cloudera.CH0_3的版本进行封装,并且集成了facebook提供的hive,yahoo提供的pig等基于hado

用 Hadoop 进行分布式并行编程, 第 3 部分

03-12
一 前言 在本系列文章的第一篇:用 Hadoop 进行分布式并行编程,第 1 部分: 基本概念与安装部署中,介绍了 MapReduce 计算模型,分布式文件系统 HDFS,分布式并行计算等的基本原理, 并且详细介绍了如何安装 Hadoop,如何在单机及伪分布式环境 (在一台单机中用多进程模拟) 运行基于 Hadoop 的并行程序.在本系列文章的第二篇:用 Hadoop 进行分布式并行编程,第 2 部分:程序实例与分析中,介绍了如何针对一个具体的计算任务,基于 Hadoop 编写 MapReduc

使用 Linux 和 Hadoop 进行分布式计算

03-12
Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入.它受到最先由 Google Lab 开发的 MapReduce 和 Google File System 的启发.2006 年 3 月份,MapReduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中. Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行

hadoop集群在linux下的安装

03-12
NOTE:因为hadoop远程调用用的是RPC,所以linux系统必须关闭防火墙service iptables stop 1.vi /etc/inittabid:5:initdefault:改为id:3:initdefault:即为字符型启动 2.ip configuration:/etc/sysconfig/network-scripts/ 3.vi /etc/hosts,add hostname 4.useradd hadoop :增加一个用户passwd hadoop :给用户加密码 5

功能丰富的 Perl: Amazon S3 上的储存管理--用于管理 S3 bucket 及其内容的 3 个 CPAN

03-12
了解 Perl 程序员如何使用 3 个 CPAN S3 模块 -- Net::Amazon::S3.Amazon::S3 和 SOAP::Amazon::S3 -- 来列出.创建和删除 bucket(S3 数据储存):列出.创建.获取和删除 bucket 中的项:以及获得一个项的元数据. Perl 开发人员拥有一个出色的资源,即 Comprehensive Perl Archive Network (CPAN).Amazon 也有一个出色的资源 Simple Storage Service (S

功能丰富的 Perl: Perl 和 Amazon 云,第 4 部分--深入探究完整 mod_perl 站点的代码库

03-12
这个共分 5 部分的系列文章向您介绍了如何使用 Perl 和 Apache 构建一个照片共享网站,从而访问 Amazon 的 Simple Storage Service (S3) 和 SimpleDB.在本期文章中,研究完整 mod_perl 站点的代码库,包括如何设置顶级配置.如何使用处理程序,以及如何设置外部依赖关系. 在本期文章中,我们将研究完整的 mod_perl 站点(只讨论代码:模板在下期文章讨论).前几期文章中,我们的节奏有些缓慢,现在,通过研究 mod_perl,我们将加快步伐

功能丰富的 Perl: Perl 和 Amazon 云,第 5 部分--了解完整 mod_perl 站点的模板

03-12
这个共分 5 部分的系列文章向您介绍了如何使用 Perl 和 Apache 构建一个照片共享网站,从而访问 Amazon 的 Simple Storage Service (S3) 和 SimpleDB.在这最后一期文章中,我们将考察完整 mod_perl 站点的模板,包括一个用于索引的模板.三个用于上传的模板(通用模板.S3 表单和 URL 添加物).一个用于浏览照片和评论的模板,以及一个用于递归式地浏览(即遍历浏览)照片评论的模板. 在最后一期文章中,我们将了解完整的 mod_perl 站点

用Google App Engine写一个留言板程序(一)

03-12
Google App Engine SDK可以看作是类似.NET Framework一样的平台(这个比喻不太恰当,但你可以先这样理解),这个环境运行在Google的服务器上,Google对它的安全.性能等作了多种限制和调节.另外Google App Engine是有选择性的支持Python,你不可能用到Python的全部特性 分享一下学习Google App Engine的学习心得,整个文章包括以下部分: ·Google App Engine前言介绍·开发环境配置·起步,写个Hello, Wor

HDFS用户指南

03-12
原文地址:http://hadoop.apache.org/core/docs/current/hdfs_user_guide.html 译者:dennis zhuang(killme2008@gmail.com),有错误请指正,多谢.目的 本文档可以作为使用Hadoop分布式文件系统用户的起点,无论是将HDFS应用在一个Hadoop集群中还是作为一个单独的分布式文件系统使用.HDFS被设计成可以马上在许多环境中工作起来,那么一些HDFS的运行知识肯定能大大地帮助你对一个集群做配置改进和诊断.

Hadoop集群搭建

03-12
目的 本文描述了如何安装.配置和管理有实际意义的Hadoop集群,其规模可从几个节点的小集群到几千个节点的超大集群. 如果你希望在单机上安装Hadoop玩玩,从这里能找到相关细节. 先决条件确保在你集群中的每个节点上都安装了所有必需软件. 获取Hadoop软件包. 安装 安装Hadoop集群通常要将安装软件解压到集群内的所有机器上. 通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker.这些机器是masters.余下的机器即作为DataNode也作为Ta

Hadoop快速入门

03-12
目的 这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等. 先决条件支持平台GNU/Linux是产品开发和运行的平台. Hadoop已在有2000个节点的GNU/Linux主机组成的集群系统上得到验证. Win32平台是作为开发平台支持的.由于分布式操作尚未在Win32平台上充分测试,所以还不作为一个生产平台被支持. 所需软件 Linux和Windows所需软件包括

开源云计算技术系列(四)(Cloudera安装配置hadoop 0.20最新版配置)

03-12
接上文,我们继续体验Cloudera 0.20最新版. wget hadoop-0.20-conf-pseudo_0.20.0-1cloudera0.5.0~lenny_all.deb wget hadoop-0.20_0.20.0-1cloudera0.5.0~lenny_all.deb debian:~# dpkg –i hadoop-0.20-conf-pseudo_0.20.0-1cloudera0.5.0~lenny_all.deb dpkg –i hadoop-0.20_0.20.0

开源云计算技术系列(四)(Cloudera安装配置)

03-12
节省篇幅,直入正题. 首先用虚拟机virtualbox 配置一台debian 5.0. debian在开源linux里面始终是最为纯正的linux血统,使用起来方便,运行起来高效,重新审视一下最新的5.0,别有一番似是故人来的感觉. 只需要下载debian-501-i386-CD-1.iso进行安装,剩下的基于debian强大的网络功能,可以很方便的进行软件包的配置.具体过程这里略去,可以在www.debian.org里面找到所有你需要的信息. 下面我们来体验一下稳定版0.183的方便和简洁.