离线处理

MapReduce 不适合处理实时数据的原因剖析

04-25
1.概述 Hadoop已被公认为大数据分析领域无可争辩的王者,它专注与批处理.这种模型对许多情形(比如:为网页建立索引)已经足够,但还存在其他一 些使用模型,它们需要来自高度动态的来源的实时信息.为了解决这个问题,就得借助Twitter推出得Storm.Storm不处理静态数据,但它处理预 计会连续的流数据.考虑到Twitter用户每天生成1.4亿条推文,那么就很容易看到此技术的巨大用途. 但Storm不只是一个传统的大数据分析系统:它是复杂事件处理(CEP)系统的一个示例.CEP系统通常分类为

Hadoop不适合处理实时数据的原因剖析

04-19
1.概述 Hadoop已被公认为大数据分析领域无可争辩的王者,它专注与批处理.这种模型对许多情形(比如:为网页建立索引)已经足够,但还存在其他一些使用模型,它们需要来自高度动态的来源的实时信息.为了解决这个问题,就得借助Twitter推出得Storm.Storm不处理静态数据,但它处理预计会连续的流数据.考虑到Twitter用户每天生成1.4亿条推文,那么就很容易看到此技术的巨大用途. 但Storm不只是一个传统的大数据分析系统:它是复杂事件处理(CEP)系统的一个示例.CEP系统通常分类为计算