数据仓库

[Hadoop大数据]——Hive初识

12-05
Hive出现的背景 Hadoop提供了大数据的通用解决方案,比如存储提供了Hdfs,计算提供了MapReduce思想.但是想要写出MapReduce算法还是比较繁琐的,对于开发者来说,需要了解底层的hadoop api.如果不是开发者想要使用mapreduce就会很困难.... 另一方面,大部分的开发者都有使用SQL的经验.SQL成为开发者必备的技能... 那么可以不可以使用SQL来完成MapReduce的过程呢?-- 答案就是,Hive Hive能够解决的问题 Hive可以帮助开发者从现有的数

循序渐进,了解Hive是什么!

12-05
一直想抽个时间整理下最近的所学,断断续续接触hive也有半个多月了,大体上了解了很多Hive相关的知识.那么,一般对陌生事物的认知都会经历下面几个阶段: 为什么会出现?解决了什么问题? 如何搭建?如何使用? 如何精通? 我会在本篇粗略的介绍下前两个问题,然后给一些相关的资料.第三个问题,就得慢慢靠实践和时间积累了. 如果有什么问题,可以直接留言! 为什么出现?解决了什么问题? 背景 说到这个问题,还得先说个小故事,在很久很久以前.... 有一个叫facebook的贼有名的公司,他们内部搭建了数据

大数据学习之路(持续更新中...)

12-05
在16年8月份至今,一直在努力学习大数据大数据相关的技术,很想了解众多老司机的学习历程.因为大数据涉及的技术很广需要了解的东西也很多,会让很多新手望而却步.所以,我就在自己学习的过程中总结一下学到的内容以及踩到的一些坑,希望得到老司机的指点和新手的借鉴. 前言 在学习大数据之前,先要了解他解决了什么问题,能给我们带来什么价值.一方面,以前IT行业发展没有那么快,系统的应用也不完善,数据库足够支撑业务系统.但是随着行业的发展,系统运行的时间越来越长,搜集到的数据也越来越多,传统的数据库已经不能支撑

推荐系统那点事 —— 什么是用户画像?

12-04
用户画像在大数据分析中是一种很有用的系统,它可以各种不同的系统中,起到很关键的作用.比如搜索引擎.推荐系统.内容系统等等,可以帮助应用实现千人千面.个性化.精准等的效果. 下面将从几个方面来说一下,什么是用户画像,主要的内容来自<用户网络行为画像分析与内容推荐应用>这本书. 应用场景 数据来源 特性 建模 群体画像 画像的存储 画像的查询 画像的更新 图片来自京东--想要购买可以点这里跳转 应用场景 下面举几个很典型的场景: 搜索引擎 在搜索的时候考虑用户的画像标签,返回用户感兴趣的内容.比如

你不知道的那些“XX即服务”

11-24
  云计算引发了一系列XX即服务的新模式,从早期的软件即服务(Saas)到现在流行的网络即服务(Naas),各种"XX即服务"的术语也让很多IT工作者觉得一头雾水,本期的信息化内参,带你全面了解各种各样的XX即服务. 分析即服务(Analytics-as-a-Service,AaaS )   在云计算之前,上一个数据仓库和商业智能项目通常意味着花费数月获取硬件和软件,实现自定制设计的数据仓库,同时符合其他业务需求.转移到基于云的数据分析服务,允许你用更多的时间分析,用更少的时间管理硬件

浅谈Hadoop生态系统

03-18
大数据在2014年逐渐爆发,越来越多的企业发现了大数据的用途,不仅可以用来管理每天的业务流程,还能解决复杂的商业问题.大数据很快跃升为热点词,并将自己打造成可以解决大大小小商业实体问题的可靠技术. 大数据,顾名思义,就是在我们周围存在的巨大量级数据,这些数据可以是在智能设备.互联网.社交媒体.聊天室.移动APP.电话呼叫.商品购买等一系列使用活动中产生.大数据技术就是用来收集.存储和分析这些量级(一般达到拍字节)的信息. 大数据技术彻底改变了人们看待数据和数据库存储的方式,颠覆了数据的使用方法.

银行如何在有限的预算下完成数据仓库构建

03-18
大多数的数据仓库项目都会带来巨大的投入.比如Nordea Bank是一家欧洲银行,他们总共花费了1亿欧元来构建数据仓库系统,用来进行跨地区和业务部门的数据统一. 然而,面对相同的业务挑战,另外一家欧洲银行UniCredit却采取了截然不同的方法. UniCredit首席财务官Domenico Ambrisi在接受记者采访时表示:"我们的理念是在其他项目中来寻找空间,只要有其他任何项目发布,我们就会抓住机会进行创新." 举例来说,数据仓库项目完全可以利用银行平台升级的机会.在过去2-3年

百度数据仓库体系介绍

03-16
百度数据仓库体系介绍 刘立萍   liuliping@baidu.com 2012年11月27日 --我们要解决的大数据问题 --百度数据仓库产品 --百度大数据多维分析/报表引擎产品 temp_12120509416231.pdf

大数据分析与高速数据更新

03-16
大数据分析与高速数据更新 陈世敏 大数据对于数据管理系统平台的主要挑战可以归纳为volume(数据量大).velocity(数据的产生.获取和更新速度快)和variety(数据种类繁多)3个方面.针对大数据分析系统,尝试解读velocity的重要性和探讨如何应对velocity的挑战.首先比较事物处理.数据流.与数据分析系统对velocity的不同要求.然后从数据更新与大数据分析系统相互关系的角度出发,讨论两项近期的研究工作:1)MaSM,在数据仓库系统中支持在线数据更新;2)LogKV,在日志

大数据分析流程框架的研究

03-16
大数据分析流程框架的研究 金宗泽 冯亚丽 文必龙 杨正男 张希 随着信息技术的不断创新,信息量的不断扩大,大数据已经成为了与日常生活息息相关的话题.挖掘大数据的价值已经炙手可热,如何能够更高效.更快速地分析大数据已经成为大数据发展的重要挑战之一.近年来,学术界与工业界就大数据的分析进行了研究,取得了一些研究成果,但针对大数据分析的研究还是非常有限.文中首先从传统数据仓库与大数据时代数据仓库作了对比,引入了大数据的分析流程框架,对分析流程框架的各个部分做了一一阐述,并通过实验验证分析了流程框架的可

大数据及在当代互联网应用中的研究

03-16
大数据及在当代互联网应用中的研究 厦门大学 林荣耀 本文在这样的情况下,主要研究几方面的内容1.对大数据的现状和定义进行重新分析,深入了解何为大数据以及如今行业和市场对大数据的理解,再分析了大数据的多个研究方向,更好的了解大数据本身.2.对大数据普及的现状进行分析,阐述了如何对大数据的庞大数据集进行瘦身以及展望大数据市场未来发展的情况.3.从本人工作所涉及到的电子商务大数据预测的情况出发,对基于时间戳的网页点击数据进行预处理和分析,从而可以对业务进行更准确的预测.4.从目前流行的互联网在线社区获

基于大数据的发电集团数据体系规划与设计

03-12
基于大数据的发电集团数据体系规划与设计 史兴领 黄雪松 王文明 为了提升企业的管控能力,需要对企业的无形资产即信息资源进行有效整合和深度应用.文章对集团企业数据体系的规划.设计和建设进行了初步研究和探讨,界定了数据体系规划的内容,明确了研究方法.通过对企业价值链及业务活动的分析,建立了集团公司信息资源体系架构,结合大数据技术,设计了数据管理和应用的技术平台,用于指导企业基于大数据技术的数据平台构建. 基于大数据的发电集团数据体系规划与设计

亚马逊推出新数据存储服务Redshift

03-12
11月29日消息,据路透社报道,亚马逊网络服务(AmazonWeb Services,以下简称为"AWS")主管安迪·雅西(Andy Jassy)周三发布了一款价格将仅为市场现有解决方案十分之一的新数据仓库服务Redshift,并对"老牌"科技公司相关服务过高的定价予以了批评. 雅西在AWS于拉斯维加斯举行的首个大会上表示,"老牌科技公司所采取的定价模式就是向客户收取尽可能高的费用,客户对此已经感到厌恶."他寄望其部门能够向甲骨文.IBM.惠普等

天作之合Hadoop与数据仓库的完美结合

12-19
似乎所有人嘴边都挂着"大数据"这个词.围绕大数据这个主题开展的讨论几乎已经完全压倒了传统http://www.aliyun.com/zixun/aggregation/8302.html">数据仓库的风头.某些大数据狂热者甚至大胆预测,在不久的将来,所有企业数据都将由一个基于 Apache Hadoop 的系统托管,企业数据仓库 (EDW) 终将消亡. 无论如何,传统数据仓库架构仍在不断发展演化,这一点不容置疑.一年来,我一直在撰写相关的文章和博客,但它真的会消亡吗?我

大数据供应商请不要贬低数据仓库系统

12-17
我发现许多大数据供应商总是在通过贬低数据仓库来证明自己技术的优越性,我一向很讨厌这种营销方式.他们总是说数据仓库系统过于庞大.价格高昂且不够灵活,而他们的技术则快速.灵活且价格低廉.最后他们会自鸣得意地说:"来买我们的产品吧,我们会帮你摆脱数据仓库的困扰." 他们总在暗示你,是技术,或者解决方案本身出了问题. 我承认,数据仓库本身也有很多的问题.设计一个数据仓库已经不容易,而要实现一个数据仓库就更加难上加难了.其中一些批评是对的--数据仓库建设周期长.成本高昂且很难修改.但是,这并不是

数据仓库与Hadoop需分工合作

12-17
大数据热引发了人们对Hadoop的极大兴趣,同时也引来一些误解,认为既然Hadoop能帮助解决数据的处理和http://www.aliyun.com/zixun/aggregation/11009.html">分析问题,它就可以替代传统的数据仓库. "数据仓库(数据库)与Hadoop(MapReduce)其实是两类有着很大区别的技术,这两者之间不是竞争关系,而是合作的关系.大数据或者说 Hadoop的上升不会带来数据仓库或数据库市场的下降."在日前举行的Sybase I

Hadoop/Hive简介

12-17
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将 sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. Hadoop是一个存储计算框架,主要由两部分组成: 1,存储(Hadoop分布式文件系统-HDFS) 2,计算(MapReduce计算框架) 1,Hadoop分布式文件系统 这是一

了解关于Hadoop的12个事实

12-17
现如今,Apache Hadoop已经无人不知无人不晓.当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软件库,并以自己儿子的大象玩偶为其命名的时候,谁能想到它有一天会占据"大数据"技术的头把交椅呢. 虽然Hadoop伴随大数据一同火爆起来,但相信还是有许多用户对于它不甚了解.在上周名的TDWI解决方案峰会中, TDWI研究主任兼行业分析师Philip Russom发表了"关于Hadoop的12点事实"的主题演讲,下面是演讲精华内容

当大数据遭遇云计算 改变IT世界?

12-09
大数据正在彻底改变IT世界.那么,什么样的数据谈得上数据呢? 根据IDC的报告,未来十年全球大数据将增加50倍.仅在2011年,我们就将看到1.8ZB(也就是1.8万亿GB)的大数据创建产生.这相当于每位美国人每分钟写3条Tweet,而且还是不停地写2.6976万年.在未来十年,管理数据仓库的服务器的数量将增加10倍以便迎合50倍的大数据增长. 毫无疑问,大数据将挑战企业的存储架构及数据中心基础设施等,也会引发云计算.数据仓库.数据挖掘.商业智能等应用的连锁反应.2011年企业会将更多的多TB(

工欲善其事,必先利其器——利用PowerDesigner建模并生成数据库文件

06-09
  首先介绍一下Power Designer:它是Sybase公司的CASE工具集,使用它可以方便地对管理信息系统进行分析设计,它几乎包括了数据库设计全过程.利用Power Designer可以制作数据流程图.概念数据模型.物理数据模型,还可以为数据仓库制作结构模型,对团队设计模型进行控制.它可以与许多流行的软件开发工具如PowerBuilder.Delphi.VB等相配合缩短开发时间以及使系统设计更优化.   在机房收费系统重构阶段,设计数据库是最令人头疼的,设计一个好的数据库可以为以后省下不