《伟大的计算原理》一大数据

大数据

大数据是最近出现的另一个时髦概念,其背后隐藏了关于计算的丰富信息。大数据关注如何对互联网上的海量数据进行分析,从中发现有价值的统计规律和相关性等信息。这种分析可以广泛应用于各种领域,例如科学、工程、商业、人口普查、执法等。
计算机科学家对数据的存储、查询及处理已经进行了长时间的关注,而且很多关注的问题甚至比目前的技术进展还要超前。可惜的是,这些超前的想法由于各种因素的影响被埋没在历史的尘埃中,被大众所遗忘。“大数据”这一术语在很大程度上是新瓶装旧酒,虽然这一术语确实对很多领域产生了显著的影响。例如,在商业活动中,商业组织收集海量的客户相关数据,并利用这些数据去发现市场趋势、广告投放对象以及客户忠诚度等信息。受到公共资金资助的科研项目也被要求对外公开其数据,以方便公众和其他科研项目能够对这些数据进行多方面的利用和分析。警察系统则利用海量的通信信息和信用卡交易信息,从中发现犯罪分子。所有这些领域都开始主动寻求数据科学家、数据分析师以及数据系统设计师来帮助他们进行数据分析工作。
计算机科学家在其中的贡献主要体现在两个方面。一方面是关于更高效地数据分析方法,另一方面则是能够支持海量数据处理的系统或技术架构。例如,Richard Karp(1993)基于组合方法实现了对基因数据片段进行融合从而形成基因组图谱的高效算法。Tony Chan和Yousef Saad(1986)的研究工作表明,hypercube(一种早期出现的并行计算架构)对于多重网格算法(一类重要的数字计算方法)具有最优的效果,而多重网格算法能够对大规模数据空间的数学模型进行求解。Jeffrey Dean和Sanjay Ghemawat(2008)设计了MapReduce算法,能够支持数千个处理器通过并行的方式对海量数据进行处理。
在商业领域中,如何对大规模数据集进行处理和分析一直以来都是一个重要的问题。商业组织会收集关于客户、库存、产品制造、财务等方面的各种数据,这些数据对于一个大型的国际化商业组织的正常运转具有非常重要的作用。20世纪30年代,一个电子计算机还未出现的年代,IBM靠出售类似卡片分类器和检索器的简单设备从数据处理市场获得了巨大的财富。20世纪50年代,IBM开始向电子数据处理领域发展,转型成为一家计算机公司。1956年,IBM对外发布了第一个硬盘存储系统RAMAC 305,受到了广泛关注。IBM声称,任何商业组织都可以将其堆满仓库的文件资料转移到一个小小的硬盘中,进而能够对数据进行极为高效的处理。随着数据存储需求的不断增长,设计者开始关注如何对数据进行有效的组织从而实现对数据的快速访问和简易维护。当时,两个主流且存在竞争关系的方法分别是综合数据系统(Integrated Data System,IDS)(Bachman 1973)和关系数据库系统(Relational Database System,RDS)(Codd 1970,1990)。综合数据系统具有简单、快速、实用等特点,能够在管理大量数据文件的同时隐藏文件在硬盘上的物理结构和位置。关系数据库系统则基于数学化的集合理论,它具有一个非常清晰的概念模型,但在经过了多年的发展后才实现了与综合数据系统相当的处理效率。从20世纪70年代开始,研究领域形成了一个关于大规模数据库(very large databases)的研究团体,并每年召开一次学术会议(VLDB)对相关议题进行讨论。
从20世纪50年代开始,计算领域的研究者进入了文档管理领域:帮助文档管理员组织数据以实现更加快速的文档检索。图书馆是这些信息检索系统的第一代用户。研究者开发了模糊查询系统。例如,用户可以发出“请查找关于信息检索的文档”,而返回的文档中不一定包含“信息检索”这个字符串。今天,互联网就是一个巨大的无结构的存储系统。在互联网上进行关键词检索非常快速但却不够准确,因此,有效的互联网信息检索仍然是一个困难的问题(Dreyfus 2001)。
Gartner Group将现代的“大数据”定义为4V:数据体量巨大(Volume)、数据的产生速度快(Velocity)、数据的表现格式丰富(Variety)、数据对决策活动具有重要的支持作用(Veracity is important to decisions)。从2014年开始,数据科学的课程或关于数据科学的研究中心在大学和其他研究机构中如雨后春笋般出现。多个领域都涉及其中,例如,来自运筹学和统计学领域的分析师、来自计算机科学和信息系统领域的架构设计师以及来自建模和仿真领域的可视化工程师。这些实践和研究活动也确立了“数据科学”领域的主要研究问题:寻找对大规模数据集进行处理和分析的科学理论基础。
表2.4给出了大数据领域涉及的人、问题以及计算基本原理。

时间: 2017-06-26

《伟大的计算原理》一大数据的相关文章

代码-用Qt编写的计算重力传感器SMB380的x,y,z轴数据的计算原理的问题

问题描述 用Qt编写的计算重力传感器SMB380的x,y,z轴数据的计算原理的问题 用Qt做的重力传感器SMB380数据计算 ,有一行代码 result = -(9.8 * (float) (mode + 1)) * 2 * dat / 512.0; 不知道计算原理, mode = value_temp[3]; x_start = dToa(value_temp[0], mode); y_start = dToa(value_temp1, mode); z_start = dToa(value_

《伟大的计算原理》一 第2章 Great Principles of Computing 计 算 领 域

第2章 Great Principles of Computing 计 算 领 域 生物学是一种信息科学. --David Baltimore 除了理论和实验之外,计算是进行科学研究的第三种方式. --Kenneth Wilson 科学与科学应用密不可分,如同一个树上结出的多枚果实. --Louis Pasteur 计算活动由人类实施,而不是基本原理.在长期的实践活动中,人们的计算活动逐渐形成了丰富多样的计算领域(computing domain).每一个计算领域主要关注一项技术或其应用.例如,

《伟大的计算原理》一第3章 Great Principles of Computing 信  息

    本节书摘来自华章出版社<伟大的计算原理>一书中的第3章,第3.1节,作者[美]彼得 J. 丹宁(Peter J. Denning)克雷格 H. 马特尔(Craig H. Martell),更多章节内容可以访问"华章计算机"公众号查看. 第3章 Great Principles of Computing 信 息 通信的内容语义与通信工程无关. --Claude E. Shannon 软件并不只是交互设备,更生成了一个用户生活空间. --Terry Winograd 自

《伟大的计算原理》一导读

前 言 就在70年前,除了少数专家之外,没有人听说过计算机.现在,计算机.软件和网络无处不在.在地球上的任何地方,它们都以更快的发展速度给我们的生活带来了各种各样的好处. 在这么短的几十年中,我们学会了设计和建造如此规模的系统,这真是一件令人吃惊的事.如今,通过支持大规模合作,计算技术使得知识工作能够自动化,同时也在不断扩大生产力.第二次机器革命正扑面而来1.这是如何实现的?是什么样的伟大思想使这一切成为可能? 计算机给我们带来好处的同时也带来忧虑.计算机带来的自动化是否会使很多工人失业?计算机

《伟大的计算原理》一第2章

第2章 Great Principles of Computing计 算 领 域生物学是一种信息科学.--David Baltimore除了理论和实验之外,计算是进行科学研究的第三种方式.--Kenneth Wilson科学与科学应用密不可分,如同一个树上结出的多枚果实.--Louis Pasteur计算活动由人类实施,而不是基本原理.在长期的实践活动中,人们的计算活动逐渐形成了丰富多样的计算领域(computing domain).每一个计算领域主要关注一项技术或其应用.例如,信息安全领域主要

《伟大的计算原理》一第1章 Great Principles of Computing 作为科学的计算

   本节书摘来自华章出版社<伟大的计算原理>一书中的第1章,第1.1节,作者[美]彼得 J. 丹宁(Peter J. Denning)克雷格 H. 马特尔(Craig H. Martell),更多章节内容可以访问"华章计算机"公众号查看. 第1章 Great Principles of Computing 作为科学的计算 计算机科学研究计算机周边的各种现象. --Newell,Simon和Perlis 计算机之于计算机科学,正如望远镜之于天文学. --Edsger W.

阿里云首提“轻计算”:让计算挖掘存储数据的价值

4月19-21日,2016云栖大会深圳峰会,欢迎报名 本次云存储与轻计算专场,是阿里云存储首次在存储领域提出"轻计算"的概念,先通过下面内容让我们来提前体会下云存储与计算之间的"重"与"轻". 存储之"重",在于稳定.海量与可靠 与传统的自建行存储相比,阿里云存储基于飞天的大规模分布式系统,使得存储能力无缝扩展,用户可以根据需求选择存储节点的性能和规格,降低成本的同时无需再关心硬件和运维烦恼.强大的安全管理体系无需配置就能够提

excel表格怎么使用公式计算下拉数据的倍数?

  excel表格怎么使用公式计算下拉数据的倍数?         1.假设项目一为已输入的数据,项目二与其关系是1.5倍,这就好像我们在超市,说买第二件商品半价,那么此时怎么输入呢? 2.光标位置如图,在此处输入公式. 3.这个时候我们输入1.5倍公式,*代表乘法(如果输入其它运算符号也同样适用). 4.回车,得到如图结果,第一个数据已经计算出来了. 5.这个时候点中已算出来的这个数据,向下拖拉,看,是不是全部出来了呢? 6.同样的,如果需要运算其它倍数关系,只要将=A2*1.5中的1.5改成

gensim-Python 计算 tfidf ,数据较大,报错memory error

问题描述 Python 计算 tfidf ,数据较大,报错memory error 我的工作环境是,win7,python2.7.10,gensim 任务内容是根据商品信息(所属类目.分词)来确定商品间的相似度. 商品信息由50w行文本组成. 例如: 自左向右,分别为,商品ID/所属类目ID/商品标题分词 29 155 123950,53517,106068,59598,7503,171811,25618,147905,203432 49 228 73035,33202,116593,48909

利用搜索引擎关键字正排计算原理进行深度伪原创

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 如何进行有效的文章伪原创这是个永远被关注和热谈的话题,市面上的那些所谓的伪原创工具,无非就是对文章中的同义词进行替换,或者对文章的段落进行打乱排序,甚至是几篇文章组合切割成若干篇文章.这些做法有没效,看完下面的文章你们就会有大概的认识,但有点可以肯定的是,这样处理后的文章简直就是垃圾,不会被用户所认同.竟然用户不认同的东西,搜索引擎会认同吗?