一、Hadoop是什么?
答:是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。
hadoop的核心主要包含:HDFS和MapReduce
HDFS是分布式文件系统,用于分布式存储海量数据。
MapReduce是分布式数据处理模型,本质是并行处理。
二、多少数据算海量数据?
答:个人认为,TB(1024GB)级别往上就可以算海量数据。
三、谁在使用hadoop?
N多大型互联网公司,这里列的比较全:
http://wiki.apache.org/hadoop/PoweredBy
在国内,包括中国移动、百度、网易、淘宝、腾讯、金山和华为等众多公司都在研究和使用它
四、用它来做什么?
答:海量数据处理。。。似乎有点虚呵呵,我能想到的用hadoop的地方:
1、最简单的,做个数据备份/文件归档的地方,这利用了hadoop海量数据的存储能力
2、数据仓库/数据挖掘:分析web日志,分析用户的行为(如:用户使用搜索时,在搜索结果中点击第2页的概率有多大)
3、搜索引擎:设计hadoop的初衷,就是为了快速建立索引。
4、云计算:据说,中国移动的大云,就是基于hadoop的
5、研究:hadoop的本质就是分布式计算,又是开源的。有很多思想值得借鉴。
总之,你可以把hadoop看成是:分布式计算框架(或系统、或平台),可以说是用来做云计算的,呵呵。(云计算的本质就是:海量数据存储/并行处理,即hadoop中的HDFS和MapReduce)
分享到:
相关推荐
Hadoop是什么?怎么部署.pdf
用Hadoop,还是不用Hadoop?(1).docx用Hadoop,还是不用Hadoop?(1).docx用Hadoop,还是不用Hadoop?(1).docx用Hadoop,还是不用Hadoop?(1).docx用Hadoop,还是不用Hadoop?(1).docx用Hadoop,还是不用Hadoop?(1).docx用...
用Hadoop,还是不用Hadoop?(1).pdf用Hadoop,还是不用Hadoop?(1).pdf用Hadoop,还是不用Hadoop?(1).pdf用Hadoop,还是不用Hadoop?(1).pdf用Hadoop,还是不用Hadoop?(1).pdf用Hadoop,还是不用Hadoop?(1).pdf用Hadoop...
1 、Hadoop是什么?它能做什么? 2 、Hadoop和MapReduce的关系是什么? 3 、Hadoop中的HDFS是什么?它有哪些优点? 4 、HDFS的组成结构是什么? 5 、HDFS中DataNode和NameNode的区别是什么? 6 、Hadoop中的...
hadoop是什么? 初学hadoop需要哪些技术基础? Data-intensive Systems: Principles and Fundamentals using Hadoop and Spark (Advanced Information and Knowledge Processing) By 作者: Tomasz – Wiktorski – ...
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Storm是一个分布式的、容错的实时计算系统。两者整合,优势互补。
本书作者基于对Hadoop系统的实践,深入浅出地对Hadoop进行了详细的讲解,包含大量的实例和技巧,可帮助有一定基础的开发者快速掌握分布式系统。主要内容包括:第1章~第4章讲解大数据系统的基本概念、Hadoop系统的...
10丨模块答疑:我们能从Hadoop学到什么?.html
在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....
Apache Hadoop (hadoop-3.3.4.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。官网下载速度非常缓慢,因此将hadoop-3.3.4 版本放在这里,欢迎大家来下载使用! Hadoop 架构是一个开源的、基于 Java 的编程...
在windows环境下安装hadoop环境的时候,会缺少该文件。
Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...
Hbase和Hadoop JMX监控实战
什么是谷歌帝国的基石?mapreduce算法是也!apache hadoop架构作为mapreduce算法的一种开源应用,是应对海量数据的理想工具。项目负责人tomwhite透过本书详细阐述了如何使用hadoop构建可靠、可伸缩的分布式系统,...
hadoop_tutorial hadoop入门经典 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。...
安装hadoop教程
《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...
Spark 是加州大学伯克利分校 AMP(Algorithms,Machines,People)实验室开发的通用内存并行计算框架。...Hadoop 已经成了大数据技术的事实标准,Hadoop MapReduce 也非常适合于对大规模数据集合进行批处理操
hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...