云帆大数据_Hadoop从入门到上手企业开发----学习笔记

tgbf · 发表于 2015-12-23 07:43:09

1.what is apache hadoop?
谁说大象不能跳舞？
轻松应对海量数据存储与分析带来的挑战
2.海量数据：
量：大，数目多，数据量达到PB，ZB级别，条目数达到几十亿条，几百亿条
1）存储：分布式，集群的概念进行存储管理（主节点、从节点），HDFS（hadoop
distribute file system）
2）分析:分布式，并行，离线计算框架，管理主节点和从节点，mapreduce框架
3.一只会飞的大象logo

4.
HDFS-->GFS开源文件系统
Google MapReduce--->Hadoop MapReduce开源的分布式并行计算框架
5.Apache Hadoop起源
Apache Lucene:开源的高性能全文检索工具包
Apache Nutch：开源的web搜索引擎
Google三大论文：MapReduce/GFS/BigTable
Apache Hadoop：大规模数据处理
6.一般认为，云计算由三层构成：
IAAS：基础设施即服务，Amazon EC2,openstck,cloudstack,rackspace等
PAAS：平台即服务，Google AppEngine，Apache Hadoop等
SAAS：软件即服务，Google Apps等
openstack：构建公司内部的私有平台
7.hadoop，big data paltform
open source data management with scale-out storage & distributed processing
storage:HDFS
         distribute across "nodes"
         natively redundant
         name node tracks location
processing:Map Reduce
         splits a tack across processors
         nare the data & assebles results
         clustered storage
KEY Characteristics
scalable，reliable，flexible，econmical

8.apache Hadoop能解决哪些问题：
海量数据需要及时分析和处理（速度）
海量数据需要深入分析和挖掘（深度）
数据需要长期保存（固定资产）
磁盘IO成为一种瓶颈，而非CPU资源
网络宽带成为一种稀缺资源
硬件故障成为影响稳定的一大因素
9.
hdfs+mr思想：
尽可能移动计算到数据端，而非移动数据到计算端
硬件和组件的故障时一种常态
hdfs思想：
文件单次写入，并多次读取，文件副本，分片保存
顺序写入，流式顺序读取，面向大文件存储
MR思想：
分而治之，化整为0
排序优化，降低内存
10.BAT：
B：百度
A：alibaba
T：腾讯
11.Hbase数据库：实时

ETL：
E：提取
T:转换
L：加载
从数据库中获取数据并进行一些列的数据清理、清洗和筛选，将合格的数据进行转换成一定格式数据进行存储，将格式化的数据存储到HDFS文件系统上，以供计算框架进行那个数据分析和挖掘。

格式化数据：
|-TSV格式：每行数据的每列之间以制表符\t进行分割
|-CSV格式：每行数据的每行之间以,进行分割
sqoop：将关系型数据库中的数据与HDFS（HDFS文件，Hbase中的表，Hlive中的表）上的数据进行相互导入导出
Flume：收集各个应用系统和框架的日志，并将其放到HDFS分布式文件系统的相应制定的目录之下。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] 云帆大数据_Hadoop从入门到上手企业开发----学习笔记

扫码加入运维网微信交流群