分类分类
大小:31.30 MB更新:2017/03/27
类别:程序开发系统:Winll

Hadoop基础教程pdf文档为你详细介绍了Hadoop的概念和入门,想要学习的朋友快来IT猫扑下载吧!
《Hadoop基础教程》包括三个主要部分:第1~5章讲述了Hadoop的核心机制及Hadoop的工作模式;第6~7章涵盖了Hadoop更多可操作的内容;第8~11章介绍了Hadoop与其他产品和技术的组合使用。《Hadoop基础教程》目的在于帮助读者了解什么是Hadoop,Hadoop是如何工作的,以及如何使用Hadoop从数据中提取有价值的信息,并用它解决大数据问题。
《Hadoop基础教程》适用于有软件开发经验的技术人员。
第1章 绪论
1.1 大数据处理
1.1.1 数据的价值
1.1.2 受众较少
1.1.3 一种不同的方法
1.1.4 Hadoop
1.2 基于Amazon Web Services的云计算
1.2.1 云太多了
1.2.2 第三种方法
1.2.3 不同类型的成本
1.2.4 AWS:Amazon的弹性架构
1.2.5 本书内容
1.3 小结
第2章 安装并运行Hadoop
2.1 基于本地Ubuntu主机的Hadoop系统
2.2 实践环节:检查是否已安装jdk
2.3 实践环节:下载Hadoop
2.4 实践环节:安装SSH
2.5 实践环节:使用Hadoop计算圆周率
2.6 实践环节:配置伪分布式模式
2.7 实践环节:修改HDFS的根目录
2.8 实践环节:格式化NameNode
2.9 实践环节:启动Hadoop
2.10 实践环节:使用HDFS
2.11 实践环节:MapReduce的经典入门程序——字数统计
2.12 使用弹性MapReduce
2.13 实践环节:使用管理控制台在EMR运行wordCount
2.13.1 使用EMR的其他方式
2.13.2 AWS生态系统
2.14 本地Hadoop与EMR Hadoop的对比
2.15 小结
第3章 理解MapReduce
3.1 键值对
3.1.1 具体含义
3.1.2 为什么采用键/值数据
3.1.3 MapReduce作为一系列键/值变换
3.2 MapReduce的Hadoop java API
3.3 编写MapReduce程序
3.4 实践环节:设置classpath
3.5 实践环节:实现WordCount
3.6 实践环节:构建JAR文件
3.7 实践环节:在本地Hadoop集群运行WordCount
3.8 实践环节:在EMR上运行WordCount
3.8.1 0.20之前版本的Java MapReduce API
3.8.2 Hadoop提供的mapper和reducer实现
3.9 实践环节:WordCount的简易方法
3.10 查看WordCount的运行全貌
3.10.1 启动
3.10.2 将输入分块
3.10.3 任务分配
3.10.4 任务启动
3.10.5 不断监视JobTracker
3.10.6 mapper的输入
3.10.7 mapper的执行
3.10.8 mapper的输出和reducer的输入
3.10.9 分块
3.10.10 可选分块函数
3.10.11 reducer类的输入
3.10.12 reducer类的执行
3.10.13 reducer类的输出
3.10.14 关机
3.10.15 这就是MapReduce的全部
3.10.16 也许缺了combiner
3.11 实践环节:使用combiner编写WordCount
3.12 实践环节:更正使用combiner的WordCount
3.13 Hadoop专有数据类型
3.13.1 Writable和Writable-Comparable接口
3.13.2 wrapper类介绍
3.14 实践环节:使用Writable包装类
3.15 输入/输出
3.15.1 文件、split和记录
3.15.2 InputFormat和RecordReader
3.15.3 Hadoop提供的InputFormat
3.15.4 Hadoop提供的RecordReader
3.15.5 OutputFormat和Record-Writer
3.15.6 Hadoop提供的OutputFormat
3.15.7 别忘了Sequence files
3.16 小结
第4章 开发MapReduce程序
4.1 使用非Java语言操作Hadoop
4.1.1 Hadoop Streaming工作原理
4.1.2 使用Hadoop Streaming的原因
4.2 实践环节:使用Streaming实现Word-Count
4.3 分析大数据集
4.3.1 获取UFO目击事件数据集
4.3.2 了解数据集
4.4 实践环节:统计汇总UFO数据
4.5 实践环节:统计形状数据
4.6 实践环节:找出目击事件的持续时间与UFO形状的关系
4.7 实践环节:在命令行中执行形状/时间分析
4.8 实践环节:使用ChainMapper进行字段验证/分析
4.9 实践环节:使用Distributed Cache改进地点输出
4.10 计数器、状态和其他输出
4.11 实践环节:创建计数器、任务状态和写入日志
4.12 小结
第5章 高级MapReduce技术
5.1 初级、高级还是中级
5.2 多数据源联结
5.2.1 不适合执行联结操作的情况
5.2.2 map端联结与reduce端联结的对比
5.2.3 匹配账户与销售信息
5.3 实践环节:使用MultipleInputs实现reduce端联结
5.3.1 实现map端联结
5.3.2 是否进行联结
5.4 图算法
5.4.1 Graph 101
5.4.2 图和MapReduce
5.4.3 图的表示方法
5.5 实践环节:图的表示
5.6 实践环节:创建源代码
5.7 实践环节:第一次运行作业
5.8 实践环节:第二次运行作业
5.9 实践环节:第三次运行作业
5.10 实践环节:第四次也是最后一次运行作业
5.10.1 运行多个作业
5.10.2 关于图的终极思考
5.11 使用语言无关的数据结构
5.11.1 候选技术
5.11.2 Avro简介
5.12 实践环节:获取并安装Avro
5.13 实践环节:定义模式
5.14 实践环节:使用Ruby创建Avro源数据
5.15 实践环节:使用Java语言编程操作Avro数据
5.16 实践环节:在MapReduce中统计UFO形状
5.17 实践环节:使用Ruby检查输出数据
5.18 实践环节:使用Java检查输出数据
5.19 小结
第6章 故障处理
6.1 故障
6.1.1 拥抱故障
6.1.2 至少不怕出现故障
6.1.3 严禁模仿
6.1.4 故障类型
6.1.5 Hadoop节点故障
6.2 实践环节:杀死DataNode进程
6.3 实践环节:复制因子的作用
6.4 实践环节:故意造成数据块丢失
6.5 实践环节:杀死TaskTracker进程
6.6 实践环节:杀死JobTracker
6.7 实践环节:杀死NameNode进程
6.8 实践环节:引发任务故障
6.9 数据原因造成的任务故障
6.10 实践环节:使用skip模式处理异常数据
6.11 小结
第7章 系统运行与维护
7.1 关于EMR的说明
7.2 Hadoop配置属性
7.3 实践环节:浏览默认属性
7.3.1 附加的属性元素
7.3.2 默认存储位置
7.3.3 设置Hadoop属性的几种方式
7.4 集群设置
7.4.1 为集群配备多少台主机
7.4.2 特殊节点的需求
7.4.3 不同类型的存储系统
7.4.4 Hadoop的网络配置
7.5 实践环节:查看默认的机柜配置
7.6 实践环节:报告每台主机所在机柜
7.7 集群访问控制
7.8 实践环节:展示Hadoop的默认安全机制
7.9 管理NameNode
7.10 实践环节:为fsimage文件新增一个存储路径
7.11 实践环节:迁移到新的NameNode主机
7.12 管理HDFS
7.12.1 数据写入位置
7.12.2 使用平衡器
7.13 MapReduce管理
7.13.1 通过命令行管理作业
7.13.2 作业优先级和作业调度
7.14 实践环节:修改作业优先级并结束作业运行
7.15 扩展集群规模
7.15.1 提升本地Hadoop集群的计算能力
7.15.2 提升EMR作业流的计算能力
7.16 小结
第8章 Hive:数据的关系视图
8.1 Hive概述
8.1.1 为什么使用Hive
8.1.2 感谢Facebook
8.2 设置Hive
8.2.1 准备工作
8.2.2 下载Hive
8.3 实践环节:安装Hive
8.4 使用Hive
8.5 实践环节:创建UFO数据表
8.6 实践环节:在表中插入数据
8.7 实践环节:验证表
8.8 实践环节:用正确的列分隔符重定义表
8.9 实践环节:基于现有文件创建表
8.10 实践环节:执行联结操作
8.11 实践环节:使用视图
8.12 实践环节:导出查询结果
8.13 实践环节:制作UFO目击事件分区表
8.13.1 分桶、归并和排序
8.13.2 用户自定义函数
8.14 实践环节:新增用户自定义函数
8.14.1 是否进行预处理
8.14.2 Hive和Pig的对比
8.14.3 未提到的内容
8.15 基于Amazon Web Services的Hive
8.16 实践环节:在EMR上分析UFO数据
8.16.1 在开发过程中使用交互式作业流
8.16.2 与其他AWS产品的集成
8.17 小结
第9章 与关系数据库协同工作
9.1 常见数据路径
9.1.1 Hadoop用于存储档案
9.1.2 使用Hadoop进行数据预处理
9.1.3 使用Hadoop作为数据输入工具
9.1.4 数据循环
9.2 配置mysql
9.3 实践环节:安装并设置MySQL
9.4 实践环节:配置MySQL允许远程连接
9.5 实践环节:建立员工数据库
9.6 把数据导入Hadoop
9.6.1 使用MySQL工具手工导入
9.6.2 在mapper中访问数据库
9.6.3 更好的方法:使用Sqoop
9.7 实践环节:下载并配置Sqoop
9.8 实践环节:把MySQL的数据导入HDFS
9.9 实践环节:把MySQL数据导出到Hive
9.10 实践环节:有选择性的导入数据
9.11 实践环节:使用数据类型映射
9.12 实践环节:通过原始查询导入数据
9.13 从Hadoop导出数据
9.13.1 在reducer中把数据写入关系数据库
9.13.2 利用reducer输出SQL数据文件
9.13.3 仍是最好的方法
9.14 实践环节:把Hadoop数据导入MySQL
9.15 实践环节:把Hive数据导入MySQL
9.16 实践环节:改进mapper并重新运行数据导出命令
9.17 在AWS上使用Sqoop
9.18 小结
第10章 使用Flume收集数据
10.1 关于AWS的说明
10.2 无处不在的数据
10.2.1 数据类别
10.2.2 把网络流量导入Hadoop
10.3 实践环节:把网络服务器数据导入Hadoop
10.3.1 把文件导入Hadoop
10.3.2 潜在的问题
10.4 Apache Flume简介
10.5 实践环节:安装并配置Flume
10.6 实践环节:把网络流量存入日志文件
10.7 实践环节:把日志输出到控制台
10.8 实践环节:把命令的执行结果写入平面文件
10.9 实践环节:把远程文件数据写入本地平面文件
10.9.1 信源、信宿和信道
10.9.2 Flume配置文件
10.9.3 一切都以事件为核心
10.10 实践环节:把网络数据写入HDFS
10.11 实践环节:加入时间戳
10.12 实践环节:多层Flume网络
10.13 实践环节:把事件写入多个信宿
10.13.1 选择器的类型
10.13.2 信宿故障处理
10.13.3 使用简单元件搭建复杂系统
10.14 更高的视角
10.14.1 数据的生命周期
10.14.2 集结数据
10.14.3 调度
10.15 小结
第11章 展望未来
11.1 全书回顾
11.2 即将到来的Hadoop变革
11.3 其他版本的Hadoop软件包
11.4 其他Apache项目
11.4.1 HBase
11.4.2 Oozie
11.4.3 Whir
11.4.4 Mahout
11.4.5 MRUnit
11.5 其他程序设计模式
11.5.1 Pig
11.5.2 Cascading
11.6 AWS资源
11.6.1 在EMR上使用HBase
11.6.2 SimpleDB
11.6.3 DynamoDB
11.7 获取信息的渠道
11.7.1 源代码
11.7.2 邮件列表和论坛
11.7.3 LinkedIn群组
11.7.4 Hadoop用户群
11.7.5 会议
11.8 小结
creo 2.0中文版从入门到精通程序开发115.00 MB电子版
详情python学习手册 第5版 pdf程序开发13.30 MB中文完整版
详情游戏设计梦工厂电子书程序开发68.31 MB高清免费版
详情欧姆龙CP1H/CP1L单元编程手册程序开发33.70 MB中文版
详情微信小程序实战入门内涵完整实例解析程序开发23.71 MB高清完整版
详情跟老齐学python从入门到精通电子书程序开发4.31 MB完整版
详情stm32从入门到精通电子版程序开发32.00 MB高清完整版
详情ASP.NET4入门经典 涵盖C#和VB.NET(第6版)程序开发78.70 MBpdf电子书中文版
详情领域驱动设计与模式实战中文版程序开发64.00 MB高清电子扫描版
详情opengl编程指南原书第八版程序开发5.89 MBpdf 中文电子高清版
详情Xilinx FPGA开发实用教程第2版程序开发49.50 MBpdf高清完整版
详情netty实战中文版pdf程序开发13.50 MB高清版
详情vba编程从入门到精通 pdf程序开发6.20 MB电子书完整版
详情c++从入门到精通 第二版 pdf程序开发157.00 MB高清版
详情PHPWord中文使用手册程序开发72.00 KB官方版
详情程序员教程软考指定用书(第3版)程序开发28.77 MB最新2009高清PDF版
详情谭浩强c语言程序设计第四版电子版程序开发17.70 MBpdf高清扫描版
详情stm32嵌入式系统开发实战指南 FreeRTOS与LwIP联合移植程序开发45.20 MB电子完整扫描版
详情nodejs实战双色电子版程序开发16.40 MB完整版
详情arm体系结构与编程最新版程序开发114.60 MB杜春雷著
详情精通asp.net 4.5 第5版 pdf程序开发58.18 MB电子版
详情Head First Servlets and JSP(第2版)程序开发67.00 MBpdf高清完整版
详情stm32自学笔记 第2版 pdf程序开发32.00 MB电子版
详情JQuery API 1.8.3 中文参考手册程序开发2.20 MB正式版
详情ThinkPHP5.0中文手册程序开发5.00 MB官方版
详情jQuery1.7.2 中文手册程序开发562.00 KBchm修正版
详情jQuery API 3.2.1 中文手册程序开发999.00 KBchm版
详情ThinkPHP3.1新手入门手册程序开发487.00 KB官方版
详情ASP.NET基础教程 C#案例版程序开发15.48 MB中文电子扫描版
详情谭浩强C程序设计完整ppt和程序第五版程序开发5.47 MB免费版
详情小程序从0到1微信全栈工程师一本通电子版程序开发14.85 MB高清版
详情C++多核高级编程中文版程序开发57.35 MB高清版
详情matlab数值计算pdf程序开发15.24 MB免费版
详情php5.6中文手册程序开发18.50 MB官方版
详情PHPCMSV9用户手册程序开发14.11 MB官方版
详情java完全自学手册pdf程序开发1.71 MB电子版
详情proe5.0从入门到精通pdf高清程序开发5.00 MB电子版
详情android基础教程第4版pdf程序开发12.59 MB高清免费版
详情python并行编程手册pdf程序开发35.64 MB高清免费版
详情游戏化实战电子书程序开发35.55 MB高清免费版
详情点击查看更多
java从入门到精通第三版程序开发486.00 MB电子版完整版
详情python学习手册 第5版 pdf程序开发13.30 MB中文完整版
详情程序员教程软考指定用书(第3版)程序开发28.77 MB最新2009高清PDF版
详情软件设计师教程(第2版)程序开发91.00 MBpdf版
详情Redhat LINUX 9从入门到精通程序开发42.62 MB免费版
详情hadoop权威指南第5版电子书程序开发0.00 B完整扫描版
详情c++从入门到精通 第二版 pdf程序开发157.00 MB高清版
详情周志明深入理解java虚拟机 第三版 pdf程序开发0.00 B电子版
详情stm32从入门到精通电子版程序开发32.00 MB高清完整版
详情系统分析师教程张友生pdf高清版程序开发105.30 MB2010最新版
详情vue.js权威指南电子版程序开发97.70 MB高清版
详情数据结构教材(严蔚敏编著)程序开发27.90 MBPDF高清版
详情hadoop权威指南第四版中文版电子书程序开发8.56 MBpdf版本
详情谭浩强C程序设计完整ppt和程序第五版程序开发5.47 MB免费版
详情深入浅出python电子书程序开发0.00 B完整版
详情Python程序设计基础程序开发2.95 MBpdf高清电子版
详情程序员教程第4版(软考指定用书)程序开发9.90 MB2014免费版
详情c#入门经典第7版电子档程序开发148.73 MB中文版
详情runoob菜鸟教程离线版程序开发12.40 MB免费版
详情vb从入门到精通第三版pdf程序开发20.00 MB电子版
详情stm32库开发实战指南 电子书程序开发117.00 MB完整版
详情opengl编程指南第9版程序开发5.90 MBpdf 高清版
详情谭浩强c语言程序设计第四版电子版程序开发17.70 MBpdf高清扫描版
详情实现领域驱动设计 完整版程序开发24.00 MB中文电子版带书签目录
详情精通asp.net mvc5中文版程序开发117.00 MB高清完整扫描版
详情vba编程从入门到精通 pdf程序开发6.20 MB电子书完整版
详情android studio应用开发实战详解 pdf程序开发0.00 B电子完整版
详情人月神话40周年pdf程序开发91.93 MB中文纪念版
详情j2ee经典学习教程(独家推荐)程序开发14.32 MBpdf高清版
详情netty实战中文版pdf程序开发13.50 MB高清版
详情creo 2.0中文版从入门到精通程序开发115.00 MB电子版
详情bootstrap用户离线文档chm程序开发1.90 MBv3.3.4 免费版
详情深入浅出mfc 第5版电子版程序开发26.60 MB完整扫描版
详情java从入门到精通第4版程序开发81.50 MB中文版电子版
详情proe5.0从入门到精通pdf高清程序开发5.00 MB电子版
详情arm体系结构与编程最新版程序开发114.60 MB杜春雷著
详情ug nx 8.0中文版完全自学手册程序开发23.20 MB附视频教程
详情游戏设计梦工厂电子书程序开发68.31 MB高清免费版
详情c#从入门到精通第3版pdf程序开发120.50 MB电子书扫描版
详情stm32嵌入式系统开发实战指南 FreeRTOS与LwIP联合移植程序开发45.20 MB电子完整扫描版
详情点击查看更多
j2ee经典学习教程(独家推荐)程序开发14.32 MBpdf高清版
详情Redhat LINUX 9从入门到精通程序开发42.62 MB免费版
详情实战java虚拟机 jvm故障诊断与性能优化pdf程序开发42.00 MB完整版电子版
详情runoob菜鸟教程离线版程序开发12.40 MB免费版
详情c++primer第5版中文版pdf程序开发0.00 B中英超清电子版
详情精通python爬虫框架scrapy epub+azw3+mobi程序开发0.00 B
详情matlab数值计算pdf程序开发15.24 MB免费版
详情opengl编程指南第7版程序开发22.79 MBpdf 中文扫描版
详情jQuery API 3.2.1 中文手册程序开发999.00 KBchm版
详情php7.3.8离线中文手册程序开发31.59 MB官方版
详情深入浅出google android pdf程序开发58.00 MB完整版扫描版_E2ECloud工作室
详情周志明深入理解java虚拟机 第三版 pdf程序开发0.00 B电子版
详情python学习手册 第4版程序开发0.00 B
详情php5.6中文手册程序开发18.50 MB官方版
详情hadoop权威指南第三版中文pdf程序开发111.80 MB电子书
详情数值方法matlab版第四版程序开发20.60 MB高清完整版
详情opengl编程指南第9版程序开发5.90 MBpdf 高清版
详情html5参考手册中文版程序开发182.00 KB官方完整版
详情小程序巧应用微信小程序开发实战pdf程序开发72.58 MB高清完整版
详情PHP7.2中文手册程序开发30.20 MB官方版
详情android开发入门与实战 第2版 pdf程序开发39.00 MB电子版完整版
详情html手册完整版程序开发8.45 MB中文版
详情matlab数值分析与应用pdf程序开发12.41 MB高清完整版
详情linux命令大全chm版程序开发504.00 KB
详情ThinkPHP5.1完全开发手册程序开发4.00 MBpdf版
详情LDC1000金属探测传感器程序资料程序开发3.83 MB大全版
详情stm32自学笔记 第2版 pdf程序开发32.00 MB电子版
详情linux命令详解手册pdf程序开发771.00 KB
详情java从入门到精通第三版程序开发486.00 MB电子版完整版
详情asp.net4从入门到精通 pdf程序开发65.70 MB中文电子书完整版
详情ThinkPHP5.0中文手册程序开发5.00 MB官方版
详情Java8编程入门官方教程(第6版)程序开发4.49 MBpdf高清电子版
详情c++从入门到精通 第二版 pdf程序开发157.00 MB高清版
详情android studio应用开发实战详解 pdf程序开发0.00 B电子完整版
详情c程序设计第四版完整版程序开发17.80 MB高清电子版_附课后习题答案
详情node.js权威指南完整版程序开发0.00 B高清电子版
详情深入浅出mfc 扫描版 pdf程序开发27.00 MB电子版完整版
详情Python程序设计基础程序开发2.95 MBpdf高清电子版
详情python学习手册 第5版 pdf程序开发13.30 MB中文完整版
详情深入php与jquery开发中文版程序开发25.10 MB高清版
详情点击查看更多











