图书介绍

Cloudera Hadoop大数据平台实战指南【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

宋立桓，陈建平著著
出版社：北京：清华大学出版社
ISBN：9787302517535
出版时间：2019
标注页数：240页
文件大小：26MB
文件页数：258页
主题词：数据处理软件

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：8394f9dd8e82c97895449d7da8f2984a

下载说明

Cloudera Hadoop大数据平台实战指南PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章大数据概述1

1.1大数据时代的数据特点1

1.2大数据时代的发展趋势——数据将成为资产2

1.3大数据时代处理数据理念的改变3

1.3.1要全体不要抽样3

1.3.2要效率不要绝对精确3

1.3.3要相关不要因果4

1.4大数据时代的关键技术5

1.5大数据时代的典型应用案例5

1.5.1塔吉特超市精准营销案例5

1.5.2谷歌流感趋势案例6

1.5.3证券行业案例6

1.5.4某运营商大数据平台案例7

1.6 Hadoop概述和介绍7

1.6.1 Hadoop发展历史和应用现状7

1.6.2 Hadoop的特点8

1.6.3 Hadoop的生态系统8

第2章 Cloudera大数据平台介绍10

2.1 Cloudera简介10

2.2 Cloudera的Hadoop发行版CDH简介11

2.2.1 CDH概述11

2.2.2 CDH和Apache Hadoop对比12

2.3 Cloudera Manager大数据管理平台介绍12

2.3.1 Cloudera Manager概述和整体架构12

2.3.2 Cloudera Manager的基本核心功能14

2.3.3 Cloudera Manager的高级功能18

2.4 Cloudera平台参考部署架构19

2.4.1 Cloudera的软件体系结构19

2.4.2群集硬件规划配置19

2.4.3 Hadoop集群角色分配21

2.4.4网络拓扑23

第3章 Cloudera Manager及CDH离线安装部署25

3.1安装前的准备工作25

3.2 Cloudera Manager及CDH安装30

3.3添加其他大数据组件35

第4章分布式文件系统HDFS37

4.1 HDFS简介37

4.2 HDFS体系结构38

4.2.1 HDFS架构概述38

4.2.2 HDFS命名空间管理38

4.2.3 NameNode39

4.2.4 SecondaryNameNode39

4.3 HDFS 2.0新特性41

4.3.1 HDFS HA41

4.3.2 HDFS Federation42

4.4 HDFS操作常用shell命令43

4.4.1 HDFS目录操作和文件处理命令43

4.4.2 HDFS的Web管理界面44

4.4.3 dfsadmin管理维护命令45

4.4.4 namenode命令47

4.5 Java编程操作HDFS实践47

4.6 HDFS的参数配置和规划49

4.7使用Cloudera Manager启用HDFS HA51

4.7.1 HDFS HA高可用配置51

4.7.2 HDFS HA高可用功能测试54

第5章分布式计算框架MapReduce57

5.1 MapReduce概述57

5.2 MapReduce原理介绍58

5.2.1工作流程概述58

5.2.2 MapReduce框架的优势58

5.2.3 MapReduce执行过程59

5.3 MapReduce编程——单词示例解析59

5.4 MapReduce应用开发60

5.4.1配置MapReduce开发环境60

5.4.2编写和运行MapReduce程序61

第6章资源管理调度框架YARN65

6.1 YARN产生背景65

6.2 YARN框架介绍66

6.3 YARN工作原理67

6.4 YARN框架和MapReduce 1.0框架对比69

6.5 CDH集群的YARN参数调整69

第7章数据仓库Hive72

7.1 Hive简介72

7.2 Hive体系架构和应用场景73

7.2.1 Hive体系架构73

7.2.2 Hive应用场景74

7.3 Hive的数据模型75

7.3.1内部表75

7.3.2外部表75

7.3.3分区表75

7.3.4桶75

7.4 Hive实战操作76

7.4.1 Hive内部表操作77

7.4.2 Hive外部表操作77

7.4.3 Hive分区表操作79

7.4.4桶表80

7.4.5 Hive应用实例WordCount82

7.4.6 UDF84

7.5基于Hive的应用案例86

第8章数据迁移工具Sqoop88

8.1 Sqoop概述88

8.2 Sqoop工作原理89

8.3 Sqoop版本和架构91

8.4 Sqoop实战操作93

第9章分布式数据库HBase100

9.1 HBase概述100

9.2 HBase数据模型101

9.3 HBase生态地位和系统架构101

9.3.1 HBase的生态地位解析101

9.3.2 HBase系统架构102

9.4 HBase运行机制103

9.4.1 Region103

9.4.2 Region Server工作原理103

9.4.3 Store工作原理104

9.5 HBase操作实战104

9.5.1 HBase常用shell命令104

9.5.2 HBase编程实践107

9.5.3 HBase参数调优的案例分享109

第10章分布式协调服务ZooKeeper111

10.1 ZooKeeper的特点111

10.2 ZooKeeper的工作原理112

10.2.1基本架构112

10.2.2 ZooKeeper实现分布式Leader节点选举112

10.2.3 ZooKeeper配置文件重点参数详解112

10.3 ZooKeeper典型应用场景115

10.3.1 ZooKeeper实现HDFS的NameNode高可用HA115

10.3.2 ZooKeeper实现HBase的HMaster高可用116

10.3.3 ZooKeeper在Storm集群中的协调者作用116

第11章准实时分析系统Impala118

11.1 Impala概述118

11.2 Impala组件构成119

11.3 Impala系统架构119

11.4 Impala的查询处理流程120

11.5 Impala和Hive的关系和对比121

11.6 Impala安装122

11.7 Impala入门实战操作124

第12章日志采集工具Flume128

12.1 Flume概述128

12.2 Flume体系结构129

12.2.1 Flume外部结构129

12.2.2 Flume的Event事件概念130

12.2.3 Flume的Agent130

12.3 Flume安装和集成131

12.3.1搭建Flume环境131

12.3.2 Kafka与Flume集成132

12.4 Flume操作实例介绍132

12.4.1例子概述132

12.4.2第一步：配置数据流向132

12.4.3第二步：启动服务133

12.4.4第三步：新建空数据文件133

12.4.5第四步：运行flume-ng命令133

12.4.6第五步：运行命令脚本134

12.4.7最后一步：测试结果134

第13章分布式消息系统Kafka135

13.1 Kafka架构设计135

13.1.1基本架构135

13.1.2基本概念136

13.1.3 Kafka主要特点136

13.2 Kafka原理解析137

13.2.1主要的设计理念137

13.2.2 ZooKeeper在Kafka的作用137

13.2.3 Kafka在ZooKeeper的执行流程137

13.3 Kafka安装和部署138

13.3.1 CDH5完美集成Kafka138

13.3.2 Kafka部署模式和配置139

13.4 Java操作Kafka消息处理实例141

13.4.1例子概述141

13.4.2第一步：新建工程141

13.4.3第二步：编写代码141

13.4.4第三步：运行发送数据程序142

13.4.5最后一步：运行接收数据程序143

13.5 Kafka与HDFS的集成143

13.5.1与HDFS集成介绍143

13.5.2与HDFS集成实例144

13.5.3第一步：编写代码——发送数据144

13.5.4第二步：编写代码——接收数据145

13.5.5第三步：导出文件146

13.5.6第四步：上传文件146

13.5.7第五步：运行程序——发送数据146

13.5.8第六步：运行程序——接收数据147

13.5.9最后一步：查看执行结果147

第14章大数据ETL工具Kettle148

14.1 ETL原理148

14.1.1 ETL简介148

14.1.2 ETL在数据仓库中的作用149

14.2 Kettle简介149

14.3 Kettle完整案例实战150

14.3.1案例介绍150

14.3.2最终效果150

14.3.3表说明150

14.3.4第一步：准备数据库数据151

14.3.5第二步：新建转换152

14.3.6第三步：新建数据库连接153

14.3.7第四步：拖动表输入组件153

14.3.8第五步：设置属性——order表154

14.3.9第六步：设置属性orser表155

14.3.10第七步：拖动流查询并设置属性——流查询155

14.3.11第八步：设置属性——product表156

14.3.12第九步：连接组件156

14.3.13第十步：设置属性——文本输出156

14.3.14最后一步：运行程序并查看结果157

14.4 Kettle调度和命令158

14.4.1通过页面调度158

14.4.2通过脚本调度159

14.5 Kettle使用原则161

第15章大规模数据处理计算引擎Spark162

15.1 Spark简介162

15.1.1使用背景162

15.1.2 Spark特点163

15.2 Spark架构设计163

15.2.1 Spark整体架构163

15.2.2关键运算组件164

15.2.3 RDD介绍164

15.2.4 RDD操作165

15.2.5 RDD依赖关系166

15.2.6 RDD源码详解167

15.2.7 Scheduler168

15.2.8 Storage168

15.2.9 Shuffle169

15.3 Spark编程实例170

15.3.1实例概述170

15.3.2第一步：编辑数据文件170

15.3.3第二步：编写程序171

15.3.4第三步：上传JAR文件171

15.3.5第四步：远程执行程序172

15.3.6最后一步：查看结果172

15.4 Spark SQL实战173

15.4.1例子概述173

15.4.2第一步：编辑数据文件173

15.4.3第二步：编写代码174

15.4.4第三步：上传文件到服务器174

15.4.5第四步：远程执行程序174

15.4.6最后一步：查看结果175

15.5 Spark Streaming实战175

15.5.1例子概述175

15.5.2第一步：编写代码175

15.5.3第二步：上传文件到服务器176

15.5.4第三步：远程执行程序177

15.5.5第四步：上传数据177

15.5.6最后一步：查看结果177

15.6 Spark MLlib实战178

15.6.1例子步骤178

15.6.2第一步：编写代码178

15.6.3第二步：上传文件到服务器179

15.6.4第三步：远程执行程序179

15.6.5第四步：上传数据180

15.6.6最后一步：查看结果180

第16章大数据全栈式开发语言Python182

16.1 Python简介182

16.2 Python安装和配置183

16.2.1 Anaconda介绍183

16.2.2 Anaconda下载183

16.2.3 Anaconda安装184

16.2.4 Anaconda包管理185

16.2.5 PyCharm下载185

16.2.6 PyCharm安装185

16.2.7 PyCharm使用187

16.3 Python入门190

16.3.1例子概述190

16.3.2第一步：新建 Python文件190

16.3.3第二步：设置字体大小191

16.3.4第三步：编写代码191

16.3.5第四步：执行程序192

16.3.6最后一步：改变输入192

16.4 Python数据科学库pandas入门193

16.4.1例子概述193

16.4.2 pandas包介绍194

16.4.3第一步：打开Jupyter Notebook194

16.4.4第二步：导入包194

16.4.5第三步：定义数据集195

16.4.6第四步：过滤数据195

16.4.7最后一步：获取数据196

16.5 Python绘图库matplotlib入门197

16.5.1例子概述197

16.5.2第一步：新建一个Python文件197

16.5.3第二步：引入画图包197

16.5.4第三步：组织数据198

16.5.5第四步：画图198

16.5.6最后一步：查看结果199

第17章大数据实战案例：实时数据流处理项目200

17.1项目背景介绍200

17.2业务需求分析200

17.3项目技术架构201

17.4项目技术组成202

17.5项目实施步骤202

17.5.1第一步：运用Kafka产生数据202

17.5.2第二步：运用Spark接收数据208

17.5.3第三步：安装Redis软件211

17.5.4第四步：准备程序运行环境214

17.5.5第五步：远程执行Spark程序216

17.5.6第六步：编写Python实现可视化218

17.5.7最后一步：执行Python程序221

17.6项目总结222

第18章大数据实战案例：用户日志综合分析项目223

18.1项目背景介绍223

18.2项目设计目的223

18.3项目技术架构和组成224

18.4项目实施步骤225

18.4.1第一步：本地数据FTP到Linux环境225

18.4.2第二步：Linux数据上传到HDFS225

18.4.3第三步：使用Hive访问HDFS数据226

18.4.4第四步：使用Kettle把数据导入HBase228

18.4.5第五步：使用Sqoop把数据导入MySQL234

18.4.6第六步：编写Python程序实现可视化236

18.4.7最后一步：执行Python程序238