《Hadoop与大数据挖掘(第2版)/大数据技术丛书》王哲,张良均,李国辉,卢军,梁晓 | PDF下载|ePub下载
Hadoop与大数据挖掘(第2版)/大数据技术丛书 版权信息
- 出版社:机械工业出版社
- 出版时间:2022-07-01
- ISBN:9787111709473
- 条形码:9787111709473 ; 978-7-111-70947-3
Hadoop与大数据挖掘(第2版)/大数据技术丛书 本书特色
是 资深专家10余年项目和教学经验总结,详解Hadoop全栈技术及其大数据挖掘方法,配代码、习题、教学PPT
Hadoop与大数据挖掘(第2版)/大数据技术丛书 内容简介
本书基于开源Hadoop生态圈的主流技术,深入浅出地介绍了大数据相关技术的原理、知识点及具体应用,适合教师教学使用和零基础自学者使用。通过本书的学习,读者可以理解大数据相关技术的原理,迅速掌握大数据技术的操作,为后续数据挖掘与分布式计算平台的结合使用打下良好的技术基础。
Hadoop与大数据挖掘(第2版)/大数据技术丛书 目录
前言
**部分 基础篇
第1章 浅谈大数据 2
1.1 大数据产生的背景 2
1.1.1 信息化浪潮 2
1.1.2 信息技术变革 3
1.1.3 数据生产方式变革 4
1.1.4 大数据的发展历程 5
1.1.5 大数据时代的挑战 6
1.1.6 大数据时代面临的机遇 7
1.2 大数据概述 7
1.2.1 大数据的概念 8
1.2.2 大数据的特征 8
1.2.3 大数据的影响 8
1.2.4 大数据与互联网、云计算的关系 11
1.3 大数据挖掘概述 11
1.3.1 数据挖掘的概念 11
1.3.2 大数据环境下的数据挖掘 12
1.3.3 数据挖掘的过程 12
1.3.4 数据挖掘常用工具 13
1.4 大数据平台 14
1.5 小结 15
第2章 大数据基础架构Hadoop――实现大数据分布式存储与计算 16
2.1 Hadoop技术概述 16
2.1.1 Hadoop的发展历史 16
2.1.2 Hadoop的特点 17
2.1.3 Hadoop存储框架―HDFS 18
2.1.4 Hadoop计算引擎―MapReduce 20
2.1.5 Hadoop资源管理器―YARN 21
2.2 Hadoop应用场景介绍 23
2.3 Hadoop生态系统 23
2.4 Hadoop安装配置 24
2.4.1 创建Linux虚拟机 25
2.4.2 设置固定IP 33
2.4.3 远程连接虚拟机 35
2.4.4 配置本地yum源及安装常用软件 38
2.4.5 在Linux下安装Java 42
2.4.6 修改配置文件 43
2.4.7 克隆虚拟机 48
2.4.8 配置SSH免密登录 50
2.4.9 配置时间同步服务 51
2.4.10 启动关闭集群 53
2.5 Hadoop HDFS文件操作命令 54
2.5.1 创建目录 54
2.5.2 上传和下载文件 55
2.5.3 查看文件内容 56
2.5.4 删除文件或目录 56
2.6 Hadoop MapReduce编程开发 57
2.6.1 使用IDEA搭建MapReduce开发环境 57
2.6.2 通过词频统计了解MapReduce执行流程 67
2.6.3 通过源码认识MapReduce编程 68
2.7 场景应用:电影网站用户影评分析 74
2.7.1 了解数据字段并分析需求 74
2.7.2 多维度分析用户影评 76
2.8 小结 91
第3章 数据仓库Hive――实现大数据查询与处理 92
3.1 Hive技术概述 92
3.1.1 Hive简介 92
3.1.2 Hive的特点 93
3.1.3 Hive的架构 93
3.2 Hive应用场景介绍 94
3.3 Hive安装配置 95
3.3.1 配置MySQL数据库 95
3.3.2 配置Hive数据仓库 96
3.4 HiveQL查询语句 99
3.4.1 Hive的基础数据类型 99
3.4.2 创建与管理数据库 100
3.4.3 创建与管理数据表 101
3.4.4 Hive表的数据装载 108
3.4.5 掌握select查询 111
3.4.6 了解运算符的使用 112
3.4.7 掌握Hive内置函数 115
3.5 Hive自定义函数的使用 120
3.5.1 了解Hive自定义函数 120
3.5.2 自定义UDF 121
3.5.3 自定义UDAF 124
3.5.4 自定义UDTF 127
3.6 场景应用:基站掉话率排名统计 129
3.6.1 创建基站数据表并导入数据 130
3.6.2 统计基站掉话率 130
3.7 小结 132
第4章 分布式协调框架ZooKeeper――实现应用程序分布式协调服务 133
4.1 ZooKeeper技术概述 133
4.1.1 ZooKeeper简介 133
4.1.2 ZooKeeper的特点 135
4.2 ZooKeeper应用场景介绍 135
4.3 ZooKeeper分布式安装配置 136
4.4 ZooKeeper客户端常用命令 138
4.4.1 创建znode 138
4.4.2 获取znode数据 138
4.4.3 监视znode 139
4.4.4 删除znode 140
4.4.5 设置znode权限 140
4.5 ZooKeeper Java API操作 142
4.5.1 创建IDEA工程并连接ZooKeeper 142
4.5.2 获取、修改和删除znode数据 143
4.6 场景应用:服务器上下线动态监控 146
4.7 小结 149
第5章 分布式数据库HBase――实现大数据存储与快速查询 151
5.1 HBase技术概述 151
5.1.1 HBase的发展历程 151
5.1.2 HBase的特点 152
5.1.3 HBase的核心功能模块 153
5.1.4 HBase的数据模型 155
5.1.5 设计表结构的原则 155
5.2 HBase应用场景介绍 156
5.3 HBase安装配置 157
5.4 HBase Shell操作 159
5.4.1 创建与删除表 159
5.4.2 插入数据 161
5.4.3 查询数据 162
5.4.4 删除数据 163
5.4.5 扫描全表 163
5.4.6 按时间版本查询记录 164
5.5 HBase高级应用 165
5.5.1 IDEA开发环境搭建 165
5.5.2 HBase Java API使用 169
5.5.3 HBase与MapReduce交互 174
5.6 场景应用:用户通话记录数据存储设计及查询 180
5.6.1 设计通话记录数据结构 180
5.6.2 查询用户通话记录 181
5.7 小结 187
第6章 分布式计算框架Spark――实现大数据分析与挖掘 189
6.1 Spark技术概述 189
6.1.1 Spark的发展历史 189
6.1.2 Spark的特点 190
6.1.3 Spark生态圈 191
6.2 Spark应用场景介绍 192
6.3 Spark集群安装配置 192
6.4 Spark Core―底层基础框架 196
6.4.1 Spark集群架构 196
6.4.2 Spark作业运行模式 197
6.4.3 弹性分布式数据集RDD 199
6.4.4 RDD算子基础操作 200
6.4.5 场景应用:房屋销售数据分析 201
6.5 Spark SQL―查询引擎框架 205
6.5.1 Spark SQL概述 205
6.5.2 DataFrame基础操作 205
6.5.3 场景应用:广告
**部分 基础篇
第1章 浅谈大数据 2
1.1 大数据产生的背景 2
1.1.1 信息化浪潮 2
1.1.2 信息技术变革 3
1.1.3 数据生产方式变革 4
1.1.4 大数据的发展历程 5
1.1.5 大数据时代的挑战 6
1.1.6 大数据时代面临的机遇 7
1.2 大数据概述 7
1.2.1 大数据的概念 8
1.2.2 大数据的特征 8
1.2.3 大数据的影响 8
1.2.4 大数据与互联网、云计算的关系 11
1.3 大数据挖掘概述 11
1.3.1 数据挖掘的概念 11
1.3.2 大数据环境下的数据挖掘 12
1.3.3 数据挖掘的过程 12
1.3.4 数据挖掘常用工具 13
1.4 大数据平台 14
1.5 小结 15
第2章 大数据基础架构Hadoop――实现大数据分布式存储与计算 16
2.1 Hadoop技术概述 16
2.1.1 Hadoop的发展历史 16
2.1.2 Hadoop的特点 17
2.1.3 Hadoop存储框架―HDFS 18
2.1.4 Hadoop计算引擎―MapReduce 20
2.1.5 Hadoop资源管理器―YARN 21
2.2 Hadoop应用场景介绍 23
2.3 Hadoop生态系统 23
2.4 Hadoop安装配置 24
2.4.1 创建Linux虚拟机 25
2.4.2 设置固定IP 33
2.4.3 远程连接虚拟机 35
2.4.4 配置本地yum源及安装常用软件 38
2.4.5 在Linux下安装Java 42
2.4.6 修改配置文件 43
2.4.7 克隆虚拟机 48
2.4.8 配置SSH免密登录 50
2.4.9 配置时间同步服务 51
2.4.10 启动关闭集群 53
2.5 Hadoop HDFS文件操作命令 54
2.5.1 创建目录 54
2.5.2 上传和下载文件 55
2.5.3 查看文件内容 56
2.5.4 删除文件或目录 56
2.6 Hadoop MapReduce编程开发 57
2.6.1 使用IDEA搭建MapReduce开发环境 57
2.6.2 通过词频统计了解MapReduce执行流程 67
2.6.3 通过源码认识MapReduce编程 68
2.7 场景应用:电影网站用户影评分析 74
2.7.1 了解数据字段并分析需求 74
2.7.2 多维度分析用户影评 76
2.8 小结 91
第3章 数据仓库Hive――实现大数据查询与处理 92
3.1 Hive技术概述 92
3.1.1 Hive简介 92
3.1.2 Hive的特点 93
3.1.3 Hive的架构 93
3.2 Hive应用场景介绍 94
3.3 Hive安装配置 95
3.3.1 配置MySQL数据库 95
3.3.2 配置Hive数据仓库 96
3.4 HiveQL查询语句 99
3.4.1 Hive的基础数据类型 99
3.4.2 创建与管理数据库 100
3.4.3 创建与管理数据表 101
3.4.4 Hive表的数据装载 108
3.4.5 掌握select查询 111
3.4.6 了解运算符的使用 112
3.4.7 掌握Hive内置函数 115
3.5 Hive自定义函数的使用 120
3.5.1 了解Hive自定义函数 120
3.5.2 自定义UDF 121
3.5.3 自定义UDAF 124
3.5.4 自定义UDTF 127
3.6 场景应用:基站掉话率排名统计 129
3.6.1 创建基站数据表并导入数据 130
3.6.2 统计基站掉话率 130
3.7 小结 132
第4章 分布式协调框架ZooKeeper――实现应用程序分布式协调服务 133
4.1 ZooKeeper技术概述 133
4.1.1 ZooKeeper简介 133
4.1.2 ZooKeeper的特点 135
4.2 ZooKeeper应用场景介绍 135
4.3 ZooKeeper分布式安装配置 136
4.4 ZooKeeper客户端常用命令 138
4.4.1 创建znode 138
4.4.2 获取znode数据 138
4.4.3 监视znode 139
4.4.4 删除znode 140
4.4.5 设置znode权限 140
4.5 ZooKeeper Java API操作 142
4.5.1 创建IDEA工程并连接ZooKeeper 142
4.5.2 获取、修改和删除znode数据 143
4.6 场景应用:服务器上下线动态监控 146
4.7 小结 149
第5章 分布式数据库HBase――实现大数据存储与快速查询 151
5.1 HBase技术概述 151
5.1.1 HBase的发展历程 151
5.1.2 HBase的特点 152
5.1.3 HBase的核心功能模块 153
5.1.4 HBase的数据模型 155
5.1.5 设计表结构的原则 155
5.2 HBase应用场景介绍 156
5.3 HBase安装配置 157
5.4 HBase Shell操作 159
5.4.1 创建与删除表 159
5.4.2 插入数据 161
5.4.3 查询数据 162
5.4.4 删除数据 163
5.4.5 扫描全表 163
5.4.6 按时间版本查询记录 164
5.5 HBase高级应用 165
5.5.1 IDEA开发环境搭建 165
5.5.2 HBase Java API使用 169
5.5.3 HBase与MapReduce交互 174
5.6 场景应用:用户通话记录数据存储设计及查询 180
5.6.1 设计通话记录数据结构 180
5.6.2 查询用户通话记录 181
5.7 小结 187
第6章 分布式计算框架Spark――实现大数据分析与挖掘 189
6.1 Spark技术概述 189
6.1.1 Spark的发展历史 189
6.1.2 Spark的特点 190
6.1.3 Spark生态圈 191
6.2 Spark应用场景介绍 192
6.3 Spark集群安装配置 192
6.4 Spark Core―底层基础框架 196
6.4.1 Spark集群架构 196
6.4.2 Spark作业运行模式 197
6.4.3 弹性分布式数据集RDD 199
6.4.4 RDD算子基础操作 200
6.4.5 场景应用:房屋销售数据分析 201
6.5 Spark SQL―查询引擎框架 205
6.5.1 Spark SQL概述 205
6.5.2 DataFrame基础操作 205
6.5.3 场景应用:广告