《Flink与Kylin深度实践》王超，李沙编著 | PDF下载|ePub下载

创建

2024 年 11 月 1 日

查看

类别: 计算机/网络

Flink与Kylin深度实践版权信息

出版社：机械工业出版社
出版时间：2020-08-01
ISBN：9787111660170
条形码：9787111660170 ; 978-7-111-66017-0

Flink与Kylin深度实践本书特色

适读人群：有一定编程及大数据开发经验，有数据实时处理工作需求或者想要从事相关工作的读者本书由浅入深地讲解了Flink各个模块的实现原理，以及各种API的使用方法，是一本带你轻松上手Flink*佳实践的书籍。

Flink与Kylin深度实践内容简介

本书从实用角度出发, 首先介绍了Flink的功能模块、运行模式、部署安装等内容, 然后着重介绍了Flink中的实时处理技术和批量处理技术, 接着讲解了Flink的Table与SQL、CEP机制、调优与监控、实时数据同步解析, *后通过Flink结合Kylin实现了实时数据统计的功能。

Flink与Kylin深度实践目录

◆ 目录：◆

致数字化人才的一封信
前言
●第1章Flink及其运行模式简介
1.1Flink介绍
1.2Flink的特性
1.3功能模块
1.4编程模型
1.5重新编译
1.6任务提交模型
1.7部署运行模式
1.8本章小结
●第2章Flink的部署安装及入门案例
2.1local模式部署安装
2.2standalone模式部署安装
2.3standalone模式的HA环境
2.4standalone模式在HA环境下提交任务
2.5Flink on YARN模式
2.5.1单个YARN Session模式
2.5.2多个YARN Session模式
2.5.3“flink run”脚本分析
2.6入门案例
2.6.1实时处理程序实现
2.6.2离线批量处理程序实现
2.7shell命令行代码调试
2.7.1批量处理代码调试
2.7.2实时处理代码调试
2.8本章小结
●第3章Flink实时处理之DataStream
3.1DataStream的数据源
3.1.1Socket数据源
3.1.2文件数据源
3.1.3从集合中获取数据
3.1.4自定义数据源
3.2DataStream常用算子
3.2.1transformation算子
3.2.2partition算子
3.2.3sink算子
3.3窗口和时间
3.3.1窗口的类型
3.3.2窗口的应用
3.3.3窗口数值聚合统计
3.3.4时间的类型
3.4用watermark解决乱序与数据延迟问题
3.4.1watermark的作用
3.4.2watermark解决数据延时问题
3.4.3watermark如何生成
3.4.4watermark处理乱序数据
3.4.5比watermark更晚的数据如何解决
3.4.6多并行度的watermark机制
3.5DataStream的状态保存和恢复
3.5.1keyed state的托管状态
3.5.2operator state的托管状态
3.5.3状态管理之StateBackend
3.5.4用checkpoint保存数据
3.5.5用savepoint保存数据
3.6DataStream集成Kafka
3.6.1导入jar包
3.6.2将Kafka作为Flink的source
3.6.3将Kafka作为Flink的sink
3.7本章小结
●第4章Flink批量处理之DataSet
4.1DataSet的内置数据源
4.1.1文件数据源
4.1.2集合数据源
4.2DataSet常用算子
4.2.1transformation算子
4.2.2partition算子
4.2.3sink算子
4.3DataSet的参数传递
4.4DataSet连接器
4.4.1文件系统连接器
4.4.2Flink集成HBase之数据读取
4.4.3Flink读取数据写入HBase
4.5广播变量、累加器与分布式缓存
4.5.1广播变量
4.5.2累加器
4.5.3分布式缓存
4.6本章小结
●第5章Flink的Table与SQL
5.1Table与SQL简介
5.2为什么需要SQL
5.3Table与SQL的语法解析
5.3.1创建TableEnvironment对象
5.3.2注册表
5.3.3查询表
5.3.4注册数据保存表
5.3.5Table与SQL的数据查询执行原理
5.3.6DataStream与DataSet集成
5.4Table与SQL编程开发
5.4.1使用SQL读取CSV文件并进行查询
5.4.2DataStream与表的互相转换
5.4.3DataSet与表的互相转换
5.4.4SQL处理Kafka的JSON格式数据
5.5本章小结
●第6章Flink数据去重与数据连接
6.1数据去重
6.1.1基于MapState实现流式去重
6.1.2基于SQL实现流式去重
6.2流的连接实现
6.2.1使用CoGroup实现流连接
6.2.2interval join机制
6.2.3SQL实现连接操作
6.3本章小结
●第7章Flink中的复杂事件处理(CEP)机制
7.1CEP简介
7.2CEP中的模式
7.2.1个体模式（Individual Pattern）
7.2.2组合模式（Combining Pattern）
7.2.3模式组（Group of Patterns）
7.3CEP综合案例
7.3.1用户IP变换报警
7.3.2高温预警
7.3.3支付超时监控
7.4本章小结
●第8章Flink调优与监控
8.1监控指标
8.1.1系统监控指标
8.1.2自定义监控指标
8.2反压机制与监控
8.2.1反压线程采样
8.2.2反压线程配置
8.3checkpoint监控
8.4checkpoint调优
8.4.1如何衡量checkpoint的速度大小
8.4.2相邻checkpoint的间隔时间设置
8.4.3checkpoint资源设置
8.4.4checkpoint的Task本地性恢复
8.4.5异步checkpoint设置
8.4.6checkpoint数据压缩
8.5内存管理调优
8.5.1内存托管
8.5.2内存段管理
8.5.3内存段与字节缓冲区
8.5.4内存段对垃圾收集器的影响
8.5.5内存配置
8.5.6堆外内存
8.6本章小结
●第9章基于Flink实现实时数据同步解析
9.1实时数仓架构
9.2MySQL数据实时同步
9.2.1MySQL的binlog介绍
9.2.2maxwell简介
9.2.3开启MySQL的binlog功能
9.2.4安装maxwell实现实时采集MySQL数据
9.2.5启动服务
9.2.6插入数据并进行测试
9.3数据库建表
9.4开发模拟数据生成模块
9.4.1创建Maven工程并导入jar包
9.4.2开发Flink程序批量导入商品表数据
9.4.3开发订单生成程序模拟订单持续生成
9.5数据获取模块开发
9.5.1全量拉取数据
9.5.2增量拉取数据
9.6本章小结
●第10章基于Kylin的实时数据统计
10.1Kylin简介
10.1.1为什么要使用Kylin
10.1.2Kylin的使用场景
10.1.3Kylin如何解决海量数据的查询问题
10.2Kylin基础知识
10.2.1数据仓库、OLAP、BI
10.2.2事实表与维度表
10.2.3维度与度量
10.2.4数据仓库常用建模方式
10.2.5数据立方体
10.2.6Kylin的工作原理
10.2.7Kylin的体系架构
10.2.8Kylin的特点
10.3Kylin环境搭建
10.3.1单机模式安装
10.3.2集群环境搭建
10.4Kylin的使用
10.4.1创建Hive数据
10.4.2创建Kylin工程
10.4.3为Kylin添加模型
10.4.4通过Kylin来构建Cube
10.4.5构建Cube
10.4.6数据查询分析
10.5Kylin的构建流程
10.6Cube构建算法
10.6.1逐层构建法
10.6.2快速构建法
10.7Cube构建的优化
10.7.1使用衍生维度（Derived Dimension）
10.7.2使用聚合组（Aggregation Group）
10.7.3并发粒度优化
10.7.4rowKey优化
10.7.5增量Cube构建
10.8备份以及恢复Kylin的元数据
10.9Kylin的垃圾清理
10.10BI工具集成
10.11使用Kylin分析HBase数据
10.12本章小结