《算法与数据中台》詹盈 | PDF下载|ePub下载
类别: 计算机
作者:
詹盈
出版社: 电子工业出版社
出品方: 博文视点
副标题: 基于Google、Facebook与微博实践
出版年: 2020-9
页数: 328
定价: 89.00元
装帧: 平装
ISBN: 9787121392887
出版社: 电子工业出版社
出品方: 博文视点
副标题: 基于Google、Facebook与微博实践
出版年: 2020-9
页数: 328
定价: 89.00元
装帧: 平装
ISBN: 9787121392887
内容简介 · · · · · ·
《算法与数据中台:基于Google、Facebook与微博实践》作者依据在Google、Facebook、新浪微博及滴滴出行等中美一流互联网公司的实际工作经历,对算法技术、数据技术,以及围绕它们进行的技术中台建设实践进行了全面的探讨,并在此基础上对信息流推荐、计算广告及智能出行等核心互联网业务进行了案例剖析。
本书具有广阔的技术视野,内容颇具深度,既适合互联网行业的技术从业者阅读,也适合计算机相关专业的高年级本科生、研究生阅读。通过阅读本书,读者能加深对机器学习、深度学习、大数据、分布式系统及技术中台等相关领域的认知与理解,并从中获得一定的启发和可借鉴的经验。
作者简介 · · · · · ·
詹盈,本科毕业于南京大学,后赴美攻读计算机博士学位。先后就职于 Google、Facebook 以及新浪微博,历任主任架构师、算法总监等职位。长期致力于机器学习算法、算法工程平台和大规模个性化系统等方向的技术研究以及团队管理工作,对推荐系统、计算广告、大数据和云计算等相关业务领域有着长期深入的工作经验和成功实践。
郑旭飞,先后就职于 360 搜索、滴滴出行以及新浪微博,历任算法专家和资深工程师等职位,对搜索、推荐、广告等个性化系统以及机器学习平台有着丰富的实践经验。
刘畅宇,美国哥伦比亚大学计算机硕士学位,先后就职于彭博社和新浪微博并担任资深架构师等职位,对金融交易系统、计算广告平台以及大规模分布式系统有着深刻理解和成功经验。
郝忠秀,新浪微博广告基础架构负责人,对大规模分布式系统、海量数据存储系统、大数据平台以及计算广告等相关领域有着长期工作经验和诸多成功实践。
目录 · · · · · ·
第1章 算法与数据中台概述 1
1.1 中台的背景和意义 1
1.2 算法与数据中台的功能价值 3
1.3 算法与数据中台的技术体系 4
1.4 算法与数据中台的实践场景 6
1.5 算法与数据中台的应用前景 7
1.6 本章总结 8
第2章 中台技术之基础设施 10
2.1 研发效率系统 10
2.1.1 代码组织和构建 11
2.1.2 代码审查和任务管理 13
2.1.3 持续集成 15
2.1.4 通用压测平台 17
2.2 服务通信系统 19
2.2.1 跨进程通信框架 20
2.2.2 服务注册与发现 21
2.2.3 服务治理 24
2.3 监控报警系统 25
2.3.1 通用系统架构 25
2.3.2 指标计算模型 26
2.3.3 开源解决方案 27
2.4 链路跟踪系统 29
2.4.1 应用场景与设计目标 30
2.4.2 系统架构 30
2.5 本章总结 32
第3章 中台技术之在线算法系统 33
3.1 物料检索系统 34
3.1.1 倒排检索 35
3.1.2 倒排索引实例 37
3.1.3 相似检索 38
3.1.4 相似检索实例 40
3.1.5 模型粗排 40
3.2 模型预估服务 41
3.2.1 整体架构 42
3.2.2 多框架支持 43
3.2.3 模型上线 44
3.2.4 在线预估 45
3.2.5 异构设备 46
3.2.6 性能优化 47
3.2.7 效果监控 49
3.3 策略机制引擎 50
3.3.1 整体架构 50
3.3.2 计算流解释器 51
3.3.3 Lua 解释器 52
3.4 集群管理平台 53
3.4.1 多租户架构 53
3.4.2 集群动态管理 54
3.4.3 集群性能监控 57
3.4.4 配置动态分发 59
3.5 效果评估系统 60
3.5.1 背景介绍 61
3.5.2 设计模式 61
3.5.3 系统架构 62
3.5.4 指标计算 64
3.6 本章总结 65
第4章 中台技术之机器学习平台 66
4.1 机器学习平台简介 66
4.1.1 机器学习的研发流程 67
4.1.2 机器学习的研发挑战 69
4.1.3 机器学习的研发技术 69
4.2 传统机器学习算法 73
4.2.1 线性算法 73
4.2.2 因子分解机算法 77
4.2.3 决策树算法 81
4.3 深度学习算法 84
4.3.1 发展简史 85
4.3.2 神经元模型 86
4.3.3 神经网络模型 87
4.3.4 神经网络的算法原理 88
4.4 模型框架基本原理 94
4.4.1 分布式计算架构 94
4.4.2 并行计算的同步机制 99
4.4.3 梯度更新算法 102
4.5 层结构的模型框架 108
4.5.1 Caffe 109
4.5.2 DistBelief 110
4.5.3 WBLEngine 112
4.5.4 小结 116
4.6 数据流结构的模型框架 116
4.6.1 TensorFlow 116
4.6.2 PyTorch 122
4.6.3 小结 126
4.7 复合结构的模型框架 126
4.7.1 场景特点 126
4.7.2 设计思路 127
4.7.3 架构与实现 128
4.7.4 性能优化 131
4.7.5 小结 132
4.8 机器学习平台简介 132
4.8.1 单业务线开发阶段 132
4.8.2 平台化建设阶段 133
4.8.3 业界知名产品 134
4.9 新浪微博 WBL 机器学习平台 135
4.9.1 用户操作界面 136
4.9.2 管理中心 138
4.9.3 数据中心 140
4.9.4 调度中心 141
4.9.5 智能中心 144
4.9.6 模型中心 145
4.10 本章总结 147
第5章 中台技术之分布式数据库 148
5.1 分布式数据库概述 148
5.1.1 SQL 数据库 148
5.1.2 NoSQL 数据库 149
5.1.3 NewSQL 数据库 150
5.2 分布式数据库技术 150
5.2.1 ACID 理论 151
5.2.2 CAP 理论 151
5.2.3 BASE 理论 153
5.2.4 数据分片策略 154
5.2.5 数据复制策略 157
5.2.6 Gossip 协议 158
5.2.7 分布式一致性协议 160
5.2.8 分布式事务协议 167
5.3 分布式数据库产品 170
5.3.1 Redis 170
5.3.2 Google BigTable 170
5.3.3 Google Spanner 173
5.4 LaserDB 分布式数据库 177
5.4.1 系统架构 178
5.4.2 数据模型 179
5.4.3 分片策略 180
5.4.4 批量加载 181
5.4.5 同步机制 182
5.4.6 高可用架构 184
5.4.7 高性能方案 185
5.5 LaserDB 应用案例分析 188
5.5.1 数据缓存 188
5.5.2 特征服务 189
5.5.3 向量存储 190
5.5.4 样本拼接 190
5.6 本章总结 191
第6章 中台技术之大数据平台 192
6.1 大数据平台概述 192
6.1.1 大数据的特点 192
6.1.2 大数据平台的技术栈 193
6.2 分布式协调系统 194
6.2.1 Google Chubby 195
6.2.2 Apache ZooKeeper 196
6.2.3 Consul 197
6.3 集群管理系统 199
6.3.1 Google Borg 200
6.3.2 Kubernetes 202
6.3.3 Apache YARN 203
6.4 分布式文件系统 205
6.4.1 Google GFS 205
6.4.2 Apache HDFS 207
6.4.3 Dropbox MagicPocket 209
6.5 消息管道系统 210
6.5.1 Google PubSub 211
6.5.2 Apache Kafka 213
6.6 分布式计算系统 214
6.6.1 MapReduce 214
6.6.2 Apache Spark 216
6.6.3 Apache Flink 218
6.6.4 Apache Beam 220
6.7 数据仓库与分布式查询系统 221
6.7.1 Google BigQuery 222
6.7.2 Apache Hive 223
6.7.3 Facebook Presto 224
6.7.4 Facebook Scuba 226
6.8 本章总结 227
第7章 中台实践之推荐系统 228
7.1 推荐系统的背景简介 228
7.1.1 场景概况 229
7.1.2 整体架构 230
7.1.3 推荐思路 233
7.2 推荐系统的算法模型 235
7.2.1 GBDT-LR 融合模型 235
7.2.2 Wide & Deep 模型 237
7.2.3 DeepFM 模型 238
7.2.4 双塔模型 238
7.2.5 多任务模型 239
7.2.6 算法的发展趋势 241
7.3 推荐系统的效果度量 244
7.3.1 体验指标 244
7.3.2 算法指标 245
7.4 Facebook 信息流推荐简介 250
7.4.1 数据分发系统 251
7.4.2 特征服务 252
7.4.3 索引系统 254
7.4.4 预估与排序服务 255
7.4.5 实时样本拼接服务 256
7.4.6 模型训练平台 257
7.5 本章总结 258
第8章 中台实践之数字广告 259
8.1 数字广告的背景简介 259
8.1.1 核心概念 260
8.1.2 合约广告 261
8.1.3 竞价广告 262
8.1.4 程序化交易广告 263
8.2 数字广告系统架构 264
8.2.1 业务平台 265
8.2.2 算法与数据中台 265
8.3 数字广告系统中的数据管理 266
8.3.1 站内数据 267
8.3.2 站外数据 267
8.4 数字广告系统中的受众定向 268
8.4.1 内容定向 268
8.4.2 用户标签定向 269
8.4.3 定制化标签定向 269
8.4.4 社交关系定向 270
8.4.5 智能定向 270
8.5 数字广告系统中的策略机制 270
8.5.1 流量预测 271
8.5.2 在线分配 271
8.5.3 频次控制 272
8.5.4 平滑投放 272
8.5.5 探索策略 273
8.5.6 智能出价 274
8.5.7 广告竞价 276
8.5.8 反作弊机制 277
8.6 本章总结 277
第9章 中台实践之网约车平台 278
9.1 业务简介 279
9.1.1 业务背景 279
9.1.2 运作流程 281
9.1.3 用户体验 281
9.2 技术架构 282
9.2.1 分层系统架构 282
9.2.2 业务中台 283
9.2.3 算法与数据中台 285
9.3 打车定价场景 286
9.3.1 场景描述 286
9.3.2 价格动态下浮策略 287
9.3.3 价格动态上浮策略 289
9.3.4 小结 290
9.4 打车排队场景 290
9.4.1 场景描述 290
9.4.2 排队时间预估策略 291
9.4.3 小结 292
9.5 打车安全场景 292
9.5.1 场景描述 292
9.5.2 安全策略 293
9.5.3 小结 294
9.6 本章总结 294
参考文献 295
· · · · · ·
1.1 中台的背景和意义 1
1.2 算法与数据中台的功能价值 3
1.3 算法与数据中台的技术体系 4
1.4 算法与数据中台的实践场景 6
1.5 算法与数据中台的应用前景 7
1.6 本章总结 8
第2章 中台技术之基础设施 10
2.1 研发效率系统 10
2.1.1 代码组织和构建 11
2.1.2 代码审查和任务管理 13
2.1.3 持续集成 15
2.1.4 通用压测平台 17
2.2 服务通信系统 19
2.2.1 跨进程通信框架 20
2.2.2 服务注册与发现 21
2.2.3 服务治理 24
2.3 监控报警系统 25
2.3.1 通用系统架构 25
2.3.2 指标计算模型 26
2.3.3 开源解决方案 27
2.4 链路跟踪系统 29
2.4.1 应用场景与设计目标 30
2.4.2 系统架构 30
2.5 本章总结 32
第3章 中台技术之在线算法系统 33
3.1 物料检索系统 34
3.1.1 倒排检索 35
3.1.2 倒排索引实例 37
3.1.3 相似检索 38
3.1.4 相似检索实例 40
3.1.5 模型粗排 40
3.2 模型预估服务 41
3.2.1 整体架构 42
3.2.2 多框架支持 43
3.2.3 模型上线 44
3.2.4 在线预估 45
3.2.5 异构设备 46
3.2.6 性能优化 47
3.2.7 效果监控 49
3.3 策略机制引擎 50
3.3.1 整体架构 50
3.3.2 计算流解释器 51
3.3.3 Lua 解释器 52
3.4 集群管理平台 53
3.4.1 多租户架构 53
3.4.2 集群动态管理 54
3.4.3 集群性能监控 57
3.4.4 配置动态分发 59
3.5 效果评估系统 60
3.5.1 背景介绍 61
3.5.2 设计模式 61
3.5.3 系统架构 62
3.5.4 指标计算 64
3.6 本章总结 65
第4章 中台技术之机器学习平台 66
4.1 机器学习平台简介 66
4.1.1 机器学习的研发流程 67
4.1.2 机器学习的研发挑战 69
4.1.3 机器学习的研发技术 69
4.2 传统机器学习算法 73
4.2.1 线性算法 73
4.2.2 因子分解机算法 77
4.2.3 决策树算法 81
4.3 深度学习算法 84
4.3.1 发展简史 85
4.3.2 神经元模型 86
4.3.3 神经网络模型 87
4.3.4 神经网络的算法原理 88
4.4 模型框架基本原理 94
4.4.1 分布式计算架构 94
4.4.2 并行计算的同步机制 99
4.4.3 梯度更新算法 102
4.5 层结构的模型框架 108
4.5.1 Caffe 109
4.5.2 DistBelief 110
4.5.3 WBLEngine 112
4.5.4 小结 116
4.6 数据流结构的模型框架 116
4.6.1 TensorFlow 116
4.6.2 PyTorch 122
4.6.3 小结 126
4.7 复合结构的模型框架 126
4.7.1 场景特点 126
4.7.2 设计思路 127
4.7.3 架构与实现 128
4.7.4 性能优化 131
4.7.5 小结 132
4.8 机器学习平台简介 132
4.8.1 单业务线开发阶段 132
4.8.2 平台化建设阶段 133
4.8.3 业界知名产品 134
4.9 新浪微博 WBL 机器学习平台 135
4.9.1 用户操作界面 136
4.9.2 管理中心 138
4.9.3 数据中心 140
4.9.4 调度中心 141
4.9.5 智能中心 144
4.9.6 模型中心 145
4.10 本章总结 147
第5章 中台技术之分布式数据库 148
5.1 分布式数据库概述 148
5.1.1 SQL 数据库 148
5.1.2 NoSQL 数据库 149
5.1.3 NewSQL 数据库 150
5.2 分布式数据库技术 150
5.2.1 ACID 理论 151
5.2.2 CAP 理论 151
5.2.3 BASE 理论 153
5.2.4 数据分片策略 154
5.2.5 数据复制策略 157
5.2.6 Gossip 协议 158
5.2.7 分布式一致性协议 160
5.2.8 分布式事务协议 167
5.3 分布式数据库产品 170
5.3.1 Redis 170
5.3.2 Google BigTable 170
5.3.3 Google Spanner 173
5.4 LaserDB 分布式数据库 177
5.4.1 系统架构 178
5.4.2 数据模型 179
5.4.3 分片策略 180
5.4.4 批量加载 181
5.4.5 同步机制 182
5.4.6 高可用架构 184
5.4.7 高性能方案 185
5.5 LaserDB 应用案例分析 188
5.5.1 数据缓存 188
5.5.2 特征服务 189
5.5.3 向量存储 190
5.5.4 样本拼接 190
5.6 本章总结 191
第6章 中台技术之大数据平台 192
6.1 大数据平台概述 192
6.1.1 大数据的特点 192
6.1.2 大数据平台的技术栈 193
6.2 分布式协调系统 194
6.2.1 Google Chubby 195
6.2.2 Apache ZooKeeper 196
6.2.3 Consul 197
6.3 集群管理系统 199
6.3.1 Google Borg 200
6.3.2 Kubernetes 202
6.3.3 Apache YARN 203
6.4 分布式文件系统 205
6.4.1 Google GFS 205
6.4.2 Apache HDFS 207
6.4.3 Dropbox MagicPocket 209
6.5 消息管道系统 210
6.5.1 Google PubSub 211
6.5.2 Apache Kafka 213
6.6 分布式计算系统 214
6.6.1 MapReduce 214
6.6.2 Apache Spark 216
6.6.3 Apache Flink 218
6.6.4 Apache Beam 220
6.7 数据仓库与分布式查询系统 221
6.7.1 Google BigQuery 222
6.7.2 Apache Hive 223
6.7.3 Facebook Presto 224
6.7.4 Facebook Scuba 226
6.8 本章总结 227
第7章 中台实践之推荐系统 228
7.1 推荐系统的背景简介 228
7.1.1 场景概况 229
7.1.2 整体架构 230
7.1.3 推荐思路 233
7.2 推荐系统的算法模型 235
7.2.1 GBDT-LR 融合模型 235
7.2.2 Wide & Deep 模型 237
7.2.3 DeepFM 模型 238
7.2.4 双塔模型 238
7.2.5 多任务模型 239
7.2.6 算法的发展趋势 241
7.3 推荐系统的效果度量 244
7.3.1 体验指标 244
7.3.2 算法指标 245
7.4 Facebook 信息流推荐简介 250
7.4.1 数据分发系统 251
7.4.2 特征服务 252
7.4.3 索引系统 254
7.4.4 预估与排序服务 255
7.4.5 实时样本拼接服务 256
7.4.6 模型训练平台 257
7.5 本章总结 258
第8章 中台实践之数字广告 259
8.1 数字广告的背景简介 259
8.1.1 核心概念 260
8.1.2 合约广告 261
8.1.3 竞价广告 262
8.1.4 程序化交易广告 263
8.2 数字广告系统架构 264
8.2.1 业务平台 265
8.2.2 算法与数据中台 265
8.3 数字广告系统中的数据管理 266
8.3.1 站内数据 267
8.3.2 站外数据 267
8.4 数字广告系统中的受众定向 268
8.4.1 内容定向 268
8.4.2 用户标签定向 269
8.4.3 定制化标签定向 269
8.4.4 社交关系定向 270
8.4.5 智能定向 270
8.5 数字广告系统中的策略机制 270
8.5.1 流量预测 271
8.5.2 在线分配 271
8.5.3 频次控制 272
8.5.4 平滑投放 272
8.5.5 探索策略 273
8.5.6 智能出价 274
8.5.7 广告竞价 276
8.5.8 反作弊机制 277
8.6 本章总结 277
第9章 中台实践之网约车平台 278
9.1 业务简介 279
9.1.1 业务背景 279
9.1.2 运作流程 281
9.1.3 用户体验 281
9.2 技术架构 282
9.2.1 分层系统架构 282
9.2.2 业务中台 283
9.2.3 算法与数据中台 285
9.3 打车定价场景 286
9.3.1 场景描述 286
9.3.2 价格动态下浮策略 287
9.3.3 价格动态上浮策略 289
9.3.4 小结 290
9.4 打车排队场景 290
9.4.1 场景描述 290
9.4.2 排队时间预估策略 291
9.4.3 小结 292
9.5 打车安全场景 292
9.5.1 场景描述 292
9.5.2 安全策略 293
9.5.3 小结 294
9.6 本章总结 294
参考文献 295
· · · · · ·
发表回复
要发表评论,您必须先登录。