《大数据算法》王宏志 | PDF下载|ePub下载
内容简介 · · · · · ·
大数据算法是大数据得以有效应用的基础,也是有志于从事大数据以及相关领域工作必须学习的课程。本书由从事大数据研究的专家撰写,系统地介绍了大数据算法设计与分析的理论、方法和技术。本书共分为10章,第1章概述大数据算法,第2章介绍时间亚线性算法,第3章介绍空间亚线性算法,第4章概述外存算法,第5章介绍大数据外存查找结构,第6章讲授外存图数据算法,第7章概述MapReduce算法,第8章通过一系列例子讲授MapReduce算法,第9章介绍超越MapReduce的算法设计方法,第10章讨论众包算法。
本书适合作为计算机科学、大数据等专业本科生、研究生教材,也可供从事大数据相关工作的工程技术人员参考。
作者简介 · · · · · ·
王宏志是哈尔滨工业大学计算机科学与技术学院副教授、博士生导师。其研究方向为大数据、数据质量、图数据管理。发表学术论文140余篇,出版学术专著两本,出版国内首部《大数据算法》教材,其论文被SCI/EI检索80余次,他引400余次,其中5篇论文发表于顶级国际会议上。获得微软学者、中国优秀数据库工程师、IBM博士英才等称号,“海量数据计算的理论和技术”获得黑龙江省自然科学一等奖,其博士论文获得哈尔滨工业大学优秀博士论文和中国计算机学会优秀博士论文。主持各类项目十余项,包括国家自然科学基金项目3项目、国家支撑计划课题1项、国家博士后特别资助项目1项,还参加国家973项目、863项目、自然科学基金重点项目等多个项目。他担任4个国际期刊的编委,并30余次担任国内外多个知名数据库会议程序委员会委员。2014年-2015年任CCF YOCSEF哈尔滨分论坛主席,CCF高级会员,中国大数据专家委员会通信委员,中国数据库专业委员会委员,中国计算机应用专业委员会委员。在爱课程网、学堂在线、好大学在线上首次开设“大数据算法”在线课程,先后有超过30000名同学参加了这门课程的学习。
目录 · · · · · ·
前 言
第1章 绪论1
1.1 大数据概述1
1.1.1 什么是大数据1
1.1.2 无处不在的大数据1
1.1.3 大数据的特点3
1.1.4 大数据的应用4
1.2 大数据算法5
1.2.1 大数据上求解问题的过程6
1.2.2 大数据算法的定义7
1.2.3 大数据的特点与大数据算法9
1.2.4 大数据算法的难度9
1.2.5 大数据算法的应用10
1.3 大数据算法设计与分析11
1.3.1 大数据算法设计技术11
1.3.2 大数据算法分析技术12
1.4 本书的内容13
习题13
第2章 时间亚线性算法14
2.1 时间亚线性算法概述14
2.1.1 平面图直径问题的亚线性算法14
2.1.2 排序链表搜索的亚线性算法16
2.1.3 两个多边形交集问题的多项式时间算法17
2.2 最小生成树代价估计18
2.2.1 连通分量个数估计算法18
2.2.2 最小生成树代价估计算法20
2.3 时间亚线性判定算法概述23
2.4 数组有序的判定算法25
2.5 串相等判定算法27
习题28
第3章 空间亚线性算法29
3.1 空间亚线性算法概述29
3.2 水库抽样31
3.3 寻找频繁元素的非随机算法32
3.3.1 频繁元素的精确解33
3.3.2 频繁元素的Misra-Gries算法33
3.4 估算不同元素的数量35
3.4.1 基本算法35
3.4.2 改进算法38
3.5 寻找频繁元素的随机算法42
3.5.1 略图法42
3.5.2 计数最小略图45
3.6 估计频率矩47
3.6.1 频率矩的AMS估计算法47
3.6.2 基于拔河略图的频率矩估计51
3.6.3 使用稳定分布估计范数53
习题57
第4章 外存算法概述60
4.1 外存存储结构与外存算法概述60
4.2 外存算法示例:外存排序算法64
4.2.1 外存归并排序算法64
4.2.2 外存多路快速排序算法68
4.2.3 外存计算的下界74
4.3 外存数据结构示例:外存搜索树77
习题78
第5章 外存查找结构80
5.1 B树80
5.2 加权平衡B树87
5.3 持久B树90
5.4 缓存树94
5.5 KDB树98
5.6 O树103
习题107
第6章 外存图数据算法109
6.1 线性表排名及其应用109
6.1.1 线性表排名问题109
6.1.2 欧拉回路114
6.1.3 父子关系判定115
6.1.4 前序计数116
6.1.5 计算子树大小117
6.2 时间前向处理方法117
6.2.1 DAG形式逻辑表达式计算问题118
6.2.2 最大独立集合算法121
6.3 缩图法124
6.3.1 基于缩图法的图连通分量计算半外存算法124
6.3.2 基于缩图法的图连通分量计算全外存算法126
6.3.3 最小生成树算法128
6.4 广度优先搜索和深度优先搜索128
6.4.1 有向图的BFS和DFS129
6.4.2 无向图的BFS134
6.4.3 无向图更高效的BFS算法136
6.5 单源最短路径139
6.5.1 竞赛树140
6.5.2 Dijkstra算法的I/O高效版本145
习题149
第7章 MapReduce算法概述150
7.1 MapReduce基础150
7.1.1 MapReduce的基本模型151
7.1.2 mapper和reducer152
7.1.3 partitioner与combiner155
7.2 MapReduce算法设计方法157
7.2.1 局部聚合158
7.2.2 两种重要的算法设计模式——词对法和条块法163
7.2.3 二次排序168
7.2.4 MapReduce算法设计与算法实现技巧168
习题170
第8章 MapReduce算法例析171
8.1 连接算法171
8.1.1 普通连接算法171
8.1.2 相似连接算法184
8.2 图算法192
8.2.1 基于广度优先搜索的MapReduce图处理算法193
8.2.2 PageRank的MapReduce算法197
8.2.3 最小生成树的MapReduce算法200
8.2.4 使用图算法的注意事项202
习题203
第9章 超越MapReduce的并行大数据处理204
9.1 基于迭代处理平台的并行算法204
9.2 基于图处理平台的并行算法212
9.2.1 并行结点计算213
9.2.2 并行结点计算的平台215
9.2.3 基于并行结点计算的单源最短路径算法的设计与实现219
9.2.4 计算子图同构221
习题223
第10章 众包算法224
10.1 众包的定义224
10.2 众包的实例225
10.3 众包的要素和关键技术228
10.3.1 众包的流程228
10.3.2 众包的报酬230
10.3.3 众包中的关键技术230
10.4 众包算法例析232
习题237
参考文献238
· · · · · ·
发表回复
要发表评论,您必须先登录。