爬虫实战:从数据到产品 | PDF下载|ePub下载
类别: 计算机
作者:[美] Gayle Laakmann McDowell
出版社: 人民邮电出版社
原作名: Cracking the coding interview:150 programming questions and solutions,fifth edition
译者:李琳骁/漆犇
出版年: 2013-11
页数: 372
定价: 59.00元
装帧: 平装
ISBN: 9787115332912
出版社: 人民邮电出版社
原作名: Cracking the coding interview:150 programming questions and solutions,fifth edition
译者:李琳骁/漆犇
出版年: 2013-11
页数: 372
定价: 59.00元
装帧: 平装
ISBN: 9787115332912
内容简介 · · · · · ·
《爬虫实战:从数据到产品》从多个数据项目实例出发,介绍爬虫、反爬虫的各种案例,使读者了解到数据抓取和分析的完整过程。书中案例的难度由浅入深,以作者原创的代码为主,不借助现成的框架,强调在数据采集过程中的发散思维,总结攻克反爬虫的思维模式,实现以低成本的方式得到想要的数据的愿望。最后,用一个“爱飞狗”的例子,为读者展示如何从0 到1 地开发一个大数据产品。
目录 · · · · · ·
第1 章 基础知识 ……………………………………………………………………………………… 1
1.1 什么是爬虫 ……………………………………………………………………………………. 1
1.2 数据获取渠道 ………………………………………………………………………………… 2
1.3 抓包分析工具 ………………………………………………………………………………… 4
1.4 爬虫和反爬虫的斗争 ……………………………………………………………………… 5
1.5 数据处理、分析和可视化 …………………………………………………………….. 20
1.6 延深阅读 ……………………………………………………………………………………… 21
第2 章 基于位置信息的爬虫Ⅰ ………………………………………………………………… 23
2.1 背景及目标 ………………………………………………………………………………….. 23
2.2 爬虫原理 ……………………………………………………………………………………… 24
2.3 数据来源分析 ………………………………………………………………………………. 26
2.4 简单的矩形区域抓取方式 …………………………………………………………….. 38
2.5 高级区域抓取方式 ……………………………………………………………………….. 46
2.6 坐标转换 ……………………………………………………………………………………… 49
2.7 存储数据的方式 …………………………………………………………………………… 49
2.8 数据导入 ……………………………………………………………………………………… 51
2.9 基本数据分析 ………………………………………………………………………………. 52
2.10 地图可视化 ………………………………………………………………………………… 56
2.11 轨迹可视化 ………………………………………………………………………………… 58
2.12 总结 …………………………………………………………………………………………… 60
第3 章 基于位置信息的爬虫Ⅱ ………………………………………………………………… 62
3.1 背景及目标 ………………………………………………………………………………….. 62
3.2 爬虫原理 ……………………………………………………………………………………… 62
3.3 优化方案一 ………………………………………………………………………………….. 71
3.4 优化方案二 ………………………………………………………………………………….. 75
3.5 优化方案三 ………………………………………………………………………………….. 82
3.6 导入数据到数据库 ……………………………………………………………………….. 97
3.7 基本数据分析及可视化 ………………………………………………………………. 100
3.8 总结 …………………………………………………………………………………………… 117
第4 章 网站信息抓取及可视化 ………………………………………………………………. 118
4.1 背景及目标 ………………………………………………………………………………… 118
4.2 网站API 分析 ……………………………………………………………………………. 118
4.3 数据抓取 ……………………………………………………………………………………. 122
4.4 数据导入 ……………………………………………………………………………………. 129
4.5 数据分析及可视化 ……………………………………………………………………… 133
4.6 总结 …………………………………………………………………………………………… 173
第5 章 基于逆向分析小程序的爬虫 ………………………………………………………… 174
5.1 背景及目标 ………………………………………………………………………………… 174
5.2 数据来源分析 …………………………………………………………………………….. 176
5.3 数据抓取方案 …………………………………………………………………………….. 177
5.4 转换数据格式 …………………………………………………………………………….. 195
5.5 总结 …………………………………………………………………………………………… 196
第6 章 从数据到产品 …………………………………………………………………………… 197
6.1 从一张机票说起 …………………………………………………………………………. 197
6.2 从价值探索到交付落地 ………………………………………………………………. 201
6.3 数据抓取 ……………………………………………………………………………………. 203
6.4 爬虫架构设计 …………………………………………………………………………….. 203
6.5 发现数据的价值 …………………………………………………………………………. 211
6.6 创新的不确定性 …………………………………………………………………………. 223
6.7 产品设计 ……………………………………………………………………………………. 226
6.8 产品交付 ……………………………………………………………………………………. 235
6.9 总结 …………………………………………………………………………………………… 236
· · · · · ·
1.1 什么是爬虫 ……………………………………………………………………………………. 1
1.2 数据获取渠道 ………………………………………………………………………………… 2
1.3 抓包分析工具 ………………………………………………………………………………… 4
1.4 爬虫和反爬虫的斗争 ……………………………………………………………………… 5
1.5 数据处理、分析和可视化 …………………………………………………………….. 20
1.6 延深阅读 ……………………………………………………………………………………… 21
第2 章 基于位置信息的爬虫Ⅰ ………………………………………………………………… 23
2.1 背景及目标 ………………………………………………………………………………….. 23
2.2 爬虫原理 ……………………………………………………………………………………… 24
2.3 数据来源分析 ………………………………………………………………………………. 26
2.4 简单的矩形区域抓取方式 …………………………………………………………….. 38
2.5 高级区域抓取方式 ……………………………………………………………………….. 46
2.6 坐标转换 ……………………………………………………………………………………… 49
2.7 存储数据的方式 …………………………………………………………………………… 49
2.8 数据导入 ……………………………………………………………………………………… 51
2.9 基本数据分析 ………………………………………………………………………………. 52
2.10 地图可视化 ………………………………………………………………………………… 56
2.11 轨迹可视化 ………………………………………………………………………………… 58
2.12 总结 …………………………………………………………………………………………… 60
第3 章 基于位置信息的爬虫Ⅱ ………………………………………………………………… 62
3.1 背景及目标 ………………………………………………………………………………….. 62
3.2 爬虫原理 ……………………………………………………………………………………… 62
3.3 优化方案一 ………………………………………………………………………………….. 71
3.4 优化方案二 ………………………………………………………………………………….. 75
3.5 优化方案三 ………………………………………………………………………………….. 82
3.6 导入数据到数据库 ……………………………………………………………………….. 97
3.7 基本数据分析及可视化 ………………………………………………………………. 100
3.8 总结 …………………………………………………………………………………………… 117
第4 章 网站信息抓取及可视化 ………………………………………………………………. 118
4.1 背景及目标 ………………………………………………………………………………… 118
4.2 网站API 分析 ……………………………………………………………………………. 118
4.3 数据抓取 ……………………………………………………………………………………. 122
4.4 数据导入 ……………………………………………………………………………………. 129
4.5 数据分析及可视化 ……………………………………………………………………… 133
4.6 总结 …………………………………………………………………………………………… 173
第5 章 基于逆向分析小程序的爬虫 ………………………………………………………… 174
5.1 背景及目标 ………………………………………………………………………………… 174
5.2 数据来源分析 …………………………………………………………………………….. 176
5.3 数据抓取方案 …………………………………………………………………………….. 177
5.4 转换数据格式 …………………………………………………………………………….. 195
5.5 总结 …………………………………………………………………………………………… 196
第6 章 从数据到产品 …………………………………………………………………………… 197
6.1 从一张机票说起 …………………………………………………………………………. 197
6.2 从价值探索到交付落地 ………………………………………………………………. 201
6.3 数据抓取 ……………………………………………………………………………………. 203
6.4 爬虫架构设计 …………………………………………………………………………….. 203
6.5 发现数据的价值 …………………………………………………………………………. 211
6.6 创新的不确定性 …………………………………………………………………………. 223
6.7 产品设计 ……………………………………………………………………………………. 226
6.8 产品交付 ……………………………………………………………………………………. 235
6.9 总结 …………………………………………………………………………………………… 236
· · · · · ·
发表回复
要发表评论,您必须先登录。