《关键迭代：可信赖的线上对照实验》[美] 罗恩·科哈维（Ron Kohavi） | PDF下载|ePub下载

创建

2024 年 8 月 16 日

查看

内容简介 · · · · · ·

本书基于近些年实验领域的研究成果和实践经验，对实验的方法和应用做了很好的全景式描述，是一本兼顾系统性的方法论和基于实战的经验法则的书籍。根据微软、亚马逊、谷歌和领英每年运行的两万多个对照实验，作者以示例和建议的方式向学生和业内人士分享了自己的实践经验，指出了需要避免的陷阱，并深入探讨了一些进阶专题，可以为希望改善自身及机构数据驱动决策方式的从业者提供参考。

全书分为五个部分：第I部分由四章组成。第1章概述运行线上对照实验的好处，并介绍实验相关术语。第2 章用一个例子剖析运行实验的全过程。第3 章描述常见的陷阱以及如何建立实验的可信赖度。第4 章概述如何搭建实验平台并规模化线上实验。第II部分的五章内容介绍实验的基础原理，比如机构指标。我们推荐所有人阅读这一部分，尤其是领导者和高管。第III部分的两章内容介绍线上对照实验的补充技法，可以帮助管理层、数据科学家、工程师、分析师、产品经理等进行资源和时间的投资。第IV部分专注于实验平台的搭建，面向工程师群体。最后，第V部分深入讨论进阶的实验分析专题，面向数据科学家。

作者简介 · · · · · ·

罗恩·科哈维（Ron Kohavi）是爱彼迎的副总裁和技术院士，曾任微软的技术研究员和公司副总裁。在加入微软之前，他是亚马逊的数据挖掘和个性化推荐总监。他拥有斯坦福大学计算机科学博士学位，论文被引用超过40 000次，其中有3篇位列计算机科学领域引用最多的1 000篇论文榜。

黛安·唐（Diane Tang）是谷歌院士，大规模数据分析和基础设施、线上对照实验及广告系统方面的专家。她拥有哈佛大学的文学学士学位和斯坦福大学的硕士及博士学位，在移动网络、信息可视化、实验方法、数据基础设施、数据挖掘和大数据方面拥有专利和出版物。

许亚（Ya Xu）是领英数据科学与实验平台负责人，曾撰写了多篇关于实验的论文，并经常在顶级会议和大学演讲。她曾在微软工作，拥有斯坦福大学的统计学博士学位。

目录 · · · · · ·

本书赞誉
译者序
前言——如何阅读本书
致谢
第一部分　线上对照实验概览
第1章　概述和写作动机003
1.1　线上对照实验的术语005
1.2　为什么进行实验？相关性、因果关系和可信赖度008
1.3　有效运行对照实验的必要元素010
1.4　宗旨011
1.5　随时间推移的改进013
1.6　有趣的线上对照实验实例015
1.7　战略、战术及它们和实验的关系020
1.8　补充阅读 023
第2章　运行和分析实验——一个全程剖析的案例025
2.1　设立实验025
2.2　假设检验：确立统计显著性028
2.3　设计实验030
2.4　运行实验并获得数据032
2.5　分析结果033
2.6　从结果到决策034
第3章　特威曼定律与实验的可信赖度037
3.1　曲解统计结果038
3.2　置信区间041
3.3　对内部有效性的威胁041
3.4　对外部有效性的威胁046
3.5　细分群的差异049
3.6　辛普森悖论 052
3.7　鼓励健康的怀疑态度054
第4章　实验平台和文化055
4.1　实验成熟度模型055
4.2　基础设施和工具062
第二部分　基础原理
第5章　速度很重要：一个全程案例剖析075
5.1　关键假设：局部线性近似077
5.2　如何测量网站的性能078
5.3　减速实验的设计080
5.4　对不同页面元素的影响是不同的081
5.5　极端结果083
第6章　机构指标085
6.1　指标的分类086
6.2　指标的制定：原则和技术089
6.3　指标的评估091
6.4　指标的演变092
6.5　更多的资源093
6.6　补充材料：护栏指标093
6.7　补充材料：可操纵性095
第7章　实验指标和综合评估标准097
7.1　从业务指标到适用于实验的指标098
7.2　将关键指标组合成一个OEC099
7.3　案例：亚马逊电子邮件的OEC101
7.4　案例：必应搜索引擎的OEC103
7.5　Goodhart法则、Campbell法则以及Lucas批判104
第8章　机构的经验传承与统合分析107
8.1　什么是机构的经验传承107
8.2　为什么机构的经验传承有用108
第9章　对照实验中的伦理111
9.1　背景111
9.2　数据收集116
9.3　文化与流程117
9.4　补充材料：用户标识符117
第三部分　补充及替代技法
第10章　补充技法121
10.1　补充技法的空间121
10.2　基于日志的分析122
10.3　人工评估124
10.4　用户体验调研125
10.5　焦点小组125
10.6　问卷调查126
10.7　外部数据127
10.8　总结129
第11章　观察性因果研究131
11.1　对照实验不可行的情况131
11.2　观察性因果研究的设计133
11.3　陷阱138
11.4　补充材料：被驳斥的观察性因果研究141
第四部分　实验平台搭建
第12章　客户端实验145
12.1　服务器端和客户端的差异145
12.2　对实验的潜在影响148
12.3　结论152
第13章　工具化日志记录153
13.1　客户端与服务器端的工具化日志记录153
13.2　处理多源的日志155
13.3　工具化日志记录的文化156
第14章　选择随机化单元157
14.1　随机化单元和分析单元159
14.2　用户级别的随机化160
第15章　实验放量：权衡速度、质量与风险163
15.1　什么是放量163
15.2　SQR放量框架164
15.3　四个放量阶段165
15.4　最终放量之后168
第16章　规模化实验分析169
16.1　数据处理169
16.2　数据计算170
16.3　结果汇总和可视化172
第五部分　实验分析
第17章　线上对照实验中的统计学知识177
17.1　双样本t检验177
17.2　p值和置信区间178
17.3　正态性假设179
17.4　第一/二型错误和统计功效181
17.5　偏差183
17.6　多重检验183
17.7　费舍尔统合分析184
第18章　方差估计和提高灵敏度：陷阱及解决方法185
18.1　常见陷阱186
18.2　提高灵敏度189
18.3　其他统计量的方差190
第19章　A/A测试193
19.1　为什么运行A/A测试193
19.2　如何运行A/A测试198
19.3　A/A测试失败时199
第20章　以触发来提高实验灵敏度201
20.1　触发示例201
20.2　数值示例204
20.3　最佳的和保守的触发205
20.4　总体实验效应206
20.5　可信赖的触发207
20.6　常见的陷阱207
20.7　开放性问题209
第21章　样本比率不匹配与其他可信度相关的护栏指标211
21.1　样本比率不匹配212
21.2　调试SRM214
第22章　实验变体之间的泄露和干扰219
22.1　示例220
· · · · · ·