动手学推荐系统 | PDF下载|ePub下载

创建

2024 年 8 月 15 日

查看

内容简介 · · · · · ·

本书从理论结合实践编程来学习推荐系统。由浅入深，先基础后进阶，先理论后实践，先主流后推导。

第1章较为简单，仅初步带领大家了解什么是推荐系统及推荐系统的简史。第2章到第5章介绍的是主流的推荐算法及推荐算法的推导过程，这部分是本书的核心，每个算法都描述的非常详细且有具体代码帮助大家理解，深度学习的框架将采用PyTorch。第6章介绍的是商业及推荐系统的组成结构，第7章系统地介绍了推荐系统的评估指标及方式。第8章则介绍整个推荐工程的生命周期。第6~8章可随时抽取出来提前看。本书配套示例代码及微课视频，帮助读者快速入门推荐算法及系统。

本书可作为高等院校、科研机构或从事推荐系统工作的工程师的参考书籍，也可作为高年级本科生和研究生的学习参考书籍。

作者简介 · · · · · ·

於方仁，推荐算法、图神经网络、知识图谱等领域专家。在推荐系统领域从业多年，现任苏州中贸大数据CTO。善于在实战中总结经验，授课幽默风趣，乐于分享知识。

目录 · · · · · ·

第1章推荐系统的初步了解
1.1什么是推荐系统
1.2推荐系统的由来
1.2.1Tapestry
1.2.2 GroupLens
1.3推荐系统的概况
1.4推荐算法的概况
参考文献
第2章基础推荐算法
2.1协同过滤
2.2基础近邻指标
2.2.1CN相似度
2.2.2Jaccard相似度
2.2.3Cos相似度
2.2.4Pearson相似度
2.2.5Pearson相似度与Cos相似度之间的联系
2.3基于近邻的协同过滤算法
2.3.1UserCF
2.3.2行为相似与内容相似的区别
2.3.3 ItemCF
2.3.4 实战：UserCF
2.3.5 实战：ItemCF
2.3.6 实战：标注为1~5的评分
2.4 推荐模型评估：入门篇
2.4.1 广义的准确率、精确率、召回率
2.4.2 推荐系统的准确率、精确率、召回率
2.4.3 推荐列表评测
2.4.4 对近邻协同过滤模型进行评测
2.5 进阶近邻指标
2.5.1 User-IIF 与Item-IUF
2.5.2 更高效地利用流行度定义近邻指标
2.5.3 自定义相似度指标的范式
2.6 矩阵分解协同过滤算法
2.6.1 SVD矩阵分解
2.6.2 将SVD用作推荐
2.6.3 LFM隐因子模型
2.6.4 ALS代码实现
2.6.5 推荐模型评估：MSE、RMSE、MAE
2.6.6 以深度学习端到端训练思维理解ALS
2.6.7 ALS代码实现PyTorch版
2.7 逻辑回归出发的推荐算法
2.7.1 显式反馈与隐式反馈
2.7.2 逻辑回归
2.7.3 POLY2
2.7.4 FM
2.7.5 以深度学习端到端训练思维理解FM
2.8 本章总结
2.8.1 3个重要算法:近邻协同过滤、ALS、FM
2.8.2 协同过滤算法总结
参考文献
第3章进阶推荐算法
3.1神经网络推荐算法推导范式
3.1.1 ALS+ MLP
3.1.2 特征向量 + MLP
3.1.3 结合CNN的推荐
3.1.4 结合RNN的推荐
3.1.5 ALS结合RNN
3.1.6 联合训练的RNN
3.1.7 小节总结
3.2FM在深度学习中的应用
3.2.1 FNN
3.2.2 改进过后的FNN
3.2.3 Wide&Deep
3.2.4 DeepFM
3.2.5 AFM
3.2.6 小节总结
3.3 序列推荐算法
3.3.1 基本序列推荐模型
3.3.2 DIN与注意力计算方式
3.3.3 从PReLU到Dice激活函数
3.3.4 DIEN 模拟兴趣演化的序列网络
3.4 Transformer在推荐算法中的应用
3.4.1 推荐角度初步了解Transformer
3.4.2 多头注意力与缩放点乘注意力算法
3.4.3 残差
3.4.4 Layer Normalization
3.4.5 Feed Forward前馈神经网络层
3.4.6 位置编码
3.4.7 Transformer Encoder
3.4.8 利用Transformer编码器的推荐算法BST
3.4.9 Transformer Decoder
3.4.10 结合Transformer解码器的推荐算法推导
3.5 本章总结
参考文献
第4章图神经网络与推荐算法
4.1图论基础
4.1.1 什么是图
4.1.2 无向图与有向图
4.1.3 无权图与有权图
4.1.4 同构图与异构图
4.1.5 图的表示：邻接矩阵
4.1.6 图的表示：邻接列表
4.1.7 图的表示：边集
4.1.8 邻居与度
4.1.9 结构特征、节点特征、边特征
4.1.10处理图的Python库推荐
4.2 基于图的基础推荐方式
4.2.1 链路预测 ( Link Prediction )
4.2.2 什么是路径
4.2.3 基于路径的基础链路预测
4.2.4 图游走算法DeepWalk
4.2.5 图游走算法Node2Vec
4.3 图神经网络
4.3.1 GCN图卷积网络
4.3.2 GAT图注意力网络
4.3.3 消息传递
4.3.4 图采样介绍
4.3.5 图采样算法：GraphSAGE
4.3.6 图采样算法：PinSAGE
4.4 基于图神经网络的推荐
4.4.1 利用GCN的推荐算法
4.4.2 利用GAT的推荐算法
4.4.3 图神经网络结合FM的推荐算法：GFM
4.4.4 GFM加入注意力机制的推荐算法：GAFM
4.4.5 小节总结
4.5 本章总结
参考文献
第5章知识图谱与推荐算法
5.1知识图谱基础
5.1.1 知识图谱定义
5.1.2 RDF到HRT三元组
5.1.3 知识图谱推荐算法与图神经网络推荐算法的发展脉络
5.1.4 知识图谱推荐算法的概览
5.1.5 基于知识图谱推荐的优劣势
5.1.6 Freebase数据集介绍
5.2 Knowledge Graph Embedding知识图谱嵌入
5.2.1 翻译距离模型TransE
5.2.2 翻译距离模型TransH
5.2.3 翻译距离模型TransR
5.2.4 其他翻译距离模型
5.2.5 语义匹配模型RESCAL
5.2.6 其他语义匹配模型
5.3 基于知识图谱嵌入的推荐算法
5.3.1 利用知识图谱嵌入做推荐模型的基本思路
5.3.2 最简单的知识图谱推荐算法CKE
5.3.3 CKE扩展及演化
5.3.4 加强知识图谱信息的影响：MKR
5.3.5 MKR扩展
5.3.6 针对更新频率很快的新闻场景知识图谱推荐算法：DKN
5.4 基于知识图谱路径的推荐算法
5.4.1 元路径
5.4.2 路径相似度 ( PathSim )
5.4.3 学习元路径的权重：PER
5.4.4 异构图的图游走算法：MetaPath2Vec
5.4.5 MetaPath2Vec的扩展
5.5 知识图谱嵌入结合图路径的推荐RippLeNet
5.5.1 RippLeNet基础思想
5.5.2 RippLeNet计算过程
5.5.3 水波图采样
5.5.4 RippLeNet实际操作时的注意事项与代码范例
5.6 图神经网络与知识图谱
5.6.1 最基础的基于图神经网络的知识图谱推荐算法KGCN
5.6.2 KGCN的扩展 KGNN-LS
5.6.3 图注意力网络在知识图谱推荐算法中的应用KGAT
5.6.4 GFM与知识图谱的结合KGFM
5.7本章总结
参考文献
第6章推荐系统的构造
6.1 推荐系统结构
6.1.1 预测服务概览
6.1.2 模型训练概览
6.1.3 数据处理概览
6.1.4 推荐系统结构概览
6.2 预测服务部分
6.2.1 逻辑召回
6.2.2 近邻召回
6.2.3 Embedding召回
6.2.4 基于模型的召回：粗排序层
6.2.5 精排序层
6.2.6 小节总结
6.3 LSH – Embedding匹配的加速算法
6.3.1 Min-Hash
6.3.2 LSH
6.3.3 双塔模型 + LSH召回实战
6.4 模型训练部分
6.4.1 全量训练与增量训练
6.4.2 定时训练与实时训练
6.4.3 离线训练与在线训练
6.4.4 小节总结
6.5 数据处理部分
6.5.1 特征工程数据流
6.5.2 用户画像与产品画像
6.5.3 生成标注
6.5.4 负例采样
6.5.5 统计类数据流
6.5.6 批处理与流处理
6.5.7 大数据处理工具简介：Spark
6.5.8 大数据处理工具简介：Flink
6.5.9 小节总结
6.6 冷启动
6.6.1 用户冷启动
6.6.2 物品冷启动
6.6.3 物品冷启动到沉寂的生命周期
6.6.4 系统冷启动
参考文献
第7章推荐系统的评估
7.1 基础机器学习模型评测指标
7.1.1 准确率
7.1.2 精确率
7.1.3 召回率
7.1.4 F1 – Score
7.1.5 ROC曲线
7.1.6 AUC
7.1.7 Log Loss
7.1.8 MSE、RMSE、MAE
7.2 TopK推荐评测指标
7.2.1 TopK精确率与召回率
7.2.2 TopK测试与普通模型测试的区别
7.2.3 Mean Average Precision(MAP)
7.2.4 Hit Ratio(HR)
7.2.5 Mean Reciprocal Rank( MRR )
7.2.6 Normalized Discounted Cumulative Gain( NDCG )
7.2.7 小节总结
7.3 业务性评测指标
7.3.1 单击率CTR ( Click Through Rate )
7.3.2 转化率CVR ( Conversion Rate )
7.3.3 覆盖率( Coverage )
7.3.4 多样性( Diversity )
7.3.5 信息熵( Entropy )
7.3.6 新颖度( Novelty )
7.3.7 惊喜度( Surprise )
7.3.8 小节总结
7.4 在线对比测试
7.4.1 A/B 测试
7.4.2 交叉测试
7.4.3 A/B测试与交叉测试的优劣势
参考文献
第8章推荐工程的生命周期
8.1 了解数据与推荐目的
8.2 初期的特征筛选
8.2.1 去除空值太多的特征类目
8.2.2 去除单一值太多的特征类目
8.2.3 去除一一映射关系的特征
8.2.4 计算信息增益比筛选特征
8.2.5 计算皮尔逊相关系数筛选特征
8.2.6 通过L1正则过滤特征
8.2.7 通过业务知识筛选特征
8.3 推荐系统结构设计
8.4 模型研发
8.5 搭建推荐系统
8.6 优化推荐系统
参考文献
结语
· · · · · ·