《大数据丛书文本挖掘》[美]迈克尔8226;W.贝瑞（M | PDF下载|ePub下载

创建

2024 年 10 月 30 日

查看

类别: 社会科学

大数据丛书文本挖掘版权信息

出版社：机械工业出版社
出版时间：2018-11-01
ISBN：9787111570509
条形码：9787111570509 ; 978-7-111-57050-9

大数据丛书文本挖掘内容简介

本书呈现了文本挖掘领域优选的算法，同时从学术界和产业界的角度介绍了文本挖掘。本书涉及的业界学者跨越多个国家，来自多个机构: 大学､企业和政府实验室。本书介绍了文本挖掘在多个领域中的自动文本分析和挖掘计算模型，这些领域包括: 机器学习､知识发现､自然语言处理和信息检索等。本书适合作为人工智能､机器学习和自然语言处理等领域相关人员的教科书和参考书。同时，也适合研究人员和从业人员阅读。

大数据丛书文本挖掘目录

译者序

原书序

1 章独立文档的关键词的自动提取 1

1. 1 简介 1

1. 1. 1 关键词提取方法 1

1. 2 快速自动关键词提取 3

1. 2. 1 候选关键词 3

1. 2. 2 关键词得分 4

1. 2. 3 邻接关键词 5

1. 2. 4 提取关键词 5

1. 3 基准评估 6

1. 3. 1 准确率和召回率评估 6

1. 3. 2 效率评估 7

1. 4 停用词列表生成 9

1. 5 新闻消息的评估 12

1. 5. 1 MPQA 语料库 12

1. 5. 2 从新闻消息中提取关键词 12

1. 6 总结 15

参考文献 16

2 章利用数学方法进行多语言文档聚类 17

2. 1 简介 17

2. 2 背景 17

2. 3 实验设置 18

2. 4 多语言LSA 20

2. 5 Tucker1 方法 21

2. 6 PARAFAC2 方法 23

2. 7 词对齐的LSA 24

2. 8 潜在形态语义分析(LMSA) 26

2. 9 词对齐的LMSA 27

2. 10 对技术和结果的讨论 27

参考文献 29

3 章使用机器学习算法对基于内容的垃圾邮件进行分类 31

3. 1 简介 31

3. 2 机器学习算法 32

3. 2. 1 朴素贝叶斯 33

3. 2. 2 LogitBoost 33

3. 2. 3 支持向量机 34

3. 2. 4 增广的潜在语义索引空间 35

3. 2. 5 径向基函数网络 36

3. 3 数据预处理 37

3. 3. 1 特征选择 37

3. 3. 2 信息表示 39

3. 4 邮件分类的评估 39

3. 5 实验 40

3. 5. 1 使用PU1 的实验 40

3. 5. 2 使用ZH1 的实验 42

3. 6 分类器特点 43

3. 7 结束语 45

参考文献 45

4 章利用非负矩阵分解研究邮件分类问题 47

4. 1 简介 47

4. 1. 1 相关工作 48

4. 1. 2 概要 49

4. 2 研究背景 49

4. 2. 1 非负矩阵分解 49

4. 2. 2 计算NMF 的算法 50

4. 2. 3 数据集 52

4. 2. 4 解释 52

4. 3 基于特征排序的NMF 初始化 54

4. 3. 1 特征子集选择 54

4. 3. 2 FS 初始化 55

4. 4 基于NMF 的分类方法 57

4. 4. 1 使用基础特征分类 58

4. 4. 2 基于NMF 的一般化LSI 59

4. 5 结束语 65

参考文献 66

5 章使用k￣均值算法进行约束聚类 68

5. 1 简介 68

5. 2 表示法和古典k￣均值算法 69

5. 3 具有布莱格曼散度的k￣均值约束聚类算法 70

5. 3. 1 具有“不能链接” 约束关系的二次k￣均值聚类 70

5. 3. 2 “必须链接” 约束关系的移除 73

5. 3. 3 使用布莱格曼散度进行聚类 75

5. 4 smoka 类型约束聚类 77

5. 5 球形k￣均值约束聚类 79

5. 5. 1 仅有“不能链接” 约束关系的球形k￣均值聚类算法 80

5. 5. 2 具有“不能链接” 和“必须链接” 约束关系的球形k￣均值聚类 82

5. 6 数值实验 83

5. 6. 1 二次k￣均值聚类 84

5. 6. 2 球形k￣均值聚类 85

5. 7 总结 85

参考文献 86

6 章文本可视化技术的研究 88

6. 1 文本分析的可视化 88

6. 2 标签云图 89

6. 3 著作权及其变更的追踪 90

6. 4 数据探索和novel 模式的探索 91

6. 5 情绪追踪 92

6. 6 可视化分析和FutureLens 94

6. 7 场景发现 94

6. 7. 1 场景 94

6. 7. 2 评估策略 95

6. 8 早期版本 95

6. 9 FutureLens 的特征 96

6. 10 场景发现举例: 生态恐怖主义 97

6. 11 场景发现举例: 毒品走私 101

6. 12 未来的工作 103

参考文献 104

7 章新颖性挖掘的自适应阈值设置 106

7. 1 简介 106

7. 2 新颖性挖掘中的自适应阈值设置 107

7. 2. 1 背景 107

7. 2. 2 动机 108

7. 2. 3 基于高斯分布的自适应阈值设置 108

7. 2. 4 实现过程中的问题 112

7. 3 实验研究 113

7. 3. 1 数据集 113

7. 3. 2 加工实例 113

7. 3. 3 实验及结果 116

7. 4 总结 120

参考文献 121

8 章文本挖掘与网络犯罪 122

8. 1 简介 122

8. 2 网络欺凌和网络捕食研究的现状 123

8. 2. 1 获取即时通信和在线聊天 124

8. 2. 2 当前用于分析的收集 124

8. 2. 3 对即时通信和在线聊天的分析 125

8. 2. 4 网络捕食检测 125

8. 2. 5 网络欺凌检测 129

8. 2. 6 法律问题 130

8. 3 监控聊天的商业软件 131

8. 4 结论与未来的方向 132

参考文献 133

9 章文本流中的事件和发展趋势 136

9. 1 引言 136

9. 2 文本流 138

9. 3 特征提取和数据还原 138

9. 4 事件监测 139

9. 5 趋势检测 142

9. 6 事件和趋势描述 143

9. 7 相关讨论 147

9. 8 总结 147

参考文献 148

10 章在LDA 主题模型中嵌入语义 150

10. 1 简介 150

10. 2 背景 150

10. 2. 1 向量空间模型 151

10. 2. 2 潜在语义分析 151

10. 2. 3 概率潜在语义分析 151

10. 3 潜在狄利克雷分配 152

10. 3. 1 图模型和生成过程 153

10. 3. 2 后验推断 153

10. 3. 3 在线潜在狄利克雷分配(OLDA) 154

10. 3. 4 算例分析 156

10. 4 在维基百科中嵌入外部语义 158

10. 4. 1 相关维基百科文章 158

10. 4. 2 维基百科影响的主题模型 158

10. 5 数据驱动语义的嵌入 159

10. 5. 1 数据驱动语义嵌入的生成过程 159

10. 5. 2 嵌入数据驱动语义的OLDA 算法 160

10. 5. 3 实验设计 161

10. 5. 4 实验结果 163

10. 6 相关工作 166

10. 7 结论与未来工作 166

参考文献 166