《自然语言处理导论》沈颖 丁宁 等 | PDF下载|ePub下载
自然语言处理导论 版权信息
- 出版社:机械工业出版社
- 出版时间:2023-11-01
- ISBN:9787111736257
- 条形码:9787111736257 ; 978-7-111-73625-7
自然语言处理导论 本书特色
自然语言处理是一门融计算机科学、语言学、数学、认知学、逻辑学于一体的研究学科。机器学习、深度学习方法持续地引领着自然语言处理的进步与发展。以ChatGPT为代表的语言模型更是展现出了强大的通用能力,亦离不开自然语言处理技术的发展积累。
《自然语言处理导论》内容源自中山大学开设的“自然语言处理”课程,以及作者的产业实践;主要介绍自然语言处理理论与技术,旨在让更多人了解和学习自然语言处理技术,让人工智能更好地为我们服务。
自然语言处理导论 内容简介
《自然语言处理导论》主要介绍自然语言处理理论与技术,旨在让更多人了解和学习自然语言处理技术,让人工智能更好地为我们服务。 《自然语言处理导论》共16章,包括自然语言理解基础和具体任务探索两部分,主要讲述了自然语言处理文本表示、分析、挖掘、推理等方面的相关概念、方法、技术和近期研究进展;详细介绍了文本分类、情感计算、知识抽取等基础方法;全面讲述了自动文摘、问答系统、机器翻译、社会计算、内容生成和跨模态计算等具体任务;*后讨论了深度学习前沿问题。 《自然语言处理导论》致力于帮助高等院校计算机相关专业学生牢固掌握自然语言处理的基本理论与技术,掌握如何分析文本信息、解决问题、完成相关研究的方法,以及了解自然语言处理的典型应用场景。
自然语言处理导论 目录
第1章绪论
1.1基本概念
1.1.1语言学与语音学
1.1.2自然语言
1.1.3自然语言处理
1.2自然语言处理的发展历程
1.2.1自然语言处理的发展历史
1.2.2自然语言处理的研究现状
1.2.3自然语言处理的发展前景
1.3自然语言处理的基本方法
1.3.1理性主义方法
1.3.2经验主义方法
1.3.3对比分析
1.4自然语言处理的研究内容
1.4.1文本分类
1.4.2信息抽取
1.4.3文本摘要
1.4.4智能问答
第2章语言模型
2.1语言模型概述
2.2n-gram统计语言模型
2.2.1何为n-gram模型
2.2.2n-gram语言模型评估词序列
2.2.3n-gram统计语言模型的应用
2.2.4n-gram模型中n对性能的影响
2.2.5n-gram模型小结
思考题
参考文献
第3章神经网络和神经语言模型
3.1人工神经网络和神经语言模型
3.1.1人工神经网络
3.1.2神经语言模型
3.2卷积神经网络
3.2.1卷积神经网络结构
3.2.2卷积神经网络的文本处理
3.3循环神经网络
3.4递归神经网络
3.4.1递归神经网络的前向计算
3.4.2递归神经网络的训练方法
思考题
参考文献
第4章词和语义向量
4.1离散分布表示
4.1.1独热表示法
4.1.2词袋表示法
4.2分布式表示
4.2.1Word2vec
4.2.2矩阵分解
4.2.3GloVe
4.3文本特征选择法
4.3.1基于文档频率的特征提取法
4.3.2 χ2统计量
4.3.3信息增益法
4.3.4互信息法
4.4特征权重计算方法
4.4.1布尔权重
4.4.2绝对词频
4.4.3TF-IDF
思考题
参考文献
第5章预训练语言模型
5.1Transformer
5.2ELMo
5.3GPT
5.4BERT
5.5后BERT时代
思考题
参考文献
第6章序列标注
6.1马尔可夫模型
6.2条件随机场、维特比算法
6.2.1条件随机场的原理解析
6.2.2条件随机场的特性
6.3序列标注任务
6.3.1自动分词
6.3.2汉语自动分词中的基本问题
6.3.3歧义切分问题
6.3.4未登录词问题
6.4汉语分词方法
6.4.1基于词频度统计的分词方法
6.4.2N-*短路径方法
6.4.3基于词的n元语法模型的分词方法
6.4.4由字构词的汉语分词方法
6.4.5基于词感知机的汉语分词方法
6.4.6基于字的生成式模型和区分式模型相结合的汉语分词方法
6.4.7其他分词方法
6.5词性标注
6.5.1词性标注概述
6.5.2基于规则的词性标注方法
6.5.3基于统计模型的词性标注方法
6.5.4统计方法与规则方法相结合的词性标注方法
6.5.5词性标注的一致性检查
6.5.6技术评测
6.6命名实体识别
6.6.1基于条件随机场的命名实体识别方法
6.6.2基于多特征的命名实体识别方法
6.6.3基于神经网络的命名实体识别方法
思考题
参考文献
第7章语义分析
7.1词义消歧
7.1.1有监督的词义消歧方法
7.1.2基于词典的词义消歧方法
7.1.3无监督的词义消歧方法
7.1.4词义消歧系统评价
7.2语义角色标注
7.2.1语义角色标注基本方法
7.2.2语义角色标注的领域适应性问题
7.3双语联合语义角色标注方法
7.3.1基本思路
7.3.2双语联合语义角色标注方法系统实现
思考题
参考文献
第8章文本分类
8.1文本分类概述
8.2传统分类器设计
8.2.1朴素贝叶斯分类器
8.2.2基于支持向量机的分类器
8.2.3KNN法
8.2.4线性*小二乘拟合法
8.2.5决策树分类器
8.3基于神经网络方法
8.3.1文本分析中的循环神经网络方法
8.3.2文本分析中的递归神经网络方法
8.4文本分类性能评测
思考题
参考文献
第9章情感计算
9.1文档或句子级情感计算方法
9.1.1情感词典方法
9.1.2基于传统机器学习的监督情感分类
9.1.3深度神经网络方法
9.2属性级情感分析
9.2.1意见挖掘和属性抽取
9.2.2针对特定目标的情感分析
9.2.3立场检测
9.3其他情感分析任务
9.3.1讽刺识别
9.3.2多模态情感分析
思考题
参考文献
第10章知识抽取
10.1知识抽取概述
10.2命名实体识别
10.2.1命名实体识别概述
10.2.2基于词典及规则的方法
10.2.3基于机器学习的有监督方法
10.2.4基于深度学习的方法
10.3实体链接
10.3.1实体链接概述
10.3.2通用解决框架
10.3.3实体链接数据集
10.4关系抽取
10.4.1关系抽取概述
10.4.2有监督关系抽取
10.4.3远程监督
10.4.4实体关系联合抽取
10.4.5小样本关系抽取
10.4.6开放域关系抽取
10.5事件抽取
10.5.1事件抽取概述
10.5.2基于模式匹配的方法
10.5.3基于机器学习的方法
10.5.4基于深度学习的方法
10.5.5事件抽取数据集
思考题
参考文献
第11章统计机器翻译和神经机器翻译
11.1机器翻译概述
11.1.1机器翻译的发展
11.1.2机器翻译方法
11.1.3机器翻译研究现状
11.2基于HMM的词对位模型
11.3基于短语的翻译模型
11.4基于*大熵的翻译模型
11.4.1对位模板与*大近似
11.4.2特征函数
11.4.3参数训练
11.5基于层次短语的翻译模型
11.5.1概述
11.5.2模型描述和参数训练
11.5.3解码方法
11.6树翻译模型
11.6.1树到串的翻译模型
11.6.2树到树的翻译模型
11.6.3串到树的翻译模型
11.7树模型的相关改进
11.8基于谓词论元结构转换的翻译模型
11.9集外词翻译
11.9.1数字和时间表示的识别与翻译
11.9.2普通集外词的翻译
11.10统计翻译系统实现
11.11译文质量评估方法
11.11.1概述
11.11.2技术指标
11.11.3相关
自然语言处理导论 作者简介
沈颖,中山大学智能工程学院副教授,获法国巴黎第十大学计算机博士学位。主要研究方向为通用人工智能的知识计算与推理,在国防信息和医学应用领域获得一系列有特色的成绩。在IEEE TOC、TKDE、TNNLS、TIP、TAC和ACL、AAAI、IJCAI、SIGIR等人工智能领域的知名国际期刊和会议上发表相关论文100余篇;开源数十项研究工作代码和6个数据集;授权专利16项;授权软件著作权15项。主持国家自然科学基金、国防科技173计划技术领域基金项目、科技发展中心新一代信息技术创新项目、高教司项目等。曾获欧盟优秀硕士奖、法兰西大岛博士奖学金、巴黎大学博士一等荣誉毕业生、中国国家留学基金管理委员会优秀海外留学生奖。多次担任IJCAI、ACL等国际会议程序委员会委员,AAAI和SDM领域主席。