新書推薦:
《
突破不可能:用特工思维提升领导力
》
售價:NT$
352.0
《
王阳明大传:知行合一的心学智慧(精装典藏版)
》
售價:NT$
1010.0
《
失衡与重塑——百年变局下的中国与世界经济
》
售價:NT$
602.0
《
不被定义的年龄:积极年龄观让我们更快乐、健康、长寿
》
售價:NT$
352.0
《
南方谈话:邓小平在1992
》
售價:NT$
367.0
《
纷纭万端 : 近代中国的思想与社会
》
售價:NT$
500.0
《
中国古代文体形态研究(第四版)(中华当代学术著作辑要)
》
售價:NT$
765.0
《
朋党之争与北宋政治·大学问
》
售價:NT$
454.0
|
編輯推薦: |
本书多语言情感分析的主题和内容具有明显的特色,内容包括多语言情感分析领域的技术基础、语言资源、以及作者针对多语言情感分析所提出的方法和模型等。能够为多语言情感分析、情感计算等领域的科研人员、从业者和在读研究生提供入门理论指导和技术参考。
|
內容簡介: |
情感分析研究属于自然语言处理领域的一个重要分支。在信息全球化背景下,情感分析研究从单语言逐步扩展到多语言场景。本书分为上下两篇,上篇为单语言情感分析,下篇为多语言情感分析,尝试讲清楚情感分析是什么,单语言和多语言情感分析应该怎么做,情感分析需要具备哪些理论基础、技术基础和模型基础,多语言情感分析有哪些可用的语言资源,多语言情感分析未来的发展等问题。 本书能够为多语言自然语言处理和情感分析等领域的科研人员、从业者、在读研究生提供入门理论指导和技术参考。
|
目錄:
|
第1章绪论1
1.1多语言信息的研究背景1
1.2情感分析概述3
1.2.1情感分析的定义3
1.2.2情感分析的分类4
1.2.3情感分析的任务6
1.3情感分析的挑战9
1.4参考文献10
上篇单语语言情感分析
第2章单语情感分析任务15
2.1单语情感分析的研究背景15
2.2单语情感分析的应用场景16
2.2.1商业智能16
2.2.2推荐系统17
2.2.3互联网舆情20
2.2.4医疗健康领域21
2.3单语情感分析的实现步骤23
2.4本章小结24
2.5参考文献24
第3章情感分析的技术基础——文本表示27
3.1传统向量空间模型27
3.1.1基本概念27
3.1.2Onehot模型27
3.1.3TFIDF模型28
3.2文本主题模型29
3.2.1基本概念29
3.2.2PLSA模型30
3.2.3LDA模型33
3.2.4主题模型示例37
目录多语言情感分析及其应用3.3词向量分布式表示模型38
3.3.1Word2vec模型39
3.3.2GloVe模型42
3.3.3词向量模型示例43
3.4本章小结45
3.5参考文献46
第4章情感分析的技术基础——学习模型47
4.1传统机器学习模型47
4.1.1朴素贝叶斯法47
4.1.2k最近邻法49
4.1.3决策树法50
4.1.4支持向量机法55
4.1.5逻辑回归法58
4.2浅层神经网络模型60
4.2.1卷积神经网络模型60
4.2.2长短期记忆模型63
4.3深度预训练神经网络模型66
4.3.1Transformer模型66
4.3.2BERT模型73
4.3.3MultiBERT模型78
4.3.4ELECTRA模型82
4.3.5T5模型87
4.4本章小结90
4.5参考文献91
第5章情感分析的应用93
5.1情感分析在股票预测中的应用93
5.1.1股票走势预测研究背景93
5.1.2相关研究工作94
5.1.3基于新闻事件和情感特征的股票预测模型95
5.1.4实验分析100
5.1.5结论106
5.2情感分析在微博转发规模预测中的应用107
5.2.1微博转发规模预测研究背景107
5.2.2相关研究工作108
5.2.3基于深度融合特征的政务微博转发规模预测模型109
5.2.4实验分析113
5.2.5结语120
5.3情感分析在新闻舆情倾向预测中的应用120
5.3.1新闻舆情倾向预测研究背景121
5.3.2相关研究工作122
5.3.3结合卷积神经网络和Topic2vec的主题演变模型123
5.3.4实验分析127
5.3.5结语133
5.4本章小结133
5.5参考文献133
下篇多语语言情感分析
第6章多语言情感分析任务1416.1多语言情感分析的研究背景141
6.2多语言情感分析的应用场景144
6.2.1商业智能和推荐系统144
6.2.2多语言互联网舆情146
6.2.3多语言情感资源建设146
6.3多语言情感分析的实现步骤147
6.4本章小结149
6.5参考文献150
第7章多语言情感分析的技术基础——跨语言文本表示152
7.1跨语言词向量的定义152
7.2跨语言词向量模型概述153
7.2.1有监督的跨语言词向量模型154
7.2.2半监督的跨语言词向量模型157
7.2.3无监督的跨语言词向量模型160
7.3语义和情感联合学习的跨语言词向量模型研究163
7.3.1单语词向量矩阵标准化165
7.3.2初始跨语言映射矩阵生成166
7.3.3先验情感信息嵌入167
7.3.4跨语言情感词向量映射168
7.3.5实验分析168
7.4本章小结177
7.5参考文献178
第8章多语言情感分析的语言资源——情感词典构建181
8.1情感词典构建181
8.1.1情感词典的定义181
8.1.2情感词典的研究意义182
8.2多语言情感词典资源184
8.2.1情感词典的格式184
8.2.2英文情感词典资源185
8.2.3中文情感词典资源186
8.2.4其他语言情感词典资源188
8.3单语情感词典的构建方法概述191
8.3.1基于PMI相似度的单语情感词典构建193
8.3.2基于关系图传播的单语情感词典构建195
8.3.3基于词向量表示的单语情感词典构建197
8.4多语情感词典的构建方法概述198
8.4.1早期的双语情感词典构建198
8.4.2基于跨语言词向量的双语情感词典构建199
8.5基于领域自适应的单语情感词典构建研究200
8.5.1模型构建流程201
8.5.2情感表示学习202
8.5.3种子词典扩充203
8.5.4情感词典构建204
8.5.5实验与结果分析204
8.6本章小结207
8.7参考文献208
第9章跨语言情感分析213
9.1高、中、低资源语言213
9.1.1高、中、低资源语言的定义213
9.1.2低资源语言的研究意义214
9.2早期跨语言情感分析研究概述215
9.2.1基于机器翻译及其改进的方法216
9.2.2基于平行语料库的方法219
9.2.3基于双语情感词典的方法220
9.3结合词向量表示的跨语言情感分析研究概述222
9.3.1基于跨语言词向量的方法222
9.3.2基于生成对抗网络的方法223
9.3.3基于多语言预训练模型的方法225
9.4跨语言情感分析研究前沿探讨228
9.5本章小结230
9.6参考文献230
第10章多语言情感分析的应用案例236
10.1基于情感特征表示的跨语言文本情感分析研究236
10.1.1模型背景236
10.1.2相关研究工作238
10.1.3基于情感感知的跨语言情感分析模型239
10.1.4实验结果242
10.1.5结论251
10.2基于持续学习的多语言情感分析研究251
10.2.1模型背景252
10.2.2持续学习理论及相关研究253
10.2.3基于持续学习的多语言情感分析模型255
10.2.4实验结果257
10.2.5结论260
10.3大语言模型对多语言智能研究的发展与启示261
10.3.1大语言模型的发展脉络261
10.3.2大语言模型的多语言探索264
10.3.3大语言模型的多语言局限和改进265
10.3.4大语言模型的多语言应用场景266
10.3.5结论267
10.4本章小结267
10.5参考文献268
|
內容試閱:
|
很高兴看到《多语言情感分析及其应用》出版。
当前,新一轮技术变革正深刻影响并改变着人们的生产与生活方式。全球化背景下的信息呈现多语言信息模态,微博、Twitter、Facebook等社交媒体上不同国家、不同语言的互联网用户发布的多语言信息交织在一起,构成庞大的多语言信息。多语言情感分析可以挖掘多语言信息背后蕴含的用户观点、态度立场和情感倾向,对于实现跨语言媒体智能、构建多语言认知智能体系有着举足轻重的作用。
多语言情感分析从多语言信息中挖掘出人们的观点和态度,因而有着鲜明的时代特色和广阔的应用前景,在网络舆论监测引导、网际空间安全研究、在线医疗健康、跨境电商等领域均有着迫切的应用需求。2017年国务院发布的《新一代人工智能发展规划》,特别提出,要重点突破自然语言处理中的跨语言文本挖掘技术和认知智能的语义理解技术,实现多风格、多领域的自然语言智能理解。
多语言情感分析乃至多语言信息处理研究也是目前自然语言处理领域的一大难点。相比单语言情感分析,多语言情感分析研究主要受限于多语言信息的语法和语用差异,以及低资源语言的标注数据匮乏等难题。现有的情感分析研究主要在英语等高资源语言开展,在低资源语言甚至中等资源语言中开展情感分析研究仍是一项挑战。因此,本书通过梳理多语言情感分析及其应用涉及的理论基础、技术基础、语言资源以及典型应用,能够帮助本领域的入门者快速了解领域全貌。
本专著包括上下两篇,共10章,上篇为单语言情感分析,下篇为多语言情感分析,顺应情感分析的发展脉络和研究路线,内容结构合理、循序渐进。本专著的一大特色是兼具技术性和综述性,一方面涵盖了多语言情感分析研究所需的文本表示学习基础、机器学习和深度学习模型基础,另一方面梳理了现有的多语言情感语料资源、多语言情感分析综述以及作者在多语言情感分析领域所做的探索性研究。
随着国际化进程加快和国际交流趋繁,多语言情感分析研究将会在越来越多的跨学科应用领域发挥作用。希望本书可以帮助广大读者快速掌握多语言情感分析研究相关的技术和理论。
2023年7月10日
著名语言学家诺姆·乔姆斯基指出,研究人类的语言,就是探讨所谓“人类的本质”,探讨迄今所知为人类独有的心智特征。情感是人类的一种主观意识,人们会有喜怒哀乐不同的情绪,并通过语言文字的方式进行表达;与此同时,人们也会对客观的事情或者事物进行主观评价,表达倾向性的意见。情感分析研究,是利用可计算的手段对人类的主观情感进行客观感知、表征和处理,从中挖掘出有用的信息。
情感分析研究属于自然语言处理领域的一个分支,自诞生之日起就有着蓬勃的生命力。利用计算机的手段进行情感分析,最早可追溯到美国MIT媒体实验室皮卡德教授于1995年提出的“情感计算”概念。情感分析研究需要解决的关键问题,是如何借助已知的有限情感资源信息对大量未知的信息进行情感识别、情感表示以及情感因素度量,使得计算机拥有类似于人类的观察、理解、生成情感的能力,实现更高层次的人机交互。
在信息全球化的背景下,从单语言场景下的情感分析扩展到多语言场景下的情感分析是研究发展的必然趋势。然而,在全球现有的7000多种语言里,已开展计算语言学研究的语言数量可能少于30种,大多数语言缺少进行情感分析研究所需的计算资源和语言学资源。多语言情感分析研究存在严重的资源分布不均衡问题: 在英语等少数语言积累了丰富的语言资源和方法模型的同时,其他语种、尤其是一些小语种的情感分析研究进展缓慢,缺少可用的语言资源和方法模型。北京外国语大学现已开设了101种外语专业,已开齐与中国建交国家的官方用语,给本领域的研究提供了丰富的语言资源和背景。因此,本书选择从多语言的视角阐述情感分析这一颇具跨学科应用特色的研究方向,尝试讲清楚情感分析是什么,单语言和多语言情感分析应该怎么做,情感分析需要具备哪些理论基础、技术基础和模型基础,多语言情感分析有哪些可用的语言资源,多语言情感分析未来的发展等问题。
本书分为上下两篇共10章,从计算机科学、语言学以及社会学等多学科交叉融合角度,阐述多语言情感分析研究涉及的理论基础、技术基础以及典型应用。
第1章是绪论部分,介绍多语言信息的研究背景以及情感分析任务的概念定义,便于读者理解多语言情感分析的任务分类,以及所面临的主要问题和挑战。
上篇单语语言情感分析包括第2~5章。第2章为单语言情感分析的背景知识,阐述单语言情感分析的研究背景、应用场景以及实现步骤。第3章讲解文本表示的相关方法和模型。情感分析离不开文本的语义表示,因此第3章从传统的向量空间模型谈起,到LDA等主题模型,再到Word2vec等词向量表示模型。第4章讲解单语言情感分析所需的技术基础——学习模型讲起。情感分析任务依赖于机器学习模型或者深度学习模型,这一章从朴素贝叶斯、支持向量机等传统机器学习模型讲起,再到卷积神经网络、长短期记忆等浅层神经网络模型,最后到Transformer、BERT等深度学习预训练模型。第5章是单语言情感分析的应用案例,是笔者在情感分析领域的研究成果,包括情感分析在股票预测中的应用、情感分析在微博转发规模预测中的应用,以及情感分析在新闻舆情倾向预测中的应用。
目录多语言情感分析及其应用下篇多语语言情感分析包括第6~10章。第6章为多语言情感分析的背景知识,阐述多语言情感分析的研究背景、应用场景以及实现步骤。第7章讲解多语言情感分析所需的技术基础——跨语言文本表示。跨语言文本表示能够实现多语言信息在同一语义空间的表示,是多语言情感分析乃至多语言自然语言处理的基础。第8章阐述多语言情感分析的语言资源——情感词典的构建。情感词典是情感分析研究的重要辅助工具。这一章首先概述现有单语言情感词典和多语言情感词典构建的相关研究,然后阐述笔者在领域自适应单语情感词典构建方面的研究工作。第9章为跨语言情感分析方面研究综述。跨语言情感分析研究对于低资源语言的情感分析有着重要的现实意义。该章首先对高、中、低资源语言进行定义,然后总结归纳现有跨语言情感分析研究的相关工作。第10章是多语言情感分析的2个具体实现模型,是笔者在跨语言情感分析方面的研究成果。本书的最后就大语言模型对多语言相关研究的未来发展和启示进行探讨剖析,并提出对未来的展望。
谈一下写这本专著的初衷。我到北京外国语大学从教后开始接触自然语言处理研究,这个过程走过一些弯路,很多地方都是从零开始慢慢摸索,一路跌跌撞撞,深切感受到这个过程如果能有系统性的著作或者教材引路,会走得更快更稳一些。因此,这本书的写作视角是站在情感分析研究入门者的角度,把我多年来在多语言情感分析研究的经验教训和思考总结出来,帮助后来者更好地开展相关研究。一方面,我阅读和整理了多语言以及跨语言情感分析领域的相关文献,并撰写了综述性的分析总结,希望能够给多语言情感分析入门者提供背景知识;另一方面,我整理和完善了近年来我和我带的学生在多语言情感分析领域所做的一些探索性的研究工作,借此机会对现有工作总结,并对未来工作提出展望。得益于北京外国语大学丰富的多语言语料资源和浓厚的人文学术研究氛围,我有幸接触到许多非计算机专业、但是对情感分析研究很感兴趣的研究学者和学生,他们希望能够将情感分析技术或者多语言信息处理技术应用到所学领域,产生跨学科的火花碰撞。这本书在整理个人研究工作的同时,也梳理了多语言情感分析研究所需掌握的语言表示技术基础、机器学习理论基础以及深度学习模型基础等知识,力所能及地提供一些理论参考和学习经验指导。
感谢我所在的信息科学技术学院,特别感谢蔡连侨院长和郭华伟书记,给我们青年教师提供了非常宽松和良好的科学研究环境和土壤,并鼓励我们将个人科研兴趣融入学院和学校的发展中,选择做自己感兴趣的方向。
感谢一起撰写这本书的学生,她们是胡玲、王文清和杜宛泽。感谢编辑袁勤勇和苏东方老师对书稿的精心校对与宝贵意见,清华大学出版社其他人员也为本书付出了大量努力,在此也一并表示诚挚的感谢!
因作者水平有限,书中难免有疏漏或错误之处,敬请广大读者批评指正。
最后,谨以此书献给我最敬爱的父亲。父亲陪伴了我三十多年的时光,我在他的教导和影响下成长。在撰写这本书的时间里,我都非常想念他。每每只有坐在书桌前写书码字时,对父亲的思念才得以排解。父爱如山、父爱无私,难忘父亲教诲。
徐月梅
2023年8月
|
|