新書推薦:
《
周易
》
售價:NT$
203.0
《
东南亚的传统与发展
》
售價:NT$
306.0
《
乾隆制造
》
售價:NT$
398.0
《
资治通鉴臣光曰辑存 资治通鉴目录(司马光全集)(全二册)
》
售價:NT$
1316.0
《
明代社会变迁时期生活质量研究
》
售價:NT$
1367.0
《
律令国家与隋唐文明
》
售價:NT$
332.0
《
紫云村(史杰鹏笔下大唐小吏的生死逃亡,新历史主义小说见微之作,附赠5张与小说内容高度契合的宣纸彩插)
》
售價:NT$
449.0
《
现代吴语的研究(中华现代学术名著3)
》
售價:NT$
296.0
|
內容簡介: |
学术论文是科学知识扩散、传承和发展的主要载体,凝聚了科研人员对于工具、方法、数据等知识性微观实体进行思维创造、编码、加工的大量智慧。随着学术资源共享程度的提高,越来越多的学术论文全文被大规模地开放获取,为基于全文本的知识扩散研究提供了便利的数据基础和广阔的应用前景。然而,现有研究在粒度上多以篇章、作者和主题等作为知识扩散的主要载体,较少关注来自文献全文本内容的软件工具类、模型方法类和数据语料类等微观实体。事实上,作为驱动知识扩散的主要内因,微观实体才是通过引用关系传播的实质内容。为此,本课题以学术文献全文本数据为依托,探究知识扩散的内因以及学科在微观层面的依赖关系,并以实例开展微观实体扩散机制研究。具体内容包括:基于全文本的引文重要性分类、基于全文本的微观实体及语义关系抽取、基于全文本的微观实体扩散模式研究、基于全文本的微观实体扩散动力学研究等。研究目的以期厘清科学发展的脉络,明晰知识在学科间流动演化的规律与模式,预测微观实体未来发展的热度以及扩展或者收缩趋势,为学科知识的融合、转化与创新提供可靠的理论与实证依据。
|
關於作者: |
安欣,经济学博士,北京林业大学教授,统计专硕项目主任。曾多次获全国应用统计专业学位研究生“教育教学成果奖”,多次被教*部高等学校统计学类教指委授予“优秀指导教师”称号。主要从事科学计量、数据挖掘和环境资源统计等方面的研究工作。在国内外重要学术期刊上发表学术论文50余篇,出版专著1部,申请软件著作权2项;主持国家自然科学基金项目、北京市优秀人才青年骨干项目和省级科技计划项目等课题,参与国家社科基金、北京社科基金及国家林业局业务委托项目等多项课题。
徐硕:男,1979年出生。现为北京工业大学经济与管理学院教授,博士生导师,信息管理与信息系统专业负责人。主要研究方向为技术预见、产业分析和大数据挖掘等。获2013年度“中央国家机关青年岗位能手”荣誉称号,在中国图书馆学会“青年学术之星”荣誉称号,2019年“国际新兴技术预测竞赛”获第二名。先后主持国家科技支撑计划课题、国家自然科学基金项目(青年及面上)、北京市社科基金一般项目、北京市教*社科重点项目、广东省自然科学基金等多项国家级及省部级研究课题。近年来,在JAIST、JoI、TFSC、SCIM、JIS、PLoS ONE、情报学报、科研管理等重要期刊和学术会议上发表学术论文100余篇,授权发明专利6项(中国发明专利5项,韩国发明专利1项),撰写学术专著1部。
|
目錄:
|
第1章绪论
1.1研究背景及意义
1.2国内外研究述评
1.2.1引用内容分析方面
1.2.2微观实体方面
1.2.3知识扩散研究方面
1.2.4当前研究的不足
1.3研究内容与思路
1.4研究方案与技术路线
1.5研究特色与创新
本章参考文献
第2章基于全文本的引文重要性分类特征研究
2.1引文功能和重要性分类体系
2.2数据来源及预处理
2.2.1数据来源
2.2.2数据预处理
2.3传统特征工程
2.3.1基于结构的特征
2.3.2基于被引次数的特征
2.3.3基于单独引用的特征
2.3.4基于作者重叠的特征
2.3.5基于线索词的特征
2.3.6基于相似度的特征
2.4基于产生式模型的特征工程
2.4.1产生式模型概述
2.4.2CIM简介
2.4.3基于CIM的特征提取算法
2.5特征分析
2.5.1描述性统计
2.5.2相关性分析
2.6本章小结
本章参考文献
第3章基于机器学习方法的引文重要性分类研究
3.1机器学习在引文自动分类中的应用
3.2监督型引文重要性分类
3.2.1基于SVM的引文重要性分类
3.2.2基于RF的引文重要性分类
3.2.3实验结果分析
3.2.4特征重要性对比
3.3半监督型引文重要性分类
3.3.1半监督自训练模型
3.3.2实验结果分析
3.3.3特征重要性对比
3.4本章小结
本章参考文献
第4章基于引文重要性的文献主题识别研究
4.1基于引文的文献主题识别研究
4.2基于引文的主题模型概述
4.3CitePLSALDA主题模型构建
4.4文献主题识别
4.4.1实验数据及预处理
4.4.2主题识别及评价
4.5文献主题相似度分析
4.5.1相似度指标
4.5.2相似度分析
4.6本章小结
本章参考文献
第5章基于全文本的微观实体抽取及扩散研究
5.1相关研究
5.1.1微观实体抽取
5.1.2微观实体评估
5.1.3知识扩散研究
5.2数据获取及标注
5.2.1数据收集及处理
5.2.2微观实体分类及标注
5.2.3同义微观实体及缩略语识别
5.3面向全文本的微观实体抽取
5.3.1BiLSTMCRF模型
5.3.2特征提取
5.3.3评测标准
5.3.4微观实体抽取
5.4分子生物学领域微观实体扩散
5.4.1异构信息网络
5.4.2微观实体扩散网络构建
5.4.3宏观层面微观实体扩散
5.4.4微观层面微观实体扩散
5.5本章小结
本章参考文献
第6章基于全文本的微观实体扩散模式研究
6.1扩散模式相关研究
6.1.1基于社交网络的信息扩散
6.1.2基于引文网络的知识扩散
6.2微观实体扩散网络
6.2.1数据收集与描述
6.2.2网络构建
6.2.3网络中实体重要性识别
6.3网络中微观实体的暴露与引用
6.3.1暴露次数与引用采纳间的关系
6.3.2影响概率计算
6.4微观实体扩散路径
6.4.1微观实体演化路径
6.4.2微观实体学科间扩散
6.4.3微观实体学科内扩散
6.5微观实体扩散结构
6.5.1实体级联网络
6.5.2实体级联的基础特征
6.5.3结构感染性和流行性
6.6本章小结
本章参考文献
第7章基于全文本的微观实体扩散动力学研究
7.1相关研究
7.1.1新冠领域微观实体
7.1.2微分动力学在知识扩散中的应用
7.2SIR微观实体扩散动力学模型及仿真
7.2.1SIR微观实体扩散模型
7.2.2基于SIR模型的微观实体扩散仿真
7.3SEIR微观实体扩散动力学模型及仿真
7.3.1SEIR微观实体扩散模型
7.3.2基于SEIR模型的微观实体扩散仿真
7.4SEIZR微观实体扩散动力学模型及仿真
7.4.1SEIZR微观实体扩散模型
7.4.2基于SEIZR模型的微观实体扩散仿真
7.5三种微观实体扩散动力学模型效果对比
7.6本章小结
本章参考文献
第8章基于全文本的领域实体自动抽取研究
8.1相关研究
8.1.1实体计量学
8.1.2实体抽取
8.2数据来源及预处理
8.2.1数据来源
8.2.2数据预处理
8.3实体语料库构建
8.3.1待标注文献选择
8.3.2实体类别及标注指南
8.3.3标注过程及结果分析
8.4BERTBiLSTMCRF模型及实验
8.4.1BERTBiLSTMCRF模型
8.4.2数据集及模型参数设置
8.4.3评价指标及实验结果
8.5领域实体抽取结果分析
8.6本章小结
本章参考文献
第9章基于全文本的研究主题动态演化分析
9.1相关研究
9.1.1主题识别技术
9.1.2主题演化研究
9.2实验数据及预处理
9.2.1实验数据
9.2.2数据预处理
9.3融合实体信息的研究主题揭示
9.3.1基于实体的主题模型概述
9.3.2融合实体的主题模型构建
9.3.3主题识别及评价
9.4领域研究主题动态演化分析
9.4.1建立主题关联
9.4.2设定过滤原则
9.4.3演化关系判定
9.4.4演化结果分析
9.5本章小结
本章参考文献
附录
附录A线索词列表
附录Bacl-1、acl-3、acl-5下的前15个主题及其词项
|
內容試閱:
|
前言 自开放获取 (OA)运动实施以来,随着学术资源共享程度的提高,越来越多的学术论文全文被大规模地开放获取,为基于全文本的知识扩散研究提供了坚实的数据基础和广阔的应用前景。然而,现有研究在粒度上多以篇章、作者或主题等作为知识扩散的主要载体,较少关注来自文献全文本内容的软件工具类、模型方法类和数据语料类等微观实体。事实上,作为驱动知识扩散的主要内因,微观实体才是通过引用关系传播的实质内容。基于以上认识,本书构建基于全文本的引文重要性特征体系,探索面向引文重要性的文献主题识别方法;通过定义实体类别、建立标注指南和标注规则等步骤建立微观实体语料库,采用自然语言处理技术和深度学习等方法对领域微观实体进行自动抽取;以微观实体为载体,从扩散路径和扩散结构两个方面探究知识的扩散模式,揭示知识的延续性和继承性;借鉴复杂网络中传染病模型思想构建微分动力学模型,并通过仿真研究验证其有效性,揭示微观实体知识扩散的动力学影响机制;建立融入实体信息的主题提取模型和主题演化框架,精准地揭示学科领域的研究主题,探究其动态演化规律。本书的主要工作和内容如下:(1)基于全文本的引文重要性分类特征研究。基于前人的研究实施传统的特征工程,提取了基于结构、被引次数、单独引用、作者重叠、线索词、相似度的特征;基于产生式CIM模型设计特征提取算法,提取两个基于产生式模型的特征加入特征体系中,共同构建基于全文本的引文重要性特征体系,并对各特征进行描述性统计以及相关性分析。(2)基于机器学习方法的引文重要性分类研究。为了验证本研究提出的基于全文本引文重要性分类特征的可靠性,实施了机器学习方法中的监督型引文重要性分类和半监督自训练模型学习两类实验。特征重要性对比的实验结果显示,基于结构特征的基线模型为分类器提供了必要的信息;从平均的重要排名来看,基于产生式模型的特征对于提高重要引文识别的性能有着重要的作用。(3)基于引文重要性的文献主题识别研究。基于被引文献的文本内容,将引文信息融入主题模型中,构建Cite-PLSA-LDA主题模型用于识别文献的主题。通过对比文献主题的相似度发现,使用引文重要性对相关参数进行约束,使引用链接的分配倾向于重要引文,从而更好地识别文献主题,该结果为主题模型的构建提供了更多的参考思路。(4)基于全文本的微观实体抽取及扩散研究。以分子生物学领域的1000篇全文本数据为例,使用BiLSTM-CRF模型完成了四类微观实体的抽取和识别,借助可视化工具从宏观和微观层面揭示了微观实体的扩散模式。(5)基于全文本的微观实体扩散模式研究。根据引证关系和引用语境定义实体扩散的概念,构建微观实体扩散网络,采用主路径分析法揭示实体的扩散路径,利用实体级联探究实体的扩散结构。微观实体在扩散过程中存在独立性和延续性的特征,细粒度研究视角有利于理解知识扩散的内容、丰富知识扩散的理论。(6)基于全文本的微观实体扩散动力学研究。将微观实体在文献中的扩散特点与经典的传染病模型结合起来,提出了划分某一领域内文献的方法和状态演化规则,最终形成了SIR、SEIR 和SEIZR三种微观实体扩散动力学模型。通过仿真研究发现,模型中各状态转换参数的变化对扩散演化进程具有不同的影响,创新率和传染率对微观实体在文献中的扩散有促进作用,而免疫率、质疑率以及潜伏期有抑制作用。(7)基于全文本的领域实体自动抽取研究。通过定义实体类别、建立标注指南和标注规则等步骤,建立了一个COVID-19领域实体语料库,基于BERT-BiLSTM-CRF模型对该领域18万篇文献的全文本内容进行实体自动抽取,最终识别出3254多万个实体。(8)基于全文本的研究主题动态演化分析。融合全文本内容和实体信息,建立CCorrLDA2主题模型,对各个时间段的文献内容进行研究主题的提取。使用加权对称KL散度度量主题间的相似程度,构建关联过滤规则剔除关联性不强的主题间的关联关系,建立一整套融合实体信息的主题提取和主题演化框架,对挖掘科研动态、发现潜在的变化、规划科技创新等具有重要的意义。本书是国家自然科学基金项目“基于全文本的微观实体扩散机制研究”的主要成果,由安欣和徐硕组织撰写,并完成全书的框架设计、文稿修改统筹和定稿送审工作。其中,安欣和徐硕撰写第1章,安欣和孙欣撰写第2~第4章,安欣和叶书路撰写第5章,徐硕和柳力元撰写第6章,安欣和孙睿撰写第7章,徐硕和张萌萌撰写第8章、第9章。课题组硕士研究生王聪聪、徐金楠、李怡琳、刘春林、于晨欣、杨桐雨等参与了数据搜集和标注工作。同时本书在成稿过程中参阅了大量的相关文献资料,在此对相关作者一并表示由衷的感谢。
|
|