新書推薦:
《
妈妈的情绪,决定孩子的未来
》
售價:NT$
194.0
《
推拿纲目
》
售價:NT$
1836.0
《
精致考古--山东大学实验室考古项目论文集(一)
》
售價:NT$
1112.0
《
从天下到世界——国际法与晚清中国的主权意识
》
售價:NT$
347.0
《
血色帝国:近代英国社会与美洲移民
》
售價:NT$
265.0
《
海外中国研究·王羲之:六朝贵族的世界(艺术系列)
》
售價:NT$
811.0
《
唐宋绘画史 全彩插图版
》
售價:NT$
449.0
《
“御容”与真相:近代中国视觉文化转型(1840-1920)
》
售價:NT$
505.0
|
內容簡介: |
大数据时代,数据作为一种新的经济资产,驱动科学研究处于以数据为基础进行科学发现的第四范式。不同的学科领域,正在不同的层面上广泛地关注着大数据给本领域的研究和实践带来的深刻影响,大数据技术在情报研究领域的应用逐渐深入。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。对于在数据分析领域扮演重要角色的情报研究工作而言,大数据的理念和技术既带来了机遇,也带来了挑战。一方面,在大数据时代,情报研究工作得到空前的重视,大数据为情报研究的新发展提供了机会,它从更为广阔的视野来看待情报研究的定位,研究新技术新方法,解决新问题,极大地促进情报研究理论与实践的发展;另一方面,大数据时代要求各行各业重视情报研究工作,这就必然使得众多学科有意识地涉足以往作为专门领域的情报研究,并将其作为本学科的重要组成部分加以建设。现代情报研究已经迈入了大数据时代。
大数据技术和相关理念能够为情报研究、决策制定等工作的开展提供更多支持,本书以潜在语义挖掘理论研究与分布式并行计算方法研究、分布式潜在语义挖掘并行计算技术研发及大数据环境下潜在语义挖掘比较研究3项内容为切入点,重点解决文献服务实际应用场景下的大规模科技文档语料潜在语义信息挖掘的问题,化解大规模科技信息文档语料潜在语义挖掘分布式并行计算过程及定量判断大数据环境下科技文献数量变化对深度潜在语义挖掘影响的核心技术难点。对文本挖掘交叉领域关系、文献领域语义挖掘的多样化挑战、研究应用前景等进行了探讨,希望为科技信息潜在语义挖掘技术研究工作的开展提供参考,为理论研究及实践应用等方面水平的提升提供更多支持。
|
目錄:
|
目录
第一章 研究背景与意义 1
1.1?问题的提出 1
1.2?研究现状 2
1.2.1?文本挖掘研究现状 3
1.2.2?国外相关技术研究现状 13
1.2.3?国内相关技术研究现状 17
1.3?研究意义 18
第二章 关键技术发展历程 21
2.1?关键词检索技术的发展 22
2.2?概率主题模型 28
2.3?深度学习技术的发展(word2vec) 35
2.4?并行计算及降维算法的发展 42
2.4.1?并行计算 42
2.4.2?降维算法 43
第三章 研究方案及数据处理方案 51
3.1?研究方案详述 51
3.2?数据处理方案详述 55
3.3?中英文文本预处理及其差异 56
第四章 技术研发与应用实践 61
4.1?语义挖掘理论研究与分布式并行计算方法研究 61
4.1.1?LSI技术研究 62
4.1.2?LDA技术研究 66
4.1.3?word2vec技术研究 72
4.2?语义挖掘分布式并行计算的实现及验证系统的开发 96
4.2.1?语义挖掘分布式并行计算的实现 96
4.2.2?验证系统前端实现 106
4.2.3?验证系统后端实现 113
4.3?结果展示及对比研究 121
4.3.1?词频和关键词检索定性结果对比 121
4.3.2?定量结果对比(对比词频和关键词检索) 130
第五章 主要研究结论 133
第六章 相关研究讨论 135
6.1?交叉领域关系讨论 135
6.2?研究应用前景探讨 142
6.3?word2vec的优化方向 146
6.4?文献领域语义挖掘多样化挑战 149
参考文献 153
|
|