新書推薦:
《
为你想要的生活
》
售價:NT$
301.0
《
关键改变:如何实现自我蜕变
》
售價:NT$
352.0
《
超加工人群:为什么有些食物让人一吃就停不下来
》
售價:NT$
454.0
《
历史的教训(浓缩《文明的故事》精华,总结历史教训的独特见解)
》
售價:NT$
286.0
《
不在场证明谜案(超绝CP陷入冤案!日本文坛超新星推理作家——辻堂梦代表作首次引进!)
》
售價:NT$
265.0
《
明式家具三十年经眼录
》
售價:NT$
2387.0
《
敦煌写本文献学(增订本)
》
售價:NT$
1010.0
《
耕读史
》
售價:NT$
500.0
|
內容簡介: |
《主题聚类及其应用研究》对主题聚类理论、方法、若干关键技术以及应用进行了全面的研究,主要内容包括:自动标引的研究历史、研究方法,并利用当前先进的机器统计系学习模型进行了自动标引的实验研究、提出自动标引的通用评价模型等;对主题聚类中的相似度计算、样本加权聚类方法、聚类结果的描述进行了详细的描述和实验论证,并进行了测评;基于主题聚类方法,进行主题数字图书馆构建、学科热点检测等方面的应用。
|
關於作者: |
章成志,男,1977年生,博士,现为南京理工大学信息管理系副研究员、博士生导师,南京理工大学卓越计划“紫金之星”与创新团队成员。2007毕业于南京大学情报学专业,获管理学博士学位。2007年至2009年,在中国科学技术信息研究所从事多语言领域本体自动构建的博士后研究工作。2010年至2011年,在香港城市大学访问,从事平行语料采集与挖掘的研究工作。近年来在国内外期刊和会议上发表学术论文50余篇,出版专著两部。研究领域主要包括信息组织、信息检索、文本挖掘及自然语言处理等,近期主要的研究方向为社会化标签系统挖掘、多语言文本挖掘、多语言领域本体学习等。曾参与或主持的项目包括“十一五”国家科技支撑计划重点项目子课题、国家自然科学基金项目、国家社科基金项目、教育部人文社科项目、中国博士后科学基金特别资助项目、中国博士后科学基金面上资助项目等。
|
目錄:
|
第1章引言
1.1研究背景
1.2研究意义
1.3主题聚类研究中存在的问题与解决方法
1.4本书内容安排
参考文献
第2章主题聚类研究概述
2.1主题提取研究概述
2.2不同对象的聚类方法研究概述
参考文献
第3章自动标引通用评价模型研究
3.1自动标引结果评价概述
3.2一种通用的自动标引评价模型
3.3自动标引评价模型的应用与性能分析
3.4本章小结
参考文献
第4章基于机器学习的主题提取研究
4.1关键词类型分析
4.2几个对照的标引模型
4.3基于CRF的关键词提取方法
4.4基于集成学习的自动标引方法
4.5基于Citation-KNN的自动赋词标引方法
4.6本章小结
参考文献
第5章主题聚类中聚类对象相似度计算研究
5.1基于多层特征的字符串相似度模型
5.2基于多语境的查询式相似度计算模型
5.3本章小结
参考文献
第6章基于样本加权的文本聚类研究
6.1基于样本加权的文本聚类算法
6.2基于主题聚类的主题数字图书馆
6.3基于主题聚类的学科热点检测
6.4本章小结
参考文献
第7章文本聚类结果描述算法研究
7.1文本聚类结果描述研究概述
7.2聚类描述要求、形式化及评价方法
7.3基于机器学习的聚类描述算法
7.4基于DCF-DCL组合策略的聚类描述算法
7.5基于主题的搜索结果聚类
7.6本章小结
参考文献
第8章结束语
8.1总结
8.2进一步的研究工作
附录1Segag汉语文本词性标注标记集
附录2SVMlight自动标引训练集样例
附录3CRF++自动标引训练集样例
附录4用于自动标引的CRF++特征模板
附录5测试集自动标引结果样例
附录6相关词提取结果样例(整合后)
附录7文本的引用频次与Pagerank值样例(金融类)
附录8文本聚类后的类簇中心向量(煤炭类)
附录9主题数字图书馆聚类结果导航样例
附录10学科热点检测结果显示(图书情报档案类)
附录11SVMlight聚类描述训练集样例
附录12基于主题的搜索结果聚类样例
索引
|
|