新書推薦:
《
孤独传:一种现代情感的历史
》
售價:NT$
390.0
《
家、金钱和孩子
》
售價:NT$
295.0
《
形而上学与测量
》
售價:NT$
340.0
《
世界航母、舰载机图鉴 【日】坂本明
》
售價:NT$
340.0
《
量价关系——透视股票涨跌脉络
》
售價:NT$
340.0
《
创伤与记忆:身体体验疗法如何重塑创伤记忆 [美]彼得·莱文
》
售價:NT$
295.0
《
复原力
》
售價:NT$
345.0
《
近代中国思维方式的演变(王中江著作系列)
》
售價:NT$
950.0
|
內容簡介: |
新兴的知识图谱技术对于数字人文资源组织有着重要而独特的价值。使用知识图谱重构数字人文资源,改变信息的获取、处理与表现方式,可使研究人员更加便捷地发现和验证人文世界的规律、脉络、趋势,在与史学、地理等领域的关联中获得更加宏观的学术视野。本书首先介绍了数字资源组织与表示的基础知识,以及知识图谱的概念、起源和发展;其次,针对数字人文领域的问题和数据的特点,提出数字人文领域知识图谱构建的一般性方法,既包括在图谱构建中涉及的多种智能信息处理技术,也包括需要特别关注的基于众包的人机协作模式和全过程质量管理问题;后,展示了相关方法在浙江高迁吴氏西宅宗谱的知识图谱构建实践中的应用。相关工作既是对领域知识图谱构建研究的扩展,也是对数字人文研究范式的创新探索。
|
關於作者: |
任明,中国人民大学信息资源管理学院副教授、博导。清华大学管理学博士,印第安纳大学布鲁明顿分校访问学者。数据工程与知识工程教育部重点实验室研究员、中国人民大学数字人文研究中心研究员。科技情报学会知识组织专委会委员等。研究领域包括知识工程、信息分析、系统建模及其在数字人文等领域的应用,主持完成包括国家自然科学基金在内的多项研究课题,在信息科学领域一流学术期刊上发表多篇成果,已出版学术专著1部。科研成果获国家档案局优秀科技成果二等奖。
|
目錄:
|
目录
第1章绪论
1大数据与知识图谱
2数字人文
3本书概述
第2章数字资源组织与表示
1语义网
2关联数据
3本体
4知识图谱
第3章数字人文领域知识图谱构建方法
1概述
2领域本体构建
3知识抽取
4知识融合
5知识推理
6基于众包的人机协作模式
7全过程质量控制
第4章家谱知识图谱构建实践
1家谱资源组织现状
2家谱数据集
3家谱本体构建
4基于深度学习的家谱信息抽取
5基于小规模标注数据的家谱信息抽取
6家谱知识融合
第5章家谱可视化应用
1中西方家谱可视化
2中华传统家谱可视化
3中华传统家谱可视化平台
4小结
第6章 结语
参考文献
后记
|
內容試閱:
|
第1章绪论
社会经济生活的方方面面以更细粒度的数据形式呈现出来,通过数据世界,人们可以更加清晰地观察和了解社会经济活动情境。数据在众多行业展示出具大的经济价值,对海量数据和信息进行快速收集、挖掘、研判与共享,对于提高生产力、竞争力、创新能力起到关键的作用。传统的管理转向或正在转向基于数据的管理,传统的决策转向或正在转向基于数据的决策[4]。作为集成了社会、经济、文化、政治等多维“镜像”的数据,也为社会治理提供了重要的数据基础,能够助力社会治理和治理模式创新,通过开放政府数据将进一步促进数据价值的有效释放,产生更大的社会效益和经济效益。数据不仅改善了各行各业的数据资源利用能力和管理决策水平,也为科技创新带来了更加旺盛的生命力,大数据在改变传统生产经营模式、驱动传统产业转型升级方面发挥着至关重要的作用。数据作为一种新的生产要素,已经成为推动经济发展、社会治理和科技创新的一类重要基础性战略资源。
如今,数字竞争力已经成为国家综合竞争力的重要内容,世界各国政府对此都高度重视,密集出台支持大数据的各项行动计划,积极应对大数据环境下的各类挑战。我国在2014年首次将“大数据”写入政府工作报告后,系统部署大数据发展工作,将发展大数据上升为国家战略,政府数据开放共享、数据流通与交易、利用大数据保障和改善民生等概念已深入人心。特别是2020年以来的新冠肺炎疫情为各产业和全社会加速数字化转型提供了特殊的契机,在全民共同参与构建社会治理新格局的大背景下,新兴数字科技手段在疫情监测、诊断治疗、防控救治、资源调配等诸多方面显示了巨大的应用价值,同时带动了在线教育、在线娱乐、远程办公、在线医疗、生鲜电商等新业态的创新发展。
大数据作为社会经济生活的片段记录,蕴含着极为丰富和有用的信息。当然,数据的超大规模及其新的特征也使得从中获取有用的知识极具挑战性[5]。,是割裂的多源异构数据。需要处理的数据可能来自领域数据库、知识库或者Web页面的开放信息,具有多源异构的特点。并且,这些数据在物理上分散存放于不同的系统中,造成了各种数据孤岛,给大数据分析处理带来巨大挑战。第二,从数据规模来看,数据的规模越大,提供的有价值的信息通常越多,但是对数据的存储和处理的要求也就越高,甚至可能超出了数据存储和处理的能力范围。第三,是跨媒体、跨语言的关联。比如,图片、视频、音频数据与文本数据之间存在着关联,不同语种的数据之间存在着关联,如何自动识别和利用这些跨媒体、跨语言的关联是有待探索的问题。第四,实体和关系具有动态演化性,这一特性给实体和关系的判别增加了难度,容易带来数据不一致的问题,这对实体和关系的建模提出了更高的要求。第五,是知识的隐含性。大量的知识不是显式的,而是隐含在海量的信息中,需要对相应数据和信息进行深入理解、抽象和归纳,才能获得具有一般性的知识。
大数据知识服务是大数据生态系统的核心。知识服务对知识组织有很高的要求,强调数据间的有机联系,尤其要求通过数据间的联系形成相关知识。面对多源异构、组织松散的数据,需要根据大数据环境下的知识组织原则,去探索既符合网络信息资源发展变化又适应人类认知需求的知识互联方法。随着互联网数据的规模和复杂性的快速增长,人们开发了各种知识库用来实现智能化语义检索,使用计算机帮助人们自动地、智能化地组织和管理信息。DBpedia、YAGO、Freebase都是典型的以互联网资源为基础的大规模知识库,它们利用语义网技术与众多知识库建立关联,构成了规模巨大的关联数据网络。
伴随着关联数据的迅速增长,知识图谱(knowledge graph)应运而生。知识图谱吸收了语义网、本体在知识组织和表达方面的理念,使知识更易于在计算机之间、计算机与人之间交换和流通。知识图谱作为一种技术体系,是指大数据时代知识工程的一系列代表性技术的综合[6]。知识图谱使用本体对领域知识进行语义知识表示,同时使用机器学习、自然语言处理技术等对资源中的知识要素进行提取,实现数据化及语义化,促成知识的共享与重用,并使与其他各种来源的知识相融合成为可能。在基于语义的数据融合的基础上,获取新的概念或认识,进行对比与统计分析,揭示各实体之间的关系,发掘隐含在其背后的规律。目前,知识图谱在学术界和产业界已经成为一个热门的研究领域,国务院2017年颁布的《新一代人工智能发展规划》中也特别强调将知识图谱列作重点攻关方向。作为人们访问知识和信息的接口,知识图谱在智能时代必将扮演越来越重要的角色。如何根据业务需求设计实现知识图谱应用,并基于数据特点进行优化调整,是知识图谱应用研究的关键内容。目前,知识图谱在互联网、金融、医疗和电子商务等领域得到了较多的关注和探索,通过快速检索信息、发现关联,提供有价值的决策支持。各
|
|