新書推薦:
《
500万次倾听:陪伤心的人聊聊
》
售價:NT$
245.0
《
英国商业500年(见证大国崛起与企业兴衰,启迪未来商业智慧。)
》
售價:NT$
367.0
《
万千心理·儿童心理治疗中的心智化:临床实践指导
》
售價:NT$
398.0
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:NT$
301.0
《
周易
》
售價:NT$
203.0
《
东南亚的传统与发展
》
售價:NT$
306.0
《
乾隆制造
》
售價:NT$
398.0
《
资治通鉴臣光曰辑存 资治通鉴目录(司马光全集)(全二册)
》
售價:NT$
1316.0
|
編輯推薦: |
《语义网技术体系》适合于语义网及相关领域的研究人员语义网应用开发者以及想要深入了解语义网技术体系的读者.《语义网技术体系》也可作为信息技术类学科的研究生与高年级本科生相关课程的参考用书.
|
內容簡介: |
《语义网技术体系》简要回顾万维网的发展历史及体系结构,系统介绍语义网的基本理念及技术体系,包括 RDF数据、Web本体、语义网推理技术和 RDF数据查询技术等方面的基本概念和前沿研究;详细阐述语义网应用中的基础技术,包括语义网搜索技术、语义网本体匹配技术和语义网浏览技术,并介绍作者在语义网搜索、语义网本体匹配和语义网浏览方面的研究成果.
|
目錄:
|
前言
第1章 绪论 1
1.1 万维网简介 1
1.2 Web应用开发技术 2
1.3 语义网简介 4
1.4 语义网应用 6
1.5 本书组织 7
参考文献 8
第2章 RDF数据 10
2.1 RDF数据模型 10
2.2 RDF语法 13
2.3 RDFa 17
2.4 链接数据 19
2.5 链接数据平台 22
2.6 语义网链接结构分析 26
参考文献 36
第3章 Web本体 38
3.1 本体 38
3.2 RDFS 39
3.3 OWL 43
3.4 本体构建 53
3.5 本体维护 59
参考文献 61
第4章 语义网推理技术 63
4.1 RDFS推理 64
4.2 描述逻辑简介 64
4.3 OWL1DL 67
4.4 OWL2DL 69
4.5 基于规则的推理 75
参考文献 75
第5章 RDF数据查询技术 77
5.1 SPARQL查询语言 77
5.2 RDF数据存储技术 90
5.3 SPARQL查询处理技术 95
5.4 基于规则的查询应答技术 99
参考文献 103
第6章 语义网搜索技术 105
6.1 实体搜索技术 105
6.2 关联搜索技术 119
6.3 SPARQL查询的生成技术 126
6.4 本体搜索技术 135
参考文献 138
第7章 语义网本体匹配技术 145
7.1 本体匹配 145
7.2 语义网对象的共指消解 165
7.3 本体与关系数据库间的匹配 178
参考文献 191
第8章 语义网浏览技术 200
8.1 典型的语义网浏览器 200
8.2 语义网浏览器的基本功能 202
8.3 语义网浏览系统SView 206
8.4 语义网浏览技术的发展方向 215
参考文献 215
第9章 总结与展望 218
附录 常用缩略词及中文译名 221
|
內容試閱:
|
第1章 绪论
本章首先回顾万维网的发展历史及体系结构,简述万维网应用开发技术;接着,概述语义网及其技术体系,并简要介绍语义网应用现状;*后说明本书内容框架是如何组织的。
1.1 万维网简介
1990年,蒂姆 伯纳斯-李Tim BrnersgLeee 在欧洲粒子物理实验室CERN成功地实现了万维网World Wide Web,WWW 或 Web的一个原型系统。按照蒂姆的*初设想,万维网是一个包含互相链接的超文本文件的系统,这些文件可以通过互联网Internet访问。1993年,美国国家超级计算应用中心NCSA发布了一个称为“Mosaic”的万维网浏览器,它是**个能够在同一窗口中显示图像和文本的浏览器。同年,CERN 宣布万维网技术可以被任何人自由地使用,无需付费。1994年,万维网联盟World Wide Web Consortium,W3C宣告成立,它致力于开发高品质的技术标准,以引领万维网充分发挥其潜力。从此,万维网很快发展成为人类有史以来*庞大的信息系统,并改变着人类社会的方方面面。
在万维网出现之前,历***著名的超文本超媒体系统为道格拉斯 恩格尔巴特Douglas Engelbart于1968年演示的在线系统oNLine Sstemy ,NLS。该系统首次向公众展现了计算机鼠标、超媒体和屏幕上的视频会议等多项崭新技术。而超文本hypertext和超媒体hypermedia这两个技术名词是由西奥多 纳尔逊Theodor Nlsone 于1963年定义的。在20世纪60年代,随着计算机文字处理系统的发展,诞生了多种标记语言,包括国际商业机器公司IBM的通用标记语言General izedmarkup language,GML,它的基本思想是把文档的内容结构与样式分开,推崇描述型标记,提倡标记的严格性和使用的灵活性。标准的通用标记语言standard generalized markup language,S-ML正是以-ML为蓝本制定的,于1986年成为国际标准化组织的一个标准ISO8879:1986。也正是在20世纪80年代,以 TCPIP传输控制协议互联网协议为基础的互联网逐步形成并快速发展起来。
在发明万维网时,蒂姆 伯纳斯-李的出发点是将超文本嫁接到互联网上,并提出一个互相链接的超文本文件系统的设想,这些文件可以通过“浏览器”来查看,为此,他设计了超文本标记语言hypertext markup language,HTML用来书写万维网中的文件。事实上,HTML是一个基于 S-ML的标记语言,可提供有限种标记,支持超链接并注重文本的呈现效果。为了统一地标识万维网中的文件,蒂姆又提出了通用文件标识符universal document identifier,UDI。后来,UDI演变为统一资源定位符uniform resource locator,URL,逐渐地 URL 被统一资源标识符uniform resource identifier,URI所替代。URI可以用来标识任何需要标识的资源。由于 URI被限制在 ASCII字符集的一个子集,因此国际化资源标识符internationalized resource identifier,IRI被提出来。IRI可以容纳通用字符集ISOIEC10646,其中包括汉字、韩文和斯拉夫字母等。目前,绝大部分的IRI仍然是URI,因此本书是以 URI替代IRI来阐述相关技术。
为了让互联网用户能够按照一种规范的方式访问万维网中的文件,蒂姆及其合作者设计了超文本传输协议hypertext transfer protocol,HTTP。HTTP是一种建立在TCP之上的应用层协议,是一种请求响应式的协议。通常,一个Web站点简称网站是指互联网上的某个计算机系统,实现了 HTTP服务端接口,并提供诸多网页,包括 HTML文件以及其他可访问的文件,供互联网用户使用Web浏览器简称浏览器来查看。而一个浏览器不仅要实现 HTTP客户端接口,而且能够对接收到的网页按照其格式呈现出来。至1990年年底,蒂姆 伯纳斯-李在CERN实现了世界上**个浏览器称为“World Wde Wi eb”,后来改名为“Nextus”和**个 HTTP服务器软件称为“CERNhttpd”,并开发了世界上**个网站网址:http:info.cern.ch,这也标志着万维网的诞生。
作为互联网上的一个分散式信息系统,万维网具有跨平台和开放等特性,并具备优异的易用性和易扩展性,这使得万维网很快发展成为人类有史以来*庞大的超媒体信息系统。作为互联网上**影响的一种应用,万维网也反过来拉动了互联网的发展壮大。紧接着,万维网的商业化应用掀起了互联网经济的浪潮。
关于万维网的原创设计及终极命运,建议读者阅读文献Berners-Lee Fis-chetti,2000。该文献能够帮助大家理解万维网的本质,充分利用万维网发挥效用。在该文献中,万维网创始人蒂姆 伯纳斯-李不仅指出了在万维网上找到商业和社会力量之间理想平衡的需要,而且还对万维网当前状态提出了一些批评意见。*后,蒂姆 伯纳斯-李就万维网的未来给出了他自己的计划,并呼吁程序员、计算机制造商以及社会组织积极支持和参与,使其成为现实。
1.2 Web应用开发技术
根据万维网体系结构JacobsWalsh,2004,万维网的基础技术包括URI、HTML和 HTTP。其中,HTTP规范了浏览器和 Web服务器之间的交互行为,这样万维网用户只需一个浏览器比如 Mozilla Frefoxi 就能自如地浏览有关网站的内容,而网站建设者在安装某个 Web服务器比如 Apache HTTPserv-er之后就可以轻松地部署一个站点,包括配置有关文件的 URI俗称“网址”,当然,网页的制作通常会借助某个 HTML文档写作工具来完成。
早期,万维网上的内容大部分是静态的网页。为了生成能够反映用户输入的动态网页,通用网关接口C-I技术就诞生了。它是 Web服务器与外部应用之间的交互接口,也打开了 Web应用的大门。Web应用通常是指在计算机网络上可以使用浏览器访问到的应用系统,通常会使用 HTTP、HTML和 URI等基本的Web技术以及数据库管理技术。后来,以Java Srvlete 为代表的 Web应用服务器技术逐渐兴起。与此同时,以Java Sric pt脚本语言为代表的客户端技术为Web应用的用户界面和人 机 交 互 带 来 了 动 态 性。特 别 地,Ajaxasynchronous Java Sricpt and XML技术能够进一步增强Web应用的互动能力。
关于可扩展标记语言extensible markup language,XML,它可以粗略地看作SGML标准通用标记语言的一个子集。S-ML 的基本思想是把文档的内容结构与样式分开,推崇描述型标记,提倡标记的严格性和使用的灵活性。需要指出的是,SGML是 一个元语言,可以用来定义特定的标记语言。事实上,HTML就是一个用SGML定义的标记语言。作为一个特定的标记语言,HTML只提供有限种标记,且注重于文本的呈现效果,难以满足万维网上数据表示和交换的发展要求。XML比SGML简洁很多,并继承了SGML的大部分优点,也是一个元语言,可以用来定义应用领域中所需的标记。目前,XML 已成为万维网上数据表示和交换的一个重要语言。
伴随着Web应用的发展,Web应用之间的互操作问题逐渐显现。为解决这一问题,Web服务Webservice及相关技术被提出。Web服务是这样的一个软件系统,它有一个用 WSDLWeb services de******ion language描述的接口,以便在互联网上被其他程序或者Web服务所调用。通常,一个 Web应用可以被包装成一个Web服务,而服务的调用大多采用基于 HTTP之上的 XML消息格式。随着Web服务逐渐增多,Web服务的发现及组合技术逐渐受到关注。
万维网的快速发展带来了信息爆炸,如何帮助用户快速地找到他们所需的信息则成为一个重要问题。很自然地,众多 Web搜索引擎相继出现,而基于关键词的全文检索很快成为一种常规的搜索模式。Web搜索引擎的基础技术主要包括页面获取、索引和排序等,在这些基本技术日益成熟的同时,Web搜索领域的新技术层出不穷,比如 Web广告模型、查询扩展和语义搜索等。另外,Web上大量的数据来自背后的关系数据库,这就引发了对于深网deepWeb数据的探究,从而也推动了包括 Web信息抽取和数据挖掘在内的 Web数据管理技术的深入发展。
1.3 语义网简介
经典的万维网是一个互相链接的超媒体文件系统,这些文件文本、图像或视频是供人们直接浏览的,而计算机却难以理解这些文件中的内容,从而就难以复用和集成万维网中的数据来提供更有用的信息服务。为此,W3C于2001年开始建立语义网Semantic Web行动计划http:www.w3。or2001sw,共同开发一套技术规范,使得符合语义网技术规范的数据容易地被计算机所理解,让不同的应用之间能够更方便地共享和复用彼此的数据。也就是说,语义网是W3C进一步发展万维网的一个愿景,它提供这样的一个公共框架,使得数据的共享和复用可以跨越应用系统、企业和社区的边界;而在传统万维网上只有文档的交换和共享。图1-1是 W3C给出的语义网技术栈。
图1-1 语义网技术栈
语义网以资源描述框架resource de******ion framework,RDF作为基石。RDF是一个公共的数据模型,它以 RDF三元组RDFtriple作为基本的数据单元来描述资源的类型和属性,而一个 RDF 三元组由主语subject、谓语predigcate和宾语object3部分组成。其中,URI统一资源标识符可以出现在三元组中的任何位置,而空白节点blanknode不能作为谓语,字面量literal只能作为宾语出现。URI用来标识任何需要标识的资源,包括信息资源比如一个网页、现实世界中的事物比如一本书或者人们在社会实践中形成的概念比如书和作者等;空白节点只能作为局部的资源标识,不具备 URI的全局标识能力;字面量通常用来表示基本类型的数据,如字符串、整数和实数等。
本体ontology在语义网中扮演着重要的角色。在哲学领域,本体论主要探讨事物的基本特征及其分类体系。在人工智能及信息技术领域,本体论的概念被用在知识表示上,按照gruber1993的定义,一个本体是一个共享概念模型的显式的形式化规约。在语义网中,RDF 数据中使用到的类型和属性也需要给出一个明确的形式化规约,只有这样,应用程序才能理解数据的含义。通常,某个应用领域中一组相关的类和属性统称术语称为一个词汇表vocabulary。W3C在语义网技术体系中采用本体来规约词汇表。作为一个规约,本体需要通过某种语言表达。为此,W3C开发了 RDF词汇描述语言 RDFSchema和 Web本体语言OWL。这样,各个组织或机构可以使用 RDFSchema或 OWL 表示各自领域的本体,并发布在万维网上以共享。领域本体中的类型和属性可以用来描述相应领域中的事物及其联系,形成 RDF数据。基于共享本体的 RDF数据不仅能够实现语义的共享,而且使推理成为可能。事实上,RDFSchema和 OWL均定义了若干推理规则。例如,如果已知一个对象的类是“人”,又已知“人”是“动物”的一个子类,那么通过推理规则可以得知该对象也是一个“动物”,尽管这个事实可能在原始的数据中并未出现。运用推理技术使得信息提供者不必对所有信息全部罗列出来,应用
|
|