新書推薦:
《
万千心理·儿童心理治疗中的心智化:临床实践指导
》
售價:NT$
398.0
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:NT$
301.0
《
周易
》
售價:NT$
203.0
《
东南亚的传统与发展
》
售價:NT$
306.0
《
乾隆制造
》
售價:NT$
398.0
《
资治通鉴臣光曰辑存 资治通鉴目录(司马光全集)(全二册)
》
售價:NT$
1316.0
《
明代社会变迁时期生活质量研究
》
售價:NT$
1367.0
《
律令国家与隋唐文明
》
售價:NT$
332.0
|
編輯推薦: |
1.基于循序渐进和主题性教学原则。本书较好地把现代信息检索素养知识的原理性与实践性、全面性与主题性、引导性与启发性进行了贯通与融合。在基于大量信息检索原理与知识的专题、图表、实例、案例及其数学理论依据进行充分阐述和说明的基础上,突出国内与国外、基础与前瞻、知识与技能紧密结合的信息检索素养教学要求。2.适用面广。考虑到不同专业和不用层次学生的实际教学需要,本书内容可作为高等学校各个专业研究生和本科生的信息检索素养课程通用教材。 3.本书内容丰富、线索清晰、结构完整、语言精练、主题鲜明。本书既可作为信息检索素养基础必修课教材,也可以作为部分专业和图书馆用户教育的选修课教材,同时还可作为信息系统设计与开发、数据采集与挖掘、信息检索与咨询服务、图书情报机构等从业人员的拓展学习与培训参考用书。
|
內容簡介: |
本书属于高等学校各个专业研究生和本科生的“信息检索素养课程”教学通用教材,内容包括三大部分:*部分“信息检索素养基础知识篇”,第二部分“信息检索素养基本原理篇”和第三部分“信息检索素养实践应用篇”,共13章内容。本书较好地把现代信息检索素养知识的基础性与前沿性、原理性与实践性、全面性与主题性、引导性与启发性进行了贯通与融合。在基于大量信息检索专题、图表、实例及其数学理论依据进行充分阐述和说明的基础上,突出国内与国外、理论与实践紧密结合的信息检索素养教学要求。考虑到不同专业和不同层次学生的实际教学需要,教学内容组织依据循序渐进和主题性教学相结合的原则,可以适当选用部分章节组织教学。例如,针对计算机学科专业、图书情报学专业、信息管理专业本科生和各个专业的研究生层次学生,可以把第二部分“信息检索素养基本原理篇”作为重点来组织各个教学章节内容。 本书内容丰富、线索清晰、结构完整、语言精练、主题鲜明,是高等学校各个专业研究生和本科生的信息检索素养教学通用教材。既可以作为信息检索素养基础必修课教材,也可以作为部分专业和图书馆用户教育的选修课教材,同时可作为信息系统设计与开发、数据采集与挖掘、信息检索与咨询服务、图书情报机构等从业人员的学习与培训参考用书。
|
目錄:
|
目录
第一部分信息检索素养基础知识篇
第1章大学生信息检索素养概述3
1.1信息检索素养概述4
1.1.1信息检索素养的基本概念4
1.1.2大学生信息检索素养的内涵5
1.1.3信息检索素养的发展动因6
1.1.4信息检索素养的特点7
1.2信息检索素养的主要内容9
1.2.1信息检索意识9
1.2.2信息检索能力10
1.2.3信息检索道德10
1.3信息检索素养的评价标准11
1.3.1有信息检索素养的人11
1.3.2信息检索素养评价标准的必要性12
1.3.3大学生信息检索素养评价标准13
1.4我国当代大学生的信息检索素养现状14
1.4.1信息检索意识较弱14
1.4.2获取信息的检索能力不强14
1.4.3加工与利用信息的能力较差14
1.4.4信息道德和信息法规意识急需培养14
1.5大学生信息检索素养教育与培养的意义15
1.5.1信息化社会对大学生的信息检索素质需求15
1.5.2创新创业能力培养的需要16
1.5.3掌握有效信息和开展科研与学术活动的需要171.5.4提供科学方法与正确决策的需要18
1.5.5终身学习的需要19
本章小结19
本章思考与练习题21
大学生信息检索素养教程目录
第2章信息检索与知识产权22
2.1信息与知识产权22
2.1.1信息22
2.1.2知识产权26
2.1.3知识产权信息27
2.1.4知识产权信息的概念特征28
2.1.5知识产权信息的内容29
2.2信息检索与利用的法律规范和信息道德29
2.2.1信息检索与利用的相关法律制度30
2.2.2知情权问题31
2.2.3国家秘密问题32
2.2.4商业秘密问题33
2.2.5隐私权保护问题33
2.2.6信息复制权保护问题34
2.3信息检索与利用过程中的道德自律34
2.3.1法律约束的局限性35
2.3.2信息道德自律问题的提出35
2.3.3信息道德的培养和内省原则36
2.4信息检索与利用同知识产权保护的相互影响36
2.4.1信息检索与利用对知识产权保护既制约又促进36
2.4.2知识产权保护对信息检索与信息资源共享的制约和促进37
2.5大学生信息检索素养与学术不端行为的关联38
2.5.1大学生学术不端行为的界定38
2.5.2大学生学术不端行为的表现39
2.5.3信息检索素养教育对大学生学术不端行为的作用40
本章小结41
本章思考与练习题43第3章信息检索的基本知识44
3.1信息检索的含义44
3.1.1检索的概念44
3.1.2信息检索的含义45
3.1.3信息检索用户的基础素养46
3.1.4信息检索的领域与范畴47
3.1.5信息检索的类型48
3.2信息检索涉及的相关支撑领域49
3.3信息检索的前沿与热点问题51
3.3.1信息检索的发展趋势51
3.3.2信息检索的热点问题55
本章小结57
本章思考与练习题58第4章信息检索的方法与策略59
4.1信息源及其类型59
4.2信息源的出版发行与共享类型61
4.3信息源类型的辨别64
4.4检索工具67
4.4.1检索工具的基本功能67
4.4.2检索工具的类型69
4.5信息检索途径73
4.6信息检索方法82
4.7信息检索策略84
4.8信息检索质量与评价87
4.8.1信息检索质量与评价指标88
4.8.2影响检索效果的因素89
本章小结91
本章思考与练习题91
第二部分信息检索素养基本原理篇
第5章信息检索的基础数学原理95
5.1简单布尔检索95
5.1.1基本原理95
5.1.2布尔检索模型的特点97
5.2信息检索模糊集合论98
5.2.1模糊检索的数学描述99
5.2.2信息文档对标引词的隶属度100
5.2.3提问检索词的相关性描述100
5.3扩展布尔检索102
5.3.1基于两个标引词的情形102
5.3.2推广到n个标引词空间103
5.4信息检索代数模型106
5.4.1信息检索向量空间模型106
5.4.2潜在语义索引模型113
5.4.3神经网络检索模型117
5.5概率论检索模型122
5.5.1经典概率检索模型123
5.5.2贝叶斯网络检索模型125
5.6其他检索模型的一般数学原理129
5.6.1进化计算与遗传算法129
5.6.2粗糙集理论136
5.6.3浏览检索模型140
本章小结142
本章思考与练习题144第6章文本分类与文本索引构建145
6.1文本分类概述146
6.2朴素贝叶斯文本分类148
6.2.1贝叶斯分类器148
6.2.2条件概率和乘法定理149
6.2.3极大后验假设和极大似然假设149
6.2.4贝叶斯定理150
6.2.5多项式朴素贝叶斯151
6.3朴素贝叶斯分类模型改进153
6.3.1改进方法153
6.3.2朴素贝叶斯分类的提升模型155
6.3.3基于特征相关的改进加权朴素贝叶斯分类156
6.4贝努利文本分类模型157
6.5多项式文本分类模型与贝努利文本分类模型的性质比较159
6.6文本分类特征选择161
6.6.1文本分类特征选择的作用161
6.6.2特征选择的方法162
6.6.3特征选择方法类型163
6.6.4文本互信息选择164
6.6.52统计量特征选择165
6.6.6基于频率的特征选择方法166
6.7文本的索引构建167
6.7.1基于块的排序索引方法167
6.7.2基于内存单次扫描的索引构建方法171
6.7.3顺排文档索引172
6.7.4倒排文档索引178
本章小结186
本章思考与练习题187第7章图像信息检索189
7.1图像基础知识189
7.1.1图像色彩三要素190
7.1.2图像的三种基本类型192
7.1.3常用图像文件格式192
7.2图像检索概述196
7.2.1图像检索一般模型196
7.2.2基于文本方式的图像检索197
7.2.3基于知识和视觉特征的图像检索198
7.2.4基于内容的图像检索198
7.2.5图像内容描述的标准化 199
7.3基于图像内容特征提取200
7.3.1基于颜色特征的图像检索200
7.3.2基于纹理特征的图像检索204
7.3.3基于形状特征的图像检索206
7.3.4基于空间特征的图像检索214
7.3.5单个特征图像检索的不足215
7.4基于多特征的图像检索 216
7.4.1综合颜色和形状特征的图像检索216
7.4.2综合形状和空间特征的图像检索216
7.4.3综合形状和纹理特征的图像检索217
7.4.4综合颜色、形状和空间的图像检索217
7.5基于视觉特征的图像检索系统218
7.5.1基于视觉特征的图像检索系统整体架构218
7.5.2图像分割技术219
7.5.3相似性度量224
7.5.4图像索引226
7.5.5相关反馈技术232
7.6典型的图像检索系统233
7.7图像检索技术的发展方向234
7.7.1融合人工反馈 234
7.7.2高层语义和低层视觉特征结合234
7.7.3面向网络图像检索235
7.7.4图像检索性能评价与检索服务平台235
本章小结236
本章思考与练习题237第8章音频信息检索239
8.1音频的特点239
8.1.1音频信息的基本特征239
8.1.2音频信息的内容层次240
8.2音频信息检索技术的分类和发展241
8.2.1基于文本的音频检索241
8.2.2基于内容特征的音频检索243
8.3音频信息检索架构与模型244
8.3.1音频信息检索架构244
8.3.2向量空间模型借鉴245
8.3.3概率模型借鉴246
8.4表示级的音频检索247
8.4.1基于直接匹配的音频样例检索247
8.4.2基于索引的音频样例检索249
8.4.3基于GPU通用计算的音频样例快速检索256
8.5语义级的语音文档检索263
8.5.1语音文档检索的预处理263
8.5.2语音文档检索的索引和搜索技术266
8.5.3语音文档检索中的容错方法270
本章小结274
本章思考与练习题275第9章视频信息检索277
9.1数字视频的相关基础知识277
9.2基于内容的视频检索系统结构280
9.3视频镜头分割281
9.3.1非压缩域的镜头分割方法282
9.3.2压缩域中镜头分割方法285
9.4镜头切换286
9.5关键帧提取及语义提取287
9.5.1关键帧提取的基本原理和准则287
9.5.2关键帧提取的方法287
9.5.3视频语义提取290
9.6视频特征提取291
9.6.1全局运动矢量的计算方法292
9.6.2视频运动估计293
9.6.3运动矢量估计的常用算法296
9.7视频聚类301
9.8视频结构索引302
9.8.1视频结构索引的机制303
9.8.2索引信息的存储303
9.9视频摘要305
9.10视频语义检索模型308
9.10.1底层特征提取模块308
9.10.2底层特征向高层语义映射模块 308
9.10.3视频语义查询模块 310
9.10.4语义词典的应用 311
9.11典型的视频检索系统311
本章小结312
本章思考与练习题314第10章Web信息搜索316
10.1搜索引擎概述316
10.1.1搜索引擎基本结构317
10.1.2传统搜索引擎基本类型318
10.1.3智能搜索引擎基本类型319
10.2搜索引擎主要支撑技术324
10.2.1分词技术324
10.2.2网络蜘蛛325
10.2.3索引技术325
10.2.4词频相关指数326
10.2.5自动推理技术326
10.2.6本体知识系统327
10.2.7专家系统328
10.3Web采集329
10.3.1Web采集概述329
10.3.2采集器的功能与特点329
10.3.3Web采集330
10.3.4域名解析332
10.3.5待采集URL池335
10.3.6分布式索引336
10.3.7连接服务器339
10.3.8Web图340
10.4主要网页排序算法342
10.4.1PageRank 网页排序算法343
10.4.2TopicSensitive PageRank算法343
10.4.3Hilltop算法344
10.4.4HITS算法345
10.4.5SALSA算法346
10.4.6BFS算法347
10.4.7PHITS算法347
本章小结348
本章思考与练习题349
第三部分信息检索素养实践应用篇
第11章 常用搜索引擎的检索应用353
11.1百度搜索引擎的检索应用353
11.2搜狗搜索引擎的信息检索与利用372
11.3Google搜索引擎的检索应用384
11.4Infoseek搜索引擎392
11.5雅虎搜索引擎信息检索应用396
本章小结399
本章思考与练习题400第12章特种信息资源检索401
12.1科技报告信息资源检索401
12.1.1科技报告的概念与特征401
12.1.2科技报告的类型与编码402
12.1.3国内科技报告与商业报告资源的信息检索403
12.1.4国外科技报告资源检索 409
12.2会议文献资源检索413
12.2.1会议文献资源的概念413
12.2.2会议文献的特点与类型414
12.2.3国外会议文献的检索415
12.2.4国内会议文献的检索419
12.3学位论文检索423
12.3.1学位论文概述423
12.3.2国外重要学位论文数据库检索424
12.3.3重要国内学位论文数据库检索426
12.4专利文献资源检索434
12.4.1专利与专利文献概念434
12.4.2专利文献的类型与作用434
12.4.3国际专利分类436
12.4.4专利搜索引擎438
12.4.5国外大型专利数据库系统445
12.4.6国内专利资源数据库系统检索455
12.5标准信息资源检索462
12.5.1标准信息资源的概念与特点462
12.5.2标准信息资源的分类463
12.5.3美英等国标准信息资源检索464
12.5.4中文标准信息资源检索467
本章小结471
本章思考与练习题472第13章图书与学术期刊论文信息资源检索474
13.1大型中文图书目录检索系统474
13.1.1中国国家图书馆联机公共目录查询系统474
13.1.2CALIS联合目录公共检索系统481
13.1.3北京大学图书馆公共查询系统482
13.1.4清华大学图书馆馆藏目录检索系统483
13.2典型中文数字图书检索超星数字图书馆486
13.3典型中文学术期刊论文检索495
13.3.1CNKI中国学术期刊网检索496
13.3.2维普中文科技期刊数据库检索499
13.4典型外文电子图书检索系统502
13.4.1CADAL外文图书检索502
13.4.2世界电子图书馆检索502
13.4.3ebrary电子图书馆检索504
13.4.4OCLC FirstSearch检索506
13.4.5其他典型外文电子图书检索系统简述508
13.5典型外文学术期刊检索系统510
13.5.1Web of Science数据库检索510
13.5.2IEL数据库检索513
13.5.3EBSCO学术资源平台检索518
13.5.4Wiley在线图书馆检索518
13.5.5其他典型期刊学术论文检索系统520
本章小结525
本章思考与练习题526参考文献527
|
內容試閱:
|
前言在信息化社会越来越发达的今天,面对几何级数膨胀的海量信息资源,如何有效地检索、获取、评估、传播、共享和利用信息,成为了每个人重要的基本素养和能力要求,因为信息需求是每个人学习、工作、生活及其社会活动中十分重要而且迫切的需求。作为信息时代的大学生,需要重视信息检索素养的知识学习与能力培养。信息检索素养的理论知识学习与基本能力形成,不仅直接影响着大学生的在校学业表现,也较大程度上影响着他们今后的学习、工作与事业发展例如终身学习、创新创业等持续性需要。大学生信息检索素养是大学生信息素养的核心内容之一,具有多学科交叉融合的特性。信息检索起源于图书馆学、情报学的信息检索原理与技术,早期直接服务于高校图书馆或社会公共图书馆的信息检索用户教育与技能培训,后来广泛应用于数据库研发与服务企业、搜索引擎等信息服务产业,在当今高速发展的计算机科学、软件工程、网络工程、通信工程、管理学、应用数学、统计学、语言学等多学科交叉融合的基础上,信息检索在数据挖掘、大数据处理等领域不断深化并发挥着日益强大的潜能。大学生信息检索素养教育正是基于这种时代背景和学科发展提出来的,也是面向大学生的传统信息素养教育和信息检索教育的不断深化与交叉融合的发展结果。基于循序渐进和主题性教学原则,本书较好地把现代信息检索素养知识的原理性与实践性、全面性与主题性、引导性与启发性进行了贯通与融合。在基于大量信息检索原理与知识的专题、图表、实例、案例及其数学理论依据进行充分阐述和说明的基础上,突出国内与国外、基础与前瞻、知识与技能紧密结合的信息检索素养教学要求。考虑到不同专业和不同层次学生的实际教学需要,本教材属于高等学校各个专业研究生和本科生的信息检索素养课程通用教材,内容包括三大部分: 第一部分信息检索素养基础知识篇,第二部分信息检索素养基本原理篇和第三部分信息检索素养实践应用篇。本书逻辑清晰,内容丰富,结构完整。首先,从信息检索素养的基本概念、内涵、发展动因、特点、核心内容与能力表现、信息检索素养的评价标准以及信息化社会对大学生的信息检索素质需要出发,进一步论述信息检索与知识产权、信息检索与大学生学术不端行为、信息检索基础知识、信息检索方法与策略等内容来培养学生的信息检索意识、信息检索道德与信息检索基础。第二,通过信息检索的基础数学原理的引入,使得信息检索有了更加严谨的逻辑论证,检索过程和信息需求的本质描述也更为精确,从而使得信息检索的理论与实践获得持续性的基础支撑。通过文本分类与文本索引构建、图像信息检索、音频信息检索、视频信息检索和Web信息搜索一般性原理来构建大学生特别是研究生的信息检索基本原理知识。第三,通过搜索引擎的检索应用、七大类特种文献信息资源检索和图书与学术期刊论文检索的大量实例与检索案例来培养和锻炼大学生的信息检索素养实践技能。本书教学内容的规划、组织与编著,是在作者讲授研究生信息检索原理与应用课程和本科生大学生信息检索课程的十多年教学改革与实践经验基础上逐步积累形成的。同时,在教材编著过程中,参考和借鉴了大量国内外专著、教材、学术期刊论文、学位论文、学术观点和典型网络数据库检索平台等成果,在此一并向他们表示真挚的谢意!本书内容丰富、线索清晰、结构完整、语言精练、主题鲜明,是高等学校各个专业研究生和本科生的信息检索素养教学通用教材。既可以作为信息检索素养基础必修课教材,也可以作为部分专业和图书馆用户教育的选修课教材,同时可作为信息系统设计与开发、数据采集与挖掘、信息检索与咨询服务、图书情报机构等从业人员的学习与培训参考用书。在本书编著过程中,得到桂林电子科技大学研究生院领导及教学督导委员会的关心与支持,获得2016年桂林电子科技大学研究生教育质量工程专项(YXYJ2900)、2016年广西学位与研究生教育改革与发展专项(2016XWYJ12)和2015年广西高等教育本科教学改革工程项目(2015JGA207)的支持与资助。本书能够顺利出版,感谢清华大学出版社的大力支持与良好合作,感谢出版社编辑们的辛勤工作与付出!本书主要基于循序渐进性教学与主题性教学相结合的编写原则,在大学生信息检索素养的原理性与实践性、全面性与主题性、引导性与启发性等方面难免有疏漏或不妥之处,恳请读者批评指正。大学生信息检索素养教程前言
作者2016年7月于桂林
第5章信息检索的基础数学原理由于当今信息量呈几何级数膨胀和用户信息需求多样化发展趋势,在检索的实践活动中会涉及大量的信息处理与存储过程。用户信息检索的最终实现必须依靠强有力的计算机应用程序去自动执行或智能信息处理作为支撑,而强有力的计算机应用程序必须依据数学原理及其模型方法的建立为前提,利用数学原理与模型方法来建立检索基础模型是必不可少的工作。运用数学原理不仅能使信息检索作为研究对象的概念含义精确化,而且能够深刻揭示信息检索过程的显性现象与潜在的隐性规律。在信息检索中引入数学原理及其模型方法,将检索过程中的信息及其处理过程加以解释和抽象,表达成某种数学模型,再经演绎与推断,从而指导检索实践和促进检索工作的技术进步。数学原理及其模型的引入使得信息检索有了更加严谨的论证,检索过程和信息需求本质的描述也更为精确。迄今为止,基于集合理论的布尔模型、Salton模型和模糊集合模型等数学一般原理最为成熟,也在检索实践中得到了普遍应用。5.1简单布尔检索〖1〗5.1.1基本原理布尔模型是一种以经典集合论和布尔代数为理论基础的非常简单的信息检索模型。它采用布尔代数的方法,用布尔逻辑表达式表示用户需求提问,通过对信息标识和提问式的比较来检索信息。对某一特定的信息,通常表示成D=t1,t2,,tn的形式。由于布尔逻辑式可以表达成与用户思维习惯相一致的提问要求,因此,用户提问可以表示为由三种逻辑运算符即逻辑与、逻辑或 和逻辑非-连接起来的布尔表达式,标引词t1和t2之间可能具有的逻辑运算是t1t2和t1t2,而任一标引词的逻辑非运算为-t,这些逻辑运算将作为用户提问的一部分出现在布尔表达式的某个位置上,图51可以很直观地显示这些逻辑运算的结果。显然,上述的布尔运算实际上是集合之间的交、并、补运算。也就是说,布尔检索实际上是通过若干个检索词所包含的信息集合的交、并、补运算来响应用户信息需求提问的。图51布尔运算逻辑关系图大学生信息检索素养教程第5章信息检索的基础数学原理布尔模型在解释信息检索的数据处理过程时,主要遵循两条基本规则。系统索引词集合中的每一个索引词在一篇文档中只有两种状态: 出现或者不出现。相应地,每个索引词的权值wij{0,1}。检索提问式q由三种布尔逻辑运算符and、or、not连接索引词来构成。根据布尔逻辑的运算规定,提问式q可以被表示成由合取子项conjunctive components组成的析取范式disjunctive normal form,dnf或DNF形式。例如,布尔提问式q=k1 andk2 or not k3可以写成如下等价的析取范式形式:qdnf=k1 and k2 and k3ork1 and k2 and not k3ork1 and not k2 and not k3这里,qdnf为提问式q的主析取范式。进一步地,可以用如下简化形式来表示qdnf:qdnf =1,1,1 or 1,1,0 or 1,0,0其中,1,1,1、1,1,0和1,0,0是qdnf的三个合取子项合取子项可用符号qcc表示,它们是一组向量,由对应三元组k1,k2,k3的每一分量取0或1值而得到。基于上述规则与假定,布尔模型对于任一篇文档dj D,定义dj与用户提问q的匹配函数为simdi,q=1,如果存在qcc|qccqdnf且对于任意ki,有gidj=giqcc1,其他51式51中,函数gi定义为gidj=wij。现在,假设文档集合D中存在两篇文档d1和d2,其中,d1含有索引词k1和k2,d2含有索引词k1和k3,则它们的文档向量分别为d1=1,1,0d2=1,0,1根据匹配函数simdj,q的定义,很显然文档d1与提问式q=k1andk2 or not k3的匹配函数值为1,即文档d1与提问q是相关的;而文档d2与提问q的匹配函数值为0,表明文档d2与提问q是不相关的。5.1.2布尔检索模型的特点布尔模型是最早提出的一种信息检索一般数学模型。1957年,巴希列尔Y.BarHille就对布尔逻辑应用于计算机信息检索的可能性进行了探讨;20世纪60年代末期,布尔检索模型正式被大型文献检索系统所采用;70年代时逐渐成为各种商业性联机检索服务系统的标准检索模式。目前,基于布尔检索框架的各类检索系统仍具有顽强的生命力,并在信息搜索与信息服务领域占据重要地位。在布尔检索中,用户的查询要求用普通的语言叙述,即用户可完全按照自己的思维习惯提问。其中查询要求条件A、B、C、D等可以分别用若干个标引词来表示,然后可以用布尔逻辑运算符、、将用户的提问解析成信息服务系统可以接受的形式。这种结构化的提问方式与用户的思维习惯相一致,所以成为布尔逻辑检索的一个突出优点。布尔检索的一个用户界面实例如图52所示。图52布尔检索实例图以ProQuest为例以ProQuest为例,图52布尔检索实例图中的并且、或者与排除运算,就是典型的布尔检索应用。这种模型把复杂的检索过程简单化,能够将比较复杂的信息提问按其概念组配的逻辑关系描述出来,从而变成可以由计算机执行的逻辑运算,变成机器根据事先确定的程序进行自动匹配的过程,这种运算上的简单易行是布尔逻辑检索系统的突出优势。布尔模型具有简单性simplicity、容易理解性easy understanding、简洁形式化clean formalism等突出优点。布尔模型的简单性、易理解性与易实现等特点为其在检索系统和检索工具中的广泛应用奠定了良好基础。尽管布尔模型有着种种优点,但它还是存在明显的局限性。1 布尔模型是基于二值判定为标准的,信息对象要么相关,要么不相关,并没有一个相关信息级别的概念,例如符合信息需要的相关性程度大小,因此很难有好的检索效果。2 构造布尔逻辑式不是一件轻松的事情,对于普通信息用户,很难用AND逻辑与、OR逻辑或、NOT逻辑非运算的结合来准确地表达自己的信息需求,并且检索词的简单组配也不能完全反映实际需要。3 检索结果输出完全依赖于布尔提问与检索系统中信息的匹配情况,很难控制输出量的大小。4 布尔提问表示存在某些不合理的地方。对于提问,包含一个在提问中出现的检索词的信息与包含几个在提问中出现的标引词的信息被认为是一样的重要;对于提问,包含多个标引词的信息与不包含任何标引词的信息被看成是一样不相关。5 检索结果不能按用户定义的重要性排序输出,用户只能从头到尾浏览输出结果才能知道哪些信息更适合自己的需要。鉴于布尔模型的这些不足,人们提出用语词加权和部分匹配的功能来扩展经典的布尔模型,将向量模型和布尔模型融为一体,来克服传统布尔模型的一些缺陷,这就是扩展布尔模型。5.2信息检索模糊集合论信息检索模糊集合模型是建立在模糊集合论基础上的,模糊集合论可以看做是经典集合论的推广。1965年美国加州大学伯克利分校的札德LA.Zadeh教授发表了一篇关于模糊集合的著名论文,由此奠定了模糊理论的研究与发展。模糊集合论对经典集合论的推广主要表现在: 它把元素属于集合的概念模糊化,承认集合论范围内存在既不完全属于某集合,又不完全不属于某集合的元素,即变经典集合论绝对的属于概念为相对的属于概念;同时,又进一步把属于概念数量化,承认论域上的不同元素对于同一集合具有不同的隶属程度,因此引入了隶属度membership的概念。模糊集合理论处理的是边界不明确的集合表示,其中心思想是把集合中的元素和隶属函数结合在一起。隶属函数的取值在[ 0,1]上,0表示元素不隶属于该集合,1表示完全隶属于该集合,值在0和1之间表示元素为该集合的边际元素。定义: 给定论域U,U的模糊子集A可以定义为U到闭区间[0,1]上的一个映射:LA: U[0,1],LA为A的隶属度。正如经典集合论是传统精确数学的基础一样,模糊子集论是模糊理论的基础,同样也可以定义模糊子集上的运算。常见的三种运算分别是模糊集合的补运算、两个或多个集合的并、交运算。定义: 给定论域U,A和B分别为U的两个模糊子集,A-是A关于U的补集,u为U中的元素,则Au=1-AuABu=max AuBuABu=min AuBu5.2.1模糊检索的数学描述模糊检索是将信息文档看成是与提问在一定程度上相关,对于每一个标引词,都存在一个模糊的信息集合与之相关;对于某一给定的标引词,用隶属函数表示每一则信息文档与该词相关的程度,即隶属度,其取值在[0,1]上,则有信息文档d和标引词t,d对于t的隶属度可以定义为F:DT[0,1],d,tFd,td,tDT则在信息检索系统中文档d与标引词t的二元模糊关系F可以描述为F={[d,t,Fd,t]dD,tT} 52由于用户通常希望检索出的信息能较高地满足其需求主题,因此,这里所定义的Fd,t表示文献d涉及标引词t所达到的程度,而不是标引词t反映文献d的主题内容的程度。标引词的模糊集合是在标引过程中建立的,标引人员不是简单地把标引词赋予信息文档,还要指出标引词与信息文档的相关程度。如d={t1,0.5,t2,0.8},数字0.5和0.8表示信息文档对于标引词t1,t2的隶属度,数值越大表示隶属度越大。当全部信息文档标引完毕,也就为每个标引词定义了一种隶属函数,指明了每一信息文档对于每个标引词的相关程度。隶属函数是模糊集合论乃至整个模糊学的最基本概念之一,正确构造隶属函数是应用模糊学方法的关键。由于隶属度的确定,既有客观性的一面,也有主观性的一面,因此,在解决实际问题时,构造切合实际的隶属函数至今还没有非常满意的解决方法。大学生信息检索素养教程第5章信息检索的基础数学原理5.2.2信息文档对标引词的隶属度在标引词集合中,由于概念相关的模糊性,两个标引词在不同程度上总是存在着语义上的关联,因此,信息文档对标引词的隶属度是通过标引词表来计算的。标引词表可以通过词词关联矩阵来建立,这个矩阵的行和列分别对应于集合中的标引词,矩阵中词ti和tj的关联因子可以定义为Ci,j=ni,jni nj-ni,j53式中ni表示包含标引词ti的信息文档的数目,nj表示包含标引词tj的信息文档的数目,则标引词t的模糊集合中,文献d的隶属度:F=1-1-Ci,j 545.2.3提问检索词的相关性描述用户提问通常是由布尔逻辑式表达的,即用布尔逻辑运算符将标引词连接起来。布尔逻辑的常用运算符有与、或、非,即,,。提问匹配以通过引入模糊算符来确定信息文档对于提问的相关程度。设D为信息文档集,Q为提问集,dD,qQ,QD上的模糊关系R:R={q,d,q,d|qQ,dD}式中q,d表示信息文档d对于提问q的相关程度。根据模糊集合的运算规则,将三个基本的模糊运算符分别定义如下。1 若q=ab,则q,d=max d,a,d,b,这里a,bT,d,a,d,b分别表示信息文档d论述标引词a和b所达到的程度。2 若q=ab,则q,d=min d,a,d,b。3 若q=-a,则q,d=1-d,a。在模糊集合检索中,对于布尔模型的用户信息需求的处理通常是把表达用户需求的布尔逻辑式转换成析取范式的形式。例如,q=tatb-tc,可以写成与之等价的析取范式: qdnf=1,1,11,1,01,0,0,其中的每个分量都是ta,tb,tc的一个二值加权向量,它们构成了dnf的合取分量,用CCi表示第i个合取分量,则提问可以推广为p个合取分量的形式:dnf=CC1CC2CCp55计算信息文档与提问相关的过程类似于经典布尔模型中的计算,只不过在模糊检索中处理的对象是模糊集合而不是普通的集合。对于上述的提问q=tatatb,Da表示标引词ta在文献集上的模糊子集,它由隶属度大于既定阈值的文献所组成。同理,可以定义标引词ta和tc的模糊子集Db、Dc,由于所有的集合都是模糊不确定的,即使信息文档d不包括标引词ta,该信息文档也有可能属于集合Da见图53。图53提问q=tatbtc的模糊文献集提问模糊集合Dq是qdnf的三个合取分量的模糊集合的并运算,则Dq中信息文档d的隶属度:q,d=cc1 cc2 cc3d=1-3i=11-ccid=1-{d,ad,bd,c}{1-d,ad,b1-d,c}{1-d,a1-d,b1-d,c}计算得出q,d,它所反映的正是信息文档d对于提问q的相关程度。所以,提问q可以定义为信息文档集合D上的一个模糊子集: q={d,q.d|dD}。用户给定一个阈值01,将小于的项去掉。当q,d时,d作为命中的信息文档输出,输出可以采取按照对提问的相关程度的大小形式排序输出。通过控制的取值,可以输出合适的文献。基于模糊集合模型的检索结果是建立在信息文档集上的,且其隶属度就是信息文档集对用户提问的相关程度的模糊子集。就目前的水平而言,还无法十分精确、有效地确定这个隶属函数:在提问匹配中引入的max和min算符不能很好地反映真实的匹配过程,而把提问的布尔逻辑表达式转换成析取范式,用代数和、代数积分计算析取模糊集合以获取模糊集合中信息文档的隶属度,更加适合于模糊信息检索应用。模糊检索模型与经典布尔模型关系密切,它基本保留了布尔检索功能,但是更为灵活,对那些既想利用布尔检索长处,又想避免其二值相关性测度局限性的人们来说,能够较好地满足信息检索需求。模糊检索模型还支持对命中文档按相关度大小的排序输出。5.3扩展布尔检索1983年信息检索专家萨尔顿G.Salton及其博士生福克斯E.A.Fox等人提出的一种基于布尔逻辑框架的混合布尔与向量特性的混合检索模型,即扩展布尔模型。扩展的布尔检索模型是基于布尔逻辑基本假设的改进,下面采用矢量的方法来讨论布尔信息检索。5.3.1基于两个标引词的情形假定信息文档集合中的信息dj仅用两个标引词tx和ty标引,并且tx,ty允许被赋予一定的权值,其权值分别为Wx,j、Wy,j,权值的取值范围为[0,1],权值越接近于1,说明该词越能反映文本的内容,反之,反映文本的内容较差。给标引词加权通常采用的是著名的tfidf加权方案: Wx,j=fx,jidfxmax xiidfx 56式中fx,j为标引词tx在文献dj中出现的频率,idfx为逆信息文档词频。为了简单起见,用x,y分别表示权值Wx,j、Wy,j。我们采用二维图来表示信息文档的提问,用距离的概念表示信息文档与提问的相似度。见图54。图54扩展布尔逻辑的矢量表示对于析取提问q=txty,只有A、B、C三点所代表的信息文档才是最理想的,对于任一信息文档Dj而言,当它离A、B、C三点越接近时,说明相似度越大,因而Dj到点0,0的矢量距离可以用来度量与提问qor的相似度,则|Dj|=x2 y2 57显然,0|Dj|1,为了使相似度控制在0和1之间,相似度可以规范化为simqor,dj=x2 y2258对于合取提问q=txty,只有C点才是最理想的文献,则Dj到C点的矢量距离为|Dj|=1-x2 1-y2 59它可以作为衡量文献与提问之间相似度的一个尺度,则相似度可以规范化为simqor,dj=1-1-x2 1-y22 5105.3.2推广到n个标引词空间以上讨论的是两个标引词的情况,信息文档集合中的标引词的数目为n时,模型可以推广到n维空间的欧几里得距离。根据线性向量模型理论,广义的析取提问和合取提问可以分别表示为qor=t1pt2pptnqand=t1pt2pptn这里,p是一个可变的量,1p的值在提问时就应当确定。则这两种文献提问的相似度为simqor,dj=xp1 xp2 xpnn1psimqand,dj=1-1-x1p 1-xp 1-xnpn1p式中的xi表示信息文档dj中的第i个标引词的权值Wi,j。由于p是一个变量,下面分析p的取值对相似度的影响。1 当p=1时,simqand,dj=1-n-x1 x2 xnn=x1 x2 xnn=simqor,dj 511则布尔逻辑表达式中的布尔逻辑运算符、已毫无区别,两者的功能都减退为0,相似度的计算采取简单的向量空间模型余弦函数法,即simdj,q=dj|dj|||=ti=1Wi,jWi,qti=1Wi,j2ti=1Wi,q2 5122 当p=时,标引词的权值在[0,1]上,扩展布尔模型就变成建立在模糊逻辑上的布尔检索模型,则信息文档提问之间的相似度为simqor,dj=limpxp1 xp2 xpnn1p=maxx1,x2,xnsimqand,dj=limp1-1-x1p 1-xp 1-xnpn1p=1-max1-x1,1-x2,,1-xn=minx1,x2,,xn 5133 当p值在1与之间时,扩展布尔模型就介于向量模型和布尔模型之间,p值越大,和的功能就越强;p值越小,和的功能就越弱,直至p=1,其功能完全消失。见图55。图55p值的变化范围对于提问语言的处理一般是按预先定义的次序对运算符进行分组而展开的,比如对于提问q=t1pt2pt3,信息文档dj与提问q的相似度通常计算为
|
|