新書推薦:
《
Python贝叶斯深度学习
》
售價:NT$
407.0
《
文本的密码:社会语境中的宋代文学
》
售價:NT$
306.0
《
启微·狂骉年代:西洋赛马在中国
》
售價:NT$
357.0
《
有趣的中国古建筑
》
售價:NT$
305.0
《
十一年夏至
》
售價:NT$
347.0
《
如何打造成功的商业赛事
》
售價:NT$
407.0
《
万千教育学前·透视学前儿童的发展:解析幼儿教师常问的那些问题
》
售價:NT$
265.0
《
慈悲与玫瑰
》
售價:NT$
398.0
|
編輯推薦: |
适读人群 :研究生、科研人员、从业者等◆中国计算机领域具有重要突破或重要创新的博士研究生科研成果◆2021年度CCF优秀博士学位论文奖◆紧扣数据管理、信息检索领域研究热点◆相似查询方面的创新性研究成果◆大数据重要应用的核心技术
|
內容簡介: |
《大数据相似查询关键技术研究》由清华大学计算机科学与技术系博士、华为数据库专家孙佶撰写。全书首先介绍了相似查询问题的现实应用和价值,以及面临的技术挑战;然后提出一个相似查询系统,并且介绍了高效相似查询索引、相似查询代价估算及人在回路实体相似匹配的核心技术和创新思考。全书提供了丰富的实验数据和结果,分析了各种技术的优劣,也为实际产品的技术选型提供了重要参考。《大数据相似查询关键技术研究》共五章:第1章绪论,介绍了全书的研究背景、研究内容及主要贡献,并概述了全书的结构安排。第2章分布式内存相似查询系统Dima,介绍了分布式内存相似查询系统Dima。第3章基于学习的相似查询基数估计,提出了一种基于学习的相似查询技术估计技术,使用这种基数可以帮助相似查询系统进行查询执行计划优化。第4章基于相似查询的数据融合规则生成,介绍了一种基于相似查询的人在回路实体融合系统。第5章总结与展望,总结了全书的主要研究工作,并对未来的工作做出展望。
|
關於作者: |
孙佶,华为数据库专家,于2016年在北京邮电大学计算机科学与技术学院获得工学学士学位,并于2021年在清华大学计算机科学与技术系获得工学博士学位。主要研究方向包括基于智能技术的数据库系统性能优化(AI4Sys)、基于SQL的数据库内大规模数据分析(DB4AI)等。在SIGMOD、VLDB、ICDE等国际会议及IEEE TKDE等期刊上发表论文10余篇,被引500余次,申请专利4项,曾获得SIGMOD Programming Contest优胜奖,北京市普通高等学校优秀毕业生,CCF优秀博士学位论文奖,清华大学计算机科学与技术系优秀博士学位论文奖等。
|
目錄:
|
第1章 绪论 1.1 研究背景 1 1.2 标记增强简介 5 1.3 研究内容 7 1.4 组织结构 9第2章 标记增强研究进展 2.1 引言 11 2.2 多标记学习 14 2.2.1 学习任务 14 2.2.2 学习方法 15 2.2.3 评价指标 22 2.3 标记分布学习 29 2.3.1 学习任务 31 2.3.2 学习方法 33 2.3.3 评价指标 39 2.4 标记增强 40 2.4.1 基于先验知识的标记增强 42 2.4.2 基于模糊方法的标记增强 45 2.4.3 基于图的标记增强 48第3章 标记增强理论框架 3.1 引言 52 3.2 标记分布内在生成机制 54 3.3 标记分布质量评价 62 3.4 标记增强对分类器泛化性能的提升 66 3.5 实验结果与分析 68 3.5.1 标记分布恢复实验 68 3.5.2 消融实验 80 3.6 本章小结 85第4章 面向标记分布学习的标记增强 4.1 引言 86 4.2 GLLE方法 87 4.2.1 优化框架 88 4.2.2 拓扑空间结构的引入 89 4.2.3 标记相关性的利用 90 4.2.4 优化策略 92 4.3 实验结果与分析 94 4.3.1 标记分布恢复实验 94 4.3.2 标记分布学习实验 103 4.3.3 标记相关性验证 107 4.4 本章小结 109第5章 标记增强在其他学习问题上的应用 5.1 引言 111 5.2 多标记学习 112 5.2.1 LEMLL方法 113 5.2.2 实验结果与分析 118 5.3 偏标记学习 126 5.3.1 PLLE方法 128 5.3.2 实验结果与分析 132 5.4 本章小结 149第6章 总结与展望 6.1 总结 151 6.2 下一步研究的方向 153
|
內容試閱:
|
传统的数据库针对数据表的查询条件主要包括数值范围查询、点查询及模糊匹配查询,但是这些查询只能支持准确查询。相似查询可以根据指定的相似函数(比如杰卡德相似度)查询数据集中的数据,具体包括基于阈值的查询、TopK查询两种,其中每种查询又包括相似选择和连接两种常见算子。由于相似查询广泛应用于海量相似文本搜索、相似图片搜索、结构化实体去重和多源数据融合等领域,因此高效的相似查询是最近国内外研究的重点。
|
|