新書推薦:
《
国术健身 易筋经
》
售價:NT$
152.0
《
古罗马800年
》
售價:NT$
857.0
《
写出心灵深处的故事:踏上疗愈之旅(修订版)(创意写作书系)
》
售價:NT$
301.0
《
控制权视角下的家族企业管理与传承
》
售價:NT$
398.0
《
冯友兰和青年谈心系列
》
售價:NT$
762.0
《
利他主义的生意:偏爱“非理性”的市场(英国《金融时报》推荐读物!)
》
售價:NT$
352.0
《
认知行为疗法:心理咨询的顶层设计
》
售價:NT$
454.0
《
FANUC工业机器人装调与维修
》
售價:NT$
454.0
|
內容簡介: |
本书是畅销书升级版,向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的成果,并以模块化的方式进行组织。本书着重介绍了机器学习在搜索引擎中的应用,包括中文分词、聚类、分类等核心的机器学习算法,并结合示例加以介绍和分析,使读者可以更好地理解机器学习在搜索引擎中的价值;同时,阐述了大数据给搜索引擎带来的新特性,结合目前大数据分析的主流工具,在搜索引擎中构建知识图谱,以及进行日志反馈学习,可以使得搜索引擎更加智能。本书不仅适合作为互联网行业从业者的技术参考书,也适合作为搜索引擎爱好者的参考读物。
|
關於作者: |
刘凡平,硕士,毕业于中国科学技术大学软件系统设计专业。曾任职微软亚太研发集团、百度(中国)有限公司。现任薇问(北京)科技有限公司首席技术官,负责搜索引擎技术与大数据人工智能平台研发工作。擅长搜索引擎、大数据分析、分布式计算等相关研发工作,是Iveely开源搜索引擎的主要贡献者之一。
|
目錄:
|
第1章?引论1
1.1?搜索引擎的过去1
1.2?搜索引擎的现在2
1.3?搜索引擎的未来4
1.4?大数据与搜索引擎6
1.4.1?搜索价值提升6
1.4.2?用户价值提升7
1.5?大数据与人工智能7
1.5.1?人工智能的发展7
1.5.2?人工智能技术9
1.6 搜索引擎与人工智能11
1.7?本章小结13
第2章?搜索引擎原理与技术14
2.1?基本工作原理14
2.2?基本模块结构15
2.2.1?网络爬虫服务16
2.2.2?索引服务17
2.2.3?缓存服务18
2.2.4?搜索服务19
2.2.5?日志服务21
2.3?技术概要22
2.3.1?自然语言处理22
2.3.2?知识图谱23
2.3.3?海量数据存储25
2.3.4?分布式计算27
2.3.5?搜索排序28
2.4 开源技术29
2.4.1 Apache Lucene29
2.4.2 Apache Nutch31
2.4.3 Sphinx32
2.4.4 Elastic Search34
2.5?本章小结36
第3章?自然语言处理框架37
3.1?英文分词37
3.2?中文分词39
3.2.1?中文分词概述39
3.2.2?基于词库的分词技术40
3.2.3?基于条件随机场模型的中文分词42
3.2.4?分词粒度49
3.3?词性标注50
3.3.1?隐马尔科夫模型概要51
3.3.2?隐马尔科夫模型与词性标注52
3.4?语义相似度60
3.5?依存句法分析62
3.5.1?依存句法分析概要62
3.5.2?依存句法分析实现65
3.6?情感倾向分析68
3.7?文档关键词提取70
3.7.1?文档关键词提取概述70
3.7.2?基于TF-IDF算法71
3.7.3?基于TextRank算法73
3.8?文档句子相似度分析76
3.8.1?句子相似度77
3.8.2?文档相似度79
3.9?文档核心句提取80
3.10?文本的分类与聚类83
3.10.1?文本分类84
3.10.2?文本聚类89
3.11?语种检测96
3.12?本章小结98
第4章?构建大数据存储引擎99
4.1?架构体系100
4.1.1?结构概要100
4.1.2?服务器上线103
4.1.3?服务器下线103
4.1.4?数据读取104
4.2?数据存储模型105
4.3?数据压缩107
4.4?负载均衡108
4.5?数据存储逻辑视图111
4.6?本章小结114
第5章?构建分布式实时计算115
5.1?概述115
5.2?设计架构117
5.2.1?设计思想117
5.2.2?基本框架119
5.3?运行模式121
5.4?负载均衡122
5.5?通信设计123
5.5.1?基本方式124
5.5.2?分布式远程服务调用124
5.6?容灾恢复125
5.7?数据容错原理126
5.8?数据处理设计示例128
5.9?本章小结129
第6章?分布式可扩展爬虫130
6.1?爬虫体系架构130
6.1.1?主从分布式结构爬虫131
6.1.2?对等分布式结构爬虫131
6.1.2?基于分布式计算平台爬虫132
6.2?网页解析133
6.2.1?状态码处理134
6.2.2?链接去重134
6.2.3?广告识别136
6.2.4?网站地图139
6.2.5?非网页数据获取140
6.2.6?网页去重141
6.2.7?链接提取145
6.2.8?爬虫协议146
6.3?网页结构化148
6.3.1?网页的编码信息148
6.3.2?网页的正文信息149
6.3.3?网页的关键词信息153
6.3.4?网页的标题153
6.3.5?网页的发布时间155
6.3.6?网页的语言检测155
6.3.7?其他结构化数据156
6.4?网页抓取策略157
6.5?爬虫权限应对158
6.6?深网抓取161
6.7?抓取更新策略162
6.8?本章小结164
第7章?大数据构建知识图谱165
7.1?概述165
7.1.1 开放知识图谱165
7.1.2 知识图谱与认知智能167
7.1.3 图数据库:Neo4j168
7.1.4 资源描述框架:RDF172
7.2?搜索引擎与知识图谱174
7.3?可靠数据源选择176
7.4?实体抽取177
7.5?关系抽取178
7.5.1?关系抽取概述179
7.5.2?隐藏关系抽取180
7.5.3?结构化确定关系抽取183
7.5.4?非结构化确定关系抽取185
7.6?知识图谱检测190
7.6.1?实体关系修正190
7.6.2?实体对齐191
7.6.3?实体歧义分析193
7.7?知识推理与知识计算194
7.7.1?知识推理194
7.7.2?知识计算195
7.8?知识聚类198
7.9?智能搜索实现200
7.9.1?模式匹配200
7.9.2?知识拆解201
7.9.3?合并求解203
7.10?智能搜索扩展205
7.10.1?常识性智能搜索205
7.10.2?实时信息智能搜索206
7.10.3?可交互式智能搜索207
7.11 知识图谱应用208
7.11.1 问答系统208
7.11.2 情报分析211
7.11.3 智慧医疗214
7.11.4 推荐系统215
7.12?本章小结217
第8章?索引构建机制218
8.1?倒排索引218
8.1.1?倒排索引概述219
8.1.2?索引结构220
8.1.3?构建过程222
8.1.4?排序规则223
8.1.5?索引压缩224
8.1.6?更新策略230
8.2?分布式存储230
8.2.1?存储划分方式231
8.2.2?存储平衡策略232
8.3?存储索引237
8.3.1?二叉搜索树238
8.3.2?B树239
8.3.3?B 树241
8.3.4?B 树与文件索引242
8.4?字典树索引244
8.4.1?字典树索引概述245
8.4.2?字典树索引构建247
8.4.3?字典树查询优化249
8.5?本章小结250
第9章?搜索服务构建251
9.1?概述251
9.1.1?体系结构251
9.1.2?七何分析法252
9.1.3?搜索语法253
9.1.4?相关性排序255
9.1.5?不安全信息过滤259
9.2?大数据分布式缓存263
9.2.1?缓存结构设计263
9.2.2?缓存更新策略264
9.3?文本纠错算法265
9.3.1?中文文本纠错265
9.3.2?英文文本纠错269
9.4?结果显示算法270
9.4.1?动态摘要271
9.4.2?关键词高亮算法274
9.4.3?网页快照278
9.5?搜索智能提示278
9.6?网页排序282
9.6.1?基于PageRank的网页重要性评价282
9.6.2?基于HITS算法的网页权威性评价285
9.6.3?HillTop算法287
9.6.4?网页作弊评价288
9.6.5?网页排序调试291
9.7?个性化搜索292
9.7.1?个性化搜索示例292
9.7.2?BP神经网络与个性化搜索293
9.7.3?地理位置搜索294
9.8?图片搜索299
9.8.1?基于内容的图片搜索299
9.8.2?基于文本的图片搜索300
9.9?搜索与广告302
9.9.1?广告投放策略303
9.9.2?基于User-Based协同过滤的广告投放303
9.9.3?基于Item-Based协同过滤的广告投放305
9.9.4?基于混合模式的广告投放306
9.9.5?广告投放评价307
9.10?搜索引擎评价310
9.10.1?搜索引擎评价概述310
9.10.2?基于准确率、召回率及F值评价311
9.10.3?归一化折扣累计增益313
9.11?本章小结316
第10章?基于用户日志的反馈学习318
10.1?基于用户搜索词语的分析318
10.1.1?发现搜索词的价值319
10.1.2?发现不明意图下的用户行为320
10.2?基于用户点击日志的分析321
10.2.1?时间与搜索意图的关系321
10.2.2?地理位置与搜索意图的关系322
10.2.3?点击日志与同义词324
10.2.4?点击日志与词语权重325
10.2.5?点击日志与新词分类326
10.2.6?点击日志与知识图谱328
10.2.7?点击日志与网页重排序329
10.2.8?点击日志与网页评价331
10.3?基于用户的特征分析332
10.3.1?用户跟踪333
10.3.2?用户群体特征334
10.3.3?用户个体特征336
10.4?本章小结337
致谢338
|
|