登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

『簡體書』搜索引擎技术与发展

書城自編碼: 3569254
分類: 簡體書→大陸圖書→計算機/網絡计算机理论
作者: 罗刚
國際書號(ISBN): 9787121398032
出版社: 电子工业出版社
出版日期: 2020-10-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 545

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
女人的胜利
《 女人的胜利 》

售價:NT$ 255.0
数据有道:数据分析+图论与网络+微课+Python编程(鸢尾花数学大系:从加减乘除到机器学习)
《 数据有道:数据分析+图论与网络+微课+Python编程(鸢尾花数学大系:从加减乘除到机器学习) 》

售價:NT$ 1214.0
500万次倾听:陪伤心的人聊聊
《 500万次倾听:陪伤心的人聊聊 》

售價:NT$ 245.0
英国商业500年(见证大国崛起与企业兴衰,启迪未来商业智慧。)
《 英国商业500年(见证大国崛起与企业兴衰,启迪未来商业智慧。) 》

售價:NT$ 367.0
万千心理·儿童心理治疗中的心智化:临床实践指导
《 万千心理·儿童心理治疗中的心智化:临床实践指导 》

售價:NT$ 398.0
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
《 自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环) 》

售價:NT$ 301.0
周易
《 周易 》

售價:NT$ 203.0
东南亚的传统与发展
《 东南亚的传统与发展 》

售價:NT$ 306.0

內容簡介:
本书主要介绍如何使用Java语言开发搜索引擎,包括搜索引擎技术入门,使用Java开发网络爬虫,实现从文档中提取索引内容,中文分词的原理与实现,在Linux服务器端开发Solr应用,Spring Boot微服务框架实现的后端,以及React框架实现的前端等内容。 第1章主要介绍各种类型的搜索引擎和开发搜索引擎可以借助的软件工具;第2章主要介绍网络爬虫开发和数据存储;第3章主要介绍从HTML文件中提取文本,以及从PDF、Word等非HTML文件中提取文本;第4章主要介绍Lucene中的中文分析器的原理与实现;第5章主要介绍Solr索引库的创建与维护,以及Solr的查询解析器;第6章主要介绍Web方式搜索结果界面的实现;第7章主要介绍如何使用SolrCloud实现分布式搜索。
關於作者:
猎兔搜索技术创始人曾经担任国防大学科研处 技术顾问工信部 舆情开发顾问东南大学 社会导师首都师范大学 金融课程讲师北京石油化工学院 社会导师北大光华管理学院 技术顾问蓝汛公司搜索集群技术咨询顾问新东方 创新研究院 研究员
目錄
第1章 遍历搜索引擎技术 1
1.1 快速上手搜索引擎 1
1.1.1 准备工作环境 1
1.1.2 生成索引 3
1.1.3 关键词查询 8
1.1.4 实现搜索界面 10
1.2 搜索语法 22
1.3 你也可以做搜索引擎 24
1.4 搜索引擎的基本技术 25
1.4.1 网络爬虫 25
1.4.2 全文索引结构 26
1.4.3 Solr全文检索引擎 27
1.4.4 Nutch网络搜索软件 27
1.4.5 用户界面 28
1.5 商业搜索引擎技术概述 29
1.5.1 通用搜索 30
1.5.2 垂直搜索 30
1.5.3 站内搜索 31
1.6 本章小结 32
第2章 获得海量数据 34
2.1 自己的网络爬虫 34
2.1.1 使用URL访问网络资源 34
2.1.2 重试 37
2.1.3 网络爬虫的遍历与实现 44
2.1.4 多线程爬虫 48
2.1.5 Log4j2日志 49
2.1.6 存储URL地址 51
2.1.7 定向采集 57
2.1.8 暗网抓取 58
2.1.9 Selenium抓取动态页面 59
2.1.10 图片抓取 61
2.2 数据存储 62
2.2.1 写入文件 63
2.2.2 Jdbi写入数据库 63
2.3 本地部署 66
2.4 本章小结 66
第3章 提取文档中的文本内容 68
3.1 从HTML文件中提取文本 68
3.1.1 使用HTMLParser实现定向抓取 71
3.1.2 结构化信息提取 80
3.1.3 网页的DOM结构 83
3.1.4 网页去噪 85
3.1.5 正文提取 87
3.2 从非HTML文件中提取文本 92
3.2.1 PDF文件 95
3.2.2 Word文件 96
3.2.3 Rtf文件 98
3.2.4 Excel文件 98
3.2.5 PowerPoint文件 99
3.2.6 从图片中提取文本 100
3.3 流媒体内容提取 101
3.3.1 音频流内容提取 101
3.3.2 视频流内容提取 102
3.4 本章小结 103
第4章 中文分词 104
4.1 Lucene中的中文分词 104
4.2 中文分词的原理 105
4.3 查找词典算法 106
4.4 句子切分 112
4.5 有限状态机识别未登录串 113
4.6 最大概率分词方法 117
4.7 N元分词方法 125
4.7.1 二元词典 125
4.7.2 二元分词 135
4.7.3 开发中文分析器 139
4.8 新词发现 150
4.9 命名实体识别 152
4.9.1 人名识别 152
4.9.2 组织机构名称识别 160
4.9.3 化学物质识别 161
4.10 词性标注 162
4.11 平滑算法 173
4.12 地名切分 176
4.13 本章小结 182
第5章 Solr服务器端开发 183
5.1 在Linux操作系统中安装Solr 183
5.2 创建和维护索引库 186
5.3 索引本地硬盘上的文件 191
5.4 使用Bean索引文档 192
5.5 更新索引库中的索引文档 194
5.6 删除数据 195
5.7 检测索引 195
5.8 查询解析器 196
5.9 本章小结 196
第6章 用户界面的设计与实现 197
6.1 Solr搜索接口(search代码) 197
6.2 搜索页面设计 198
6.2.1 用于显示搜索结果的模板 200
6.2.2 搜索结果分页 202
6.2.3 测试搜索结果页 215
6.2.4 界面国际化 216
6.2.5 用于Solr的Spring Data 219
6.2.6 Spring-HATEOAS实现REST架构 221
6.3 实现搜索接口 224
6.3.1 基本查询 224
6.3.2 布尔搜索 226
6.3.3 指定范围搜索 226
6.3.4 搜索结果排序 227
6.4 实现聚合 228
6.5 实现相似文档搜索 234
6.6 实现自动完成 235
6.6.1 总体结构 236
6.6.2 服务器端处理 236
6.6.3 自动完成客户端 238
6.7 搜索日志 244
6.8 React框架 247
6.9 本章小结 251
第7章 Solr分布式搜索 252
7.1 使用Solr实现分布式搜索 252
7.1.1 使用SolrCloud 252
7.1.2 分片 254
7.1.3 管理集群 254
7.1.4 SolrCloud工作原理 255
7.1.5 ZooKeeper分布式协调器 256
7.2 Jenkins持续集成 258
7.3 本章小结 259
参考文献 260
內容試閱
目前,搜索引擎技术逐渐成熟,而开源项目LuceneSolr一直处于发展之中。本书主要介绍使用Java语言和Solr开发搜索引擎的应用。
第1章主要介绍各种类型的搜索引擎和开发搜索引擎可以借助的软件工具;第2章主要介绍网络爬虫开发和数据存储;第3章主要介绍从HTML文件中提取文本,以及从PDF、Word等非HTML文件中提取文本;第4章主要介绍Lucene中的中文分析器的原理与实现;第5章主要介绍Solr索引库的创建与维护,以及Solr的查询解析器;第6章主要介绍Web方式搜索结果界面的实现;第7章主要介绍如何使用SolrCloud实现分布式搜索。
本书相关的参考软件和代码在读者QQ群(166015123)的共享文件中可以找到。本书介绍的一些专门的技术可以在与本书相关的QQ群中交流讨论,这些技术群包括Solr技术群(301075975)、Selenium技术群(316527581)、POI Word开发技术群(592272003)、PDFBox技术群(435512716)、SpringBoot技术群(587682878)。
在此对早期合著者、合作伙伴、员工、学员、读者,以及开源项目LuceneSolr的开发者表示感谢。
本书可作为具体实现搜索引擎的程序员的参考用书,同时对机器学习等相关领域的研究人员也有一定的参考价值。另外,猎兔搜索技术团队已经开发出与本书相关的培训课程和商业软件。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.