登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2024年11月出版新書

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

『簡體書』企业级大数据项目实战:用户搜索行为分析系统从0到1

書城自編碼: 3881337
分類: 簡體書→大陸圖書→計算機/網絡數據庫
作者: 张伟洋
國際書號(ISBN): 9787302630906
出版社: 清华大学出版社
出版日期: 2023-06-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 454

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
根源、制度和秩序:从老子到黄老学(王中江著作系列)
《 根源、制度和秩序:从老子到黄老学(王中江著作系列) 》

售價:NT$ 550.0
索恩丛书·北宋政治与保守主义:司马光的从政与思想(1019~1086)
《 索恩丛书·北宋政治与保守主义:司马光的从政与思想(1019~1086) 》

售價:NT$ 345.0
掌故家的心事
《 掌故家的心事 》

售價:NT$ 390.0
农为邦本——农业历史与传统中国
《 农为邦本——农业历史与传统中国 》

售價:NT$ 340.0
郊庙之外:隋唐国家祭祀与宗教 增订版 (三联·哈佛燕京学术丛书)
《 郊庙之外:隋唐国家祭祀与宗教 增订版 (三联·哈佛燕京学术丛书) 》

售價:NT$ 480.0
小麦文明:“黄金石油”争夺战
《 小麦文明:“黄金石油”争夺战 》

售價:NT$ 445.0
悬壶杂记全集:老中医多年临证经验总结(套装3册) 中医医案诊疗思路和处方药应用
《 悬壶杂记全集:老中医多年临证经验总结(套装3册) 中医医案诊疗思路和处方药应用 》

售價:NT$ 614.0
无法忍受谎言的人:一个调查记者的三十年
《 无法忍受谎言的人:一个调查记者的三十年 》

售價:NT$ 290.0

建議一齊購買:

+

NT$ 403
《 Spark入门与大数据分析实战 》
+

NT$ 611
《 SQL实践教程(第10版) 》
+

NT$ 194
《 Access2016数据库应用实验教程 》
+

NT$ 509
《 从0到1 MySQL即学即用 》
+

NT$ 440
《 图解SQL—数据库语言轻松入门 》
+

NT$ 594
《 MySQL是怎样运行的 从根儿上理解MySQL 》
編輯推薦:
《企业级大数据项目实战:用户搜索行为分析系统从0到1》由业界资深大数据专家执笔,以实际项目为主线,涵盖了当前流行的大数据技术,技术新颖,以提升实用技能为目标。
针对项目各模块详细介绍相关的技术、工具与开发技巧,可帮助读者积累企业级项目经验。
《企业级大数据项目实战:用户搜索行为分析系统从0到1》很适合缺乏项目经验的大数据开发人员阅读,也很适合培训机构和高校实践课程的教学用书。
內容簡介:
《企业级大数据项目实战:用户搜索行为分析系统从0到1》基于真实业务场景,以项目导向为主线,从0到1全面介绍“企业级大数据用户搜索行为分析系统”的搭建过程。全书共6章,第1章讲解项目需求与架构设计,详细阐述项目数据流与系统架构;第2章介绍大数据项目开发环境配置,手把手带领读者配置操作系统、Hadoop集群与相关工具,为后续项目实施打下基础;第3~5章逐步实现项目需求,第3章讲解“用户行为数据采集模块”的开发,第4章讲解“用户行为数据离线分析模块”的开发,第5章讲解“用户行为数据实时分析模块”的开发,这3章采用项目导向的方式,让读者参与实际开发过程;第6章讲解“数据可视化模块”的开发,并整合各模块,测试数据流转,完成项目的开发与部署。 《企业级大数据项目实战:用户搜索行为分析系统从0到1》项目源自真实业务场景,目的是使读者通过实际项目来理解理论知识并提高实践能力。本书适合缺乏大数据项目经验的从业者阅读,也适合作为高等院校大数据专业的教学用书。
關於作者:
张伟洋,从业近10年,大数据领域资深专家,拥有多年知名互联网公司软件研发经验,曾在互联网旅游公司任软件研发事业部经理。目前从事大数据项目讲师工作,先后多次为各大高校举行大数据专题讲座,对Hadoop及周边大数据框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有着深入的研究。已出版《Flink大数据分析实战》《Hadoop 3.x大数据实战》等图书。
目錄
第 1 章 项目需求描述 1
1.1 项目需求 1
1.2 项目数据流设计 2
1.3 项目架构设计 3
1.4 集群角色规划 6
1.5 项目开发环境介绍 7
第 2 章 项目开发环境准备 9
2.1 VMware中安装CentOS 7操作系统 9
2.1.1 下载CentOS 7镜像文件 10
2.1.2 VMware新建虚拟机 12
2.1.3 安装CentOS 7 16
2.1.4 启动CentOS 7 21
2.1.5 打开Shell终端 22
2.2 Linux系统环境配置 22
2.2.1 新建用户 23
2.2.2 修改用户权限 23
2.2.3 关闭防火墙 24
2.2.4 设置固定IP 24
2.2.5 修改主机名 28
2.2.6 新建资源目录 28
2.3 安装JDK 29
2.4 克隆虚拟机 30
2.5 配置主机IP映射 33
2.6 配置集群各节点SSH无密钥登录 34
2.6.1 SSH无密钥登录原理 34
2.6.2 SSH无密钥登录操作步骤 35
2.7 搭建Hadoop分布式集群 36
2.7.1 搭建思路 37
2.7.2 搭建Hadoop集群 37
2.8 动手练习 45
第 3 章 用户行为数据采集模块开发 46
3.1 用户行为数据来源 47
3.1.1 构建测试数据 47
3.1.2 数据预处理 48
3.2 使用Flume采集用户行为数据 48
3.2.1 Flume采集架构 49
3.2.2 Flume组件 51
3.2.3 Flume的安装与测试 52
3.2.4 配置Flume多节点数据采集 55
3.3 使用Kafka中转用户行为数据 57
3.3.1 ZooKeeper集群的搭建 58
3.3.2 ZooKeeper集群的启动与连接 60
3.3.3 Kafka集群的搭建 61
3.3.4 Kafka集群的启动与查看 63
3.3.5 Kafka主题操作 64
3.4 Flume数据实时写入Kafka 67
3.4.1 数据流架构 67
3.4.2 配置centos03节点的Flume 67
3.4.3 启动Flume 68
3.4.4 测试数据流转 69
3.5 使用HBase存储用户行为数据 69
3.5.1 HBase集群的架构 70
3.5.2 HBase集群的搭建 73
3.5.3 HBase集群的启动、查看与停止 75
3.5.4 测试HBase数据表操作 77
3.5.5 创建HBase用户行为表结构 80
3.6 Flume数据实时写入HBase 81
3.6.1 数据流架构 81
3.6.2 配置centos03节点的Flume 81
3.6.3 Flume写入HBase原理分析 83
3.6.4 用户行为日志匹配测试 84
3.6.5 启动Flume 85
3.6.6 测试数据流转 86
3.7 动手练习 87
第 4 章 用户行为数据离线分析模块开发 88
4.1 Hive安装 88
4.1.1 Hive内嵌模式安装 89
4.1.2 Hive本地模式安装 92
4.1.3 Hive远程模式安装 94
4.2 Hive数据库操作 97
4.2.1 创建数据库 97
4.2.2 修改数据库 97
4.2.3 选择数据库 99
4.2.4 删除数据库 99
4.2.5 显示数据库 99
4.3 Hive表操作 100
4.3.1 内部表操作 101
4.3.2 外部表操作 105
4.4 Hive离线分析用户行为数据 107
4.4.1 创建用户行为表并导入数据 107
4.4.2 统计前10个访问量最高的用户ID及访问数量 108
4.4.3 分析链接排名与用户点击的相关性 109
4.4.4 分析一天中上网用户最多的时间段 109
4.4.5 查询用户访问最多的前10个网站域名 110
4.5 Hive集成HBase分析用户行为数据 110
4.5.1 Hive集成HBase的原理 111
4.5.2 Hive集成HBase的配置 111
4.5.3 Hive分析HBase用户行为表数据 112
4.6 Spark集群的搭建 114
4.6.1 应用提交方式 114
4.6.2 搭建集群 116
4.7 Spark应用程序的提交 118
4.7.1 spark-submit工具的使用 118
4.7.2 执行Spark圆周率程序 119
4.7.3 Spark Shell的启动 120
4.8 Spark RDD算子运算 121
4.8.1 Spark RDD特性 121
4.8.2 创建RDD 123
4.8.3 转换算子运算 124
4.8.4 行动算子运算 130
4.9 使用IntelliJ IDEA创建Scala项目 131
4.9.1 在IDEA中安装Scala插件 132
4.9.2 创建Scala项目 133
4.10 Spark WordCount项目的创建与运行 134
4.10.1 创建Maven管理的Spark项目 135
4.10.2 编写WordCount程序 137
4.10.3 提交WordCount程序到集群 138
4.10.4 查看Spark WebUI 139
4.10.5 查看程序执行结果 141
4.11 Spark RDD读写HBase 141
4.11.1 读取HBase表数据 142
4.11.2 写入HBase表数据 144
4.12 使用Spark SQL实现单词计数 151
4.12.1 Spark SQL编程特性 151
4.12.2 Spark SQL的基本使用 153
4.12.3 Spark SQL实现单词计数 155
4.13 Spark SQL数据源操作 159
4.13.1 基本操作 159
4.13.2 Parquet文件 164
4.13.3 JSON数据集 166
4.13.4 Hive表 167
4.13.5 JDBC 169
4.14 Spark SQL与Hive整合分析 170
4.14.1 整合Hive 171
4.14.2 操作Hive 173
4.15 Spark SQL整合MySQL存储分析结果 175
4.15.1 MySQL数据准备 175
4.15.2 读取MySQL表数据 176
4.15.3 写入结果数据到MySQL表 177
4.16 Spark SQL热点搜索词统计 179
4.16.1 开窗函数的使用 179
4.16.2 热点搜索词统计实现 181
4.17 Spark SQL搜索引擎每日UV统计 184
4.17.1 内置函数的使用 184
4.17.2 搜索引擎每日UV统计实现 186
4.18 动手练习 187
第 5 章 用户行为数据实时分析模块开发 189
5.1 Spark Streaming程序编写 189
5.1.1 Spark Streaming工作原理 189
5.1.2 输入DStream和Receiver 191
5.1.3 第一个Spark Streaming程序 191
5.2 Spark Streaming数据源 193
5.2.1 基本数据源 193
5.2.2 高级数据源 195
5.2.3 自定义数据源 196
5.3 DStream操作 199
5.3.1 无状态操作 199
5.3.2 状态操作 200
5.3.3 窗口操作 202
5.3.4 输出操作 203
5.3.5 缓存及持久化 205
5.3.6 检查点 205
5.4 Spark Streaming按批次累加单词数量 207
5.4.1 编写应用程序 207
5.4.2 运行应用程序 209
5.4.3 查看Spark WebUI 210
5.5 Spark Streaming整合Kafka计算实时单词数量 211
5.5.1 整合原理 212
5.5.2 编写应用程序 213
5.5.3 运行应用程序 216
5.6 Structured Streaming快速实时单词计数 217
5.7 Structured Streaming编程模型 220
5.8 Structured Streaming查询输出 221
5.8.1 输出模式 222
5.8.2 外部存储系统与检查点 223
5.9 Structured Streaming窗口操作 224
5.9.1 事件时间 225
5.9.2 窗口聚合单词计数 226
5.9.3 延迟数据和水印 229
5.10 Structured Streaming消费Kafka数据实现单词计数 232
5.11 Structured Streaming输出计算结果到MySQL 235
5.11.1 MySQL建库、建表 235
5.11.2 Structured Streaming应用程序的编写 236
5.11.3 打包与提交Structured Streaming应用程序 239
5.12 动手练习 242
第 6 章 数据可视化模块开发 244
6.1 IDEA搭建基于SpringBoot的Web项目 244
6.1.1 创建Maven项目 245
6.1.2 项目集成SpringBoot 246
6.2 WebSocket数据实时推送 249
6.2.1 WebSocket推送原理 249
6.2.2 项目集成WebSocket 249
6.2.3 创建JDBC查询工具类 250
6.2.4 创建WebSocket服务处理类 251
6.3 使用ECharts进行前端视图展示 253
6.4 多框架整合实时分析用户行为日志数据流 258
6.4.1 项目实时处理工作流程 258
6.4.2 模拟实时产生用户行为数据 259
6.4.3 集群数据流转 261
6.5 动手练习 264
內容試閱
当今互联网已进入大数据时代,大数据技术已广泛应用于各行各业。不同领域每天都会产生海量数据,数据计量单位已从TB发展到ZB,未来数据量还将爆发式增长。谷歌、阿里巴巴、百度、京东等互联网公司都急需掌握大数据技术的人才,目前这类人才出现了供不应求的状况。
市面上大数据相关的图书不少,但以真实项目贯穿全书来介绍技术和提升应用能力的并不多。事实上大数据技术涉及的内容和工具非常多,学习曲线也并不顺滑,而且仅仅了解理论知识但没有经过项目开发的检验,也无法很好地掌握这些知识。如何事半功倍地学习和掌握大数据技术,这正是本书编写的初衷。本书以实现一个“企业级大数据用户搜索行为分析系统”项目为导向,内容涵盖当前主流的大数据开发框架Hadoop、ZooKeeper、Kafka、Hive、HBase、Spark等。
本书借助真实业务场景,详解项目实现过程,插入案例分析与动手练习,帮助读者提高动手 能力。
本书内容
全书共6章,内容如下:
第1章讲解项目需求与架构设计,概览项目整体规划。
第2章讲解大数据项目开发之前对操作系统集群环境的配置,包括虚拟机的创建、CentOS 7操作系统的安装、Hadoop的安装等,手把手带领读者搭建项目所使用的大数据开发基础环境,为后续的项目实操打下坚实的基础。
第3~5章逐步实现项目需求。以项目为导向,讲解“用户行为数据采集模块”“用户行为数据离线分析模块”和“用户行为数据实时分析模块”的开发。
第6章讲解“数据可视化模块”的开发,并将所有模块整合到一起,测试数据的流转,最终完成了整个项目的开发与系统的搭建。
本书各章均采用手把手的教学方式,读者可以对照书中的步骤从0到1成功搭建属于自己的大数据分析系统。
本书特点
由一线资深大数据专家根据真实业务场景编撰,使用当前流行的大数据开发技术、工具和框架。
使用简明的语言进行描述,易于理解与实践。
以完整项目为主线,帮助读了解企业级项目的构建流程。
讲解项目开发的同时介绍相关理论知识,有助于读者查漏补缺,深入理解。
手把手教学,可以边学习边实践,有效提高实践能力。
学习本书的建议
推荐按章节顺序阅读并上机实操,因为后续章节是建立在前面的基础上的,这种循序渐进的方式能让读者更加容易地掌握大数据开发技能,并完成项目开发。
首先阅读第1、2章,了解项目的主要功能、技术架构与集群规划,以对项目有整体认识,学习搭建开发环境。
然后依次学习第3~6章。学习每章前,先了解操作目的与该章内容在项目中的位置,然后实操搭建环境,编写应用程序,如此效果更佳。
按书中步骤实操,便可成功搭建本书的大数据项目。搭建成功后,读者还可以举一反三,加入一些创意功能,以令本书项目更完善、功能更强大。读者也可在网站与他人讨论,互帮互助。
本书适合的读者
了解大数据框架,想通过项目实践提高技术应用水平的人员。
缺乏项目经验的大数据从业者。
培训机构与高校大数据专业的学生。
本书配套资源
本书还提供了源码和教学课件,读者可以扫描下面的二维码,按照页面提示把下载链接转发到自己的邮箱进行下载。如果在阅读本书的过程中发现问题,请用电子邮件联系booksaga@126.com,邮件主题写“企业级大数据项目实战:用户搜索行为分析系统从0到1”。

读者如对书中知识有疑问,可通过微信公众号“奋斗在IT”联系作者,该公众号提供Java大数据学习教程与视频资源。
因时间与水平限制,书中难免存在疏漏,欢迎读者批评指正。

张伟洋
2023.3

II 企业级大数据项目实战:用户搜索行为分析系统从0到1

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.