新書推薦:
《
刻意练习不生气
》
售價:NT$
179.0
《
大宋理财:青苗法与王安石的金融帝国(全彩插图本)
》
售價:NT$
500.0
《
安全感是内心长出的盔甲
》
售價:NT$
305.0
《
快人一步:系统性能提高之道
》
售價:NT$
505.0
《
我们为什么会做梦:让梦不再神秘的新科学
》
售價:NT$
352.0
《
算法图解(第2版)
》
售價:NT$
356.0
《
科学的奇幻之旅
》
售價:NT$
352.0
《
画艺循谱:晚明的画谱与消闲
》
售價:NT$
653.0
|
內容簡介: |
本书包括9个模块,分别为部署数据仓库环境、创建数据仓库文件、管理仓库表中的数据、管理分区表中的数据、分析和导出仓库数据、应用函数统计分析、迁移平台数据方法、调优数据仓库性能、数据仓库应用实战。编者秉持“以提升学生能力为本”的编写理念,基于工作过程导向重构课程体系,采用情景导入式和问题导入式教学模式,联合企业遴选4个不同应用场景的大数据分析项目,设计24个循序渐进的任务,按照“学习目标→任务分析→技术准备→任务实施→任务小结→模块总结→实践创新→检测反馈”结构编写,引导学生“照样做”“模仿做”“独立做”“创新做”。本书既可作为高职高专院校大数据技术专业的教材,又可作为培训机构的教学用书,还可作为大数据技术行业技术人员的参考用书。
|
關於作者: |
王海霞,女,湖南省技术能手,数据库系统工程师,二级技师,湖南省大数据技术专业教学资源库核心成员,全国职业院校技能大赛”优秀指导老师”,主持省级教育教学改革研究项目——”新工科”背景下大数据技术与应用专业交融型课程体系构建研究—以《Hive数据仓库》在线课程为例。
|
目錄:
|
目录 项目模块1 部署数据仓库环境001 任务1.1 部署Hive系统002 1.1.1 Hive的系统架构002 1.1.2 Hive的工作原理004 1.1.3 Hive和传统数据库的区别005 1.1.4 检查及配置Hadoop006 1.1.5 安装和配置Hive013 1.1.6 配置MySQL存储Hive元数据015 任务1.2 操作Hive CLI019 1.2.1 Hive CLI的自动补全功能019 1.2.2 Hive CLI中命令的格式019 1.2.3 在Hive CLI中执行Hadoop的dfs命令020 1.2.4 Hive CLI中的变量和属性021 1.2.5 使用Hive中的-e(一次使用)命令026 1.2.6 使用Hive中的-f命令执行脚本027 1.2.7 设置.hiverc默认配置文件028 1.2.8 查看操作命令历史029 模块总结029 实践创新030 检测反馈031 项目模块2 创建数据仓库文件033 任务2.1 创建数据仓库034 2.1.1 数据仓库分层034 2.1.2 数据仓库文件的存储路径036 2.1.3 数据仓库的创建036 2.1.4 设计“大数据商业智能选址”项目的数据仓库038 2.1.5 创建“大数据商业智能选址”项目运营层数据仓库040 2.1.6 创建“大数据商业智能选址”项目仓库层数据仓库040 任务2.2 查询和管理数据仓库041 2.2.1 数据仓库的查询042 2.2.2 数据仓库的切换042 2.2.3 数据仓库的查看043 2.2.4 数据仓库的存储位置043 2.2.5 查询“大数据商业智能选址”项目的数据仓库的列表045 2.2.6 查询“大数据商业智能选址”项目的数据仓库的详细信息046 任务2.3 修改和删除数据仓库046 2.3.1 数据仓库的修改047 2.3.2 数据仓库的删除048 2.3.3 修改“大数据商业智能选址”项目运营层数据仓库的属性049 2.3.4 修改“大数据商业智能选址”项目仓库层数据仓库的属性049 2.3.5 删除coursedb数据仓库050 模块总结051 实践创新051 检测反馈053 项目模块3 管理仓库表中的数据055 任务3.1 创建数据表056 3.1.1 Hive中的数据类型057 3.1.2 表的创建058 3.1.3 表的管理062 3.1.4 其他创建表的方式063 3.1.5 数据表属性065 3.1.6 数据表存储格式066 3.1.7 构建“大数据商业智能选址”项目的逻辑模型068 3.1.8 创建“大数据商业智能选址”项目的ods_site数据仓库的非分 区表071 3.1.9 创建“大数据商业智能选址”项目的dwd_site数据仓库中的表075 任务3.2 修改和删除数据表077 3.2.1 修改表078 3.2.2 删除表081 3.2.3 修改“大数据商业智能选址”项目的ods_site数据仓库中的表083 任务3.3 导入数据到表中084 3.3.1 使用LOAD DATA语句导入数据084 3.3.2 使用INSERT...SELECT语句导入数据087 3.3.3 使用IMPORT语句导入数据089 3.3.4 使用CTAS语句导入数据089 3.3.5 使用INSERT INTO TABLE...VALUES语句导入数据090 3.3.6 将源数据导入“大数据商业智能选址”项目的ods_site数据仓库的 非分区表中091 模块总结093 实践创新094 检测反馈095 项目模块4 管理分区表中的数据097 任务4.1 创建和管理分区表098 4.1.1 创建分区表098 4.1.2 管理分区表101 4.1.3 查看分区信息101 4.1.4 创建“大数据商业智能选址”项目的分区表103 任务4.2 导入数据到分区表中106 4.2.1 在静态分区中导入数据106 4.2.2 在动态分区中导入数据108 4.2.3 混合使用动态分区和静态分区导入数据109 4.2.4 将源数据导入“大数据商业智能选址”项目的ods_site数据仓库的 分区表中111 任务4.3 修改和删除分区113 4.3.1 添加分区113 4.3.2 修改分区路径115 4.3.3 修改分区字段名116 4.3.4 删除分区117 4.3.5 修改“大数据商业智能选址”项目的ods_site数据仓库中的 分区表118 模块总结120 实践创新121 检测反馈122 项目模块5 分析和导出仓库数据124 任务5.1 分析仓库数据125 5.1.1 SELECT语句126 5.1.2 LIMIT子句130 5.1.3 SELECT嵌套语句130 5.1.4 CASE分支表达式131 5.1.5 WHERE子句132 5.1.6 GROUP BY子句和HAVING子句136 5.1.7 JOIN连接140 5.1.8 排序子句144 5.1.9 分析统计“大数据商业智能选址”项目的DWD层数据149 5.1.10 分析统计“大数据商业智能选址”项目的DM层已建址银行 要素值153 5.1.11 分析过滤“大数据商业智能选址”项目的DM层不可建址 区域158 任务5.2 导出仓库数据161 5.2.1 使用INSERT...SELECT语句导出数据161 5.2.2 使用EXPORT语句导出数据164 5.2.3 使用-e重定向命令导出数据166 5.2.4 使用dfs -get命令导出数据166 5.2.5 导出“大数据商业智能选址”项目的dwd_site数据仓库中的 数据167 模块总结169 实践创新170 检测反馈171 项目模块6 应用函数统计分析173 任务6.1 应用Hive内置函数174 6.1.1 初识Hive函数174 6.1.2 Hive函数的分类175 6.1.3 聚合函数176 6.1.4 集合函数178 6.1.5 数学函数179 6.1.6 类型转换函数180 6.1.7 日期函数181 6.1.8 条件函数182 6.1.9 字符串函数184 6.1.10 表生成函数190 任务6.2 应用Hive自定义函数191 6.2.1 自定义函数的特点192 6.2.2 新建Maven项目环境192 6.2.3 编写UDF的Java代码194 6.2.4 将UDF部署到Hive环境中196 6.2.5 应用UDF198 模块总结199 实践创新200 检测反馈201 项目模块7 迁移平台数据方法203 任务7.1 部署和配置Sqoop204 7.1.1 Sqoop介绍204 7.1.2 Sqoop架构205 7.1.3 部署Sqoop206 7.1.4 配置Sqoop207 任务7.2 应用Sqoop迁移数据209 7.2.1 Sqoop常用命令209 7.2.2 Sqoop数据迁移方式210 7.2.3 将Hive表数据迁移到MySQL中211 7.2.4 将MySQL表数据迁移到Hive中214 模块总结220 实践创新220 检测反馈221 项目模块8 调优数据仓库性能224 任务8.1 调优Hive参数225 8.1.1 配置本地模式225 8.1.2 配置严格模式227 8.1.3 配置动态分区228 8.1.4 配置并行执行229 8.1.5 配置Fetch抓取229 8.1.6 配置合并文件230 任务8.2 调优Hive存储231 8.2.1 调优文件存储232 8.2.2 调优数据压缩232 任务8.3 调优HiveQL语句234 8.3.1 配置列裁剪235 8.3.2 配置分区裁剪235 8.3.3 配置MapJoin236 8.3.4 配置GROUP BY236 8.3.5 调优表设计237 模块总结237 实践创新238 检测反馈239 项目模块9 数据仓库应用实战241 任务9.1 设计数据仓库242 9.1.1 分析原始数据格式242 9.1.2 创建数据仓库及数据表245 任务9.2 导入数据到联通运营商数据仓库中248 9.2.1 导入数据249 9.2.2 验证导入结果249 任务9.3 清洗联通运营商数据251 9.3.1 删除重复数据251 9.3.2 处理缺失值253 9.3.3 衍生新指标255 9.3.4 删除无效字段256 9.3.5 归集数据256 任务9.4 统计分析联通运营商数据259 9.4.1 统计用户的年龄情况259 9.4.2 统计用户的发展渠道260 9.4.3 统计不同活动类型的用户数量261 9.4.4 统计用户使用短信情况261 模块总结262 实践创新263 检测反馈264 附录A “大数据智慧旅游”产品的背景266 附录B “大数据智慧旅游”项目的背景270 附录C “大数据智慧旅游”项目的数据处理流程272 附录D “大数据智慧旅游”项目的逻辑模型设计274
|
|