新書推薦:
《
伟大民族:从路易十五到拿破仑的法国史(方尖碑)
》
售價:NT$
857.0
《
古今“书画同源”论辨——中国书法与中国绘画的关系问题兼中国画笔墨研究
》
售價:NT$
602.0
《
《日本文学史序说》讲演录
》
售價:NT$
332.0
《
无尽的海洋:美国海事探险与大众文化(1815—1860)
》
售價:NT$
454.0
《
治盗之道:清代盗律的古今之辨
》
售價:NT$
556.0
《
甲骨文丛书·剑桥世界暴力史(第一卷):史前和古代世界(套装全2册)
》
售價:NT$
959.0
《
甲骨文丛书·中华早期帝国:秦汉史的重估
》
售價:NT$
1367.0
《
欲望与家庭小说
》
售價:NT$
449.0
|
編輯推薦: |
案例真实,开发过程完整。从数据采集、数据分析、数据可视化,完整展示大数据项目开发流程。符合高校实训需求,提供配套资源服务。
|
內容簡介: |
本书讲解了一个大数据综合项目——招聘网站职位分析。全书共分为6章,内容分别是项目概述、搭建大数据集群环境、数据采集、数据预处理、数据分析与数据可视化。 本书附有配套资源,包括源代码、教学设计、教学课件等资源。同时为了帮助初学者更好地学习本书内容,还提供了在线答疑,欢迎读者关注。 本书适用于高等院校本、专科计算机相关专业大数据项目实训课程的教学,书中的具体项目,有助于读者综合运用大数据课程知识及各种工具软件,实现大数据分析全流程操作。
|
關於作者: |
江苏传智播客教育科技股份有限公司(简称传智播客)是一家致力于培养高素质软件开发人才的科技公司,黑马程序员是传智播客旗下高端IT教育品牌。
|
目錄:
|
第1章项目概述1
1.1项目需求和目标1
1.2预备知识2
1.3项目架构设计及技术选取2
1.4开发环境和开发工具介绍3
1.5项目开发流程3
小结5
第2章搭建大数据集群环境6
2.1安装准备6
2.1.1虚拟机安装与克隆6
2.1.2虚拟机网络配置19
2.1.3SSH服务配置25
2.2Hadoop集群搭建31
2.2.1JDK安装31
2.2.2Hadoop安装33
2.2.3Hadoop集群配置35
2.2.4Hadoop集群测试39
2.2.5通过UI界面查看Hadoop
运行状态43
2.3Hive安装44
2.3.1Hive的安装模式44
2.3.2Hive的安装45
2.4Sqoop安装49
小结52
第3章数据采集53
3.1知识概要53
3.1.1数据源分类53
3.1.2HTTP请求过程543.1.3认识HttpClient57
3.2分析与准备57
3.2.1分析网页数据结构57
3.2.2数据采集环境准备59
3.3采集网页数据62
3.3.1创建响应结果JavaBean类62
3.3.2封装HTTP请求的工具类63
3.3.3封装存储在HDFS的工具类68
3.3.4实现网页数据采集70
小结72
目录大数据项目实战第4章数据预处理73
4.1分析预处理数据73
4.2设计数据预处理方案75
4.3实现数据的预处理76
4.3.1数据预处理环境准备76
4.3.2创建数据转换类77
4.3.3创建实现Map任务的Mapper类81
4.3.4创建并执行MapReduce程序83
4.4将数据预处理程序提交到集群中运行84
小结91
第5章数据分析92
5.1数据分析概述92
5.2Hive数据仓库92
5.2.1什么是Hive92
5.2.2设计Hive数据仓库93
5.2.3实现数据仓库95
5.3分析数据99
5.3.1职位区域分析99
5.3.2职位薪资分析100
5.3.3公司福利分析104
5.3.4职位技能要求分析105
小结106
第6章数据可视化107
6.1平台概述107
6.1.1系统介绍107
6.1.2系统架构107
6.2数据迁移108
6.2.1创建关系型数据库108
6.2.2通过Sqoop实现数据迁移110
6.3平台环境搭建112
6.3.1新建Maven项目112
6.3.2配置pom.xml文件114
6.3.3项目组织结构117
6.3.4编辑配置文件117
6.4实现图形化展示功能123
6.4.1实现职位区域分布展示124
6.4.2实现薪资分布展示128
6.4.3实现福利标签词云图132
6.4.4实现技能标签词云图137
6.4.5平台可视化展示141
小结142
|
內容試閱:
|
江苏传智播客教育科技股份有限公司(简称传智播客)是一家致力于培养高素质软件开发人才的科技公司。经过多年探索,传智播客的战略逐步完善,从IT教育培训发展到高等教育,从根本上解决以人为单位的系统教育培训问题,实现新的系统教育形态,构建出前后衔接、相互呼应的分层次教育培训模式。
一、 黑马程序员高端IT教育品牌
黑马程序员的学员多为大学毕业后,想从事IT行业,但各方面条件还不成熟的年轻人。黑马程序员的学员筛选制度非常严格,包括了严格的技术测试、自学能力测试,以及性格测试、压力测试、品德测试等。百里挑一的残酷筛选制度确保学员质量,并降低企业的用人风险。
自黑马程序员成立以来,教学研发团队一直致力于打造精品课程资源,不断在产、学、研3个层面创新自己的执教理念与教学方针,并集中黑马程序员的优势力量,有针对性地出版了计算机系列教材90多种,制作教学视频数十套,发表各类技术文章数百篇。
黑马程序员不仅斥资研发IT系列教材,还为高校师生提供以下配套学习资源与服务。
1. 为大学生提供的配套服务
(1) 请同学们登录http:yx.ityxb.com,进入高校学习平台,免费获取海量学习资源。平台可以帮助高播妞学姐微信公众号
校学生解决各类学习问题。
(2) 针对高校学生在学习过程中存在的压力大等问题,我们还面向大学生量身打造了IT技术女神播妞学姐,可提供教材配套源码、习题答案及更多学习资源。同学们快来关注播妞学姐的微信公众号boniu1024。
2. 为教师提供的配套服务
针对高校教学,黑马程序员为IT系列教材精心设计了教案 授课资源 考试系统 题库 教学辅助案例的系列教学资源。高校老师请登录http:yx.ityxb.com,进入高校教辅平台,也可关注码大牛老师微信QQ: 2011168841,获取配套资源,还可以扫描下方二维码,关注专为IT教师打造的师资服务平台教学好助手,获取最新的教学辅助资源。
教学好助手微信公众号
二、 传智专修学院高等教育机构
传智专修学院是一所由江苏省宿迁市教育局批准、江苏传智播客教育科技股份有限公司投资创办的四年制应用型院校。学校致力于为互联网、智能制造等新兴行业培养高精尖科技人才,聚焦人工智能、大数据、机器人、物联网等前沿技术,开设软件工程专业,招收的学生入校后将接受系统化培养,毕业时学生的专业水平和技术能力可满足大型互联网企业的用人要求。
传智专修学院借鉴卡内基梅隆大学、斯坦福大学等世界著名大学的办学模式,采用申请入学,自主选拔的招生方式,通过深入调研企业需求,以校企合作、专业共建等方式构建专业的课程体系。传智专修学院拥有顶级的教研团队、完善的班级管理体系、匠人精神的现代学徒制和敢为人先的质保服务。
传智专修学院突出的办学特色如下。
(1)立足高精尖人才培养。传智专修学院以国家重大战略和国际科学技术前沿为导向,致力于为社会培养具有创新精神和实践能力的应用型人才。
(2)项目式教学,培养学生自主学习能力。传智专修学院打破传统高校理论式教学模式,将项目实战式教学模式融入课堂,通过分组实战,模拟企业项目开发过程,让学生拥有真实的工作能力,并持续培养学生的自主学习能力。
(3)创新模式,就业无忧。学校为学生提供1年工作式学习,学生能够进入企业边工作边学习。与此同时,我们还提供专业老师指导学生参加企业面试,并且开设了技术服务窗口给学生解答工作中遇到的各种问题,帮助学生顺利就业。
如果想了解传智专修学院更多的精彩内容,请关注微信公众号传智专修学院。
传智专修学院
传智播客2020年2月大数据项目实战
为什么要学习本书
招聘网站分析系统是基于大数据离线处理技术完成的。大数据离线处理具有以下几个特点: 数据量巨大且保存时间长;在大量数据上进行复杂的批量运算;数据在计算之前已为最终数据,不会发生变化;方便查询批量计算的结果;相比较于在线数据处理,离线处理相对较为成熟,通常是利用HDFS存储数据,MapReduce做批量计算,将计算完成的数据存储在Hive数据仓库中。对于想从事大数据行业的开发人员来说,学好大数据离线处理流程尤为重要。
本书通过Hadoop生态系统完成大数据离线处理,从系统的开发流程角度展开内容,在流程中的每个环节通过对理论知识和实际代码的讲解,使难以理解的原理变得通俗易懂,有利于读者充分地掌握大数据离线处理相关流程。
关于本书
作为大数据实训项目的教程,最重要且最难的一件事情就是将一些复杂、难以理解的思想和问题简单化,让初学者能够轻松理解并快速掌握大数据项目的开发流程。本教材对大数据项目开发过程的每个环节都进行了深入讲解,使读者由浅入深地了解每个环节的知识内容。
本书共分为6章,各章内容如下。
第1章主要介绍项目开发的基本情况,包括项目需求、项目目标、项目预备知识、项目架构设计、技术选取、开发环境、开发工具以及开发流程。通过本章的学习,读者能够明确项目需求、了解项目开发相关环境以及流程。后续将基于本章介绍的项目情况进行项目的开发。
第2章主要讲解大数据集群环境的搭建,包括Hadoop、Hive、Sqoop、MySQL和Linux虚拟机及安装,并通过相关技术的基础操作实现集群环境的测试。通过本章学习,读者可掌握独立搭建大数据集群环境的技能,同时对相关技术的基础操作有初步了解。
第3章主要介绍数据采集,将本章分为三部分内容,详细讲解网页数据采集。首先需要读者了解网页数据采集相关知识内容。接下来讲解编写网页数据采集程序的流程,包括分析网页数据结构、准备环境等内容。最终,通过Java编程语言完成网页数据采集程序,并将采集的数据存储到HDFS上。
第4章主要讲解数据预处理,通过分析预处理数据和设计数据预处理方案实现数据预处理程序。本章的学习内容主要包括实现数据预处理程序的流程和MapReduce程序的运行与编写。通过本章的学习,读者可以掌握利用MapReduce分布式处理框架进行数据预处理的技巧,熟悉数据预处理的流程。
第5章主要讲解通过Hive做数据分析的相关知识。首先介绍数据分析和Hive作为数据仓库的特点。然后介绍数据仓库的实现流程,从数据仓库的设计到使用HQL实现数据仓库。最后通过HQL对数据进行分析。通过本章学习,读者将掌握HQL创建数据仓库和数据分析的相关操作。
第6章主要讲解数据可视化,使用SSM框架Spring、Spring MVC和MyBatis、JQuery和ECharts图表库等网页开发技术对数据分析结果进行可视化展示。通过本章学习,读者将掌握开发网页应用的总体流程,在网页中以图表形式对分析结果进行可视化呈现。
致谢
本教材的编写和整理工作由传智播客教育科技股份有限公司教材研发中心完成,主要参与人员有高美云、文燕、张明强等,全体参编人员在近一年的编写过程中付出了许多辛勤的汗水。除此之外,还有传智播客的六百多名学员也参与到了教材的试读工作中,他们站在初学者的角度对教材提供了许多宝贵的修改意见,在此一并表示衷心的感谢。
意见反馈
尽管我们尽了最大的努力,但书中难免会有不妥之处,欢迎各界专家和读者朋友们来信给予宝贵意见,我们将不胜感激。读者在阅读本书时,如果发现任何问题或有不认同之处,可以通过电子邮件与我们取得联系。请发送电子邮件至: itcast_book@vip.sina.com。
黑马程序员2020年1月于北京
|
|