新書推薦:

《
不内疚也没关系:与不成熟父母设立健康的边界
》
售價:NT$
352.0

《
爱的觉醒
》
售價:NT$
398.0

《
美第奇金融家族——金钱、艺术与权力
》
售價:NT$
305.0

《
古味风华录:打捞历史深处的饮食细节
》
售價:NT$
347.0

《
AIGC革命 :新时代技术变革与场景赋能
》
售價:NT$
352.0

《
大学问·当代自由意志导论(写给大众的通俗导读,一书读懂自由意志争论。知名学者徐向东精心翻译。)
》
售價:NT$
347.0

《
(格式塔治疗丛书)进出垃圾桶
》
售價:NT$
449.0

《
趋势交易(原书第2版)
》
售價:NT$
454.0
|
編輯推薦: |
时至今日,大数据技术的生态圈已经越来越庞大,目前比较流行的应用主要是
Hadoop、Spark和Elastic Search,绝大多数的大数据系统是基于这3个技术进行
开发的。大数据运维工作具有很大的挑战性,既要满足业务快速上线,又要保
证系统的安全可用。尤其是对于大数据系统,因其服务器数量多、数据存储量大、开源
技术多和新技术稳定性有待提高等特点,诸如服务器管理、备份管理、升级管理和性能
调优等运维工作,都需要针对大数据技术的特点进行相应的改变与调整。
本书作者有着多年开发和运维的工作经验,结合大数据系统的特点,从运维视角进
行阐述,编写了大数据运维的教材,以填补这一方面的空白。本书自 2020 年出版后,
社会反应良好,被多所高校选作课程教材。这次我们根据大数据技术的最新发展,
结合师生们提出的宝贵建议,对本书进行了全新改版,主要增加了云技术发展趋势下涉
及的系统运维工作,包括云原生运维、微服务及容器虚拟化、持续集成/持续交付等,
并对系统升级涉及的数据准备、业务验证、测试、发布以及性能和日志管理进行大幅补
充与完善。
本书从运维工作的分类出发,对每种
|
內容簡介: |
本书是大数据应用人才培养系列教材中的一册,讲解了大数据系统运行维护过程中的各个主要阶
段及其任务,包括配置管理、基础运维管理、故障管理、性能管理、安全管理、高可用性管理、变更
及升级管理、运维场景应用及服务资源管理,内容全面且翔实,兼具基础理论知识与运维实践经验,
特别是重点介绍了大数据系统的运维特点及运维技能,从而可以保障大数据系统的稳定可靠运行,更
好地支撑大数据的商业应用价值。
本书在继承第 1 版基础的同时,巧妙融合了最新的运维方式和经验,构建出更加全面、深入的知
识体系。第 2 版的特色体现在对日志排查的精妙思路,系统变更升级的成功经验以及云原生环境下的
运维应用等领域的深度拓展,为运维工程师提供了丰富而实用的指导。通过这本书,读者将深入洞察
当今大数据系统运维的精髓,从而提升自身实践技能,驾驭运维工作的新高度。
本书具有很强的系统性和实践指导性,可以作为培养应用型人才的课程教材,也可以作为从事 IT
系统运维工作的广大从业者和爱好者的参考用书。
|
關於作者: |
刘鹏,教授,清华大学博士毕业,现任南京云创大数据科技股份有限公司总经理,兼任中国大数据应用联盟人工智能专家委员会主任、中国信息协会教育分会人工智能教育专家委员会主任、全国普通高校毕业生就业创业指导委员会委员、第45届世界技能大赛中国区云计算选拔赛裁判长/专家指导组组长、2019年全国大学生数学建模比赛命题人、工信部云计算研究中心专家。
姜才康,华东计算所硕士毕业,现任中国外汇交易中心工程运行部总经理。长期从事银行间市场(含外汇市场、货币市场、债券市场、衍生品市场)的系统设计开发、系统运维、标准制定等工作。主持或技术担纲完成了数十项全国性大型关键系统建设及重点研究项目,探索中国金融领域的系统建设技术路径及方法;构建全方位的银行间市场风险治理和运维安全体系;制定多项银行间市场技术规划及技术标准,建成并不断完善银行间市场技术生态圈。数十次获得人民银行科技发展奖和上海市科技进步奖。
李四明,软件工程硕士,副教授,系统分析师,获得国家科技进步奖三等奖,拥有多项软件著作专利;主持开发了医院HIS系统、移动临床系统、移动输液系统、移动药品实时监管系统、农民健康体检协同系统,承担过智慧城市、智慧社区的整体架构工作。
|
目錄:
|
第 1 章 配置管理
1.1 配置管理内容 2
1.1.1 配置管理术语定义 2
1.1.2 应用软件配置 3
1.1.3 硬件配置 3
1.2 配置管理方法 7
1.2.1 配置流程 7
1.2.2 配置自动发现 11
1.3 配置管理工具 11
1.3.1 CMDB 数据库介绍与实践 11
1.3.2 自动配置工具 14
1.3.3 云时代下的 CMDB 24
1.4 其他运维工具 24
1.4.1 Ambari 24
1.4.2 CLI 工具 26
1.4.3 Ganglia 27
1.4.4 Cloudera Manager 28
1.4.5 其他工具 31
1.5 作业与练习 32
参考文献 32
第 2 章 基础运维管理
2.1 系统建设 33
2.1.1 技术方案 34
2.1.2 部署实施 35
2.1.3 测试验收 39
2.2 系统管理对象 40
2.2.1 系统管理对象 40
2.2.2 系统软件 40
2.2.3 系统硬件 42
2.2.4 系统数据 43
2.2.5 IT 供应商 43
2.3 系统管理内容 44
2.3.1 事件管理 45
2.3.2 问题管理 45
2.3.3 配置管理 46
2.3.4 变更管理 46
2.3.5 发布管理 47
2.3.6 知识管理 47
2.3.7 日志管理 48
2.3.8 备份管理 48
2.4 系统管理工具 49
2.4.1 资产管理 49
2.4.2 监控管理 49
2.4.3 流程管理 50
2.4.4 外包管理 51
2.5 系统管理制度规范 51
2.5.1 系统管理标准 51
2.5.2 系统管理制度 51
2.5.3 系统管理规范 52
2.6 日常巡检 52
2.6.1 检查内容分类 52
2.6.2 巡检方法分类 53
2.6.3 巡检流程 54
2.7 日志管理 54
2.7.1 平台及组件相关命令 55
2.7.2 日志和告警监控 62
2.8 作业与练习 67
参考文献 68
第 3 章 故障管理
3.1 集群结构 69
3.2 故障报告 70
3.2.1 故障发现 70
3.2.2 影响分析 71
3.3 故障处理 72
3.3.1 故障诊断 72
3.3.2 故障排除 73
3.4 故障后期管理 74
3.4.1 建立和更新知识库 74
3.4.2 故障预防 74
3.5 作业与练习 75
参考文献 75
第 4 章 性能管理
4.1 性能分析 76
4.1.1 性能因子 76
4.1.2 性能指标 77
4.2 性能监控工具 78
4.2.1 GUI 79
4.2.2 集群 CLI 82
4.2.3 操作系统自带工具 87
4.2.4 Ganglia 92
4.2.5 其他监控工具 95
4.3 性能优化 95
4.3.1 Hadoop 集群配置规划优化 95
4.3.2 Hadoop 性能优化 96
4.3.3 作业优化 100
4.4 作业与练习 108
参考文献 108
第 5 章 安全管理
5.1 安全概述 109
5.2 资产安全管理 110
5.2.1 环境设施安全 110
5.2.2 设备安全 110
5.3 应用安全 111
5.3.1 技术安全 111
5.3.2 数据安全 114
5.4 安全威胁 115
5.4.1 人为失误 115
5.4.2 外部攻击 116
5.4.3 信息泄密 122
5.4.4 灾害 122
5.5 安全措施 123
5.5.1 安全制度规范 123
5.5.2 安全防范措施 123
5.6 作业与练习 124
参考文献 124
第 6 章 高可用性管理
6.1 高可用性概述 125
6.2 高可用性技术 126
6.2.1 系统架构 126
6.2.2 容灾 128
6.2.3 监控 128
6.2.4 故障转移 134
6.3 业务连续性管理 134
6.3.1 灾备系统 134
6.3.2 应急预案 138
6.3.3 日常演练 138
6.4 作业与练习 139
参考文献 139
第 7 章 变更及升级管理
7.1 变更管理概述 140
7.1.1 变更管理目标 140
7.1.2 变更管理范围 140
7.1.3 变更管理的种类 140
7.1.4 变更管理的原则 141
7.2 变更管理流程 141
7.2.1 变更的组织架构 141
7.2.2 变更的管理策略 141
7.2.3 变更的流程控制 142
7.2.4 变更管理流程 142
7.3 变更配置管理 144
7.4 通用系统升级流程 144
7.4.1 业务数据集环境备份 144
7.4.2 系统升级部署的常用策略(蓝绿/滚动/灰度) 145
7.4.3 业务服务验证 146
7.4.4 数据割接与用户割接 152
7.4.5 回滚策略 155
7.5 作业与练习 156
参考文献 156
第 8 章 运维场景应用
8.1 运维场景描述 157
8.2 运维应用版本升级 158
8.2.1 Hadoop 升级管理 158
8.2.2 Spark 升级管理 159
8.2.3 Hive SQL 升级管理 161
8.2.4 ZooKeeper 升级管理 163
8.3 微服务与容器虚拟化 165
8.3.1 业务应用容器化—Docker 165
8.3.2 容器的集群化管理与编排—k8s 169
8.3.3 微服务监控与服务追踪 177
8.4 云原生运维 178
8.4.1 持续集成与持续交付 178
8.4.2 Jenkins 流水线 179
8.4.3 自动化持续部署 180
8.4.4 服务的注册与发现 181
8.4.5 服务的熔断与限流 182
8.5 作业与练习 183
参考文献 183
第 9 章 服务资源管理
9.1 业务能力管理 185
9.1.1 业务需求评估 185
9.1.2 业务需求趋势预测 186
9.2 服务能力管理 187
9.2.1 人员能力动态管理 187
9.2.2 服务成本动态管理 189
9.2.3 技术与工具管理 190
9.3 服务资源整合 190
9.3.1 不同角色的责权划分 190
9.3.2 用户、供应商、厂商的典型协作方式 192
9.4 作业与练习 193
参考文献 194
附录 A 大数据和人工智能实验环境
附录 B Hadoop 环境要求
附录 C 名词解释
|
內容試閱:
|
短短几年间,大数据的发展速度一日千里,快速走过了从概念到落地的进程,直接带动了相关产业的井喷式发展。全球研究机构统计数据显示,大数据产业将迎来发展黄金期:根据 IDC 数据,2020—2024 年全球大数据市场规模在 5 年内约实现 10.4%的复合增长率,预计 2024 年全球大数据市场规模约为 2983 亿美元。
数据采集、数据存储、数据挖掘、数据分析等大数据技术在越来越多的行业中得到了应用,随之而来的就是大数据人才问题。麦肯锡预测,每年数据科学专业的应届毕业生将增加 7%,然而仅高质量项目对专业数据科学家的需求每年就会增加 12%,供不应求。根据相关报道,未来 3~5 年,中国需要 180 万数据人才,但目前只有约 30 万人, 人才缺口近 150 万人。
以贵州大学为例,其首届大数据专业研究生就业率达到 100%,可以说被“一抢而空”。急切的人才需求直接催热了大数据专业,正式设立“数据科学与大数据技术”本科专业。
不过,就目前而言,在大数据人才培养和大数据课程建设方面,大部分高校仍然处于起步阶段,需要探索的问题还很多。首先,大数据是个新生事物,懂大数据的老师少之又少,院校缺“人”;其次,尚未形成完善的大数据人才培养和课程体系,院校缺“机制”;再次,大数据实验需要为每个学生提供集群计算机,院校缺“机器”;最后,院校没有海量数据,开展大数据教学科研工作缺少“原材料”。
其实,早在网格计算和云计算兴起时,我国科技工作者就遇到过类似的挑战,我有幸参与了这些问题的解决过程。为了解决网格计算问题,我在清华大学读博期间,于 2001年创办了中国网格信息中转站网站,每天花几个小时收集有价值的资料并分享给学术界,此后我也多次筹办和主持全国性的网格计算学术会议,进行信息传递与知识分享。2002 年,我与其他专家合作完成的《网格计算》教材也正式面世。
2008年,当云计算开始萌芽时,我创办了中国云计算网站(目前更名为“云计算世界”);2010年我的《云计算》一书问世;2011年和2015年,我分别修订了《云计算》的第 2 版和第3版,每一版都花费了大量的制作成本,我还免费分享对应的教学 PPT。目前,《云计算》一书已成为国内高校优先选择的优秀教材,2010—2014年,该书在中国知网公布的高被引图书名单中,位居自动化和计算机领域第一位。
除了资料分享,在2010年,我们在南京组织了全国高校云计算师资培训班,培养了国内第一批云计算老师,并通过与华为、中兴、奇虎360等知名企业合作,输出云计算技术,培养云计算研发人才。这些工作获得了大家的认可与好评,此后我也担任了工业和信息化部云计算研究中心专家、中国云计算专家委员会云存储组组长、第 45 届世界技能大赛中国区云计算选拔赛裁判长/专家指导组组长、中国信息协会教育分会人工智能教育专家委员会主任、全国普通高校毕业生就业创业指导委员会委员等。
近年来,面对日益突出的大数据发展难题,我们也正在尝试使用此前类似的办法应对这些挑战。为了解决大数据技术资料缺乏和交流不够通透的问题,我于 2013 年创办了中国大数据网站(目前更名为“大数据世界”),投入了大量的人力进行日常维护。
为了解决大数据师资匮乏的问题,我们面向全国院校陆续举办多期大数据师资培训 班,致力于解决“人”的问题。至今,我们已举办上百场线上线下培训,并入选“第四批职业教育培训评价组织”,被学校规划建设发展中心认定为“大数据与人工智能智慧学习工场”,被工业和信息化部教育与考试中心授权为“工业和信息化人才培养工程培训基地”。
此外,我们开发的云计算、大数据、人工智能实验实训平台被多个赛事选为竞赛平台,也为越来越多的高校教学科研带去便利。其中,大数据实验平台致力于解决大数据实验“缺机器”与“缺原材料”的问题。2016 年,我带领云创大数据的研发人员应用Docker 容器技术,成功开发了 BDRack 大数据实验一体机,它打破了虚拟化技术的性能瓶颈,可虚拟出 Hadoop 集群、Spark 集群、Storm 集群等,自带实验所需数据,并配备了详细的实验手册、PPT 和实验过程视频,可开展大数据管理、大数据挖掘等各类实验,并可进行精确营销、信用分析等多种实战演练。
在大数据教学中,本科院校的实践教学应更具系统性,偏向新技术应用,且对工程实践能力要求更高;而高职高专院校更偏向技术性和技能训练,理论以够用为主,学生将主要从事数据清洗和运维方面的工作。基于此,我们联合多所院校的专家有针对性地准备了“高级大数据人才培养丛书”和“大数据应用人才培养丛书”两套大数据教材,帮助解决“机制”欠缺的问题。
此外,与教材配套的 PPT 和其他资料也将继续在大数据世界和云计算世界等网站免费提供。同时,通过智能硬件大数据免费托管平台—万物云和环境大数据开放平台—环境云,使资源与数据唾手可得,让大数据学习变得更加轻松。
在此,特别感谢我的硕士生导师谢希仁教授和博士生导师李三立院士。谢希仁教授所著的《计算机网络》已经更新到第 8 版,与时俱进且日臻完善,时时提醒学生要以这样的标准写书。李三立院士是留苏博士,为我国计算机事业做出了杰出贡献,曾任国家攀登计划项目首席科学家。他严谨治学,带出了一大批杰出的学生。
本丛书是集体智慧的结晶,在此谨向付出辛勤劳动的各位作者致敬!书中难免会有不当之处,请读者不吝赐教。
刘 鹏
2024 年 5 月
随着信息技术,尤其是互联网技术的迅速发展,各种新技术应用不断渗透到人们的生活中,影响并改变着人们传统的生活和工作方式。现代社会高度依赖计算机提供的相关服务,人们的一举一动,几乎都在触发计算机的计算,直接或者间接产生大量数据。现今,大数据已广为人知,被认为是信息时代的“新石油”。据不完全统计,大数据量呈现出每两年翻一倍的爆炸性增长态势,隐藏着巨大的机会和价值,并将给社会带来诸多变革和发展,已引起学界、政界以及产业界的广泛关注。各个行业已纷纷建立起大数据处理系统,通过对数据的分析和挖掘,为经济、社会,甚至国防安全等提供帮助。
大数据的“大”包含几个维度:数据量大、种类多、价值密度低和增长速度快等。传统的集中式系统处理方式存在性能不达标、经济成本高等问题,正因为如此,分布式系统成为大数据系统的主流发展方向。谷歌三篇论文(Google File System、MapReduce、Bigtable)的公开发表是大数据技术的一个关键引爆点,开启了使用一般性能的服务器搭建大批量数据处理系统的新趋势。
时至今日,大数据技术的生态圈已经越来越庞大,目前比较流行的应用主要是Hadoop、Spark 和 Elastic Search,绝大多数的大数据系统是基于这 3 个技术进行开发的,以这些技术为主题的大数据开发书籍也非常普及。但是开发只是系统整个生命周期的一部分,要想系统稳定运行、真正发挥价值,还需要后期的运维管理。从笔者多年开发和运维的工作经验来看,运维工作也具有很大的挑战性,既要满足业务快速上线,又要保证系统的安全可用。尤其是对于大数据系统,因其服务器数量多、数据存储量大、开源技术多和新技术稳定性有待提高等特点,诸如服务器管理、备份管理、升级管理和性能调优等运维工作,都需要针对大数据技术的特点进行相应的改变与调整。
受清华大学出版社之邀,结合大数据系统的特点,笔者从运维视角进行阐述,编写了大数据运维的教材,以填补这一方面的空白。本书自 2020 年出版后,社会反应良好,被多所高校选作课程教材。这次应出版社和丛书总编刘鹏教授的要求,我们根据大数据技术的最新发展,结合师生们提出的宝贵建议,对本书进行了全新改版,主要增加了云技术发展趋势下涉及的系统运维工作,包括云原生运维、微服务及容器虚拟化、持续集成/持续交付等,并对系统升级涉及的数据准备、业务验证、测试、发布以及性能和日志管理进行大幅补充与完善。
本书从运维工作的分类出发,对每种运维工作都进行了由浅入深的介绍。配置管理是整个运维工作的基础和核心,没有配置管理,就如同没有地图在复杂的城市道路中行走一样,随时可能迷失方向;同时,在配置管理章节介绍大数据技术的运维管理工具,掌握这些工具能有效地提高工作效率。系统管理、故障管理、变更管理和升级管理是基础性的,也是日常性的运维工作;安全管理、性能管理、服务资源管理和高可用管理则在运维工作中相对比较高阶,也是比较复杂的内容;而且系统运维注重强调标准、流程和制度。本书侧重理论和实践的结合。考虑到以青年学生为主的读者对相关概念接触不多,本书在概念阐述上会占有一定篇幅,从而帮助读者更好地理解和融会贯通相关的知识。若读者对书上的一些名词或术语感到陌生,可通过翻阅书后的名词解释进一步理解。本书也安排了专门章节详细介绍运维的关键技术和工具,希望读者能按照课本内容完成相关实验或者练习,达到学以致用的效果。
本书由姜才康拟定大纲并统稿,其中第 1 章“配置管理”由夏志江编写,第 2 章“基础运维管理”和第 9 章“服务资源管理”由姜才康编写,第 3 章“故障管理”和第 6 章 “高可用性管理”由朱辉编写,第 4 章“性能管理”由陶建辉编写,第 5 章“安全管理”由何玮编写,第 7 章“变更及升级管理”由夏志江和肖晨编写,第 8 章“运维场景应用”由李四明和倪小龙编写。本书在编写过程中受到清华大学出版社的大力支持和刘鹏教授的悉心指导,在此深表感谢!虽然在完稿前我们反复检查校对,力求做到内容清晰无误、便于学习理解,但疏漏和不完善之处仍在所难免,恳请读者批评指正,不吝赐教!
姜才康
于成方金融科技有限公司
|
|