《大型网站运维：从系统管理到SRE》 - 台灣·大書城 - 顾贤杰 - 电子工业出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2023年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』大型网站运维：从系统管理到SRE

書城自編碼： 3659274
分類：簡體書→大陸圖書→計算機/網絡→计算机理论
作者：顾贤杰
國際書號(ISBN)： 9787121416125
出版社：电子工业出版社
出版日期： 2021-07-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 592

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《送你一匹马（“我不求深刻，只求简单。”看三毛如何拒绝内耗，为自己而活）》
售價：NT$ 295.0

《秦汉史讲义》
售價：NT$ 690.0

《万千心理·我的精神分析之道：复杂的俄狄浦斯及其他议题》
售價：NT$ 475.0

《荷马：伊利亚特（英文）-西方人文经典影印21 》
售價：NT$ 490.0

《我的心理医生是只猫》
售價：NT$ 225.0

《股权控制战略：如何实现公司控制和有效激励（第2版）》
售價：NT$ 449.0

《汉译名著·哲学经典十种》
售價：NT$ 3460.0

《成吉思汗传：看历代帝王将相谋略修炼安身成事之根本》
售價：NT$ 280.0

建議一齊購買：

NT$ 1058
《计算机科学中的数学：信息与智能时代的必修课》

NT$ 869
《解构领域驱动设计》

NT$ 922
《通信约束下复杂网络化系统的群体行为（英文版）》

NT$ 932
《 ADS信号完整性仿真与实战》

NT$ 414
《数学之美（第三版）》

NT$ 458
《我在硅谷管芯片：芯片产品线经理生存指南》

編輯推薦：

网易运维专家、SRE团队Leader顾贤杰领衔撰写，凝聚了网易10年百亿级别大型系统运维经验，值得阅读！从Google SRE到网易SRE的实践之旅，中国技术团队的实践总结！

內容簡介：

运维发展到现在，与初相比发生了巨大的变化。10 多年的互联网发展，让国内的运维经历了快速的变革，开始慢慢地和国外接轨，甚至在部分场景有单独的演化。DevOps 和SRE 作为运维领域的两个演化方向，在近几年获得了很多关注，也有很多公司进行了相关的实践。与DevOps 遍地开花的情况相比，SRE 在国内的发展稍显低调。《SRE：Google 运维解密》一书对国内外运维领域有很大冲击。本书作者作为一直工作在一线的运维工程师，理所当然地对SRE 相关理念进行了实践，本书可以说是对SRE 领域阶段性的实践总结。本书主要对传统运维和SRE 进行不同对比，让大家了解运维工程师在实践SRE 理念时，关注的点和具体的实践经验。本书的前半部分更多地注重SRE 在实际工作中对融入开发团队、监控建设、变更管理、容量管理、异常响应、稳定性治理、事故复盘、用户体验管理等方面的实践和落地。在对SRE 的工作有了一定了解后，本书会针对重要业务保障场景进行实战讲解。本书后部分对SRE 工作中涉及的一些技术进行了概述，以便有兴趣的同学了解SRE 相关的技术点。

關於作者：

顾贤杰网易运维专家、SRE团队Leader，10多年来一直聚焦互联网业务运维和稳定性建设。在互联网业务运维方面经验丰富，曾负责网易博客、相册、即时通信、支付、电商、账号系统、云音乐等众多产品的运维工作。在金融支付机房设计、高性能负载均衡建设、业务双机房改造部署、灾备建设等多个运维领域均有实践，设计过海量服务器运维工具平台，负责的产品服务了上亿的互联网用户。目前的运维研究方向：海量服务器稳定性治理、基础设施即代码、混合云/云原生体系下的运维平台建设。徐 ?S网易资深运维开发工程师，运维开发团队技术Leader。参与并主导杭研运维体系建设，包括监控、流程、发布、审批等运维领域。持续探索运维自动化、智能化、一体化建设，为网易云音乐、网易传媒、网易支付等上百个产品提供高效稳定的运维服务。颜中冠网易技术经理、资深架构师，有16年的互联网一线研发和架构经验。曾负责亿级统一认证项目，主持网易帐号异地双机房建设，以及网易云计算业务中台搭建，负责多个对外亿级商业化项目研发。

第1章关于SRE1
1.1 为什么会引入SRE 2
1.2 DevOps和SRE对比 5
1.2.1 DevOps的发展 5
1.2.2 SRE的发展 6
1.3 选择SRE 8
1.4 SRE的未来 9
第2章 SRE在组织内部的定位 11
2.1 如何介入组织 12
2.2 SRE工作着力点 16
2.3 如何衡量工作 19
2.4 贡献价值 22
第3章监控建设 25
3.1 什么是好的监控服务 25
3.1.1 稳定 25
3.1.2 准确 27
3.1.3 易用 29
3.2 监控系统的设计逻辑分析 29
3.2.1 数据生产 30
3.2.2 数据上报 31
3.2.3 数据处理 33
3.2.4 数据存储 34
3.2.5 数据使用 36
3.3 典型监控应用场景 41
3.3.1 系统监控 41
3.3.2 应用监控 42
3.3.3 终端监控 44
3.3.4 秒级监控 45
3.3.5 监控大盘 46
3.3.6 链路监控 46
3.4 报警治理 47
3.5 容器监控 50
3.6 监控智能化 51
第4章变更管理 53
4.1 变更管理机制 54
4.1.1 传统运维的变更管理 55
4.1.2 DevOps的变更管理 57
4.1.3 SRE的变更管理 59
4.1.4 变更管理实践总结 61
4.2 变更控制 62
4.2.1 如何建设好的变更控制 62
4.2.2 制定符合业务需求的变更控制机制 64
4.3 稳定性和迭代速度的权衡 66
4.4 变更风险控制 68
4.5 总结 70
第5章异常响应 71
5.1 异常的定义 71
5.2 事故/事件定义 73
5.2.1 区分事件和事故 73
5.2.2 事故等级制度 74
5.3 异常响应流程 76
5.4 如何处理值班过程中的异常响应 79
5.5 应急沟通机制 82
5.6 关于线上问题的ROC 84
第6章服务稳定性治理 88
6.1 SLI/SLO/SLA的制定和落地 88
6.1.1 SLI的制定和应用 89
6.1.2 SLO的计算和应用 90
6.1.3 SLA的计算和应用 91
6.2 故障预防 92
6.3 抑制不可控因素 95
6.4 故障演练 97
6.4.1 故障梳理 97
6.4.2 故障预案 98
6.4.3 混浊工程 98
6.5 故障自愈 100
6.6 业务MTTR 102
6.6.1 关于故障修复MTTR 102
6.6.2 关于故障解决MTTR 104
6.7 灾备建设 105
6.8 总结 109
第7章事故复盘 110
7.1 关于事故复盘 112
7.1.1 事故复盘初级阶段 112
7.1.2 事故复盘中级阶段 113
7.1.3 事故复盘成熟阶段 113
7.2 如何提升事故复盘质量 115
7.2.1 事故复盘深度 116
7.2.2 事故复盘报告 118
7.3 事故分析的逻辑和原则 119
7.4 事故责任的划分逻辑 123
7.5 事后跟进 126
7.6 基于事故/事件的学习 128
第8章容量管理 131
8.1 容量管理的目标 131
8.2 容量管理的方法和策略 132
8.2.1 传统评估方法 133
8.2.2 IT资源成本的构成 133
8.2.3 容量水位的定义 134
8.2.4 容量管理策略 137
8.3 容量分析系统建设 137
8.3.1 业务负载平台 137
8.3.2 巡检管理平台 139
8.3.3 监控系统和CMDB系统 142
8.4 容量优化方式 143
8.4.1 业务容量优化 143
8.4.2 资源容量优化 143
8.4.3 架构容量优化 146
8.5 容量预案 151
8.6 总结 153
第9章用户体验 154
9.1 外部用户体验和内部用户体验 155
9.1.1 外部用户体验 156
9.1.2 内部用户体验 158
9.2 影响用户体验的要素 159
9.3 外部用户体验的改进策略 162
9.4 内部用户体验的改进策略 165
9.4.1 数据兼容性 165
9.4.2 工作流程 167
9.4.3 执行效率 169
第10章重要业务活动保障 172
10.1 重要业务活动的资源准备 173
10.1.1 容量规划 173
10.1.2 资源交付规划 175
10.1.3 技术优化 178
10.2 参与运营活动评估 181
10.3 重要业务活动稳定性预案 184
10.4 重要业务活动准备阶段的工作重点 187
10.5 重要业务活动的变更执行要求 190
10.6 重要业务活动的运维人力 192
10.7 重要业务活动的收尾 193
第11章运维操作基础 196
11.1 网络基础 197
11.1.1 ARP 197
11.1.2 路由 200
11.2 4/7层协议 204
11.2.1 4层协议 204
11.2.2 7层协议 208
11.3 内核参数调优 213
11.3.1 TCP网络堆栈内存 214
11.3.2 TCP连接数优化 215
11.3.3 TCP高并发优化 216
11.3.4 网络参数额外调整项 217
11.3.5 TCP拥堵算法 218
11.4 常见命令行 221
11.4.1 查看数据指标 222
11.4.2 网络数据包分析 223
11.5 配置管理工具 227
11.5.1 Ansible 228
11.5.2 CFEngine 229
11.5.3 Chef 231
11.5.4 Puppet 234
11.5.5 Salt 237
11.5.6 配置管理工具的汇总说明 240
11.5.7 云环境下的配置管理工具演化 241
11.6 基础设施即代码 242
11.7 关于运维操作的未来 244
第12章基础组件运维 245
12.1 负载均衡中间件 245
12.1.1 算法逻辑的影响 246
12.1.2 附加特性的作用 252
12.1.3 负载均衡方案 254
12.1.4 负载均衡总结 256
12.2 消息队列中间件 258
12.2.1 消息队列方案的技术决策 259
12.2.2 消息队列的技术演化 261
12.3 缓存中间件 262
12.3.1 缓存中间件的技术关注点 263
12.3.2 缓存中间件的选型策略 265
12.3.3 缓存中间件的技术演化 270
12.4 数据库 272
12.4.1 SQL数据库技术的选择 273
12.4.2 SQL数据库的配置注意事项 276
12.4.3 NoSQL数据库技术的选择 279
12.4.4 时序数据库技术 282
12.5 组件运维 283
第13章云计算和容器 284
13.1 云计算基础 285
13.1.1 云计算平台运维 286
13.1.2 云计算平台上的产品运维 288
13.2 虚拟化 290
13.3 容器 292
13.4 云存储 296
13.5 云网络 299
13.6 混合云 302
13.7 云原生 305
13.7.1 云原生的需求情况 305
13.7.2 云原生的发展 307
13.7.3 云原生的展望 309

內容試閱：

本书主要面向有一定传统运维工作经验的工程师和对运维工作有兴趣的读者，其通过对理念实践、团队合作、变更管理、事故处理等多个运维工作领域的分析和发掘，分享传统运维团队转型SRE团队的经验和实战感悟。
在2019年的某次运维会议上，我有幸和出版社编辑接触，并获邀对SRE方向进行撰稿。作为一个长期工作在一线的运维工程师，我读过《SRE：Google运维解密》这本书，也有相关的实践经验，但是从未想到会写一本关于SRE的书。一方面是因为感觉《SRE：Google运维解密》珠玉在前；另一方面是因为虽然我写过大量的技术文章，但是对写书这件事完全没有经验。出版社编辑对国内运维方向书籍的情况进行了分析，并且不断给予我鼓励，终让我决定开始写这本书。
本书在很大意义上算是我对SRE在网易实践落地的想法总结和经验分享，希望书里的内容能给予读者一定的启发。
主要章节导读
第1章主要讲述SRE、DevOps的理念和差异，让读者对当前运维两大演化分支有初步的认识。同时对运维团队转型SRE团队的背景进行了说明和分析，让读者对SRE团队的工作有一定的认知。
第2章介绍SRE团队和其他技术团队的合作方式，包括自身角色定位和相关的实践技巧。
第3章讲述常见的监控建设，分析监控的设计要求、技术要领。通过讲述监控背后的技术原理和架构，让读者对监控的设计思路和建设理念有初步的认知。
第4章介绍SRE团队在变更管理上的实践经验，通过探讨变更背后的原因、目的等深层次因素，讲述DevOps和SRE在变更理念上的差异和实际落地经验。
第5章对运维日常中的异常情况处理进行深入探讨和分析，并且结合一定的案例介绍事故处理流程和机制，让读者对线上异常处理有清楚的认知。
第6章重点讲述线上服务稳定性治理，通过介绍SLI/SLO/SLA及相关的治理技巧，让读者对如何改进服务稳定性有初步的了解。
第7章线上事故是不可避免的，无论是传统运维团队还是SRE团队都有处理事故的需求。本章通过讲述事故处理背后的环节和实践经验，让读者对事故复盘和改进等环节的重要性有清楚的认知。
第8章介绍容量管理的目的和方法，通过分析与容量相关的概念及其重要性，有针对性地给出相关的策略方法，同时分享了一些与容量相关的建设经验。
第9章讲述传统运维团队转型SRE团队后面临的用户体验问题，通过对内部用户和外部用户的体验问题进行分析，分享在实际落地过程中的经验和策略。
第10章介绍在类似电商大促等业务重要活动中，SRE团队承担的角色和跟进事项等。通过对业务重要活动的环节分析解码，分享相关的经验和技巧。
第11章相比其他书籍中的运维技术介绍，本章会深入网络，介绍内核调优背后的原理、分享运维工具的特性，让了解Linux基本命令的读者可以深入理解SRE团队在日常工作中需要了解的技术原理。
第12章通过介绍各种中间件背后的技术特性，让读者对负载均衡、缓存、数据库等技术有进一步的认识，并且对相关组件的选型方法有一定的掌握。
第13章介绍云计算和容器的原理，以及相关的演化情况。让读者对云计算、容器、云原生有大致的理解，在遇到相关场景时能理解其背后的技术原理。
致谢
写书不只是文字输出，更是对自身经验和想法的梳理。因为这是次系统地梳理输出自己的想法和观点，对能否成稿我有很大的担忧。感谢网易杭州研究院运维专业委员会对本书编写思路给出的建议，感谢团队的支持，感谢本书另外两位作者对“监控建设”章节和“容量管理”章节的精彩编写。
感谢编辑在整个写书过程中给予的编撰指导和进度敦促，让本书终能按时呈现给读者。写书非常耗时，编写过程占用了我大量的业余时间，因此我特别感谢家人的支持，尤其是我女儿鱼儿宝贝的支持和理解。

作者

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2024 （香港）大書城有限公司　All Rights Reserved.