|
內容簡介: |
21 世纪,互联网行业的爆发开启了全球数据量急剧增长的新时代,数据已经成为驱动企业数字化转型的核心力量。整个数据行业的技术能力不断提升,从数据库到数据仓库,再到开源大数据,都在经济社会中发挥着极其重要的作用。近年来,新兴数据技术与云计算相互辅助,共同发展,诞生了一系列云原生数据服务,让企业能够突破传统模式的局限,专注于业务,降本增效。本书以全球前沿的云原生服务为基础,详细展现了如何将数据存储、数据引入、批量数据处理、实时数据处理、数据仓库、数据可视化和机器学习等核心要素综合起来,逐步构建一个高效的大数据服务平台。
|
關於作者: |
金鑫,微软技术专家,于2000年加入微软,专注于研究企业级应用和分布式系统。近年来,作为微软公有云架构和开发技术领域专家,主要从事微软云数据平台和开发平台的建设工作,致力于为客户提供云原生解决方案及技术咨询。武帅,微软技术专家,于2011年加入微软,一直从事开发测试技术和公有云的研究及咨询工作。目前专注于云计算的行业落地,致力于物联网、大数据和人工智能等新兴技术助力企业数字化转型的工作。
|
目錄:
|
第1章 数字化转型与数据技术0011.1 数字化转型0021.2 基于数据进行数字化转型0041.3 数据仓库0061.4 大数据0091.5 数据湖0131.6 云计算中数据技术的演进0161.7 本书目标018第2章 数据存储0192.1 数据存储的发展与趋势0202.1.1 集中式文件系统0202.1.2 网络文件系统0212.1.3 分布式文件系统0222.1.4 云原生存储0242.2 Azure Blob对象存储0252.2.1 数据冗余策略0272.2.2 分层存储0302.2.3 兼容HDFS的WASB文件系统0312.3 创建存储账号0332.3.1 订阅0332.3.2 资源组0342.3.3 存储账号0362.4 Azure数据湖存储0392.4.1 分层命名空间0392.4.2 兼容HDFS的ABFS文件系统0402.5 创建数据湖存储0432.6 基于HDFS访问数据湖存储0452.7 在HDInsight中访问数据湖存储0582.8 本章小结064第3章 数据引入0653.1 什么是数据引入0663.2 数据引入面临的挑战0673.3 数据引入工具0693.4 数据工厂0713.4.1 什么是数据工厂0713.4.2 创建数据工厂0723.4.3 数据工厂的主要组件0763.5 引入数据0843.5.1 数据复制0843.5.2 管道设计0883.5.3 参数化0983.5.4 监控1003.6 本章小结102第4章 批量数据处理1034.1 数据处理概述1044.2 数据处理引擎1054.2.1 MapReduce1054.2.2 Spark1074.3 Databricks1114.4 使用Databricks处理批量数据1154.5 Databricks的特性1214.5.1 依赖库管理1214.5.2 Databricks文件系统(DBFS)1244.5.3 密钥管理1264.5.4 Delta Lake1294.6 使用数据工厂处理批量数据1344.6.1 设计Data Flow1344.6.2 Data Flow的设计模式1444.6.3 如何选择Data Flow与Databricks1454.7 本章小结146第5章 实时数据处理1475.1 什么是实时数据处理1485.2 消息队列1495.3 Kafka的使用1535.3.1 创建虚拟网络1535.3.2 创建Kafka集群1555.3.3 配置IP advertising1575.3.4 生产者发送数据1595.4 实时数据处理引擎1665.5 使用Spark Structured Streaming处理实时数据1715.5.1 连通Kafka与Databricks1715.5.2 在Databricks中处理数据1745.5.3 使用Cosmos DB保存数据1765.6 Event Hub1825.7 本章小结190第6章 数据仓库1916.1 什么是数据仓库1926.2 云原生数据仓库1946.3 Synapse Analytics1996.3.1 什么是Synapse Analytics1996.3.2 Synapse SQL的架构2006.3.3 创建Synapse工作区2086.3.4 创建SQL池2106.3.5 连接SQL池2126.4 数据加载2146.4.1 数据加载方式2146.4.2 使用COPY导入数据2206.5 Synapse SQL的资源和负荷管理2276.5.1 资源类2276.5.2 并发槽2296.5.3 最大并发查询数2316.5.4 工作负荷组2326.5.5 工作负荷分类器2396.6 数据仓库发展趋势2426.6.1 挑战2426.6.2 趋势2446.7 Synapse Analytics的高级特性2456.7.1 Synapse 工作室2466.7.2 数据中心2476.7.3 无服务器SQL池2486.7.4 托管Spark2526.8 本章小结257第7章 数据可视化2587.1 数据可视化概述2597.2 数据可视化工具2607.3 Power BI2637.3.1 什么是Power BI2637.3.2 Power BI的构件2657.3.3 使用Power BI Desktop2687.3.4 使用Power BI服务2817.4 本章小结285第8章 机器学习2868.1 机器学习概述2878.1.1 算法类型2878.1.2 业务场景2908.2 机器学习的流程2918.3 机器学习的挑战与云原生平台的优势2938.4 云原生机器学习平台2968.4.1 创建工作区2978.4.2 创建数据存储库2988.4.3 创建数据集3018.4.4 创建计算资源3038.5 机器学习设计器3058.6 自动化机器学习3108.7 本章小结315参考文献316
|
|