新書推薦:
《
可控性混乱
》
售價:NT$
301.0
《
篡魏:司马懿和他的夺权同盟
》
售價:NT$
296.0
《
狂飙年代:18世纪俄国的新文化和旧文化(第三卷)
》
售價:NT$
806.0
《
协和专家大医说:医话肿瘤
》
售價:NT$
500.0
《
潜水指南 全彩图解第4版
》
售價:NT$
602.0
《
超大规模集成电路设计——从工具到实例
》
售價:NT$
403.0
《
村上春树·旅(一本充满村上元素的旅行指南,带你寻访电影《挪威的森林》拍摄地,全彩印刷;200余幅摄影作品)
》
售價:NT$
301.0
《
智能驾驶硬件在环仿真测试与实践
》
售價:NT$
709.0
|
編輯推薦: |
本书图文并茂,提供的插图可以形象地展现文字描述的内容,书中也没有数学公式,因此开拓了一个对任何背景、任何年龄的读者都能接受并且津津乐道的科技领域画面,即使是大数据分析的入门读者也能够看懂。
|
內容簡介: |
本书通过大量的绘图和详细的说明,从技术层面以简单易懂的形式讲述大数据分析。这是一本从系统结构搭建到实际开发逐步推进的教科书。书中的知识点包括大数据分析时所需的分布式处理、机器学习,以及分布式存储、分布式计算、开发时可能遇到的瓶颈,还包括大数据的收集、积累、活用以及元数据的使用与管理等。本书适合大数据领域的广大爱好者、商务人士和工程技术人员用于了解、学习、掌握、运用大数据技术进行大数据分析,也适合作为该领域的职业院校和高校本科相关专业的教材及研究生辅助教材。
|
目錄:
|
第1章 大数据分析概述
1.1 大数据和分布式处理
网络的普及导致了大量数据的增加 002
1.2 非结构化数据的增加和机器学习
分析文本、声音、图像等数据 006
1.3 大数据分析系统
在分布式处理与机器学习驱动下将数据利润化 010
1.4 企业中大数据活用的各个阶段
大数据分析要从一小步开始 014
1.5 活用大数据分析时所需的三个角色
数据业务员、科学分析员、工程技术员 020
1.6 工程技术员的价值在哪里
为什么完成了验证实验后仍然无法实现真正的系统化 026
第2章 大数据分析系统的结构
2.1 整体结构概述
数据的收集、积累、活用 032
2.2 数据的生成和收集
利用业务系统生成数据,利用分析系统收集数据 036
2.3 数据的积累
数据池与数据仓库 040
2.4 数据的活用
应用于企业决策和增加利润 044
第3章 分布式处理的基础知识
3.1 对瓶颈问题的分析
系统性能上的一些问题 048
3.2 上述三种瓶颈以外的与性能相关的问题
内存枯竭,以及没有瓶颈但性能仍然很差的原因 052
3.3 分布式存储
消除磁盘瓶颈的技术 056
3.4 分布式计算
消除处理器瓶颈的技术 060
3.5 分布式系统的网络
消除网络的瓶颈 064
3.6 资源管理器
支撑分布式处理的资源管理 068
3.7 分布式处理的开发方式
Hadoop、自行开发、云服务 070
第4章 机器学习的基础知识
4.1 机器学习
对变换成向量的数据进行处理的函数 076
4.2 数据的准备和预处理
机器学习的开发过程(前篇) 082
4.3 模型预估与系统化
机器学习的开发过程(中篇) 086
4.4 正式发布与性能提升
机器学习的开发过程(后篇) 090
4.5 深度学习
引发机器学习热潮的火种 094
4.6 机器学习工具
工程师的几个重要工具 098
4.7 科学分析员与工程技术员的不同角色
系统化与数据准备等大量的工作 104
第5章 大数据的收集
5.1 批数据收集和流数据收集
数据收集的种类 108
5.2 文件数据的收集与文件格式
文件形式数据的收集 112
5.3 基于SQL的数据收集
从数据库中收集数据(前篇) 116
5.4 基于数据输出和同步更新日志的数据收集
从数据库中收集数据(后篇) 120
5.5 API数据收集与刮擦收集
其他的批数据收集方式 124
5.6 批数据收集的开发方法
可以利用ETL软件制品也可以自行开发 128
5.7 分布式队列与流处理
流数据收集概述 132
5.8 流数据收集中的分布式队列
了解分布式队列的特性 136
5.9 生产者、分布式队列和消费者
流数据收集的开发方法 140
5.10 应对数据结构的变化
数据结构会随着业务的发展而变化 143
第6章 大数据的积累
6.1 数据池与数据仓库
要分别准备好原始数据和用于分析的数据 148
6.2 分析型数据库
操作型数据库与分析型数据库的不同之处 152
6.3 面向列的数据格式化
在列方向上压缩数据后实现分析处理的高速化 156
6.4 SQL on Hadoop
分析型DB的选择方法(前篇) 160
6.5 DWH制品
分析型DB的选择方法(后篇) 166
第7章 大数据的活用
7.1 数据市场
根据不同目的来加工数据 172
7.2 即席分析
可以自主地分析数据并进行决策 178
7.3 构筑即席分析环境
支持数据利用者和进行资源管理的必要性 182
7.4 数据可视化
任何人都可以基于数据做出决策 186
7.5 数据应用程序
互联网企业的活用案例 190
第8章 元数据的管理
8.1 整体概念和静态元数据
元数据管理(前篇) 194
8.2 动态元数据和元数据管理的实现方法
元数据管理(后篇) 198
8.3 数据结构管理
如何定义数据 202
8.4 数据沿袭管理
数据从何而来,又去往何处 208
8.5 数据新鲜度的管理
表明这是什么时候的数据 212
后记 216
|
內容試閱:
|
译者的话
党的第二十次全国代表大会上提出“实施科教兴国战略、强化现代化建设人才支撑”,指出要“开辟发展新领域新赛道,不断塑造发展新动能新优势”,并且要“加强基础学科、新兴学科、交叉学科建设,加快建设中国特色、世界一流的大学和优势学科”。
大数据是现在非常热门的领域,大数据分析也是发展最快的技术之一。它的快速发展得力于数据采集、收集与整理、分析处理、保存和运用手段与技术的不断进步。我们引进翻译的这本书是从工程技术的角度讲述开发大数据分析系统的方方面面。
书中图文并茂,提供的插图可以形象地展现文字描述的内容,书中也没有数学公式,因此开拓了一个对任何背景、任何年龄的读者都能接受并且津津乐道的科技领域画面,即使是大数据分析的入门读者也能够看懂。
需要指出的是,因为这是一本引进翻译的图书,书中提供的有些软件和产品的链接网址可能无法登录。读者可直接到开发这些软件或产品的网页去查询或查阅这些软件和产品的更新升级信息。
天津科技大学戴凤智的人工智能与机器人团队从2014年起,与化学工业出版社合作,以每年一本书的速度陆续出版了《科学,玩起来:机器人制作轻松入门》《Arduino轻松入门》《机器人设计与制作》《用MATLAB玩转机器人》《四旋翼无人机的制作与飞行》和《Scratch3.0少儿编程从入门到精通》,也引进翻译了《漫画机器学习入门》。这些书已经成为众多初高中和高等学校的教材,用于课堂教学和实验教学。
本书在编写和修改过程中,得到了2021年高等学校电子信息类专业教学指导委员会教改项目(2021-JG-03)、2021年度天津科技大学研究生教育改革创新类(教材建设)项目(2021YJCB02)的支持。
在图书的编写和修改过程中,戴凤智、芦鹏负责第1~4章,张鸿涛负责第5、6章,冯高峰负责第7、8章,同时感谢高一婷、贾芃、王虎诚、李家新、刘竹宁、李芳艳、张普京、程宇辉、张添翼、向宴德、李志扬、杨翼舟等对本书提供的宝贵建议和帮助。
如果您对本书在内容方面有什么疑问,请发邮件到daifz@163.com联系我们。
由于译者水平有限,书中难免存在不足,敬请读者批评指正。
译者
前言
这是一本详细论述大数据分析中关于系统与开发的教科书。
近年来,机器学习由于可以从大量的数据中获取知识而越来越受到关注。但是如果希望实现机器学习,大数据分析是必不可缺的。很多企业将大数据分析应用于提升企业的自身价值,而且成功的案例层出不穷。
然而也有很多时候无法获得好的效果。例如有时实验验证的效果非常好但是系统却无法很好地被实际导入,因此企业并没有获得预期的效益。这里面有很多原因,而主要原因是完成实验验证和实际导入系统并不是同一个概念。
本书着眼于介绍如何为一般的企业导入一个实际的大数据分析系统。具体包括数据的生成和收集、整理与积累,并最终将分析结果应用于企业决策来满足企业的长远规划和增加利润。本书将详细说明如何开发一个包括上述功能的具体的系统。同时,还将阐述在系统开发过程中必不可少的“分布式处理”和“机器学习”等重要概念。除了解释这些技术外,本书也提及了人在开发和使用大数据分析系统中的作用。书中将介绍数据的科学分析师、数据工程师以及数据业务人员都在大数据分析中分别承担了什么工作。
最后,笔者在本书中讲述的是一家网络公司在实际的系统构筑和运营方面的经验,因此本书所介绍的内容最适于网络事业方面的公司加以借鉴。对于其他类型的企业,本书或许针对性有些不足,但我们在进行说明的时候尽量保持了相当的通用性,相信您也能够从中获得借鉴和帮助。
渡部徹太郎
|
|