新書推薦:
《
古罗马800年
》
售價:NT$
857.0
《
权力与相互依赖(第四版)(中译本修订版)
》
售價:NT$
658.0
《
写出心灵深处的故事:踏上疗愈之旅(修订版)(创意写作书系)
》
售價:NT$
301.0
《
控制权视角下的家族企业管理与传承
》
售價:NT$
398.0
《
冯友兰和青年谈心系列
》
售價:NT$
762.0
《
利他主义的生意:偏爱“非理性”的市场(英国《金融时报》推荐读物!)
》
售價:NT$
352.0
《
认知行为疗法:心理咨询的顶层设计
》
售價:NT$
454.0
《
FANUC工业机器人装调与维修
》
售價:NT$
454.0
|
內容簡介: |
本书从大数据的前身数据挖掘技术入手,首先介绍了数据挖掘技术及在大数据中常用的采集、存储和分析方法;然后以多语音识别和多语言识别为例,对大数据信息处理技术的关键应用给出了详细的说明;接着给出了大数据场景分析,详细介绍了基于场景分析的大数据信息处理应用,如MOOC大数据教学分析系统、社交网络大数据关系推荐系统、金融服务大数据风险预警系统等;随后介绍了互联网 大数据的应用,对电子商务、互联网金融、能源大数据等具有差异性的行业应用进行了简要介绍;*后对大数据的应用进行了展望。
|
關於作者: |
杨毅,女,博士,现工作于清华大学电子工程系,IEEE会员、清华大学博士后理事,长期从事信号处理、语音识别、跨媒体新技术与新应用、数据检索方面的科研和教学工作。
|
目錄:
|
目录
第1章绪论1
1.0引言1
1.1数据的定义与属性4
1.2大数据概念与定义4
1.3大数据和小数据6
1.4结构化数据和非结构化数据7
1.5大数据信息处理技术及其应用8
1.6大数据技术面临的挑战10
1.7大数据服务与信息安全12
1.8本章小结14
参考文献14
第2章数据信息挖掘技术基础16
2.0引言16
2.1信息挖掘技术概述19
2.1.1信息挖掘定义19
2.1.2信息挖掘应用20
2.1.3信息挖掘前景25
2.2数据关联分析26
2.2.1数据关联分析定义26
2.2.2数据关联分析主要方法27
2.3数据聚类分析28
2.3.1数据聚类分析概念28
2.3.2数据聚类分析主要方法29
2.4数据分类与预测30
2.4.1数据分类30
2.4.2数据预测32
2.5数据可视化33
2.5.1信息可视化与数据可视化33
2.5.2数据可视化分析33
2.6信息挖掘与隐私保护35
2.7云计算数据挖掘38
2.8本章小结40
参考文献40
第3章大数据技术基础42
3.0引言42
3.1大数据产生及特性44
3.1.1大数据产生44
3.1.2大数据特性47
3.2大数据技术体系47
3.2.1采集与存储48
3.2.2分析与挖掘50
3.2.3可视化54
3.3大数据采集与存储54
3.3.1结构化非结构化数据54
3.3.2关系型非关系型新型数据库55
3.3.3分布式存储集群56
3.4大数据分析与挖掘57
3.4.1HDFS与MapReduce57
3.4.2分布式大数据挖掘算法59
3.5大数据可视化62
3.6本章小结64
参考文献64
第4章大数据信息处理与分析应用66
4.0引言66
4.1语音识别简介67
4.1.1语音识别技术67
4.1.2声学模型71
4.1.3语言模型72
4.2连续语音识别技术73
4.2.1连续语音识别原理73
4.2.2HMM-GMM声学模型75
4.2.3HMM-DNN声学模型76
4.2.4LSTM声学模型79
4.3多语言语音识别技术82
4.3.1多语言语音识别原理82
4.3.2建模单元共享技术83
4.3.3模型参数共享技术84
4.4本章小结85
参考文献85
第5章基于场景分析的大数据信息88
5.0引言88
5.1遥感大数据自动分析与数据挖掘系统89
5.1.1遥感集市的组成91
5.1.2遥感集市提供的数据分析和挖掘服务91
5.2语音大数据关键词自动识别系统93
5.2.1语音分析系统语音识别和文本挖掘技术94
5.2.2语音分析系统支持的功能95
5.2.3语音分析系统支持的应用场景96
5.3MOOC大数据教学分析系统97
5.3.1学堂在线的组成98
5.3.2学堂在线的教学分析99
5.4社交网络大数据关系推荐系统100
5.4.1新浪微博推荐架构的演进101
5.5.2新浪微博推荐算法简述103
5.5金融服务大数据风险预警系统106
5.5.1互联网金融风险预警系统的架构106
5.5.2互联网金融风险预警系统的功能108
5.5.3互联网金融风险预警系统的预警机制109
5.6本章小结110
参考文献110
第6章互联网 大数据技术基础112
6.0引言112
6.1 互联网 的定义116
6.2 互联网 行动119
6.3 互联网 与中国制造121
6.4大数据与互联网 122
6.5互联网大数据的应用及发展126
6.5.1电子商务126
6.5.2搜索引擎127
6.5.3网络广告127
6.5.4旅行预订127
6.5.5网络游戏128
6.5.6互联网金融128
6.5.7数字政府128
6.5.8城市可持续发展129
6.5.9能源大数据131
6.5.10智能电网大数据134
6.5.11环境保护139
6.6本章小结143
参考文献143
第7章基于场景感知的大数据145
7.0引言145
7.1无人驾驶汽车操控系统145
7.1.1无人驾驶汽车简介146
7.1.2无人驾驶汽车操控平台148
7.2医疗数据分析系统150
7.2.1医疗数据分析系统简介150
7.2.2可穿戴健康数据监控平台152
7.2.3流行疾病传播数据监控平台153
7.3农业装备与设施监控系统156
7.3.1农业装备与设施监控系统简介156
7.3.2农业装备田间位置监控系统平台156
7.3.3物联网农业设施监控系统158
7.4智慧城市160
7.4.1智慧城市简介160
7.4.2创新2.0语境下的智慧城市162
7.5本章小结164
参考文献165
第8章基于可持续发展的大数据166
8.0大数据时代下的可持续发展新思路166
8.1环境大数据的分析与应用167
8.1.1环境大数据的概念和特征167
8.1.2环境大数据使用流程168
8.1.3环境大数据的作用168
8.1.4国外运用环境大数据的经验和启示170
8.1.5现存问题及未来展望171
8.2大数据在交通领域的应用173
8.2.1交通大数据的来源及发展现状173
8.2.2大数据在城市交通中的应用173
8.3大数据与环境变化175
8.3.1大数据在灾害灾难预测中的应用175
8.3.2大数据在气候变化研究中的应用175
8.4大数据在能源领域的应用176
参考文献178
|
內容試閱:
|
前 言
大数据这个词汇已经与移动互联网云计算人工智能等一起成为科技从业人员中,甚至是街头巷尾的流行词汇之一。中国工程院邬贺铨院士在2013年撰写的大数据时代的机遇与挑战至今已被引用200多次;同年出版的维克托迈尔舍恩伯的专著《大数据时代》则一直在亚马逊的热销图书商品排名中,其热度可见一斑。从2016年美国总统选举到相亲网站用户匹配,大数据的身影无处不在,每个人的工作和日常生活,都自觉或不自觉地受到大数据的影响和支配。但什么是大数据,每个人、每个机构,甚至每个国家,都对此有不同的答案。我们需要给大数据一个清晰的、统一的、完整的定义。幸运的是,麦肯锡全球研究所给出了一个标准答案:大小超出了传统数据库软件工具的抓取、存储、管理、分析能力的数据群被称为大数据。
虽然大数据如此之热,但是在具体深入研究下去后就会发现,大数据技术的研究和应用的主要领域仍然集中在与IT产业密切相关的互联网产业界,在电子商务、搜索推荐、可穿戴设备、无人车机等方向上,各种规模的创新、创业公司层出不穷,各类应用更是五花八门、纷繁复杂,而大数据相关的国内外文献也是种类繁多、涉及广泛。
大数据分析应用于科学、医药、商业等各个领域,用途差异巨大,但其目标可以归纳为如下几类。第一,获得知识与推测趋势。大数据包含大量原始的、真实的信息,大数据分析能够有效摒弃个体差异,帮助人们可以透过现象更准确地把握事物背后的规律。第二,分析掌握个性化特征。企业通过长时间、多维度的数据积累,可以分析用户的行为规律,更准确地描绘个体轮廓,为用户提供更好的个性化产品和服务,以及更准确的广告推荐等。第三,通过分析辨识真相。由于网络中的信息传播更加便利,所以网络虚假信息造成的危害也更大。由于大数据的来源广泛且具有多样性,因此在一定程度上可以帮助实现信息的去伪存真。目前,人们开始尝试利用大数据进行虚假信息的识别。
相应地,大数据技术也面临巨大的挑战,主要包括:
(1)当前的数据量正以指数方式增长,而大数据处理和分析的能力远远跟不上数据量增长的速度。高效率和低成本的存储技术、非结构化和半结构化数据的高效处理技术、大数据去冗降噪技术、数据挖掘和基于大数据的预测分析技术等都有待发展和完善。
(2)大数据包含丰富的个人信息,通过整合分析,可以精准判断个人的喜好乃至性格,揭示行为规律,使个人的隐私信息更加容易暴露。如何在加强数据获取能力的同时更好地保护个人隐私,是未来大数据研究的一个重大挑战。
(3)大数据使人类对信息掌控的程度相对过去有了质的提升,从这个意义来看,从信息时代进入大数据时代超越了从机械计算时代进入电子计算时代,对于大数据的观念、态度必须要能够适应新时代的要求。
本书尝试从大数据的前身数据挖掘技术入手,首先介绍在大数据这个词汇发明之前,数据挖掘技术是如何用于金融投资、识别欺诈并保障网络安全的;随后对大数据技术中使用的采集、存储及分析方法,如目前流行的HDFS及MapReduce进行详细阐述,以便使入门者快速掌握相关的技术;随后以语音识别中的连续语音识别和多语言语音识别为例,介绍大数据信息处理技术在IT行业中的关键应用;大数据分析与场景密切相关,因此提供了一系列基于场景分析基础上的大数据信息处理应用,如MOOC大数据教学分析系统、社交网络大数据关系推荐系统和金融服务大数据风险预警系统等;以互联网 大数据为特色的应用非常广泛,仅选取了电子商务、互联网金融、城市可持续发展、能源大数据、智能电网大数据等差异性较大的行业应用进行了简单介绍;进一步的大数据信息处理应用则涉及场景感知这一更加复杂的课题,场景感知更近似于人类对场景的观察、判断、分析与响应,相比于场景分析具有更强的灵活性、实时性、准确性,无人驾驶汽车操控系统就是场景感知的典型综合应用案例。
本书包括大数据、数据挖掘和场景感知等基本内容及其应用,可作为IT相关专业本科及研究生学习大数据理论、技术与应用的入门用书,对工程人员来说也是一本综合性较强的参考手册。同时,本书引用了大量国内外最新技术实例及作者的国家基金项目研究成果,对互联网领域的技术研究人员也有一定的参考价值。
本书在编写过程中,北京交通大学袁保宗教授、中国科学院声学研究所颜永红教授、北京理工大学谢湘副教授等专家给予了大力指导和支持,并得到国家自然科学基金重大项目(NSFC:11590770)的支持,在此表示衷心的感谢!
由于编著者水平和经验有限,书中错误之处在所难免,敬请读者指正。
编著者
2018年5月
|
|