新書推薦:
《
大地的勇士
》
售價:NT$
340.0
《
中华老学·第十一辑
》
售價:NT$
380.0
《
债务之网:瑞士民商法的发展历史(1800-1900)
》
售價:NT$
345.0
《
ARM嵌入式Linux系统开发详解(第3版)
》
售價:NT$
595.0
《
长寿时代:做自己人生的CFO
》
售價:NT$
310.0
《
早点知道会幸福的那些事
》
售價:NT$
295.0
《
知宋·宋代之货币
》
售價:NT$
340.0
《
爱的7种对话:建立持续一生的亲密关系 (加)苏·约翰逊
》
售價:NT$
345.0
|
編輯推薦: |
大数据作为一门崭新的学科,尚未形成完整的理论体系,仍存在许多关键问题尚待解决。 本书由业内实力派作者编著,与您一同探寻大数据背后的基础理论与核心技术,并在剖析教育、医疗、金融、交通等典型应用的基础上讨论未来趋势。
|
內容簡介: |
本书分为三大部分,分别为大数据基础理论分析、基于海量语意规则的大数据流处理技术及大数据应用。 *部分介绍大数据领域的主要基础理论,包括大数据基本概念、可编程数据中心、云文件系统、云数据库系统、大数据并行编程与分析模型、大数据智能计算算法、基于大数据的数据仓库技术、大数据安全与隐私保护,以及基于大数据的语意软件工程方法等。 第二部分介绍基于海量语意规则的大数据流处理技术,包括基于规则的大数据流处理介绍、语意规则描述模型、海量语意规则网及优化、海量语意规则处理算法及海量语意规则并行处理等。 第三部分主要介绍大数据的一些典型应用,包括:文化大数据、医疗健康大数据、互联网金融大数据、教育大数据、电子商务大数据、互联网大数据、能源大数据、交通大数据、宏观经济大数据、进出口食品安全监管大数据、基于大数据的语意计算及典型应用(含语意搜索引擎、语意金融、语意旅游规划、基于海量语意规则的语意电子商务)。*后探讨了大数据未来的研究方向。
|
關於作者: |
张桂刚:清华大学博士后,美国加州大学尔湾分校访问学者,现为中国科学院自动化研究所副研究员,研究生导师。国家公共文化服务体系建设专家委员会委员,中国人工智能学会智能服务专业委员会委员,IEEEACM中国自动化学会会员,中国计算机学会高级会员。BigMMICSCICRC(多媒体大数据语义计算机器人计算)三个国际会议的Workshop联合主席。主持或参与973、863、国家科技支撑计划、工信部民机专项、国家自然基金等课题10余个,发表SCIEI论文40余篇,申请发明专利20余项。主要研究方向:大数据、语意(义)计算、大飞机综合健康管理、图计算。
李超:博士,副研究员,清华大学息技术研究院WEB 与软件技术研究中心副主任,兼任金融大数据智慧健康大数据两联合研究中心副主任,中国计算机学会信息存储技术专委委员,中国高等学校计算机教育研究会对外联络委员会委员,全国文影标(SACTC86SC6)委员、全国信标委教育技术分技术委员会(TC28SC36)委员、ISOIEC JTC1 SC36 WG8 Learning Analytics Interoperability工作组专家。发表论文50余篇、已授权专利10余项。在海量数据存储、组织与管理、分析,及其在教育医疗金融等领域的应用方面有十余年经验。邢春晓:清华大学信息技术研究院博导,副院长。主要研究领域包括:数据库和数据仓库,数据工程和知识工程,软件工程,面向智慧城市的教育、医疗、金融和政务的大数据关键技术研究等。发表学术论文180多篇,其中SCI 20多篇、EI 100多篇,发明专利20余项。
|
目錄:
|
目录
第一部分大数据基础理论分析(1)
第1章大数据基本概念(2)
1.1大数据定义(2)
1.2大数据度量(3)
1.2.1大数据能耗度量(3)
1.2.2大数据计算能力度量(4)
1.2.3大数据的数据中心服务能力度量(4)
1.2.4大数据商业与社会价值度量(4)
1.2.5大数据冷热度度量(5)
1.3语意计算的发展过程(5)
1.3.1语义计算(Semantic Computing)(5)
1.3.2语意计算(SemanticComputing)(5)
1.3.3语意计算(Semantic Computing)(6)
1.3.4语意计算和大数据(7)
1.4大数据的语意理解(8)
1.4.1大数据资源语意存储(9)
1.4.2大数据资源语意信息获取(9)
1.4.3语意资源管理(9)
1.4.4大数据语意处理(10)
1.4.5大数据语意服务(语意分析语意合成等)(10)
1.4.6大数据语意安全与隐私(10)
1.4.7语意接口(10)
1.4.8基于语意的大数据应用(10)
1.5大数据和云计算(11)
1.5.1云计算(11)
1.5.2大数据和云计算的关系(11)
本章小结(12)
第2章可编程数据中心(13)
2.1可编程数据中心体系架构(13)
2.2数据分配管理(14)
2.2.1数据分配管理原理(14)
2.2.2数据分配管理案例(17)
2.3异构数据节点分配管理(19)
2.3.1异构数据节点分配管理方法(20)
2.3.2异构数据节点服务能力计算方法(22)
2.4规则管理(23)
2.4.1规则(23)
2.4.2语意规则(24)
2.4.3海量语意规则管理架构(24)
2.5数据放置策略(25)
2.5.1谷歌的数据放置策略(25)
2.5.2Hadoop的数据放置策略(26)
2.5.3其他常用的数据放置策略(26)
2.5.4语意数据放置策略(26)
2.6可编程数据中心机房架构(30)
本章小结(30)
第3章云文件系统(32)
3.1常用云文件系统综述(32)
3.2语意云文件系统SCFS(34)
3.2.1SCFS系统架构(34)
3.2.2SCFS大小文件处理机制(36)
3.2.3数据一致性保障(40)
3.2.4元数据集群管理技术(40)
3.2.5副本管理策略(负载均衡机制)(41)
本章小结(44)
第4章云数据库系统(45)
4.1常用云数据库系统综述(45)
4.2语意云数据库系统SCloudDB(47)
4.2.1SCloudDB系统架构(47)
4.2.2SCloudDB设计思路(48)
4.2.3SCloudDB的SRegion定位机制(50)
4.2.4多维及海量随机查询机制(51)
4.2.5支持多维及海量随机查询的语意搜索机制(52)
4.2.6大表划分方法(54)
4.2.7基于列族存储及语意的大表划分机制(56)
4.2.8分布式同步关键技术(57)
本章小结(59)
第5章大数据并行编程与分析模型(60)
5.1大数据并行编程与分析模型综述(60)
5.2大数据并行编程与分析模型SemanMR(63)
5.2.1SemanMR体系架构(63)
5.2.2SemanMR技术思路(64)
5.3SemanMR关键技术(66)
5.3.1基于语意的调度器关键技术(66)
5.3.2SemanMR的作业任务状态交互新规则(68)
5.3.3语意映射器关键技术(69)
5.3.4基于语意的作业调度器关键技术(70)
5.3.5基于语意的任务调度器关键技术(73)
5.3.6任务跟踪器关键技术(76)
5.4SemanMR计算部分框架(78)
5.5SemanMR原理分析(82)
5.5.1SemanMR原理实现分析(82)
5.5.2SemanMR实现原理特点分析(84)
5.6基于SemanMR的大数据实时处理与分析实现技术(88)
5.6.1SemanMR实时架构(88)
5.6.2SemanMR的MapReduce网络优化技术(89)
本章小结(94)
第6章大数据智能计算算法(95)
6.1大数据智能计算算法架构(95)
6.2数据采集算法(95)
6.2.1管理信息系统数据采集(96)
6.2.2网络信息数据采集(96)
6.2.3物理信息数据采集(96)
6.3数据预处理算法(97)
6.4数据挖掘算法(99)
6.4.1分类算法(99)
6.4.2聚类算法(100)
6.4.3关联挖掘算法(101)
6.4.4推荐算法(101)
6.5复杂智能算法(103)
6.5.1大数据溯源算法(103)
6.5.2大数据的相关推荐算法(105)
6.5.3基于大数据的决策管理算法(105)
6.5.4基于模型的推理及预测算法(106)
6.5.5基于数据的推理及预测算法(107)
6.5.6基于规则的推理及预测算法(109)
6.5.7混合推理及预测算法(109)
本章小结(109)
第7章基于大数据的数据仓库技术(110)
7.1Facebook中Hive采用的技术思路与存在问题分析(110)
7.1.1Hive采用的技术思路分析(110)
7.1.2Hive存在的问题分析(111)
7.2Yahoo!中Pig采用的技术思路与存在问题分析(111)
7.2.1Pig采用的技术思路分析(111)
7.2.2Pig存在的问题分析(112)
7.3未来数据仓库架构需求分析(113)
7.4一种基于大数据的数据仓库SemanDW(114)
本章小结(114)
第8章大数据安全与隐私保护(115)
8.1大数据安全模型BigData-PKI(115)
8.1.1大数据安全体系结构(115)
8.1.2大数据安全模型BigData-PKI(116)
8.2大数据安全协议BigData-Protocol(118)
8.3大数据隐私(120)
8.4大数据的隐私提取方法(121)
8.4.1大数据的直接隐私提取方法(121)
8.4.2大数据的间接隐私提取方法(121)
8.5大数据隐私保护模型BigData-Privacy(122)
8.6大数据共享信息与隐私信息融合技术(122)
8.6.1大数据的共享信息与隐私信息融合机制(123)
8.6.2大数据的共享信息与隐私信息融合算法(123)
8.6.3大数据的共享信息与隐私信息融合质量评价模型(123)
8.7云环境下医疗大数据安全和隐私保护示范(125)
8.7.1云环境下大数据安全和隐私保护架构(125)
8.7.2数据分割及安全机制(127)
8.7.3数据融合及安全机制(129)
8.7.4基于隐私数据的查询机制(130)
8.7.5数据完整性保障机制(131)
8.8海量电子病历安全保护应用(133)
本章小结(134)
第9章基于大数据的语意软件工程方法(135)
9.1基于大数据的语意软件工程体系架构(136)
9.2基于大数据的语意软件编制(136)
9.2.1基于大数据的语意软件编制方法(136)
9.2.2基于大数据的语意软件编制方法设计思路(137)
9.2.3复杂的SemanPL程序编程实现原理分析(138)
9.2.4基于大数据的语意编程语言SemanPL(139)
9.2.5SemanPL编译器原理分析(141)
9.3基于大数据的语意软件测试(143)
9.4基于大数据的语意软件验证(143)
9.5基于大数据的语意软件工程方法的语意软件系统应用(144)
本章小结(144)
第二部分基于海量语意规则的大数据流处理技术(145)
第10章基于规则的大数据流处理介绍(147)
10.1基于规则的大数据流(147)
10.1.1基于规则的大数据流应用背景(147)
10.1.2基于规则的大数据流应用意义(148)
10.2大数据流的规则处理技术国内外研究现状(149)
10.3存在的问题总结与分析(153)
本章小结(154)
第11章语意规则描述模型(155)
11.1规则表示方法(155)
11.2规则节点图形化符号表示模型(155)
11.2.1非计算规则节点(156)
11.2.2计算规则节点(156)
11.3规则粒度(158)
11.4规则节点流量分析(159)
11.5计算规则节点计算代价分析(163)
本章小结(167)
第12章海量语意规则网及优化(168)
12.1海量语意规则网概述(168)
12.2海量语意规则网维护(169)
12.2.1海量语意规则网增量集成(169)
12.2.2删除规则节点时的规则网维护(170)
12.3海量语意规则网优化方法(171)
12.3.1基于规则合并的优化方法(171)
12.3.2规则模块等价变换的优化方法(173)
本章小结(183)
第13章海量语意规则处理算法(184)
13.1传统规则处理算法存在的问题(184)
13.2海量语意规则模式匹配模型(185)
13.2.1海量语意规则模式匹配模型体系结构(185)
13.2.2概念与介绍(186)
13.2.3模式网络存储组织(186)
13.2.4海量语意规则模式匹配算法(188)
13.3海量语意规则模式匹配算法特点(192)
13.4海量语意规则网运行处理机制(195)
本章小结(198)
第14章海量语意规则并行处理(199)
14.1海量语意规则并行处理面临的问题(199)
14.2海量语意规则并行处理机制(200)
14.2.1海量语意规则并行处理机制GAPCM概述(200)
14.2.2海量语意规则子网生成(201)
14.2.3海量语意规则网计算代价预分配(202)
14.2.4海量语意规则网通信(219)
14.2.5映射分配(220)
本章小结(221)
第三部分大数据应用(223)
第15章文化大数据(224)
15.1文化大数据的意义(224)
15.2文化大数据关键技术平台架构(225)
15.3文化大数据资源层(226)
15.4文化大数据综合平台层(227)
15.5基于文化大数据的应用(228)
15.6文化大数据云管理系统(232)
本章小结(234)
第16章医疗健康大数据(235)
16.1医疗健康大数据(235)
16.2医疗健康大数据平台架构(235)
16.3医疗健康大数据共享平台(237)
16.3.1集中式医疗健康大数据共享平台(237)
16.3.
|
內容試閱:
|
前 言
随着Web 2.0技术的发展,尤其是移动互联网的飞速发展,每个人、每台手机、每个iPad及每台血压计、血糖测量仪等各种智能移动设备无时无刻不在产生数据。大数据(Big Data)正在不断地渗透到人们生活中的每个角落,也在不断地改变人们的生活方式,并引导新兴的产业革命,在给传统行业带来巨大冲击的同时也带来了巨大的新机遇和挑战。一个企业甚至一个国家拥有的数据规模和质量,以及处理和分析数据的能力,已经成为判断一个企业或者一个国家竞争力的最为重要的标志之一,拥有多少大数据资源及如何管理并使用这些大数据资源,已经成为是否具有核心竞争力的关键因素。为了迎接大数据带来的各种挑战和机遇,全球各个国家和企业对大数据的重视程度均达到了一个前所未有的高度。从全球角度来看,很多国家已经把大数据作为一项国家科技意志。例如,美国政府已经制订了大数据研究和发展计划,日本为了增强经济活力提出了大数据战略计划等。不仅如此,一些知名公司如Google、IBM及EMC等也成立了专门的大数据研究机构,以应对在大数据研究和应用中的各项关键技术挑战及应用实现所面临的问题。
2008年,在Google成立10周年之际,《自然》(Nature)杂志出版了一期专刊,专门讨论了未来大数据处理相关的一系列技术问题和挑战。2011年2月11日美国出版的《科学》(Science)期刊专门出版了一期数据处理(Dealing with Data)专辑,围绕目前科学研究的海量数据处理问题展开讨论,并阐述了大数据对科学研究的重要性。在随后的2011年9月4日,《自然》再次就大数据研究问题设立了一个大数据方面的专题,讨论分析了现代科学研究面临的一个巨大挑战,即如何处理已有的大数据。目前,我国对大数据的认识也越来越深刻,各行各业均利用大数据进行各种研究及应用。
如上所述,大数据正在各行各业扮演着十分重要的角色,例如:①天文学领域。如通过对大数据的分析,掌握宇宙形成机理、宇宙黑洞形成及演化机理、星球消亡与再生原理等。②物理学领域。如大家所熟知的希格斯上帝粒子的大数据计算分析,核弹爆炸及氢弹爆炸的大数据计算模拟。③生物学领域。如基因排序的大数据计算,生命演化过程的大数据计算模拟及生物制药的化学反应大数据计算模拟等。④地理学领域。如地震预警中的大数据计算,海啸预警和防范的大数据计算,以及全球变暖预测的大数据计算等。⑤社会计算媒体领域。主要有以Facebook、Google和人人网为代表的社交交友网站的大数据计算,以Twitter、新浪微博及腾讯微博为代表的社交信息传播网站的大数据计算(美国总统奥巴马在总统选举中采用了对Twitter大数据的分析,这是帮助他实现连任总统的关键所在),以天涯论坛为代表的论坛大数据的分析计算等。⑥电子商务领域。主要有以eBay、阿里巴巴、淘宝网为代表的电子商务大数据计算分析。⑦金融领域。主要有银行及股票交易系统的大数据实时分析,新兴的互联网金融或者大数据金融形态主要有余额宝、百度百发及微信支付等。⑧能源、交通领域。主要有电网的大数据实时分析监控,能源调度大数据分析,城市公交线路规划优化及交通道路路线选择的大数据实时分析等。⑨通信领域。如PB级的电信、移动、联通等通话记录及短消息记录的大数据计算分析。⑩其他领域。如人工智能的大数据分析、反恐领域的大数据分析、影视领域的大数据分析、文化领域的大数据分析、食品安全检查领域的大数据分析、航空领域的大数据分析、电子商务领域的大数据分析、在线教育领域的大数据分析、健康医疗领域的大数据分析等。
大数据已经成为全球及全社会各行各业最为重要的战略资源。如何管理好大数据,并从大数据中挖掘出它的潜在价值将是大数据未来的主要发展方向。大数据将普遍应用于国民生产中的各个领域,包括政府、医疗、经济、社会、教育、航空航天、军事及互联网和物联网等各个领域。本书后面几章将给出一些具体的案例进行初步分析,以期更深入地从应用的角度理解大数据及其在各种应用中的价值所在。
如何处理这些密集型应用所需的大数据显得越来越重要。与其他学科不同,大数据作为一门崭新的学科,尚未形成一套理论体系,依然存在许多关键的问题没有解决,甚至在大数据这门学科中到底有哪些基础理论、关键问题、核心技术等都没有一个完整的概念。鉴于此,本书研究大数据背后的核心技术并对一些具体的应用领域进行了分析。下图展示了本书的总体架构和研究内容。
本书章节关系图
第1章:大数据基本概念。本章主要分析大数据的一些基本概念,包括大数据定义、大数据度量、大数据表示、大数据的语意理解及大数据和云计算的关系等。
第2章:可编程数据中心。本章设计了一种可编程数据中心模型,该可编程数据中心模型将充分考虑能源消耗、基于各种智能调度的大数据放置方法等。
第3章:云文件系统。本章主要分析了现有的常用云文件系统,如谷歌GFS,Hadoop HDFS等,并分析了现有云文件系统的缺陷,最后提出了一种新的语意云文件系统的简要设计思路SCFS。
第4章:云数据库系统。本章主要分析了现有的常用云数据库系统,如谷歌BigTable、Hadoop HBase等,并分析了现有云数据库系统的缺陷,最后提出了一种新的语意云数据库系统的简要设计思路。
第5章:大数据并行编程与分析模型。本章主要分析了现有的常用大数据并行编程与分析模型,如谷歌MapReduce、Hadoop MapReduce、Hadoop、Twister等,并分析了现有大数据并行编程与分析模型的缺陷,最后提出了一种新的大数据并行编程与分析模型的简要设计思路SemanMR。另外,为了提高大数据实时处理效率,本章设计了一种初步的大数据实时处理方法。
第6章:大数据智能计算算法。本章主要总结了当前大数据智能计算常用的一些智能算法,并做了相应的分析。
第7章:基于大数据的数据仓库技术。本章分析了现有的常用大数据仓库技术,如Hive、Pig等,并提出一种新的基于大数据的数据仓库技术的简要设计思路。
第8章:大数据安全与隐私保护。本章介绍了在云环境下的大数据安全与隐私保护机制及相应的各种方法和算法。
第9章:基于大数据的语意软件工程方法。本章根据大数据这门新学科的特点,提出了一种基于大数据的语意软件工程的方法,为基于大数据的软件系统的开发提供了一种新的软件工程的研究、设计和开发思路。
第10章:基于规则的大数据流处理介绍。本章介绍了基于规则的大数据流处理所涉及的一些基本概念及基础知识。
第11章:语意规则描述模型。本章介绍了一种可以表示各种粒度(大粒度、中粒度及小粒度)规则的语意规则描述模型。主要包括语意规则节点表示方法、语意规则节点流量及语意规则节点可计算代价等。
第12章:海量语意规则网及优化。本章介绍了基于规则合并及基于规则模块等价替换的海量语意规则网优化方法。本章通过研究语意规则,将不同语意规则中有重复语意规则的节点进行合并,达到语意规则完全合并或部分合并的目的;同时,本章通过分析那些计算功能等价的语意规则模块,用计算代价小的语意规则模块替换计算代价大的语意规则模块。
第13章:海量语意规则处理算法。本章在分析现有的各种规则模式匹配处理算法的基础上,针对现有规则模式匹配处理算法的缺陷,介绍了一种适合于海量语意规则的海量语意规则模式匹配处理模型及运行时的处理算法。
第14章:海量语意规则并行处理。本章提出并研究了一种海量语意规则并行处理机制GAPCM。介绍了将海量语意规则生成互相独立的规则子网的方法;任务预分配方法;语意规则子网的合理划分方法;语意规则子网内部通信及处理机之间的外部通信;将任务具体映射到所对应处理机的方法。
第15章:文化大数据。本章从大数据在文化领域的应用角度分析了大数据在公共文化、图书馆、博物馆、艺术馆、科技馆、艺术馆及美术馆这种文化领域的数据采集、存储、计算分析及应用方法和典型应用。
第16章:医疗健康大数据。本章从大数据在医疗健康领域的应用角度分析了医疗健康领域如何利用大数据进行数据的组织、存储、计算分析及应用方法和典型应用。
第17章:互联网金融大数据。本章从大数据在金融领域的应用角度分析了互联网金融领域如何利用大数据进行数据的组织、存储、计算分析及其应用的方法和典型应用。
第18章:其他典型大数据。我们在第15、16及17章中分别介绍了文化大数据、医疗健康大数据及互联网金融大数据。大数据的应用现在已经遍布各个领域,本章对教育大数据、电子商务大数据、互联网大数据、能源大数据、交通大数据、宏观经济大数据、食品安全监管大数据等进行了一个简要的阐述。
第19章:基于大数据的语意计算及典型应用。由于大数据的产生,语意计算(Semantic Computing)也应运而生。语意计算(Semantic Computing)是在语义计算(Semantic Computing)和语意计算(SemanticComputing)基础上加上大数据技术的应用而产生的一种新的计算模式。本章分析了基于大数据的各种语意计算的应用,如在社交网络方面的应用、政府方面的应用等,最后又具体介绍了基于大数据的语意计算应用,包括语意搜索引擎、语意金融、语意旅游规划及基于海量语意规则的语意电子商务。
第20章:大数据未来研究方向。本章简要描述了大数据未来的发展方向及主要应用方向等。
作 者
|
|