登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

『簡體書』数据天才:数据科学家修炼之道

書城自編碼: 3002179
分類: 簡體書→大陸圖書→計算機/網絡數據庫
作者: [美]Vincent Granville[文森特·格兰维尔]
國際書號(ISBN): 9787121308833
出版社: 电子工业出版社
出版日期: 2017-05-01
版次: 1 印次: 1
頁數/字數: 356/385000
書度/開本: 16开 釘裝: 平装

售價:NT$ 672

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
量子网络的构建与应用
《 量子网络的构建与应用 》

售價:NT$ 500.0
拍电影的热知识:126部影片里的创作技巧(全彩插图版)
《 拍电影的热知识:126部影片里的创作技巧(全彩插图版) 》

售價:NT$ 500.0
大唐名城:长安风华冠天下
《 大唐名城:长安风华冠天下 》

售價:NT$ 398.0
情绪传染(当代西方社会心理学名著译丛)
《 情绪传染(当代西方社会心理学名著译丛) 》

售價:NT$ 403.0
中国年画 1950-1990 THE NEW CHINA: NEW YEAR PICTURE 英文版
《 中国年画 1950-1990 THE NEW CHINA: NEW YEAR PICTURE 英文版 》

售價:NT$ 1100.0
革命与反革命:社会文化视野下的民国政治(近世中国丛书)
《 革命与反革命:社会文化视野下的民国政治(近世中国丛书) 》

售價:NT$ 435.0
画楼:《北洋画报》忆旧(年轮丛书)
《 画楼:《北洋画报》忆旧(年轮丛书) 》

售價:NT$ 1573.0
大国脊梁:漫画版
《 大国脊梁:漫画版 》

售價:NT$ 374.0

建議一齊購買:

+

NT$ 425
《 用数据讲故事 》
+

NT$ 490
《 基本面量化投资:运用财务分析和量化策略获取超额收益 》
+

NT$ 1210
《 深度学习 》
+

NT$ 259
《 势利(《纽约时报》年度畅销书) 》
+

NT$ 387
《 斯坦福商业决策课 》
+

NT$ 634
《 科技之巅2:麻省理工科技评论2017年10大全球突破性技术深度剖析 》
編輯推薦:
本书会精准地告诉你什么是数据科学,它跟计算机科学有何差异,如何从数据中提炼价值,如何提升数据科学技能,获得工作机会。本书包括以下内容:
源代码、数据集,以及供复习的名词字典
供数据科学家参考的简历样本、薪酬调查,以及职位描述样本
什么样的公司在寻找数据科学家
大数据及分析产业的权威分析
能展示竞争优势的实际面试问题
能帮助切实理解数据分析的案例
数据科学窍门、秘方和规则
內容簡介:
这是一本跟数据科学和数据科学家有关的手册,它还包含传统统计学、编程或计算机科学教科书中所没有的信息。本书有3个组成部分:一是多层次地讨论数据科学是什么,以及数据科学涉及哪些其他学科;二是数据科学的技术应用层面,包括教程和案例研究;三是给正在从业和有抱负的数据科学家介绍一些职业资源。本书中有很多职业和培训相关资源(如数据集、网络爬虫源代码、数据视频和如何编写API),所以借助本书,你现在就可以开始数据科学实践,并快速地提升你的职业水平。
關於作者:
Vincent Granville博士是一名富有远见的数据科学家,有 15 年大数据、预测建模、数字分析和业务分析的经验。Vincent 在评分技术、欺诈检测和网络流量优化及增长等领域,是举世公认的权威专家。在过去的 10 年中,他曾与 Visa 一起研究实时*欺诈检测,与CNET一起研究广告组合优化,与Microsoft(微软公司)一起研究改变点检测,与Wells Fargo(富国银行)一起研究在线用户体验,与InfoSpace一起研究搜索智能,与eBay一起研究自动竞价,与各大搜索引擎、广告网络和大型广告客户一起研究点击欺诈检测。Vincent 也管理着LinkedIn上*的大数据及分析数据科学家小组,该小组拥有超过100 000名成员。
最近,Vincent推出了数据科学中心(Data Science Center)这个大数据、业务分析和数据科学界的领先社区。Vincent曾是剑桥大学和美国国家统计科学学院的博士后。他曾入围沃顿商业计划竞赛和比利时数学奥林匹克的决赛。Vincent 已经在统计期刊上发表了40篇论文,并且是许多国际会议的受邀演讲嘉宾。他还开发了一种新的数据挖掘技术,被称为隐性决策树,他还拥有多项专利,是发表数据科学书籍的第一人,并筹集了600万美元的创业启动资金。根据福布斯的排名,Vincent 是大数据领域前20位有影响力的人物之一,被VentureBeat、MarketWatch和美国有线新闻网(CNN)专门报道。Vincent的Twitter账号为@Analyticbridge。Vincent Granville博士是一名富有远见的数据科学家,有 15 年大数据、预测建模、数字分析和业务分析的经验。Vincent 在评分技术、欺诈检测和网络流量优化及增长等领域,是举世公认的权威专家。在过去的 10 年中,他曾与 Visa 一起研究实时*欺诈检测,与CNET一起研究广告组合优化,与Microsoft(微软公司)一起研究改变点检测,与Wells Fargo(富国银行)一起研究在线用户体验,与InfoSpace一起研究搜索智能,与eBay一起研究自动竞价,与各大搜索引擎、广告网络和大型广告客户一起研究点击欺诈检测。Vincent 也管理着LinkedIn上*的大数据及分析数据科学家小组,该小组拥有超过100 000名成员。
最近,Vincent推出了数据科学中心(Data Science Center)这个大数据、业务分析和数据科学界的领先社区。Vincent曾是剑桥大学和美国国家统计科学学院的博士后。他曾入围沃顿商业计划竞赛和比利时数学奥林匹克的决赛。Vincent 已经在统计期刊上发表了40篇论文,并且是许多国际会议的受邀演讲嘉宾。他还开发了一种新的数据挖掘技术,被称为隐性决策树,他还拥有多项专利,是发表数据科学书籍的第一人,并筹集了600万美元的创业启动资金。根据福布斯的排名,Vincent 是大数据领域前20位有影响力的人物之一,被VentureBeat、MarketWatch和美国有线新闻网(CNN)专门报道。Vincent的Twitter账号为@Analyticbridge。
关于译者
吴博:利兹大学博士后,具备多年机器学习研发、数据科学从业经验。曾任爱立信大数据高级研究员,多家公司数据科学家及数据变现业务负责人。现任深圳市宜远智能科技有限公司创始人。
张晓峰:哈尔滨工业大学深圳研究生院计算机科学与技术学院副教授、博士生导师,主要研究方向为数据挖掘、隐私保护和机器学习等。曾在北大方正研究院、香港大学电子技术研究所工作。主持包括国家自然科学基金面上项目,以及其他省市纵向、横向课题十余项。已在国内外重要学术刊物与会议上发表SCIEI索引论文40余篇。
季春霖:深圳光启高等理工研究院联合创始人,副院长;深圳市统计学会副会长;哈佛大学博士后,杜克大学统计学博士,剑桥大学硕士;广东省自然科学基金杰青项目获得者;发表包括Science在内的论文60余篇,授权专利400余项。热衷于贝叶斯统计学及其应用。
目錄
第1章数据科学是什么1
真伪数据科学对比2
伪数据科学的两个例子5
新大学的面貌7
数据科学家10
数据科学家与数据工程师10
数据科学家与统计学家12
数据科学家与业务分析师13
13个真实世界情景中的数据科学应用14
情景1:国家对烈性酒销售的垄断结束后,DUI(酒后驾驶)逮捕量减少15
情景2:数据科学与直觉17
情景3:数据故障将数据变成乱码19
情景4:异常空间的回归21
情景5:分析与诱导在提升销量上有何不同价值22
情景6:关于隐藏数据24
情景7:汽油中的铅会导致高犯罪率。真的吗25
情景8:波音787(梦幻客机)问题26
情景9:NLP的7个棘手句子27
情景10:数据科学家决定着我们所吃的食品28
情景11:用较好的相关性增加亚马逊的销售量30
情景12:检测Facebook上的假档案或假喜欢数32
情景13:餐厅的分析33
数据科学的历史、开拓者和现代趋势33
统计学将会复兴34
历史与开拓者36
现代的趋势38
最近的问答讨论40
总结44
第2章大数据的独特性45
两个大数据的问题45
大数据诅咒45
数据快速流动问题50
大数据技术示例56
大数据问题是数据科学所面临挑战的缩影56
大规模数据集的聚类和分类58
1亿行的Excel63
MapReduce不能做什么67
问题67
3种解决方案68
结论:何时使用MapReduce69
沟通问题70
数据科学:统计学的终结72
8种最差的预测建模技术72
把计算机科学、统计学和行业专业知识结合在一起74
大数据生态系统78
总结79
第3章成为一名数据科学家80
数据科学家的主要特征80
数据科学家的职能80
横向与纵向数据科学家83
数据科学家的类型86
伪数据科学家86
自学成才的数据科学家86
业余数据科学家87
极限数据科学家89
数据科学家人群特征90
数据科学方面的培训91
大学课程91
公司和协会培训项目95
免费培训项目96
数据科学家职业道路98
独立顾问98
创业者105
总结118
第4章数据科学的技术(I)119
新型指标120
优化数字营销活动的指标121
欺诈检测的指标122
选择合适的分析工具124
分析软件124
可视化工具125
实时产品126
编程语言128
可视化128
用R生成数据视频129
更复杂的视频133
无模型的统计建模134
无模型的统计建模是什么135
该算法是如何工作的135
源代码生成数据集137
三类指标:中心性、波动性、颠簸性137
中心性、波动性和颠簸性之间的关系138
定义颠簸性138
在Excel中计算颠簸性139
使用颠簸系数141
大数据的统计聚类141
大数据的相关性和拟合度143
一系列新的秩相关性146
渐近分布与归一化148
计算复杂度152
计算qn152
理论上的解决方案155
结构系数156
确定簇的数量157
方法157
例子158
网络拓扑映射159
安全通信:数据加密163
总结166
第5章数据科学的技术(II)167
数据字典168
什么是数据字典168
建立数据字典169
隐性决策树169
实现方法171
示例:互联网流量打分173
结论175
与模型无关的置信区间175
方法175
分析桥第一定理176
应用177
源代码178
随机数179
解决问题的4个办法181
拥有超强直觉能力的业务分析师的直观法182
软件工程师的蒙特卡洛模拟法182
统计学家的统计建模方法183
计算机科学家的大数据方法183
因果关系和相关性183
怎样检测因果关系184
数据科学项目的生命周期186
预测模型的错误189
逻辑相关回归191
变量之间的相互作用191
一阶近似191
二阶近似193
用Excel进行回归分析195
实验设计196
有趣的指标196
把患者分成不同的人群进行治疗196
私人定制的治疗197
分析即服务和应用程序接口198
工作原理199
实施案例199
关键词相关的API的源代码200
其他主题204
当数据库改变时,保存好数值204
优化网络爬虫205
哈希连接206
用于模拟簇的简单源代码207
Hadoop和大数据的新型合成方差208
Hadoop和MapReduce的介绍208
综合指标209
Hadoop、数值的和统计的稳定性210
方差的抽象概念211
一个新的大数据定理213
平移不变性的度量标准214
实现:通信和计算成本214
最终意见215
总结215
第6章数据科学应用案例研究217
股票市场217
使回报率提高500%的模式217
优化统计交易策略220
股票交易的API:统计模型222
股票交易的API:具体实现225
股票市场模拟226
些许数学知识229
新趋势231
加密232
数据科学应用:隐写术232
好的电子邮件加密236
验证码破解239
欺诈检测240
点击欺诈241
连续点击评分与二进制欺诈非欺诈242
数学模型与基准244
虚假转化产生的偏差245
一些误解246
统计面临的挑战246
点击评分优化关键词出价247
组合优化自动快速的特征选择249
特征的预测能力:交叉验证250
勾连检测和僵尸网络的关联规则检测254
模式检测的极值理论255
数字分析256
在线广告:到达率和频率的计算公式256
电子邮件营销:提高300%的性能257
在7天内优化关键词广告宣传活动258
自动新闻提要优化260
用bit.ly进行竞争情报分析261
测量 Twitter 哈希标签(hashtag)的收益263
用3个修补方法提升谷歌搜索267
改进相关性的算法270
广告循环问题272
杂项273
简单模型会获得更好的销售预测273
更好的医疗欺诈检测275
归因模型276
预测陨石撞击277
在路口停车场收集数据281
数据科学的其他应用282
总结282
第7章踏上你的数据科学职业之路283
面试问题283
关于工作经验的问题283
技术问题285
一般性问题286
关于数据科学项目的问题288
测试你自己的视觉和分析思维291
通过肉眼的检测模式292
识别偏差294
误导性的时间序列和随机游走295
从统计学家到数据科学家296
数据科学家也是统计从业人员297
谁应该给数据科学家教统计学298
雇佣问题298
数据科学家与数据架构师密切合作299
谁应该参与战略思考299
两种类型的统计学家300
大数据与取样301
数据科学家的分类302
数据科学最流行的技能集合302
LinkedIn上的顶级数据科学家306
400个数据科学家职位头衔309
薪酬调查311
根据技能和位置的薪酬分类312
创建自己的薪酬调查表316
总结317
第8章数据科学资源318
专业资源318
数据集318
书籍319
会议与组织322
网站324
概念定义324
职业建设资源327
招聘数据科学家的公司328
数据科学招聘广告的样本329
简历样本329
总结331
內容試閱
译者序
本书最适合有志于在大数据与数据科学领域从业的人学习。格拉德威尔在《异类》一书中强调,若要成为行业专家,离不开十万小时的刻意学习(deliberate learning),这跟中国俗语里板凳要坐十年冷有些类似。但要实现刻意学习,就不能一味依赖通识科普书籍。在大数据与数据科学领域,市面上已不缺通识性的科普书籍,唯缺这类烧脑、有专业性、适合进行刻意学习的数据科学书籍。
本书不失专业性,但也不是令人生畏的大学教材。它处处体现理论与实践的结合,还兼顾技术与商业的平衡。这要归功于原作者Vincent是学术、技术、商业三栖高手。比如书中对于星空双星的估算、陨石撞地球的建模推算,让作者在数学奥赛方面的天分展现得淋漓尽致;在垃圾邮件、水印加密、点击欺诈等案例中,作者又分享了诸多为大公司实施数据项目的经验;在方案选择、股市预测等场景中,作者更侧重商业视角,帮读者提升对数据科学方法投入产出比及适用性的敏感度。
本书虽然专业度高,但也因为案例翔实、讲求实际,适合其他行业或领域的人士阅读。特别建议业务跟数据息息相关的企业负责人或高管,或者对数据相关项目感兴趣的投资者品读。毕竟数据科学家这一高层职位,跟企业负责人及高管的对接较多。虽说好的数据科学家,应具备与非技术人士沟通的能力,但作为数据科学家的领导,一旦多懂一些数据科学的思考模式及流程,便会对数据科学家有更多理解,也会对数据化的决策有更深的认识。
本书也传递出对行业热词的审慎态度。比如本书就对大数据的缘起、演变、更替、历史、迷思和幻象,着墨不少。就像书中所说,大数据领域许多看似新的方法,可以追溯到二三十年前,如今的不少创新,实乃新瓶旧酒。想必读者从Gartner的成熟度曲线里,可以看到大数据一词已渡过巅峰、渐趋理性,与之相随的,是跟数据科学息息相关的人工智能(AI)重新崛起。若理解本书的立场和价值取向,就知道人工智能60多年来几起几落,不少如今大放异彩的方法,也可找到前身。透过现象看本质,人工智能多少因为数据体量更大、数据分析更细、计算能力更强,才成为行业焦点。忽视基础理论盲目追随人工智能热点无异于舍本逐末,认真和刻意学习数据科学及人工智能的基础理论和实践,方是正途。
正因为这本书内容如此之好,能满足读者所需,于是我痛快答应电子工业出版社付睿编辑的邀约来翻译本书。但这个小想法变成最终成品,却耗费不少人的时间和精力,对他们的感谢和亏欠不能尽录。我最要鸣谢翻译合作者光启研究院的副院长季春霖博士,还有在哈工大深圳研究生院任教的张晓峰博士,两位的研究和管理任务都很繁重,面对译书这种流程漫长、成效滞后的工作,他们展现了学界出身的坚韧素养,而在翻译校对本书的过程中,又处处体现出手不凡的专业功力。同时,也要感谢配合翻译校对本书的助手和出版社工作人员,他们对我有莫大的包容和支持。本书准备期间,也正是我的一对小孩泰学和雅学从孕育到出生的过程,所以要感谢我的太太熊瑛,容许我为本书挤出不少本来可以陪伴家人的时间。
最后,我还要代表季春霖博士感谢广东省自然科学杰出青年基金项目(No.S20120011253)和深圳市数据科学与建模技术重点实验室的资助。也要感谢我所在的宜远智能团队,他们在将本书中许多数据科学方法实践到医疗健康领域时,提出了诸多宝贵的翻译修正补充建议。当然,对专业内容的翻译,难在对作者见识的理解和原意的把握,所以总有力有不逮、不甚精确之处,请各位读者和专家对此海涵,提出宝贵的建议。
本书译者 吴博
前言
这是一本跟数据科学和数据科学家有关的手册,它还包含传统统计学、编程或计算机科学教科书中所没有的信息。凭借作者在数据科学领域20多年的领导者地位,他在本书中收集了他认为对从事数据科学职业最重要的一些信息。在过去3年里,本书中的很多内容首先被发表在Data Science Central官网上,被数百万的网站用户所阅读。本书介绍了数据科学与其他相关领域的差异,以及使用大数据能给组织带来的价值。
本书有3个组成部分:一是多层次地讨论数据科学是什么,以及数据科学涉及哪些其他学科;二是数据科学的技术应用层面,包括教程和案例研究;三是给正在从业和有抱负的数据科学家介绍一些职业资源。本书中有很多职业和培训相关资源(如数据集、网络爬虫源代码、数据视频和如何编写 API),所以借助本书,你现在就可以开始数据科学实践,并快速地提升你的职业水平。如果你是一位决策者,你会在本书中找到一些信息,来帮助你建立更好的分析团队,以及决定是否需要及何时需要专业的解决方案,以及哪些方案最为恰当。
这本书是写给谁的
这本书是写给数据科学家和相关专业人士的(如业务分析师、计算机科学家、软件工程师、数据工程师和统计学家),以及有兴趣转投大数据科学事业的人。本书也是为学习定量课程、想成为数据科学家的大学生所准备的。最后,本书也可供数据科学家的上级领导、想创建数据科学初创公司开展业务或提供数据科学咨询的人阅读。
这些读者将在本书中找到有价值的信息,特别是在以下几章中。
?第2、4、5、6章对数据科学工作者特别有价值,因为它们包含大数据技术内容(如聚类和分类技术),以及前沿数据科学技术,如组合特征选择、隐性决策树、分析类API、判断MapReduce何时有用等。这些章节里很多案例研究(如欺诈检测、数字分析、股票市场策略和其他更多)的说明非常详细,详细到可以让读者在实际工作中面临类似数据时,能沿用这些案例的分析方法。然而,它们的文字描述都很简单,高层管理人员不用花太多时间在细节、代码或公式上,也能阅读下来。
?修读计算机科学、数据科学或工商管理硕士课程的学生,会在第2、4、5、6章中找到对他们有用的信息。特别是在第2、4、5章,他们能从中找到进阶内容,如实际的数据科学方法和原则,这些在一般的教科书或典型的大学课程里都没有。第6章还介绍了现实生活应用和案例研究,并包含更深入的技术细节。
?求职者将会在第3章中找到有关数据科学的培训和课程资源。第7、8章为求职者提供了大量的资源,包括面试问题、简历模板、招聘广告样板,经常招聘数据科学家的公司的清单,以及薪资调查等。
?对于想要创建一个数据科学创业公司或顾问公司的企业家,在第3章中会找到商业计划书样板、创业公司点子和针对顾问职位的薪酬调查。同时,在本书中,数据顾问会了解如何提高数据科学工作沟通效率,掌握数据科学项目的生命周期,并得到相关书籍、会议参考和许多其他资源。
?对于试图评估数据科学的价值和它们对企业项目的益处,以及评估MapReduce架构何时有用的高管们,会在第1、2、6(案例部分)、8章(招聘广告样板、简历、薪金调查)中找到有价值的信息。这些章节的重点通常不是技术。顶多会在第2章和第6章介绍一些新的分析技术。
这本书涵盖了什么
本书的技术部分包括数据科学的核心内容,比如:
?将大数据和传统的算法应用到大数据时的挑战(例如在进行大数据聚类或分类时的解决方案)。
?一种统计科学上新颖、简化、对数据科学友好的方法,重点在于它是一种健壮的无模型方法。
?顶尖的机器学习方法(隐性决策树和组合特征选择)。
?新型数据的新指标(综合指标、预测能力、波动系数)。
?创建快速算法所需的计算机科学要素。
?MapReduce和Hadoop,以及Hadoop进行计算时的数值稳定性。
重点还是最新的技术。在本书中你不会找到关于旧技术的资料介绍,如线性回归(除非在引文里涉及),因为这些在经典书籍里已经讨论了很多。在本书中,对逻辑回归类的知识讨论不多。我们只是将逻辑回归与其他分类器混合,提出一种数值稳定的近似算法(近似的解决方案往往和精确模型一样有效,毕竟没有任何数据完全符合理论模型)。
除了技术,本书还提供了有用的工作资源,包括工作面试的相关问题、简历模板和招聘广告样板。本书的另一个重要组成部分是案例研究。本书的案例研究,有些带有统计或机器学习的意味,有些则跟商业或决策科学或运筹学有关,有些则关乎数据工程。大多数时候,我喜欢Data Science Central(这是个数据科学家的领先社区)上最新发表和非常热门的主题,而不是我特别重视的话题。
本书是如何架构的
本书由三大主题构成。
?数据科学和大数据是什么和不是什么,以及与其他学科的区别(第1、2、3章)。
?职业和培训资源(第3章和第8章)。
?用作教程的技术材料(第4章和第5章,以及第2章中关于大规模数据集聚类和分类的内容,第8章中关于Hadoop 的新变化和大数据的内容),以及案例研究(第6章和第7章)。
本书为潜在的和现有的数据科学家和相关专业人员(以及他们的管理者和老板)提供了宝贵的职业资源。宽泛而言,本书适用于所有处理更大、更复杂、更新、频率更快的数据的专业人士。本书还提供一些数据科学的秘诀、技巧、概念(其中许多是原创和首次公开的)、带实施方法和技术的案例研究,以及已经在不同领域,不论是手动还是自动,能成功分析现代数据的技术。
阅读本书你需要什么知识
这本书包含了少量的R或Perl示例代码。你可以在http:www. activestate.comactiveperldownloads下载Perl,在http:cran. r-project.orgbinwindowsbase下载 R。如果你使用Windows 计算机,首先需要安装一个Linux式环境:Cygwin。你可以在http:cygwin. cominstall.html上下载Cygwin软件。Python也是开源的,且有一个有用的、被称为Pandas的库。
如果你有一两年大学基本定量课程的知识基础,就足以理解书中大多数内容。本书不需要微积分或高等数学的相关知识事实上,它几乎不包含任何数学公式或符号。
然而,本书也包含一些高度概括性的进阶材料。本书中的一些技术讲义,

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.