《数据挖掘：方法与应用-应用案例》 - 台灣·大書城 - 徐华 - 清华大学出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2023年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』数据挖掘：方法与应用-应用案例

書城自編碼： 3032833
分類：簡體書→大陸圖書→教材→研究生/本科/专科教材
作者：徐华
國際書號(ISBN)： 9787302472117
出版社：清华大学出版社
出版日期： 2017-08-01
版次： 1 印次： 1
頁數/字數： 178/154000
書度/開本： 32开釘裝：平装

售價：NT$ 137

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《甲骨文丛书·剑桥世界暴力史（第一卷）：史前和古代世界（套装全2册）》
售價：NT$ 959.0

《甲骨文丛书·中华早期帝国：秦汉史的重估》
售價：NT$ 1367.0

《欲望与家庭小说》
售價：NT$ 449.0

《惜华年（全两册）》
售價：NT$ 320.0

《甲骨文丛书·古代中国的军事文化》
售價：NT$ 454.0

《中国王朝内争实录（套装全4册）：从未见过的王朝内争编著史》
售價：NT$ 1112.0

《半导体纳米器件：物理、技术和应用》
售價：NT$ 806.0

《创客精选项目设计与制作第2版刘笑笑颜志勇严国陶》
售價：NT$ 281.0

建議一齊購買：

NT$ 569
《淘宝、天猫电商数据分析与挖掘实战（第2版）》

NT$ 497
《复杂决策问题的解决方法与应用研究》

NT$ 929
《数据挖掘与分析概念与算法》

NT$ 593
《大数据挖掘：系统方法与实例分析》

NT$ 299
《大数据分析：数据挖掘必备算法示例详解》

編輯推薦：

精选六大行业领域数据挖掘与分析案例。? 遵从数据挖掘应用实施过程进行介绍。? 从实际应用的角度点评数据挖掘的效果。? 洞察数据挖掘的重要实施环节。? 既是高等学校的教学辅导用书，又是行业专业人士参考用书。

內容簡介：

本书主要以作者近五年在清华大学开展数据挖掘应用研究和教学工作为基础，从所指导的多个数据挖掘与分析的应用案例中精选出包括交通、体育、金融、生物信息、社交网络、电力等领域代表性的数据挖掘与分析案例，结合基本的数据挖掘应用实施思路，展示了在不同行业领域开展数据挖掘与分析工作的实际过程。
本书可作为高等院校学生学习数据挖掘的参考读物，同时可供工程技术人员开展数据挖掘与分析工作时参考。

關於作者：

徐华博士，1998年获得西安交通大学计算机专业学士学位；2003年获得清华大学计算机应用技术专业博士学位；现为清华大学计算机系副教授，博士生导师。主要研究兴趣领域包括：网络文本数据挖掘、智能信息处理和机器人智能控制等。作为项目负责人、首席技术专家或研发骨干，负责完成国家科技重大专项课题3项，国家自然科学基金项目4项，国家973项目二级课题2项，国家863项目（课题）5项，国际500强企业（宝洁、西门子、安捷伦等）合作项目13项。目前已在本专业领域权威期刊和会议上发表学术论文97篇；编写教材2本，参与编写学术专著2部。作为第一完成人获得国家发明专利16项，国际PCT发明专利4项，软件著作权15项。作为清华方面的第一完成人，获得国家科技进步二等奖1项，北京市科学技术一等奖、二等奖和三等奖各1项，重庆市科学技术三等奖1项，行业协会科学技术一等奖2项等。

目录
第1章绪论1
1.1本书背景1
1.2数据挖掘应用概述2
1.3本书的主要内容安排4
1.4小结5

第2章基于GPS信息的出租车行车轨迹数据挖掘6
2.1概述6
2.2出租车GPS数据挖掘问题描述6
2.3基于GPS数据的出租车轨迹挖掘与分析9
2.4挖掘任务点评30
2.5小结31

第3章NBA比赛结果预测32
3.1问题背景32
3.2数据采集33
3.2.1数据来源33
3.2.2数据采集方法33
3.2.3原始数据34
3.3挖掘方法36
3.3.1挖掘的目标与实现思路36
3.3.2预测特征选取37
3.4分类和预测方法38
3.5预测结果的分析和对比39
3.5.1使用球队平均数据预测比赛结果39
3.5.2使用球队近期数据预测比赛结果40
3.6挖掘任务点评43
3.7小结43
参考文献44

第4章大型商业银行后台运维数据故障分析46
4.1概述46
4.1.1应用背景46
4.1.2主要研发内容49
4.2相关方法回顾51
4.2.1主成分分析法51
4.2.2前向特征选择法52
4.2.3随机森林方法52
4.3交易超时故障预测方法设计与实现54
4.3.1问题定义54
4.3.2工作流程55
4.3.3数据预处理55
4.3.4降维处理61
4.3.5预测模型62
4.3.6防范模型63
4.3.7评价方法64
4.4综合系统的设计与实现65
4.4.1系统框架65
4.4.2数据预处理模块65
4.4.3随机森林模块66
4.4.4展示模块67
4.4.5最终效果模块67
4.5结果分析与评价69
4.5.1实验数据69
4.5.2交易故障预测相关实验70
4.6挖掘任务点评75
4.7小结76
4.7.1总结76
4.7.2展望77
参考文献77

第5章RNA排序预测80
5.1概述80
5.2研发现状81
5.2.1内部核糖体进入位点的数据
挖掘研发现状81
5.2.2冷冻电镜图像蛋白质颗粒挑选
研究现状84
5.3工作设计与实现86
5.3.1基本的设计框架与实现思路86
5.3.2核心挖掘模型设计与实现91
5.4应用实现94
5.4.1实现程序与功能94
5.4.2数据挖掘分析结果展示95
5.5操作说明98
5.6挖掘任务点评98
5.7小结99
参考文献100

第6章乐学微信公众号关注趋势分析101
6.1前言101
6.1.1研究背景101
6.1.2数据来源102
6.1.3数据预处理102
6.1.4研究思路103
6.2平台发展现状104
6.2.1平台用户特性105
6.2.2平台传播状态108
6.2.3便捷操作发展状况113
6.3推送发展模式探究119
6.3.1成功推送案例分析120
6.3.2理想发展模式探究123
6.3.3不同模式下的平台关注量预测123
6.3.4推送发展的改进思路126
6.4便捷操作功能探究127
6.4.1用户使用习惯分析127
6.4.2便捷操作功能的改进思路128
6.5挖掘任务点评129
6.6小结130
参考文献130

第7章保险行业客户特征识别131
7.1概述131
7.2数据挖掘问题描述133
7.2.1问题背景133
7.2.2关于数据集133
7.3保险客户特征识别与分析134
7.3.1数据预处理134
7.3.2挖掘与分析结果145
7.4挖掘任务点评148
7.5小结150
参考文献150

第8章电力系统不良数据辨识案例分析155
8.1概述155
8.1.1电力系统不良数据辨识155
8.1.2数据介绍156
8.2研究内容157
8.2.1基于GSA的kmeans聚类157
8.2.2基于有效指数的kmeans聚类164
8.2.3模糊Cmeans聚类168
8.3总结分析171
8.3.1不良数据辨识结果对比171
8.3.2不良数据分析173
8.4挖掘任务点评175
8.5小结175

第9章总结177

內容試閱：

前言
近年来，随着计算机硬件资源成本的持续下降，软件开发技术的不断进步，基于移动互联网的数据采集能力不断提升，不同领域的大数据（Big Data）研究与应用性研发工作正在如火如荼地开展。作为大数据分析与处理的关键方法与技术之一，数据挖掘正在被不同的专业领域所关注。数据挖掘逐渐演变成一门具有通用性和基础性的数据处理方法与技术。正是在这样的大环境背景之下，作者于2011年春季学期开设了面向清华大学非计算机专业学生的专业课程数据挖掘：方法与应用，并于2014年10月出版了《数据挖掘：方法与应用》教材。在实际教学和应用研发过程中，我们深感数据挖掘工作与专业背景知识相结合的重要性，为了能让不同专业领域的同学和工程技术人员更加深入地理解如何开展一个高质量的挖掘和分析工作，我们从所指导的不同专业背景团队应用实施案例中精选出多个有代表性的实施案例进行介绍与点评。本书所讨论的案例数据均来自于国内外相关开放数据，精选了交通、体育、金融、生物信息、社交网络和电力等领域代表性的案例，分别从问题描述、挖掘与分析过程和案例点评三大方面对上述领域的案例进行介绍与讨论。作为《数据挖掘：方法与应用》一书配套的案例教材，本书在内容编排上以应用思路的讲解为主，特别强调将数据挖掘方法与专业领域的背景知识相结合，挖掘与分析出高质量的结果。本书作为相关课程的配套实验教材，可作为高等院校学生学习数据挖掘的参考读物，同时也可为工程技术人员开展数据挖掘与分析工作提供实施思路的指导。由于作者水平所限，疏漏之处在所难免，望读者不吝指正。最后，感谢清华大学2015年秋季学期本科教改立项项目对本教材的立项支持。
徐华2017年初春于清华园

第5章RNA排序预测随着生命科学和计算机科学的迅猛发展，其专业技术相互结合形成一门新兴的学科，即生物信息学（Bioinformatics）。它通过综合利用生物学、计算机科学和信息技术揭示大量而复杂的生物数据所具有的生物学奥秘，是当今生命科学和自然科学的重大前沿领域之一。其研究重点主要体现在基因组学（Genomics）和蛋白质组学（Proteomics）两方面，也即从核酸和蛋白质序列出发，分析序列中表达的结构功能的生物信息。本项挖掘任务从生物信息学和计算生物学的角度，分别对内部核糖体进入位点（Internal Ribosome Entry Site,IRES）和冷冻电镜图像蛋白质颗粒挑选进行数据挖掘与预测，也即分别进行生物领域内的文本和图像挖掘。5.1概述蛋白质与RNA的相互作用广泛存在于RNA剪切、翻译、病毒的复制以及细胞中的其他生物学过程中，因此，探讨蛋白质与RNA相互作用并确定蛋白质中与RNA结合的氨基酸残基，对于理解蛋白质与RNA之间的相互作用机制具有重要的意义。为了在只给定一条蛋白质序列的情况下，判断它的哪些位点是RNA结合高发区，哪些是不容易发生RNA结合的位点，本项任务选取最近刚通过质粒筛选试验产生突破性进展的内部核糖体进入位点作为数据来源，通过机器学习的手段，结合蛋白质序列的特征提取，实现在氨基酸残基的水平上对蛋白质序列中的RNA结合位点进行预测，从而完成文本的数据挖掘工作。通过研究蛋白质颗粒的微观三维结构，可以识别其具有的功能。蛋白质颗粒三维结构的获取如今主要有三种方法，分别是X射线衍射法、核磁共振法和三维电镜重构法。在冷冻电镜的三维重构法中，首先需要挑选出大量的二维投射样本，然后利用一定的三维重构技术重构出其三维空间结构。随着重构精度逐渐要求到原子级水平，待挑选的蛋白质颗粒也达到了上万乃至上百万的水平。在如此庞大数据量的挑战下，人工的挑选成为制约该技术发展的一个主要瓶颈。随着计算机视觉技术的发展，已经有许多模式识别算法被应用到蛋白质挑选的领域中，主要的方法便是基于模板匹配和基于特征学习。本项挖掘任务选取了已经被解析出蛋白质结构的TRPV1作为数据来源，基于上述特征选取、机器学习手段，进行蛋白质颗粒挑选，从而完成图像的数据挖掘工作。5.2研发现状〖*45〗5.2.1内部核糖体进入位点的数据挖掘研发现状真核生物的大多数蛋白质合成采用依赖帽子结构的翻译起始方式。但一组缺乏帽子结构的RNA病毒蛋白质合成起始方式依赖于其5端非翻译区（Untranslated Region，UTR）翻译调控的顺式作用元件内部核糖体进入位点。它们能够在一些反式作用因子的辅助下，招募核糖体小亚基到病毒mRNA的翻译起始位点。目前，依赖IRES元件翻译起始的RNA病毒在哺乳动物、无脊椎动物及植物中均有发现，因此，对RNA病毒IRES元件的深入研究，不仅有助于阐明相关疾病的发生机理，而且能够为工业应用和疾病治疗提供借鉴意义。IRES的结构如图5.1所示。图5.1IRES的结构示意图IRES是一段与众不同的RNA分子，能够募集真核生物核糖体到mRNA分子5UTR上进行翻译起始。这个过程就是内部起始翻译。具备IRES元件的RNA病毒5端不含有帽子结构，GC含量较高，具有复杂而且稳定的二级和三级结构，如稳定的颈环结构。但是，在一级和二级结构上还没有发现它们的共同特征。目前，针对IRES结构是否在RNA序列中存在的预测性研究主要从实验与生物信息学两个方面入手。从实验上看，一种是通过X射线晶体衍射、核磁共振等方法得到蛋白质与RNA复合物的三维结构信息，从而发现基于三维结构信息进一步确定与蛋白质中和RNA相互作用的氨基酸残基；另一种是通过高通量的筛选和已有的序列进行对比，从而定性地筛选出包含有IERS的蛋白质RNA序列。实验的优点是结果可靠；缺点在于时间、人力和经费方面的花费较大，并且在具体实施时，还面临着不少实际问题。例如，某些蛋白质RNA复合物结晶很难获得，某些序列合成后可能会不稳定。随着蛋白质结构数据的增多，研究人员开始尝试从生物信息学角度出发对这个问题进行研究与分析。从研究途径看，可以分为通过RNA结合结构域来判定、通过分子动力学模拟来判定以及通过统计分析或者机器学习方法来判定这三个方面。结构域方法即通过一些已有的蛋白质结构数据库（如SCOP等）进行检索，并确定蛋白质中RNA结合结构域所在的位置，从而大致确定该蛋白质与RNA的结合位点，该方法的缺陷在于仅适用于已测定了RNA结合结构域的蛋白质。此外，目前对RNA结合结构域的作用机制尚未完全阐明，存在着结构域中的氨基酸残基不与靶标RNA区域结合，而是结合到其他区域，甚至导致该蛋白质结合到另一个蛋白质上的情况。分子动力学模拟是另一种寻找RNA作用位点的方法，通过一些算法进行动力学（或热力学）的模拟，可以较为直观地观察到蛋白质与RNA的结合过程以及这个过程中一些能量和构象上的变化。该方法的缺陷在于模拟耗时较长，仅适用于小规模体系。此外，各种参数的设定也对模拟结果的准确性有影响。综上所述，如果从生物信息学角度出发对该问题进行研究，比较适合的途径是通过提取各种特征，利用机器学习方法构建模型来判别。虽然在其他生物问题领域已经有了基于机器学习的预测方法，但是在IRES这一问题中，由于之前根据实验所积累的数据量较小（数据库ires.org中只累计了大约100条数据），如若采用上述手段，可能存在偏性。同时，有些特征需要从二维、三维结构数据中获取，或者是比较复杂、难以计算的理化特征，限制了其应用。在本问题中，由于最近在Science上发表的一篇基于质粒构建高通量筛选的论文揭示了大量的包含IRES的RNA序列数据（约10 000条），从而得以进行大规模的数据模型构建，并充分考虑特征与二维、三维结构，进行文本挖掘的工作。图5.2冷冻电镜二维成像流程图5.2.2冷冻电镜图像蛋白质颗粒挑选研究现状冷冻电镜三维重构是结构生物学研究中的一种较新的技术。它的基本技术路线为：利用快速冷冻技术对样品进行冷冻固定，然后利用冷冻电镜和低剂量成像技术对样品进行电子成像，利用高灵敏底片进行成像记录，利用高分辨扫描仪对底片进行数字化，对数字化的图像进行二维图像分析选点、分类、校正和平均，最后完成样品的三维重构计算，如图5.2所示。和传统的X射线晶体学和核磁共振的技术相比，冷冻电镜具有可以直接获得分子的形貌信息和相位信息，能够解析那些不适合应用X射线晶体学和核磁共振技术进行分析的样品等优点，已经成为一种公认的研究生物大分子、超分子复合体及亚细胞结构的有力手段。图5.3一张典型的冷冻电镜二维成像图片然而，为了避免电子对样品的损伤，冷冻电镜必须在极低的电子剂量下成像，因而其图像信噪比非常低，如图5.3所示。从一副冷冻电镜照片中挑选有颗粒的部分和没有颗粒的部分，其灰度直方图的形状几乎没有差别。因此，剔除噪声，增加信噪比，提高颗粒图像挑选的精度，是冷冻电镜技术的关键问题。冷冻电镜图像中具有高质量的图像通常是随机的出现，并且只出现在一定的区域内，很难对其进行一定的控制。另外，由于低剂量的电子辐射使得图像的信噪比非常低，要提高信噪比，就必须采集更多的图像数据，通常需要10 000张才能满足分子分辨率的要求，而要获得原子分辨水平（大约4）的结构需要上百万张图像，若要人工处理这些数据几乎是不现实的。所以，挑选大量颗粒图像已经成为冷冻电镜蛋白质颗粒三维重构的一个瓶颈，因此迫切需要发展自动化采集单粒子图像的方法。如上所述，在冷冻电镜结构解析的工作中，目前有相当大的一部分时间和人力都消耗在重复性的工作中，例如电镜胶片的拍摄、电镜图像的预筛选、电镜图像粒子的挑选等。这些繁杂而重复性高的工作会大大减缓研究的进程，实际上已经成为阻碍当前高分辨率的冷冻电镜解析的主要瓶颈之一。为了解决这一问题，本项挖掘任务提出了基于机器学习的自动化对冷冻电镜二维图像的颗粒挑选，从而进行图像挖掘的工作。5.3工作设计与实现〖*45〗5.3.1基本的设计框架与实现思路本工作将对生物信息学中两大分支性的数据分别进行数据挖掘的工作。1. 内部核糖体进入位点的文本挖掘设计1）数据来源序列的数据来源于已有的IRES数据库www.ires.org，以及在2016年1月发表在Science上的Systematic Discovery of CapIndependent Translation Sequences in Human and Viral Genomes。其中，有五个经过实验的数据集，每一个数据集均包含人类或者病毒身上不同位置（5UTR、3UTR以及转录区）中包含或者不包含IRES的基因序列。其中，最多数据的数据集为人类的5UTR区域，包含906个正样本和9031个负样本。2）数据预处理与数据清洗RNA的一级结构序列本身是一种文本，预处理时分为特征选取、增加特征并整合、降维三部分进行。由于数据来源格式较为规整，每条序列均已经分成了174的长度，故不需要进行数据的归一化处理（实际操作时将A,T,C,G转化成了1,2,3,4与向量）。特征选取：采用kmer的方式对文本进行特征提取，即选取文本中相邻的k个字符组成一组并沿着序列进行一维的平行移动从而遍历，统计该组的出现次数，实际操作时如图5.4所示。图5.4进行kmer处理后的统计直方图（带单引号的1,2,3,4分别代表A,T,C,G，不带单引号的数字表示统计出现的次数）增加特征并整合：由于只通过一维的序列特征提取过于单一，事实证明效果也不好，故增加二维的结构预测作为另一特征，加入到处理后的数据向量中。这里使用了RNAfolder软件，基于热力学统计规律，对RNA的序列进行二维的结构预测，得到的结果如图5.5 所示。图5.5二维结构预测结果示意图降维：采用主成分分析的方法，对特征进行特征抽取，将原特征进行线性变换，映射至低维空间中。3）数据挖掘采用基于机器学习的模型对经过预处理的数据进行学习，选择更优的模型并调参，从而达到更好的预测效果。由于Python的Sklearn包的便捷性，本挖掘任务将KNN、SVM、随机森林、多层感知机、Logstic回归和神经网络均进行了一定的尝试，同时利用Kares包和MATLAB实现了卷积神经网络。4）数据可视化利用Python的Matplotlib包和MATLAB的工具箱可以便捷地达到数据可视化的目的。同时，很多在线的可视化软件也值得使用。2. 冷冻电镜图像蛋白质颗粒挑选的图像挖掘设计1）数据来源图像的数据来源于2013年发表在Nature上的Structure of the TRPV1 Ion Channel Determined by Electron CryoMicroscopy中已经解析出结构的TRVP1蛋白的冷冻电镜图像。其中，包含60张37103710的高分辨率图像，以及人工选取的颗粒点在图像中的坐标位置。2）数据预处理与数据清洗初步观察数据集中的图像，其信噪比非常低，同时包含可能会干扰结果的气泡现象。所以，对这一图像挖掘工作的预处理分为数据清洗（气泡探测）、数据归一化、特征提取三个步骤进行。数据清洗（气泡探测）有两种方法。第一种，首先对图像进行高斯滤波，再进行中值滤波，然后通过kmeans方法聚类出图像中气泡所在位置，如图5.6所示。第二种，对图像直接采用腐蚀的方法，进行形态学上的重建，如图5.7所示。之后，采用没有颗粒处的图像均值填补这些有气泡的图像区域。图5.6使用kmeans 检测气泡区域图5.7使用腐蚀和形态学重建检测气泡区域数据归一化：对于图像矩阵中的每一个点z，采用z∶=z-minmax-min进行归一化，然后进行高斯滤波与中值滤波，最后进行直方图均衡化，如图5.8所示。

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2024 （香港）大書城有限公司　All Rights Reserved.