新書推薦:
《
无端欢喜
》
售價:NT$
347.0
《
股票大作手操盘术
》
售價:NT$
245.0
《
何以中国·何谓唐代:东欧亚帝国的兴亡与转型
》
售價:NT$
398.0
《
一间只属于自己的房间 女性主义先锋伍尔夫代表作 女性精神独立与经济独立的象征,做自己,比任何事都更重要
》
售價:NT$
203.0
《
泉舆日志 幻想世界宝石生物图鉴
》
售價:NT$
611.0
《
养育女孩 : 官方升级版
》
售價:NT$
230.0
《
跨界:蒂利希思想研究
》
售價:NT$
500.0
《
千万别喝南瓜汤(遵守规则绘本)
》
售價:NT$
203.0
|
編輯推薦: |
一线数据分析专家撰写,10余位互联网大咖和多个数据科学相关组织联合推荐。50个数据工作流知识点,14个数据分析和挖掘主题,8个综合性运营案例,涵盖会员、商品、流量、内容4大数据化运营主题,360把脉运营问题并贴合数据场景落地。
|
內容簡介: |
本书内容从逻辑上共分为两大部分,第壹部分是有关数据分析类的主题,第二部分是有关数据化运营的主题。第壹部分的内容包括1234章和附录,主要介绍了Python和数据化运营的基本知识、数据来源获取、数据预处理以及数据分析和挖掘的关键经验。第二部分的内容包括56789章的内容,分别介绍了会员运营、商品运营、流量运营和内容运营四个大主题,以及提升数据化运营价值度的方法。在每个数据化运营主题中都包含了基本知识、评估指标、应用场景、数据分析模型、数据分析小技巧、数据分析大实话以及2个应用案例。
|
目錄:
|
目录Contents
赞誉
前言
第1章 Python和数据化运营1
1.1 用Python做数据化运营1
1.1.1 Python是什么1
1.1.2 数据化运营是什么2
1.1.3 Python用于数据化运营5
1.2 数据化运营所需的Python相关工具和组件6
1.2.1 Python程序6
1.2.2 Python IDE7
1.2.3 Python第三方库8
1.2.4 数据库和客户端16
1.2.5 SSH远程客户端18
1.3 内容延伸:Python的OCR和TensorFlow18
1.3.1 OCR工具:Tesseract-OCR18
1.3.2 机器学习框架—TensorFlow19
1.4 第一个用Python实现的数据化运营分析实例—销售预测20
1.4.1 案例概述20
1.4.2 案例过程20
1.4.3 案例小结28
1.5 本章小结28
第2章 数据化运营的数据来源31
2.1 数据化运营的数据来源类型31
2.1.1 数据文件31
2.1.2 数据库32
2.1.3 API33
2.1.4 流式数据34
2.1.5 外部公开数据34
2.1.6 其他35
2.2 使用Python获取运营数据35
2.2.1 从文本文件读取运营数据35
2.2.2 从Excel获取运营数据46
2.2.3 从关系型数据库MySQL读取运营数据48
2.2.4 从非关系型数据库MongoDB读取运营数据56
2.2.5 从API获取运营数据59
2.3 内容延伸:读取非结构化网页、文本、图像、视频、语音64
2.3.1 从网页中爬取运营数据64
2.3.2 读取非结构化文本数据65
2.3.3 读取图像数据65
2.3.4 读取视频数据68
2.3.5 读取语音数据70
2.4 本章小结75
第3章 11条数据化运营不得不知道的数据预处理经验76
3.1 数据清洗:缺失值、异常值和重复值的处理76
3.1.1 数据列缺失的4种处理方法76
3.1.2 不要轻易抛弃异常数据78
3.1.3 数据重复就需要去重吗79
3.1.4 代码实操:Python数据清洗81
3.2 将分类数据和顺序数据转换为标志变量89
3.2.1 分类数据和顺序数据是什么89
3.2.2 运用标志方法处理分类和顺序数据90
3.2.3 代码实操:Python标志转换90
3.3 大数据时代的数据降维94
3.3.1 需要数据降维的情况94
3.3.2 基于特征选择的降维94
3.3.3 基于维度转换的降维96
3.3.4 代码实操:Python数据降维97
3.4 解决样本类别分布不均衡的问题100
3.4.1 哪些运营场景中容易出现样本不均衡100
3.4.2 通过过抽样和欠抽样解决样本不均衡101
3.4.3 通过正负样本的惩罚权重解决样本不均衡101
3.4.4 通过组合集成方法解决样本不均衡102
3.4.5 通过特征选择解决样本不均衡102
3.4.6 代码实操:Python处理样本不均衡102
3.5 如何解决运营数据源的冲突问题106
3.5.1 为什么会出现多数据源的冲突107
3.5.2 如何应对多数据源的冲突问题109
3.6 数据化运营要抽样还是全量数据109
3.6.1 什么时候需要抽样110
3.6.2 如何进行抽样110
3.6.3 抽样需要注意的几个问题111
3.6.4 代码实操:Python数据抽样113
3.7 解决运营数据的共线性问题116
3.7.1 如何检验共线性117
3.7.2 解决共线性的5种常用方法117
3.7.3 代码实操:Python处理共线性问题118
3.8 有关相关性分析的混沌120
3.8.1 相关和因果是一回事吗120
3.8.2 相关系数低就是不相关吗121
3.8.3 代码实操:Python相关性分析121
3.9 标准化,让运营数据落入相同的范围122
3.9.1 实现中心化和正态分布的Z-Score122
3.9.2 实现归一化的Max-Min123
3.9.3 用于稀疏数据的MaxAbs123
3.9.4 针对离群点的RobustScaler123
3.9.5 代码实操:Python数据标准化处理123
3.10 离散化,对运营数据做逻辑分层126
3.10.1 针对时间数据的离散化127
3.10.2 针对多值离散数据的离散化127
3.10.3 针对连续数据的离散化127
3.10.4 针对连续数据的二值化128
3.10.5 代码实操:Python数据离散化处理128
3.11 数据处理应该考虑哪些运营业务因素133
3.11.1 考虑固定和突发运营周期133
3.11.2 考虑运营需求的有效性134
3.11.3 考虑交付时要贴合运营落地场景134
3.11.4 不要忽视业务专家经验135
3.11.5 考虑业务需求的变动因素136
3.12 内容延伸:非结构化数据的预处理137
3.12.1 网页数据解析137
3.12.2 网络用户日志解析144
3.12.3 图像的基本预处理148
3.12.4 自然语言文本预处理154
3.13 本章小结157
第4章 跳过运营数据分析和挖掘的“大坑”159
4.1 聚类分析159
4.1.1 当心数据异常对聚类结果的影响160
4.1.2 超大数据量时应该放弃K均值算法160
4.1.3 聚类不仅是建模的终点,更是重要的中间预处理过程162
4.1.4 高维数据上无法应用聚类吗163
4.1.5 如何选择聚类分析算法164
4.1.6 代码实操:Python聚类分析164
4.2 回归分析172
4.2.1 注意回归自变量之间的共线性问题172
4.2.2 相关系数、判定系数和回归系数之间到底什么关系172
4.2.3 判定系数是否意味着相应的因果联系173
4.2.4 注意应用回归模型时研究自变量是否产生变化173
4.2.5 如何选择回归分析算法174
4.2.6 代码实操:Python回归分析174
4.3 分类分析183
4.3.1 防止分类模型的过拟合问题183
4.3.2 使用关联算法做分类分析183
4.3.3 用分类分析来提炼规则、提取变量、处理缺失值184
4.3.4
|
內容試閱:
|
Preface前言为什么要写这本书随着商业竞争形式的日益严峻,企业需要不断寻找提高利润率、降低成本、提高产出价值的有效方法,而数据化运营恰好是满足企业这一需求的关键武器。数据化运营包含了运营和数据两种要素,前者需要较多的业务经验,而后者对数据分析提出了更高的要求。只有把二者结合起来,在技能、经验和技术的支持下,数据化运营才能在企业内部真正落地、生根、发芽。
对数据化运营而言,各企业普遍关注的结构化数据分析、挖掘的场景非常丰富,例如销售预测、会员生命周期维护、商品结构分析等,这些普遍的共同认知为本书提供了接地气的基础;但除了这些“传统内容”外,还有很多非结构化的数据主题,它们在数据化运营过程中的作用越来越重要,例如主题挖掘、图片分析、文本挖掘、图像识别、语音识别等,这些内容拓展了数据化运营发挥价值的场景基础。
Python作为数据工作领域的关键武器之一,具有开源、多场景应用、快速上手、完善的生态和服务体系等特征,使其在数据分析与数据化运营中的任何场景都能游刃有余;即使是在为数不多的短板上,Python仍然可以基于其“胶水”的特征,引入对应的第三方工具、库、程序等来实现全场景、全应用的覆盖。在海量数据背景下,Python对超大数据规模的支持性能、数据分析处理能力、建模的专业程度及开发便捷性的综合能力方面要远远高于其他工具。因此,Python几乎是数据化运营工作的不二之选。
纵观整个国内市场,有关Python的书籍不少,但普遍的思路都是基于工具层面的介绍,而且侧重于工具本身的方法、参数、调用、实例,与真正实践结合的较少;有关数据化运营的书籍,目前市场上还为数不多,现有的数据化运营方面的书籍大多是基于Excel等工具的入门级别的分析类书籍。本书结合了Python和数据化运营两个方面,在结合了数据分析工作流程和数据化运营主题的基础上,通过指标、模型、方法、案例配合工具的形式,详细介绍了如何使用Python来支持数据化运营,尤其是传统工具无法满足的应用场景。
我希望能尽自己的微薄之力,将过往所学、所感、所知提炼出来供更多人了解。如果读者能从本书中感悟一二,我将倍感欣慰;如果读者能将其用于工作实践,这将是本书以及数据工作之福!
读者对象本书定位于提供数据与运营结合的相关知识,虽然基础工具是Python,但本书并没有就Python基础规则和语法做详细介绍,因此要求读者具有一定的Python基础。相信我,只要你认真看Python教学视频(网络上很多),只需大概2个小时就能具备这种基础。
本书对读者的知识背景没有特定要求,书中的内容都尽量言简意赅、深入浅出。本书适合以下几类读者阅读:
企业运营人员。本书的核心命题就是运营,其中涉及会员运营、商品运营、流量运营和内容运营四大主题,无论运营人员希望获得运营知识,还是希望获得数据分析和挖掘方法,都可以从书中获益。
数据分析师。毫无疑问,数据分析师是本书的核心受众群体之一,本书中介绍的数据抽取、预处理和分析挖掘经验一定能为数据分析师带来很多“不一样”的收获,每个运营主题下的小技巧、模型和案例更能激发数据分析师的灵感—原来数据工作还能这样做。
Python工程师。坦白讲,本书不是一本专门介绍Python语法、规则的书籍。但Python作为一种“万能”工具,在数据分析和挖掘领域具有举足轻重的地位,任何一个Python工程师如果工作领域中涉及数据(或大数据),那么本书的价值会成倍增长。本书中对Python数据处理、计算和挖掘库的应用介绍,以及对有关工具库的用法、注意点和小知识的介绍一定会使Python工程师的工作和认知更上一层楼。
数据挖掘工程师。数据分析与挖掘在实际运营中是不分家的,本书没有冠以“挖掘”之名但并不意味着没有挖掘(或机器学习)算法。本书第4章基本都是围绕常用算法展开的,其中各个算法类的“大坑”都是笔者多年经验的总结;在运营主题中提到的基于超参数优化的Gradient Boosting的预测,基于LogisticRegression、RandomForest、Bagging概率投票组合模型的异常检测,基于自动K值的KMeans聚类分析,基于潜在狄利克雷分配(LDA)的内容主题挖掘,基于多项式贝叶斯的增量学习的文本分类等都是与“挖掘算法”相关的应用。算法是数据工作的核心部分,其介绍必不可少。
如何阅读本书本书内容从逻辑上共分为两大部分,第一部分是有关数据分析类的主题,第二部分是有关数据化运营的主题。
第一部分的内容包括第1~4章和附录,主要介绍了Python和数据化运营的基本知识、数据来源获取、数据预处理,以及数据分析和挖掘的关键经验。其中:
第2章对传统的结构化和非结构化数据来源及获取方法进行了介绍,包括数据文件、数据库、API、流式数据、外部公开数据等,也提到了如何读取网页、文本、图片、视频、语音等类型的数据。
第3章总结了常用的11条结构化数据的预处理经验,并介绍了有关网页数据解析、日志解析、图像预处理和自然语言预处理的内容。
第4章总结了数据分析、挖掘和网站分析方法的8个主题类,各个类别中都以关键经验为基础展开详细介
|
|