新書推薦:
《
叙事话语·新叙事话语
》
售價:NT$
347.0
《
奴隶船:海上奴隶贸易400年
》
售價:NT$
352.0
《
纸上博物馆·美索不达米亚:文明的诞生(破译古老文明的密码,法国伽利玛原版引进,150+资料图片)
》
售價:NT$
398.0
《
米塞斯的经济学课:讲座与演讲精选集
》
售價:NT$
347.0
《
人工智能大模型导论 科大讯飞校企合编教材
》
售價:NT$
352.0
《
做财富的朋友:巴菲特慢慢变富的投资智慧
》
售價:NT$
383.0
《
一群数学家分蛋糕:提升逻辑力的100道谜题
》
售價:NT$
281.0
《
无解的困局:大明最后的60年
》
售價:NT$
306.0
編輯推薦:
本书系统介绍了使用Python进行数据分析需要掌握的各项知识,涵盖了Python基础知识、网络爬虫、正则表达式、BeautifulSoup和JSON、词语切分、自然语言处理、使用NumPy进行科学计算、使用Pandas处理数据、数据可视化、MySQL、机器学习、朴素贝叶斯模型、支持向量机、随机森林、深度学习以及量化投资。
內容簡介:
本书系统介绍了使用Python进行数据分析需要掌握的各项知识,涵盖了Python基础知识、网络爬虫技术、正则表达式、BeautifulSoup和JSON、词语切分、自然语言处理、使用NumPy与Pandas处理数据、数据可视化技术、MySQL、机器学习、朴素贝叶斯模型、支持向量机、随机森林、深度学习以及量化投资。本书通过结合数据分析技术的理论知识与Python的实战应用,帮助读者更好地运用Python解决数据分析中的实际问题。 本书适合作为高等院校工商管理类研究生、本科生的数据分析课程教材,还适合作为金融行业人员的参考资料。
關於作者:
王俊,现为西南财经大学管理科学与工程学院副教授,硕士生导师,西南财经大学金融科技国际联合实验室主任助理,金融智能与金融工程四川省重点实验室主任助理,加拿大纽芬兰纪念大学访问学者。致力于从大数据分析视角,通过大机器学习、数据分析、人工智能等方法解决金融市场的重要问题。主要研究包括多源数据对证券市场的影响性分析,大数据视角的数字化互动媒体对股票市场的影响性研究、基于大数据的证券市场量化分析研究、基于海量数据的媒体信息识别与情感量化分析研究等。迄今为止,已发表英文学术论文10余篇,参与国家自然科学基金项目3项,国家重点科研项目1项,部级、省级重点科研项目5项。同时,王俊多次受邀参加国际学术会议(全球信息系统年会-ICIS、亚洲信息系统年会-PACIS、全球管理学顶尖年会-HICSS),前往美国夏威夷、日本东京、韩国首尔、马来西亚兰卡威等地区进行论文发表讲演,还作为国内外学术期刊IEEE Network Magazine、Association for Computational Linguistics、Journal of Global Information Management(JGIM)、系统工程理论与实践的审稿人参与稿件评审。
目錄 :
目 录
前言
第1章 数据分析导论 / 1
1.1 面向财经领域的数据分析 / 1
1.2 数据分析工作流程与案例赏析 / 2
1.2.1 数据分析的工作流程 / 2
1.2.2 数据分析的案例赏析 / 3
1.3 扩展阅读 / 6
1.3.1 大数据驱动的决策范式
转变 / 6
1.3.2 使用大语言模型做数据
分析 / 6
第2章 Python基础知识 / 8
2.1 数据类型 / 8
2.1.1 数值 / 9
2.1.2 字符串 / 10
2.1.3 列表 / 13
2.1.4 元组 / 15
2.1.5 集合 / 16
2.1.6 字典 / 16
2.2 运算法则 / 18
2.2.1 算术运算 / 18
2.2.2 逻辑运算 / 19
2.2.3 比较运算 / 19
2.3 条件语句 / 19
2.4 循环语句 / 20
2.4.1 while循环 / 20
2.4.2 for循环 / 21
2.5 终止语句 / 22
2.6 函数构造和参数 / 22
2.6.1 自定义函数 / 22
2.6.2 自定义函数的参数 / 23
2.6.3 局部和全局变量 / 25
2.6.4 Lambda函数 / 25
2.7 扩展阅读 / 25
2.7.1 应用ChatGLM开发聊天
机器人 / 25
2.7.2 使用ChatGPT辅助学习Python / 27
第3章 网络爬虫 / 29
3.1 网络爬虫概述 / 29
3.2 网页结构 / 31
3.2.1 服务器与本地交换机制 / 31
3.2.2 HTML / 31
3.3 获取网页内容 / 34
3.3.1 通过Requests发送请求 / 34
3.3.2 在URL中传递参数 / 35
3.3.3 添加Headers / 36
3.4 利用爬虫获取股吧评论数据 / 36
3.5 扩展阅读 / 39
3.5.1 常见的反爬机制与解决
方案 / 39
3.5.2 使用ChatGPT辅助开发
网络爬虫 / 40
第4章 正则表达式 / 42
4.1 初识正则表达式 / 42
4.1.1 什么是正则表达式 / 42
4.1.2 构建简单的正则表达式 / 43
4.2 正则表达式进阶 / 44
4.3 使用正则表达式解析HTML网页 / 48
4.4 扩展阅读 / 49
第5章 BeautifulSoup和JSON / 51
5.1 BeautifulSoup基本语法 / 51
5.1.1 创建BeautifulSoup对象 / 52
5.1.2 提取标签信息 / 53
5.2 使用BeautifulSoup解析HTML
网页 / 54
5.3 JSON / 56
5.3.1 JSON的特点 / 56
5.3.2 JSON的结构 / 56
5.3.3 JSON序列化与反序列化 / 57
5.3.4 解析在线API返回的JSON
数据 / 58
5.4 扩展阅读 / 58
第6章 词语切分 / 60
6.1 分词简介 / 60
6.1.1 最大匹配法分词 / 61
6.1.2 基于统计的分词 / 62
6.2 Jieba分词 / 64
6.2.1 Jieba分词简介 / 64
6.2.2 使用Jieba分词 / 66
6.3 读取文件并切词 / 69
6.4 下载网页数据并切词 / 71
6.5 扩展阅读 / 73
6.5.1 Jieba分词算法细节 / 73
6.5.2 使用大语言模型切词 / 73
第7章 自然语言处理简介 / 75
7.1 TF-IDF / 75
7.1.1 TF-IDF原理 / 76
7.1.2 TF-IDF案例 / 77
7.2 词袋法 / 78
7.3 情感分析 / 79
7.3.1 定义函数创建词袋 / 81
7.3.2 使用Python实现词袋法 / 82
7.4 扩展阅读 / 83
7.4.1 词嵌入 / 83
7.4.2 使用ChatGPT做文本
分析 / 83
第8章 使用NumPy进行科学
计算 / 85
8.1 创建数组 / 85
8.1.1 安装NumPy / 85
8.1.2 列表和数组 / 86
8.1.3 创建并探索NumPy数组 / 87
8.1.4 创建特殊NumPy数组 / 89
8.1.5 导入并查看titanic数据集 / 91
8.2 数组切片 / 93
8.2.1 索引和切片 / 93
8.2.2 数组切片和列表切片 / 94
8.2.3 数组拼接 / 95
8.3 数组计算 / 96
8.3.1 广播 / 97
8.3.2 数组的绝对值与均值 / 97
8.3.3 点积 / 97
8.4 词语相似度计算 / 99
8.5 手写数字案例 / 101
8.5.1 初步探索数据集 / 102
8.5.2 数据标准化 / 102
8.5.3 图像翻转 / 103
8.6 金融案例分析 / 104
8.6.1 读取文件 / 104
8.6.2 计算成交量加权平均
价格 / 105
8.6.3 计算最大值和最小值 / 105
8.6.4 计算极差 / 106
8.6.5 计算中位数 / 106
8.6.6 计算方差 / 106
8.7 扩展阅读 / 107
第9章 使用Pandas处理数据 / 109
9.1 序列和数据框 / 109
9.1.1 创建序列 / 109
9.1.2 创建数据框 / 111
9.1.3 使用Pandas读取和存储
数据 / 112
9.2 用Pandas处理数据 / 114
9.2.1 关于INVEST部门的投资
任务 / 114
9.2.2 查看数据 / 115
9.2.3 数据切片 / 116
9.2.4 数据类型转换 / 118
9.2.5 数据的增删改 / 120
9.3 用Pandas处理文本数据 / 123<
內容試閱 :
大语言模型(例如ChatGPT)减轻了传统数据分析中特征工程的工作量,能够自动学习语义特征与潜在表征。基于大语言模型的API,可以快速构建低代码的数据分析应用。在大语言模型时代,人们有两个疑问:①传统的数据分析基础是否仍然有价值?②如何协同使用大语言模型和传统的数据分析模型?
在大语言模型兴起的时代,传统的数据分析方法仍然具有重要的价值。首先,相比于大语言模型的“黑箱”,许多传统模型如线性回归、决策树等具有较高的可解释性,更容易被人理解,这在一些对可解释性有较高需求的应用中十分重要。其次,相比大语言模型,一些传统模型(例如支持向量机、随机森林)已经经受长时间的检验与实践,预测表现更加可靠,这对要求稳定性较高的系统更为适用。
因此,在大语言模型时代,传统数据分析方法依然发挥着很大作用,并且与新技术的结合将产生更强大的效果,这需要我们在具体问题中寻求两者的最佳衔接与协同。本书不仅讲解数据分析的基本技术,而且补充了利用大语言模型做数据分析的案例。
学习本书,读者将会有以下收获。
提升数据分析与建模能力。
本书涵盖了Python基础知识、网络爬虫、正则表达式、BeautifulSoup和JSON、词语切分、自然语言处理、使用NumPy进行科学计算、使用Pandas处理数据、数据可视化、MySQL、机器学习、朴素贝叶斯模型、支持向量机、随机森林、深度学习以及量化投资。
丰富金融学、经济学、管理学知识。
本书知识点围绕财经领域的数据分析案例展开,比如,股票市场、量化交易、风险投资、智慧城市建设、股吧评论情感分析等。此外,我们在扩展阅读环节介绍了更多财经领域的数据分析实践案例。
熟悉基于大语言模型的数据分析与建模方法。
授人以鱼不如授人以渔,目前以ChatGPT为代表的大语言模型已经成为我们学习的帮手。本书中的扩展阅读选择了使用大语言模型进行数据分析的案例,引导大家学习使用大语言模型以提升学习数据分析的效率,构建无代码或低代码的数据分析应用。
我们鼓励读者保持好奇心,勇于尝试,不断学习。关于数据分析的新技术和新方法层出不穷,持续的学习和实践将是读者成功的关键。
本书由西南财经大学王俊教授担任主编;西南财经大学郑海超教授、肖辉教授、蒋太翔教授、李庆教授担任副主编。
本书在编写过程中得到了机械工业出版社的大力支持,在此向为本书付出辛勤劳动的机械工业出版社的相关老师表示感谢。由于作者水平有限,疏漏之处在所难免,敬请广大读者批评指正。