登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

『簡體書』Python 3爬虫、数据清洗与可视化实战

書城自編碼: 3157177
分類: 簡體書→大陸圖書→計算機/網絡程序設計
作者: 零一、韩要宾、黄园园
國際書號(ISBN): 9787121333590
出版社: 电子工业出版社
出版日期: 2018-03-01
版次: 1
頁數/字數: 212/
書度/開本: 16开 釘裝: 平装

售價:NT$ 319

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
二十四节气生活美学
《 二十四节气生活美学 》

售價:NT$ 340.0
西班牙内战:秩序崩溃与激荡的世界格局:1936-1939
《 西班牙内战:秩序崩溃与激荡的世界格局:1936-1939 》

售價:NT$ 990.0
基于鲲鹏的分布式图分析算法实战
《 基于鲲鹏的分布式图分析算法实战 》

售價:NT$ 495.0
夺回大脑 如何靠自己走出强迫
《 夺回大脑 如何靠自己走出强迫 》

售價:NT$ 299.0
图解机械工程入门
《 图解机械工程入门 》

售價:NT$ 440.0
中文版SOLIDWORKS 2024机械设计从入门到精通(实战案例版)
《 中文版SOLIDWORKS 2024机械设计从入门到精通(实战案例版) 》

售價:NT$ 450.0
旷野人生:吉姆·罗杰斯的全球投资探险
《 旷野人生:吉姆·罗杰斯的全球投资探险 》

售價:NT$ 345.0
希腊人(伊恩·莫里斯文明史系列)
《 希腊人(伊恩·莫里斯文明史系列) 》

售價:NT$ 845.0

建議一齊購買:

+

NT$ 449
《 Python神经网络编程 》
+

NT$ 384
《 Python数据分析入门——从数据获取到可视化 》
+

NT$ 514
《 Python机器学习基础教程 》
+

NT$ 449
《 Python程序设计 第3版 》
+

NT$ 497
《 数据结构 Python语言描述 》
+

NT$ 518
《 数据科学入门 》
編輯推薦:
本书内容来自笔者在高校授课的内容,主要介绍如何运用 Python 工具获取电商平台的页面数据,并对数据进行清洗和存储。本书简化了
Python 基础部分,保证有足够的篇幅来介绍爬虫和数据清洗的内容。
本书采用的版本是 Python 3.6.2,是笔者写书时的*版本,而且笔者习惯用的操作平台是Windows 系统。
內容簡介:
本书是一本通过实战教初学者学习采集数据、清洗和组织数据进行分析及可视化的 Python 读物。书中案例均经过实战检验,笔者在实践过程中深感采集数据、清洗和组织数据的重要性,作为一名数据行业的码农,数据就是沃土,没有数据,我们将无田可耕。

本书共分 11 章, 6 个核心主题:其一是 Python 基础入门,包括环境配置、基本操作、数据类型、语句和函数;其二是 Python 爬虫的构建,包括网页结构解析、爬虫流程设计、代码优化、效率优化、容错处理、 反防爬虫、 表单交互和模拟页面点击;
其三是 Python 数据库应用, 包括 MongoDB、 MySQL 在 Python中的连接与应用;其四是数据清洗和组织,包括 NumPy 数组知识、 pandas 数据的读写、分组变形、缺失值异常值处理、时序数据处理和正则表达式的使用;其五是综合应用案例,帮助读者贯穿爬虫、数据清洗与组织的过程;*后是数据可视化,包括 Matplotlib 和 Pyecharts 两个库的使用,涉及饼图、柱形图、线图、词云图、地图等图形,帮助读者进入可视化的殿堂。

本书以实战为主,适合
Python 初学者及高等院校的相关专业学生,也适合 Python 培训机构作为实验教材使用。
關於作者:
零一
原名陈海城,
零一数据学院创始人,
电商数据专家,数据分析师,开发工程师。
从事培训教育、数据分析和人工智能行业。

黄园园,具有十年软件开发经验,全栈工程师,六西格玛黑带,精通Python和机器学习算法,具有丰富的分布式爬虫开发经验;曾在苏州三星电子电脑(SESC)、新加坡电信(NCS)、希捷科技(Seagate Technology)等世界知名企业研发部工作,参与过花旗银行在线支付系统、银行账单自动化审核系统等大型软件开发,曾任杭州沐垚科技CTO。
零一
原名陈海城,
零一数据学院创始人,
电商数据专家,数据分析师,开发工程师。
从事培训教育、数据分析和人工智能行业。

黄园园,具有十年软件开发经验,全栈工程师,六西格玛黑带,精通Python和机器学习算法,具有丰富的分布式爬虫开发经验;曾在苏州三星电子电脑(SESC)、新加坡电信(NCS)、希捷科技(Seagate Technology)等世界知名企业研发部工作,参与过花旗银行在线支付系统、银行账单自动化审核系统等大型软件开发,曾任杭州沐垚科技CTO。

韩要宾,杭州沐垚科技有限公司 COO,CDA数据分析研究院资深讲师;5年电商从业经验,4年数据挖掘实战经验;专注于数据分析与挖掘、机器学习、深度学习,服务客户包括苏宁易购、迪卡侬、百草味、浙江师范大学等。
目錄
第 1 章 Python 基础 1
1.1 安装 Python 环境 1
1.1.1 Python 3.6.2 安装与配置 1
1.1.2 使用 IDE 工具PyCharm 4
1.1.3 使用 IDE 工具Anaconda 4
1.2 Python 操作入门6
1.2.1 编写第一个 Python 代码6
1.2.2 Python 基本操作9
1.2.3 变量10
1.3 Python 数据类型10
1.3.1 数字10
1.3.2 字符串11
1.3.3 列表13
1.3.4 元组14
1.3.5 集合15
1.3.6 字典15
1.4 Python 语句与函数16
1.4.1 条件语句16
1.4.2 循环语句16
1.4.3 函数17

第 2 章 写一个简单的爬虫18
2.1 关于爬虫的合法性18
2.2 了解网页20
2.2.1 认识网页结构 21
2.2.2 写一个简单的 HTML21
2.3 使用 requests 库请求网站23
2.3.1 安装
requests 库23
2.3.2 爬虫的基本原理25
2.3.3 使用 GET 方式抓取数据26
2.3.4 使用 POST 方式抓取数据27
2.4 使用 Beautiful Soup 解析网页30
2.5 清洗和组织数据34
2.6 爬虫攻防战35


第 3 章
用 API 爬取天气预报数据38
3.1 注册免费 API 和阅读技术文档38
3.2 获取 API 数据40
3.3 存储数据到 MongoDB 45
3.3.1 下载并安装 MongoDB 45
3.3.2 在 PyCharm 中安装 Mongo
Plugin 46
3.3.3 将数据存入 MongoDB49
3.4 MongoDB 数据库查询52


第 4 章
大型爬虫案例:抓取某电商网站的商品数据55
4.1 观察页面特征和解析数据55
4.2 工作流程分析64
4.3 构建类目树65
4.4 获取产品列表 68
4.5 代码优化70
4.6 爬虫效率优化74
4.7 容错处理77


第 5 章 Scrapy 爬虫78
5.1 Scrapy 简介78
5.2 Scrapy 安装79
5.3 案例:用 Scrapy 抓取股票行情 80


第 6 章 Selenium 爬虫88
6.1 Selenium 简介88
6.2 案例:用 Selenium 抓取电商网站数据90

第 7 章
数据库连接和查询100
7.1 使用 PyMySQL100
7.1.1 连接数据库100
7.1.2 案例:某电商网站女装行业 TOP100 销量数据102
7.2 使用 SQLAlchemy104
7.2.1 SQLAlchemy 基本介绍104
7.2.2 SQLAlchemy 基本语法105
7.3 MongoDB107
7.3.1 MongoDB 基本语法107
7.3.2 案例:在某电商网站搜索连衣裙的商品数据107


第 8 章 NumPy109
8.1 NumPy 简介109
8.2 一维数组110
8.2.1 数组与列表的异同110
8.2.2 数组的创建111
8.3 多维数组111
8.3.1 多维数组的高效性能112
8.3.2 多维数组的索引与切片113
8.3.3 多维数组的属性113
8.4 数组的运算115


第 9 章 pandas 数据清洗117
9.1 数据读写、选择、整理和描述117
9.1.1 从 CSV 中读取数据119
9.1.2 向 CSV 写入数据120
9.1.3 数据选择120
9.1.4 数据整理122
9.1.5 数据描述123
9.2 数据分组、分割、合并和变形124
9.2.1 数据分组124
9.2.2 数据分割127
9.2.3 数据合并128
9.2.4 数据变形134
9.2.5 案例:旅游数据的分析与变形136
9.3 缺失值、异常值和重复值处理140
9.3.1 缺失值处理140
9.3.2 检测和过滤异常值144
9.3.3 移除重复数据147
9.3.4 案例:旅游数据的值检查与处理149
9.4 时序数据处理152
9.4.1 日期时间数据转换152
9.4.2 时序数据基础操作153
9.4.3 案例:天气数据分析与处理155
9.5 数据类型转换158
9.6 正则表达式 160
9.6.1 元字符与限定符161
9.6.2 案例:用正则表达式提取网页文本信息162


第 10 章
综合应用实例164
10.1 按性价比给用户推荐旅游产品164
10.1.1 数据采集165
10.1.2 数据清洗、建模169
10.2 通过热力图分析为用户提供出行建议172
10.2.1 某旅游网站热门景点爬虫代码(qunaer_sights.py)175
10.2.2 提取 CSV 文件中经纬度和销量信息178
10.2.3 创建景点门票销量热力地图 HTML 文件179


第 11 章
数据可视化182
11.1 matplotlib183
11.1.1 画出各省份平均价格、各省份平均成交量柱状图183
11.1.2 画出各省份平均成交量折线图、柱状图、箱形图和饼图184
11.1.3 画出价格与成交量的散点图185
11.2 pyecharts186
11.2.1 Echarts 简介186
11.2.2 pyecharts 简介187
11.2.3 初识 pyecharts,玫瑰相送187
11.2.4 pyecharts 基本语法188
11.2.5 基于商业分析的 pyecharts 图表绘制190
11.2.6 使用 pyecharts 绘制其他图表199
11.2.7 pyecharts 和 Jupyter203
內容試閱
Python 是军刀型的开源工具,被广泛应用于 Web 开发、爬虫、数据清洗、自然语言处理、机器学习和人工智能等方面,而且
Python 的语法简洁易读,这让许多编程入门者不再望而却步,因此Python 在最近几年非常受欢迎,各行各业的技术人员都开始使用 Python。
本书内容来自笔者在高校授课的内容,主要介绍如何运用 Python 工具获取电商平台的页面数据,并对数据进行清洗和存储。本书简化了
Python 基础部分,保证有足够的篇幅来介绍爬虫和数据清洗的内容。
本书采用的版本是
Python 3.6.2,是笔者写书时的最新版本,而且笔者习惯用的操作平台是Windows 系统。虽然目前一些高校和开发者在使用 Python 2.7,但是 Python 团队将在 2020 年停止对Python 2.7 的支持更新, Python 2.X 转向 Python 3.X 是大势所趋。
本书第 1 章简单介绍 Python 和相关的 IDE,如果读者完全没有 Python 基础,那么建议选购一本基础书作为辅助。第 2~6 章介绍爬虫的实例,实现从最简单的爬虫到相对比较复杂的爬虫。鉴于实例的限制,本书的爬虫内容没有涉及代理服务器和验证码处理等问题。第 7 章介绍在 Python 中如何连接并操作数据库。第 8 章介绍了 NumPy 及其用法。第
9 章详细介绍 pandas 的功能,pandas 是 Python数据清洗和建模中非常重要的库。第 10 章用两个完整案例展示了从爬虫到建模的过程。第 11 章介绍 Python 的可视化,选用的库是 matplotlib 和 pyecharts,这里详细介绍了 pyecharts。
鉴于作者的水平有限,不足之处请读者不吝指教。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.