新書推薦:
《
血色帝国:近代英国社会与美洲移民
》
售價:NT$
265.0
《
海外中国研究·王羲之:六朝贵族的世界(艺术系列)
》
售價:NT$
811.0
《
唐宋绘画史 全彩插图版
》
售價:NT$
449.0
《
“御容”与真相:近代中国视觉文化转型(1840-1920)
》
售價:NT$
505.0
《
鸣沙丛书·大风起兮:地方视野和政治变迁中的“五四”(1911~1927)
》
售價:NT$
454.0
《
海洋、岛屿和革命:当南方遭遇帝国(文明的另一种声音)
》
售價:NT$
485.0
《
铝合金先进成型技术
》
售價:NT$
1214.0
《
英雄之旅:把人生活成一个好故事
》
售價:NT$
398.0
|
編輯推薦: |
(1)系统:全流程讲解Scrapy的原理和实战,依次击破编程难点。
(2)经典:凝聚笔者十多年的Scrapy使用经验,无私奉献设计秘籍。
(3)深入:浅入深出地介绍爬虫原理、数据爬取、数据保存、数据分析和测试等技术。并且,所有案例都配有对应的代码,拿来就用。
|
內容簡介: |
本书从Python主流框架Scrapy的简介及网络爬虫知识讲起,逐步深入到Scrapy进阶实战。本书从实战出发,根据不同需求,有针对性地讲解了静态网页、动态网页、App应用是如何爬取所需数据,以及Scrapy是如何部署分布式爬取,*后还介绍了用Scrapy Pandas是如何进行数据分析及数据展示,让读者不但可以系统地学习Scrapy编程的相关知识,而且还能对Scrapy应用开发有更为深入的理解。
本书分为12章,涵盖的主要内容有Scrapy框架简介;Scrapy网络爬虫知识介绍;Scrapy开发环境的搭建;Scrapy架构及编程;Scrapy进阶;实战项目:Scrapy静态网页的爬取;实战项目:Scrapy动态网页的爬取;实战项目:Scrapy爬取App应用数据;Scrapy的分布式部署与爬取;分布式的实战项目;用Selenium框架测试网站;用Scrapy Pandas进行数据分析。
本书内容通俗易懂,实例典型,实用性强,特别适合学习Python主流框架Scrapy的入门读者和进阶读者阅读,也适合数据分析与挖掘技术的初学者阅读,还适合相关培训机构的师生阅读。
|
關於作者: |
张颖,清颖设计微信公众号创始人,现任上海懂得网络科技有限公司技术部主管,从事编程开发十余年,熟悉Python的方方面面,尤其擅长Python爬虫和数据分析。
|
目錄:
|
第1章 Scrapy框架简介
1.1 Scrapy简介 2
1.2 关于本书:目标和用途 2
1.3 进行自动化数据爬取的重要性 3
1.4 掌握自动化测试的重要性 3
1.5 合理规划,开发高质量的应用 4
1.6 网络数据的采集法律与道德约束 5
1.7 本章小结 5
第2章 Scrapy网络爬虫知识介绍
2.1 爬虫的作用 7
2.2 爬虫必备的前端知识 9
2.3 爬虫经常用的Python语法 26
2.4 本章小结 44
第3章 Scrapy开发环境的搭建
3.1 安装Python 47
3.2 数据库的安装 50
3.3 安装Scrapy 56
3.4 本章小结 60
第4章 Scrapy架构及编程
4.1 Scrapy架构及目录源码分析 62
4.2 Scrapy项目的创建和管理 67
4.3 PyCharm如何调试Scrapy 72
4.4 Scrapy的组件 77
4.5 Scrapy的数据流 78
4.6 数据存储 78
4.7 Scrapy如何定义中间件 80
4.8 Scrapy其他方法的使用 82
4.9 本章小结 83
第5章 Scrapy进阶
5.1 理解Scrapy性能 85
5.2 编写Spider的逻辑 93
5.3 Item和Pipeline 95
5.4 数据库存储 98
5.5 Scrapy集成随机User-Agent和代理IP 100
5.6 突破反爬技术 102
5.7 图片和文件下载 103
5.8 如何部署爬虫 108
5.9 计划定时爬取 111
5.10 本章小结 112
第6章 实战项目:Scrapy静态网页的爬取
6.1 采集需求及网页分析 114
6.2 数据表的设计 115
6.3 获取和解析列表、详情页 115
6.4 数据存储 117
6.5 数据的导出和展示 119
6.6 本章小结 121
第7章 实战项目:Scrapy动态网页的爬取
7.1 采集需求及网页分析 123
7.2 Selenium的安装和使用 124
7.3 解析网页及代码的实现 126
7.4 数据的存储 128
7.5 数据的导出 130
7.6 本章小结 133
第8章 实战项目:Scrapy爬取App应用数据
8.1 搭建开发环境 135
8.2 移动自动化工具:Ui Automator Viewer 144
8.3 Appium Desktop工具的录制功能 147
8.4 App应用数据抓取实战项目 150
8.5 本章小结 158
第9章 Scrapy的分布式部署与爬取
9.1 分布式系统概述及要点 160
9.2 使用Gerapy管理分布式爬虫 162
9.3 通过Scrapyd ScrapydWeb简单高效地部署和监控分布式爬虫项目 168
9.4 使用Scrapy-Redis实现分布式爬虫 174
9.5 本章小结 195
第10章 分布式的实战项目
10.1 搭建Redis服务器 197
10.2 创建主项目及配置Scrapy-Redis 197
10.3 创建从项目及配置Scrapy-Redis 200
10.4 部署代理IP池及User-Agent 203
10.5 执行程序 205
10.6 本章小结 206
第11章 用Selenium框架测试网站
11.1 网站测试简介 208
11.2 用Scrapy Selenium进行前端自动化测试 208
11.3 本章小结 235
第12章 用Scrapy Pandas进行数据分析
12.1 Python数据分析概述 237
12.2 NumPy简介及操作 238
12.3 Matplotlib简介及操作 247
12.4 Pandas简介及操作 256
12.5 实战项目:Scrapy爬取网站并用Pandas进行数据分析 267
12.6 本章小结 284
|
內容試閱:
|
这项技术有什么前途
如今,已经进入大数据时代,很多的行业在使用大数据之后都得到了非常好的效果。互联网是大数据发展的前哨阵地,大数据围绕在我们生活的方方面面,它们相辅相成、互联依赖,并且不断在快速发展。随着大数据时代的发展,人们似乎都习惯了将自己的生活通过网络进行数据化,方便分享、记录和回忆。例如,我们每天都在通过自己的QQ、微信、微博更新自己的动态、朋友圈等,这些都将构成一种数据。大数据通过数据挖掘来进行用户行为分析,推测出用户的爱好、工作、住址、收入情况等信息。
在这个信息交换频率无限发达的时代,当工作、生活、娱乐、学习方式全都可以由数字分析得出时,企业的经营方式也将会过渡到数据挖掘时代。现在,企业几乎每天每时都在产生着大量的业务数据。工欲善其事,必先利其器,只要善于运用Scrapy获取数据、分析数据、运用数据,就能透过这些数据真正了解用户,抓住用户心理,完全可以根据用户不同的消费习惯、消费能力等,主动提供精准的个性化产品和服务。
本书讲解的是目前最流行的Python爬虫框架Scrapy,它简单灵活、易扩展,使用它可以高效地开发网络爬虫应用。Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。它将网页采集的通用功能,集成到各个模块中,留出自定义的部分,将程序员从烦冗的流程式重复劳动中解放出来。我们只需要实现少量代码,就能够快速地抓取到数据内容。Scrapy使用了Twisted异步网络框架来处理网络通信,可以加快下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活地完成各种需求。尽管Scrapy原本是设计用来网络抓取,但它也可以用来访问API来提取数据。而且Scrapy框架通过管道的方式存入数据库,可保存为多种形式。所以,使用Scrapy框架可以高效完成网站数据爬取任务。
利用Scrapy Pandas还能够进行数据的分析及图形化展示。
笔者的使用体会
Scrapy集成了各种功能(高性能异步下载、队列、分布式、解析、持久化等),是一个通用性很强的项目模板。通过这个框架可以很快地爬取到我们想要的数据,并且能够进行数据清洗、分析及图形化展示。
这本书的特色
本书的宗旨是以实用为主,通过通俗易懂的语言、丰富实用的案例,讲解Python网络爬虫框架Scrapy的原理和开发技术,主要特色如下。
(1)由浅入深,循序渐进。
(2)在讲解一些比较抽象的基础知识时会配有示例代码,以便让读者更深刻地去理解Scrapy的作用和应用,而不仅是一段段枯燥无味的文档。
(3)实战案例选材方面都是以章节中讲解的知识点为核心,尽量选择能够贴近日常生活的网站进行演示。
(4)在讲解一些重要的知识点时,会对源码进行分析,让读者能够知其然,知其所以然,以便日后在进行开发时能够游刃有余。
读者对象
Python网络爬虫初学者 运用Scrapy框架的初学者 数据分析和挖掘技术的初学者 高校和培训学校相关专业的师生 其他对网络爬虫框架Scrapy感兴趣的各类人员
|
|