新書推薦:
《
虚弱的反攻:开禧北伐
》
售價:NT$
429.0
《
泰山:一种中国信仰专论(法国汉学经典译丛)
》
售價:NT$
380.0
《
花外集斠箋
》
售價:NT$
704.0
《
有兽焉.8
》
售價:NT$
305.0
《
大学问·明清经济史讲稿
》
售價:NT$
330.0
《
中国国际法年刊(2023)
》
售價:NT$
539.0
《
实用对联大全
》
售價:NT$
225.0
《
想象欧洲丛书(7册)欧洲史
》
售價:NT$
1880.0
|
編輯推薦: |
本书以介绍思路为主,
通过丰富的案例讲解爬取数据的思路,
介绍数据分析、可视化的方法,
以及如何根据数据分析结果,开发一个应用,
为读者提供一个从采集数据到应用数据的完整视角。
|
內容簡介: |
本书从多个数据项目实例出发,介绍爬虫、反爬虫的各种案例,使读者了解到数据抓取和分析的完整过程。书中案例的难度由浅入深,以作者原创的代码为主,不借助现成的框架,强调在数据采集过程中的发散思维,总结攻克反爬虫的思维模式,实现以低成本的方式得到想要的数据的愿望。*后,用一个爱飞狗的例子,为读者展示如何从0到1地开发一个大数据产品。
|
關於作者: |
贺思聪,毕业于电子科技大学,在ThoughtWorks任高级咨询师,担任海外交付团队技术负责人、架构师。具有十余年产品研发经验,涉及澳洲矿业相关数字产品研发、保险业网站技术架构、光网络设备软件研发、医疗ARVR、机械控制、加工仿真模拟等领域。精通大规模重构实践、测试驱动开发,熟悉微服务架构及架构实践,熟悉敏捷项目开发管理流程和相关实践,具有丰富的敏捷团队管理经验。
|
目錄:
|
第1章基础知识1
1.1什么是爬虫1
1.2数据获取渠道2
1.3抓包分析工具4
1.4爬虫和反爬虫的斗争5
1.5数据处理、分析和可视化20
1.6延深阅读21
第2章基于位置信息的爬虫Ⅰ23
2.1背景及目标23
2.2爬虫原理24
2.3数据来源分析26
2.4简单的矩形区域爬取方式38
2.5高级区域爬取方式46
2.6坐标转换49
2.7存储数据的方式49
2.8数据导入51
2.9基本数据分析52
2.10地图可视化56
2.11轨迹可视化58
2.12总结60
第3章基于位置信息的爬虫Ⅱ62
3.1背景及目标62
3.2爬虫原理62
3.3优化方案一71
3.4优化方案二75
3.5优化方案三82
3.6导入数据到数据库97
3.7基本数据分析及可视化100
3.8总结117
第4章网站信息爬取及可视化118
4.1背景及目标118
4.2网站API分析118
4.3数据爬取122
4.4数据导入129
4.5数据分析及可视化133
4.6总结173
第5章基于逆向分析小程序的爬虫174
5.1背景及目标174
5.2数据来源分析176
5.3数据爬取方案177
5.4转换数据格式195
5.5总结196
第6章从数据到产品197
6.1从一张机票说起197
6.2从价值探索到交付落地201
6.3数据爬取203
6.4爬虫架构设计203
6.5发现数据的价值211
6.6创新的不确定性223
6.7产品设计226
6.8产品交付235
6.9总结236
|
|