新書推薦:
《
可转债投资实战
》
售價:NT$
454.0
《
王氏之死(新版,史景迁成名作)
》
售價:NT$
250.0
《
敢为天下先:三年建成港科大
》
售價:NT$
352.0
《
长高食谱 让孩子长高个的饮食方案 0-15周岁儿童调理脾胃食谱书籍宝宝辅食书 让孩子爱吃饭 6-9-12岁儿童营养健康食谱书大全 助力孩子身体棒胃口好长得高
》
售價:NT$
214.0
《
身体自愈力:解决内在病因的身体智慧指南
》
售價:NT$
449.0
《
非言语沟通经典入门:影响人际交往的重要力量(第7版)
》
售價:NT$
560.0
《
山西寺观艺术壁画精编卷
》
售價:NT$
7650.0
《
中国摄影 中式摄影的独特魅力
》
售價:NT$
4998.0
|
編輯推薦: |
本书以案例带动知识点的讲解,将Python爬虫知识点分解到各个不同的案例,每个案例各有侧重点。同时展示实际项目的设计思想和设计理念,使读者可以举一反三。
|
內容簡介: |
本书以案例带动知识点的讲解,将Python爬虫知识点分解到各个不同的案例,每个案例各有侧重点。同时展示实际项目的设计思想和设计理念,使读者可以举一反三。
|
關於作者: |
主编 21世纪高等学校规划教材 《Visual Basic.NET程序设计基础与应用》2009-2 中国电力出版社
主编 《VB.NET程序设计教程》2012-12 中国水利水电出版社
主编《Visual C#.NET基础与应用教程》 2014-05 清华大学出版社
主编《Flash AS动画基础与游戏设计》 2015-01 清华大学出版社
主编《Python程序设计》 2017-08 清华大学出版社
主编《CC程序设计教程面向过程分册》2017-09 电子工业出版社 (国家十二五规划教材)
|
目錄:
|
第1章Python基础知识
1.1Python语言简介
1.2Python语法基础
1.2.1Python数据类型
1.2.2序列数据结构
1.2.3Python控制语句
1.2.4Python函数与模块
1.3Python面向对象设计
1.3.1定义和使用类
1.3.2构造函数__init__
1.3.3析构函数
1.3.4实例属性和类属性
1.3.5私有成员与公有成员
1.3.6方法
1.3.7类的继承
1.3.8多态
1.4Python 图形界面设计
1.4.1创建Windows窗口
1.4.2几何布局管理器
1.4.3Tkinter 组件
1.4.4Python事件处理
1.5Python文件的使用
1.5.1打开建立文件
1.5.2读取文本文件
1.5.3写文本文件
1.5.4文件的关闭
1.5.5操作Excel文档
1.6Python的第三方库
第2章HTML基础知识和Python文本处理
2.1HTML基础
2.1.1什么是HTML
2.1.2HTML的历史
2.2HTML 4基础和HTML 5新特性
2.2.1HTML 4基础知识
2.2.2HTML 4基本标签
2.2.3HTML 5的新特性
2.2.4在浏览器中查看HTML源代码
2.3CSS语法基础
2.3.1CSS基本语句
2.3.2在HTML文档中应用CSS样式
2.3.3CSS 选择器
2.4Python文本处理
2.4.1字符串基本处理
2.4.2正则表达式
2.4.3正则表达式语法
2.4.4re模块
2.4.5正则表达式的实际应用案例
2.5XPath
2.5.1lxml库安装
2.5.2XPath语法
2.5.3在Python中使用XPath
第3章网络通信基础知识
3.1网络协议
3.1.1互联网TCPIP协议
3.1.2IP协议和端口
3.1.3TCP和UDP协议
3.1.4HTTP和HTTPS协议
3.1.5HTTP基本原理与机制
3.1.6使用Fiddler抓包验证请求信息和响应信息
3.2Socket编程
3.2.1Socket的概念
3.2.2Socket提供的函数方法
3.2.3TCP协议编程
第4章小试牛刀下载网站图片
4.1HTTP下载网站图片功能介绍
4.2程序设计的思路
4.3关键技术
4.3.1urllib库简介
4.3.2urllib库的基本使用
4.3.3图片文件下载到本地
4.4程序设计的步骤
第5章调用百度API获取数据小小翻译器
5.1小小翻译器功能介绍
5.2程序设计的思路
5.3关键技术
5.3.1urllib库的高级使用
5.3.2使用User Agent隐藏身份
5.3.3JSON使用
5.4程序设计的步骤
5.4.1设计界面
5.4.2使用百度翻译开放平台API
5.5API调用拓展爬取天气预报信息
第6章动态网页爬虫应用抓取百度图片
6.1程序功能介绍
6.2程序设计的思路
6.3关键技术
6.3.1Ajax动态网页
6.3.2BeautifulSoup库概述
6.3.3BeautifulSoup库操作解析HTML文档树
6.3.4requests库的使用
6.3.5Ajax动态网页爬取
6.4程序设计的步骤
6.4.1分析网页源代码和网页结构
6.4.2设计代码
6.5动态网页爬虫拓展爬取今日头条新闻
6.5.1找到JavaScript请求的数据接口
6.5.2分析JSON数据
6.5.3请求和解析数据接口
第7章Selenium操作浏览器应用模拟登录豆瓣网站
7.1模拟登录程序功能介绍
7.2程序设计的思路
7.3关键技术
7.3.1安装Selenium库
7.3.2Selenium详细用法
7.3.3Selenium应用实例
7.4程序设计的步骤
7.4.1Selenium定位iframe多层框架
7.4.2模拟登录豆瓣网站
7.5基于Cookie绕过验证码实现自动登录
7.5.1为什么要使用Cookie
7.5.2查看Cookie
7.5.3使用Cookie绕过百度验证码自动登录账户
7.6Selenium实现Ajax动态加载抓取今日头条新闻
7.6.1Selenium处理滚动条
7.6.2Selenium 动态加载抓取今日头条新闻
7.7Selenium实现动态加载抓取新浪国内新闻
第8章微信网页版协议API应用微信机器人
8.1微信网页版机器人功能介绍
8.2微信网页版机器人设计思路
8.2.1分析微信网页版API
8.2.2API汇总
8.2.3其他说明
8.3程序设计步骤
8.3.1微信网页版运行流程
8.3.2程序目录
8.3.3微信网页版运行代码实现
8.4微信网页版机器人扩展功能
8.4.1自动回复
8.4.2群发消息、定时发送消息、好友状态检测
8.4.3自动邀请好友加入群聊
8.5微信库itchat实现微信聊天机器人
8.5.1安装itchat
8.5.2itchat的登录微信
8.5.3itchat的消息类型
8.5.4itchat回复消息
8.5.5itchat获取账号
8.5.6itchat的一些简单应用
8.5.7Python调用图灵机器人API实现简单的人机交互
8.5.8程序设计的步骤
8.5.9开发消息同步机器人
第9章爬虫应用校园网搜索引擎
9.1校园网搜索引擎功能分析
9.2校园网搜索引擎系统设计
9.3关键技术
9.3.1中文分词
9.3.2安装和使用jieba
9.3.3jieba添加自定义词典
9.3.4文本分类的关键词提取
9.3.5deque双向队列
9.4程序设计的步骤
9.4.1信息采集模块网络爬虫实现
9.4.2索引模块建立倒排词表
9.4.3网页排名和搜索模块
第10章SQLite数据库存储大河报纸媒爬虫
10.1大河报纸媒爬虫功能介绍
10.2大河报纸媒爬虫设计思路
10.3关键技术
10.3.1访问SQLite数据库的步骤
10.3.2创建数据库和表
10.3.3数据库的插入、更新和删除操作
10.3.4数据库表的查询操作
10.3.5数据库使用实例学生通讯录
10.3.6requestshtml库
10.4程序设计步骤
10.4.1获取网页
10.4.2数据入库
第11章MySQL数据库存储微博采集爬虫
11.1微博采集爬虫功能介绍
11.2微博采集爬虫设计思路
11.3关键技术
11.3.1查看Cookie
11.3.2模拟登录实例
11.3.3使用Python操作MySQL数据库
11.3.4Base64加密
11.4程序设计步骤
11.4.1模拟登录
11.4.2获取网页
11.4.3数据入库
第12章Scrapy框架爬虫
12.1Scrapy框架简介与安装
12.1.1Scrapy框架简介
12.1.2Scrapy安装
12.2第一个Scrapy爬虫
12.2.1项目需求
12.2.2创建项目
12.2.3分析页面
12.2.4定义数据类
12.2.5实现爬虫
12.2.6配置爬虫
12.2.7运行爬虫
12.3Spider开发流程
12.3.1继承scrapy.Spider
12.3.2为spider起名字
12.3.3设置起始爬取点
12.3.4实现页面解析函数
12.4Scrapy选择器
12.4.1Selector类
12.4.2Response内置Selector
12.4.3使用CSS选择器
12.4.4爬取京东商品信息
12.5Scrapy数据容器
12.5.1Item和Field
12.5.2Item扩展
12.5.3爬取百度贴吧信息
12.6Scrapy常用命令行工具
12.6.1全局命令
12.6.2项目命令
12.7Scrapy数据处理
12.7.1实现Item Pipeline
12.7.2Item Pipeline举例
12.7.3启用Item Pipeline
12.8爬取文件和图片
12.8.1FilesPipeline
12.8.2FilesPipeline实例
12.8.3ImagePipeline
12.8.4爬取百度图片
12.9Scrapy模拟登录
12.9.1模拟登录分析
12.9.2代码实现
第13章词云实战爬取豆瓣影评生成词云
13.1功能介绍
13.2程序设计的思路
13.3关键技术
13.3.1安装WordCloud词云
13.3.2使用WordCloud词云
13.4程序设计的步骤
参考文献
|
內容試閱:
|
自从20世纪80年代末Python语言诞生至今,它已被广泛应用于处理系统管理任务和科学计算等领域,是颇受欢迎的程序设计语言。
因为Python 的语法简洁易读,让众多编程入门者不再望而却步,所以各行各业的技术人员都开始将其
用于Web开发、爬虫、数据清洗、自然语言处理、机器学习和人工智能等方面。其中,网络爬虫所需的获取、存储、整理等流程都可以使用Python系统地实现,相信读者一定会把Python语言作为实现爬虫的主要技术。
本书适合Python零基础的读者开发爬虫项目,全书共13章内容。第1章是Python基础入门,主要讲解Python的基础语法和面向对象编程基础、图形界面设计、文件使用、Python的第三方库等知识,读者可以轻松掌握Python基础知识。已经学过Python的读者可以直接从第2章开始学习。
第2章和第3章是爬虫技术所必备的HTML基础知识和网络通信基础知识。从第4章开始是实用爬虫项目案例开发,综合应用前面的基础技术,并且每章都有新的爬虫技术,如侧重API获取数据的小小翻译器、应用动态网页爬虫技术开发的案例抓取百度图片爬取今日头条新闻、应用中文分词技术的校园网搜索引擎、应用Selenium操作浏览器的模拟登录豆瓣网站等案例。另外,第12章还介绍了Scrapy框架爬虫,可以轻松实现强大的爬虫功能。
本书具有以下特点:
1 Python爬虫设计涉及的范围非常广泛,本书内容编排并不求全、求深,而是考虑零基础读者的接受能力,对Python语言语法介绍以够用、实用和应用为原则,选择Python 中必备、实用的知识进行讲解。
2 选取的爬虫案例贴近生活,有助于提高学习兴趣。
3 每个爬虫案例均提供详细的设计思路、关键技术分析及具体的解决方案。
本书配套资源丰富,包括教学大纲、教学课件、电子教案、程序源码、教学进度表; 本书还配有650分钟的微课视频。
资源下载提示
课件等资源: 扫描封底的课件下载二维码,在公众号书圈下载。
素材源码等资源: 扫描目录上方的二维码下载。
视频等资源: 扫描封底刮刮卡中的二维码,再扫描书中相应章节中的二维码,可以在线学习。
本书由夏敏捷中原工学院主持编写,尚展垒(郑州轻工业大学)编写第1~7章,刘济宗中原工学院编写第10章和第11章,高艳霞中原工学院编写第12章,其余章节由夏敏捷编写。在本书的编写过程中,为确保内容的正确性,参阅了很多资料,并且得到了资深Python程序员的支持,张锦歌、张慎武参与了本书的校对和修订工作,在此谨向他们表示衷心的感谢。
由于作者水平有限,书中难免疏漏和不足之处,敬请广大读者批评指正。
夏敏捷
2020年7月
|
|