新書推薦:
《
创伤与记忆:身体体验疗法如何重塑创伤记忆 [美]彼得·莱文
》
售價:NT$
295.0
《
复原力
》
售價:NT$
345.0
《
近代中国思维方式的演变(王中江著作系列)
》
售價:NT$
950.0
《
我可以近乎孤独地度过一生
》
售價:NT$
440.0
《
二十四节气生活美学
》
售價:NT$
340.0
《
古文观止(上+下)(2册)高中生初中生阅读 国学经典丛书原文+注释+译文古诗词大全集名家精译青少年启蒙经典读本无障碍阅读精装中国古代著名文学书籍国学经典
》
售價:NT$
440.0
《
宠物革命:动物与现代英国生活的形成
》
售價:NT$
360.0
《
(棱镜精装人文译丛)蔑视大众:现代社会文化斗争的实验
》
售價:NT$
275.0
|
編輯推薦: |
作为Python网络数据采集的入门书籍,力求囊括以数据采集为中心的各方面知识与经验技巧,以期帮助读者快速上手,实现自己的网络爬虫项目。
|
內容簡介: |
海量数据的产生和大数据的高价值利用,让数据爬取变得日益重要。本书为读者介绍了如何使用Python编写网络爬虫批量采集互联网数据,如何处理与保存采集到的信息,以及如何从众多纷乱的数据中提取到真正有用的信息。本书末尾介绍了几种常用的数据可视化工具。让读者能够从头到尾完整地完成网络数据的采集与分析项目。本书理论与实例并重,既能够帮助数据从业者快速提升工作效率,又可以帮助大数据爱好者用网络爬虫方便生活。
|
關於作者: |
郭卡,辽宁师范大学硕士毕业,安徽外国语学院计算机教师,多年从事一线计算机教学及计算机等级培训工作,擅长计算机网络技术和教育学类数据统计分析技术,曾在中文核心期刊发表多篇技术论文。戴亮,中南大学硕士毕业,数据挖掘从业者;在网络爬虫、数据分析、机器学习等领域有丰富的实战经验,在简书中贡献了许多高质量的技术文章,深受读者好评。
|
內容試閱:
|
过去的几十年里,各行各业都出现了大规模的数据增长,尤其是在移动互联网快速发展的今天,数据体量巨大、处理速度快和价值密度低是目前大数据的显著特征。随着大数据时代的到来,如何利用大数据技术将海量数据快速地转换为有用的知识与信息资源已成为IT界广泛关注的焦点,也是IT人士的必备技能。要真正地享受到大数据时代的便利,获取到能够改善生活、提高工作效率的信息,必须具备快速获取并分析数据的能力。网络爬虫已经成为人们工作、学习和生活中获取海量数据不可或缺的工具,广泛应用于娱乐、金融、科研等众多领域,例如:求职者可以利用网络爬虫抓取招聘信息,快速筛选出适合自己的岗位;购房者可以抓取二手房信息,帮助做出购房决策;业余时间人们可以抓取影评信息,挑选优质电影放松身心;股民也可以获取股票数据、新闻报道,掌握财经动态;在科研项目中使用网络爬虫爬取并分析当前该领域的研究趋势,能够节约大量时间和精力,并为科研项目提供方向性的指导。对于零基础的读者,在自学网络爬虫前需要补习Python和计算机网络知识,需要大量时间。本书中,作者将结合自身学习Python网络爬虫的经验,为大家筛选学习网络爬虫所需要的必备知识,书中的理论知识都将通过实例应用的形式展现,帮助大家在短时间内掌握基本的网络爬虫技能。为了方便读者学习了网络爬虫之后能够将采集到的数据加以利用,书中还会进一步介绍如何使用Python进行数据分析的相关技术。作者总结了学习心得体会,采用适合初学者的学习方法写成此书,希望对大家有所帮助。因作者水平和成书时间所限,本书难免有疏漏或不当之处,敬请读者指正。本书特色1.实例优先读万卷书不如行万里路,虽然Python是一门简单明了的编程语言,但对于初学者来说,即使充分理解了其基础理论和算法,在实践中还是会碰到诸多难题。本书采用理论与实践操作相结合的方式帮助读者融入Python的世界,其例举的网站均为常见网站,如微博、豆瓣、百度、简书等,方便读者在进行编程练习时也能获取到一定的有用信息。秉承益于理解,重在掌握的原则,笔者有意用较多的实例来展示这些内容,希望读者能在学习中及时获得反馈,提高学习效率。2.内容全面本书介绍了Python语言中与网络爬虫以及数据分析有关的众多第三方库的使用方法,涵盖了网络访问、网页解析、数据存储、数据分析、数据可视化等各方面的内容;适合初学者快速熟悉网络爬虫及数据分析技术的细节。3.讲解详尽本书对重要的第三方库如urllib、BeautifulSoup、lxml、Scrapy、Numpy等均进行了翔实地讲解,对重点函数进行了实例说明,并且每个实例均由浅入深地从项目思路开始层层剖析,帮助读者建立起数据抓取及分析的思维,做到授人以渔,使读者能够快速脱离书本,建立自己的项目。读者须知? 版本的选择要运行书中代码,你需要安装Python 3.4.4及以上版本,因为示例代码无法在Python 2环境中运行。? 操作系统环境书中代码运行在Windows操作系统中,在Linux环境下运行可能会出现报错。? 浏览器的使用书中大多数浏览器操作都是基于Chrome、Firefox等,若使用IE浏览器,对应的操作方法将会有所变化,耗费不必要的时间。本书结构本书作为Python网络数据采集的入门书籍,力求囊括以数据采集为中心的各方面知识与经验技巧,以期帮助读者快速上手,实现自己的网络爬虫项目。(1)本书从框架上主要讲了以下内容:? 用Python语言进行网络爬虫实战编程;? 各种应用场景下的网络爬虫技术;? 爬虫工具与技能,以及如何应用。(2)本书从讲解顺序上可以分为以下三个部分:? 第1~2章为入门理论部分,主要讲解Python语言与网络爬虫的基础知识; ? 第3~7章为网络爬虫实践部分,主要介绍网络爬虫的各项技术内容;? 第8~13章是爬虫工具部分,读者除了需要掌握爬虫编写技能外,还需要了解与爬虫相关的采集、存储、分析、可视化工具的使用,才能将网络爬虫项目做得更加完善。本书读者对象? Python语言初学者网络爬虫无疑是学习Python语言的最佳切入点,初学者能够通过网络爬虫的编写快速地获取正面反馈,提升学习兴趣,并能够在编程过程中学习到更深层次的Python应用知识。? 数据运营与分析人员本书中介绍了很多数据采集相关的工具及技能,这些工具能够简化数据运营及分析人员的日常工作,并提升相关从业人员处理实际问题的能力。? 大中专院校社科类学生或社科类科研人员社科类学科往往需要大量的社会公开数据支持才能写出优质的论文,网络爬虫可以说是最简单高效地数据获取途径;对社科类学生和科研人员来说,网络爬虫能够极大地提升学习和研究的效率,是进行学术研究的必备技能。? 对数据采集和分析有兴趣的各类人员读者可以通过本书入门及巩固数据采集和分析的相关技术,并将之应用于感兴趣的项目中,做到学以致用。本书学习建议根据本书的知识结构,我们对不同基础的读者提出如下学习建议: ? 如果您是一名零基础的读者,对Python语言和网络爬虫知之甚少,建议从第1章开始按顺序阅读本书;? 如果您有一定的Python语言基础,而对网络爬虫不太了解,建议您从第2章开始学习;? 如果您对Python语言和网络爬虫都有一定的了解,想快递搭建爬虫项目,建议您从第3章开始阅读,并重点阅读各章示例与综合实例。? 本书第三部分为爬虫相关技术介绍,适合在项目开发过程中进行查阅。学习完本书中的知识之后,相信读者已具备了编写小型爬虫项目的能力,后续还可以通过实际爬虫项目来提升编写大规模高并发爬虫项目的能力。希望读者能够在未来的学习中不断提升自己对核心技术的掌控能力,进阶为网络爬虫领域的专家。本书编者本书1~11章由一线计算机教师郭卡编写,12~13章由戴亮编写,最后由郭卡进行全书统稿。本书编写过程中得到了辽宁师范大学计算机与信息技术学院各位老师的鼎力相助,在此深表感谢。
|
|