资料下载：精通python网络爬虫韦玮.pdf

精通python网络爬虫韦玮.pdf

http://www.100md.com 2020年11月10日

第1页

第10页

第19页

第27页

第41页

参见附件(115888KB，321页)。

精通python网络爬虫从技术、工具、实战3个维度讲透Python网络爬虫各项核心技术和主流框架，深度讲解网络爬虫的抓取技术与反爬攻关技巧

    内容简介

    本书从技术、工具与实战3个维度讲解了Python网络爬虫：

    技术维度：详细讲解了Python网络爬虫实现的核心技术，包括网络爬虫的工作原理、如何用urllib库编写网络爬虫、爬虫的异常处理、正则表达式、爬虫中Cookie的使用、爬虫的浏览器伪装技术、定向爬取技术、反爬虫技术，以及如何自己动手编写网络爬虫；

    工具维度：以流行的Python网络爬虫框架Scrapy为对象，详细讲解了Scrapy的功能使用、高级技巧、架构设计、实现原理，以及如何通过Scrapy来更便捷、高效地编写网络爬虫；

    实战维度：以实战为导向，是本书的主旨，除了完全通过手动编程实现网络爬虫和通过Scrapy框架实现网络爬虫的实战案例以外，本书还有博客爬取、图片爬取、模拟登录等多个综合性的网络爬虫实践案例。

    作者在Python领域有非常深厚的积累，不仅精通Python网络爬虫，在Python机器学习、Python数据分析与挖掘、Python Web开发等多个领域都有丰富的实战经验

    作者简介

    韦玮，资深网络爬虫技术专家、大数据专家和软件开发工程师，从事大型软件开发与技术服务多年，现任重庆韬翔网络科技有限公司创始人兼CEO，国家专利发明人。

    精通Python技术，在Python网络爬虫、Python机器学习、Python数据分析与挖掘、Python Web开发等多个领域都有丰富的实战经验。

    CSDN、51CTO、天善智能等科技类社区和媒体的特邀专家和讲师，输出了大量的高质量课程和文章，深受用户喜爱。

    精彩书评

    网络爬虫是互联网上进行信息采集的通用手段，在互联网的各个专业方向上都是不可或缺的底层技术支撑。本书从爬虫基础开始，全面阐述了Python网络爬虫技术，并且包含各种经典的网络爬虫项目案例，特别是详细给出了基于Scapy框架实现网络爬虫的*佳实践方案与流程，实战性非常强，是一本关于Python网络爬虫的优秀实战书籍，值得推荐。

    ——诸葛建伟清华大学副研究员/《Metasploit渗透测试魔鬼训练营》作者

    本书详细讲解了如何基于Python从零开始构建一个成熟的网络爬虫解决方案的完整过程，以及业界主流爬虫技术的原理与实战案例，同时也引入了作者个人的经验与思考，非常有价值。本书循序渐进的内容组织结构，相信无论是新手还是老手，均能很好地阅读和吸收。

    ——刘天斯腾讯高级工程师，《Python自动化运维》作者

    网络爬虫是许多大数据分析场景的基本需求，实现爬虫程序的基本功能很简单，但是要做到自动化不间断抓取，涉及很多技术和技巧。难能可贵的是，本书将网络爬虫编程的技术和实践技巧无私地总结并分享了出来。另外，Python也是运维人的*爱，Python入门容易精通难，通过阅读本书，可以深度学习如何在一个具体场景中使用Python。

    ——肖力云技术社区创始人

    Python广泛应用于网络爬虫，本书循序渐进地阐述了爬虫的理论知识和核心技术，以丰富的实例讲解了网络爬虫的实战应用，精心组织的代码完美地诠释了爬虫的核心要义。这本书非常值得每一个对爬虫感兴趣的读者细细研读。

    ——谢佳标乐逗游戏高级数据分析师/《R语言游戏数据分析》作者

    本书的主要内容和特色

    本书是一本系统介绍Python网络爬虫的书籍，全书注重实战，涵盖网络爬虫原理、如何手写Python网络爬虫、如何使用Scrapy框架编写网络爬虫项目等关于Python网络爬虫的方方面面。

    本书的主要特色如下：

    系统讲解Python网络爬虫的编写方法，体系清晰。

    结合实战，让读者能够从零开始掌握网络爬虫的基本原理，学会编写Python网络爬虫以及Scrapy爬虫项目，从而编写出通用爬虫及聚焦爬虫，并掌握常见网站的爬虫反屏蔽手段。

    有配套视频，对于书中的难点，读者可以直接观看作者录制的对应视频，加深理解。

    拥有多个爬虫项目编写案例，比如博客类爬虫项目案例、图片类爬虫项目案例、模拟登录爬虫项目等。除此之外，还有很多不同种类的爬虫案例，可以让大家在理解这些案例之后学会各种类型爬虫的编写方法。

    总之，在理解本书内容并掌握书中实例之后，读者将能胜任Python网络爬虫工程师方向的工作并学会各种类型网络爬虫项目的编写。此外，本书对于大数据或数据挖掘方向的从业者也非常有帮助，比如可以利用Python网络爬虫轻松获取所需的数据信息等。

    如何阅读本书

    本书分为四篇，共计20章。

    第一篇为理论基础篇(第1～2章)，主要介绍了网络爬虫的基础知识，让大家从零开始对网络爬虫有一个比较清晰的认识。

    第二篇为核心技术篇(第3～9章)，详细介绍了网络爬虫实现的核心技术，包括网络爬虫的工作原理、如何用Urllib库编写网络爬虫、爬虫的异常处理、正则表达式、爬虫中Cookie的使用、手写糗事百科爬虫、手写链接爬虫、手写微信爬虫、手写多线程爬虫、浏览器伪装技术、Python网络爬虫的定向爬取技术及实例等。学完这一部分内容，读者就可以写出自己的爬虫了。这部分的爬虫编写采用的是一步步纯手写的方式进行的，没有采用框架。

    第三篇为框架实现篇(第10～17章)，主要详细介绍了如何用框架实现Python网络爬虫项目。使用框架实现Python网络爬虫项目相较于手写方式更加便捷，主要包括Python爬虫框架分类、Scrapy框架在各系统中的安装以及如何避免各种“坑”、如何用Scrapy框架编写爬虫项目、Scrapy框架架构详解、Scrapy的中文输出与存储、在Scrapy中如何使用for循环实现自动网页爬虫、如何通过CrawlSpider实现自动网页爬虫、如何将爬取的内容写进数据库等。其中第12章为基础部分，读者需要着重掌握。

    第四篇为项目实战篇(第18～20章)，分别讲述了博客类爬虫项目、图片类爬虫项目、模拟登录爬虫项目的编程及实现。其中，也会涉及验证码处理等方面的难点知识，帮助读者通过实际的项目掌握网络爬虫项目的编写。

    精通python网络爬虫韦玮截图

附件资料：

精通python网络爬虫韦玮.pdf（115887KB）

本页网址：

http://www.100md.com/html/file/202011/105368.htm