对于崔大的这本《python3网络爬虫开发实战(第二版)》,其实还得从大一下学期的时候参加老师的课题说起,当时老师的课题需要采集一些旅游网站的评论数据,对于当时的我一筹莫展。然后通过请教老师和查询资料了解到爬虫这个东西,当时刚好课程在学习Python,然后碰巧中用度娘以及知乎这些工具搜索发现了python网络爬虫开发,对于当时基础很差的我,然后就考虑买一本厚一点的基础的爬虫书籍,然后结合豆瓣知乎的评价就冲了《python3网络爬虫开发实战(第一版)》,然后因此也和爬虫结下了不解之缘。后续学习过程中发现第一版由于发行时间的原因,对应的爬取网站发生了很多改版,导致很多爬虫代码失效,然后今年上半年刚好在读者群里听说听说崔大在写第二版,一直持续关注着,所以最近崔大的《python网络爬虫开发实战》出第二版了,一听到这个消息,作为崔大的老粉赶紧就冲了。然后幸运得拿到了一本签名版。
作为第一批拿到崔大新书的老粉,最近一直在冲这本书,内容也大致过了一遍,然后由于时间关系,一些操作可能还没来得及实践,只简单爬取了几个崔大的比较简单的案例,但是这次深有感触,因为再也不用担心网站改版以及对于一些网站的反爬如何解决。这次书的厚度相比第一版仿如天上地下。书中对于一些爬虫知识点的讲解很详细,即使没有学过python、网页等相关知识,在通过学习这本书的过程中也可以学习到很多。书中代码也直接展现了出来。其次崔大还建了很多读者群,作为一些渣渣可以经常在里面提问,不仅有很多和你一样的爬虫学习者而且还有很多大佬,也经常解答各种疑惑。
这次第二版最大的优点就是案例是崔大专门为爬虫学习开发的网站,不用担心案例过期(除非崔大暴富了,不做IT了)。因为大家都知道爬虫这门技术对于大多数学习的人其实在日常中是一种辅助工具,更多的时候是一个获取数据的手段而已,所以使用频率并没有像做数据分析数据挖掘以及开发网站那些技术那么高,所以可能一段时间没用,有些细节可能就会忘了,但是现在有了崔大的自己专门开发的网站,结合书上详细的讲解就可以直接冲啦,并且崔大还在拉勾上面专门做了对应的课程,讲的也很详细,这也让我们有机会随时干翻爬虫。而且对于爬虫这个领域,国内市场上同类的书籍大多都是蜻蜓点水般的一笔带过,对于爬虫的核心难点以及技术深入都没有提及,更多是把爬虫当做吸引读者的噱头,然后通篇内容更将像利用爬虫爬取几个简单网站做做数据分析的案例书,对于学习爬虫没啥实际意义,这本书的话相对而言全文行文的重点都在爬虫,也介绍了目前比较常见的反爬技术以及如何破解。也提供引入深度学习等相关算法来实现图片验证码的破解,总体上整本书的专业性还是挺强的。强烈建议大家冲吧!
这本书的话唯一不足的地方目前个人发现就是由于爬虫代码篇幅多,有少许代码可能崔大手误复制不完整出了点小问题,后期建议崔大在那个网站单独开一个专栏提供勘误信息,下面可以放入问卷形式的链接,以便读者发现问题及时反馈在问卷中,崔大后期也可以维护下。最后其实对于爬虫这一块领域而言,大一看了崔大第一版的书之后就非常关注哈哈哈,包括微博和公众号,从崔大的这些日常随笔中也学到了很多,不仅仅是爬虫方面,也还有一些日常中的心得分享,给自己也提供了一些参考方向,总之崔大这个人还是挺不错,所以说听我的赶紧冲吧!说不定以后崔大暴富就见不到了。最后给大家分享几张书的照片,不仅很厚书的质量也很不错哈哈哈哈。
本书从
Python
的安装开始,详细讲解了
Python
从简单程序延伸到
Python
网络
爬虫
的全过程。本书从
实战
出发,根据不同的需求选取不同的
爬虫
,有针对性地讲解了几种
Python
网络
爬虫
。本书共8章,涵盖的内容有
Python
语言的基本语法、
Python
常用IDE的使用、
Python
第三方模块的导入使用、
Python
爬虫
常用模块、Scrapy
爬虫
、Beautiful Soup
爬虫
、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源代码已上传网盘供读者下载。本书内容丰富,实例典型,实用性强。适合
Python
网络
爬虫
初
学
者、数据分析与挖掘技术初
学
者,以及高校及培训
学
校相关专业的师生阅读。
上节我们了解了图形验证码的识别,简单的图形验证码我们可以直接利用 Tesserocr 来识别,但是近几年又出现了一些新型验证码,如滑动验证码,比较有代表性的就是极验验证码,它需要拖动拼合滑块才可以完成验证,相对图形验证码来说识别难度上升了几个等级,本节来讲解下极验验证码的识别过程。
1. 本节目标
本节我们的目标是用程序来识别并通过极验验证码的验证,其步骤有分析识别思路、识别缺口位置、生成滑块拖动路径,最后模拟实现滑块拼合通过验证。
2. 准备工作
本次我们使用的
Python
库是 Selenium,使用的浏览器为 Chrome,在此之前请确保已经正确安装好了 Selenium 库、Chro
第2章介绍了最基本的请求库和正则表达式的基本用法。
第3章介绍了网页解析库,比如BeautifulSoup、XPath、pyquery、parsel,可以使提取信息更加方便快...
“ 阅读本文大概需要 5 分钟。 ”大家好!我是崔庆才。今天告诉大家一个好消息:《
Python3
网络
爬虫
开发
实战
(
第二版
)》今天正式上市了!!!!没错,就是这本:2018 年 5 月我的《...
之前第一版的
爬虫
书《
Python3
网络
爬虫
开发
实战
》在 2018 年出版,上市三年来,一直处于市面上所有
爬虫
书的销冠位置,豆瓣评分 9.0 分,销量 10w 册。如今,这本书现在又进一步做了升级,
第二版
将案例进行了全面升级,自建了案例平台防止代码过期,同时增加了非常多的新技术、新知识的介绍,比如异步
爬虫
、JavaScript 逆向、安卓逆向、Kubernetes、智能解析等等。同时每一个知识点都有自己配套的例子,虽然可能随着时间的变化有些网站的规则改变了,但是思路是一样的。