因为一些工作需要从网络上获取一些数据资料,从程序朋友哪里了解到可以使用爬虫来自动获取,从而节省大量的时间和机械重复的工作。

因为本身不懂,朋友就推荐了崔大的《Python3网络爬虫开发实战》这本书,然后我就从网络上了解了一下,这本书是新出的,然后更新了很多落伍的知识,大家也也知道,互联网技术更新换代太快了。崔大还专门搭建了一个用来练习爬虫的网站用来让我这样的小白做测试。

经过一段时间的学习和练习,我终于利用appium和mitmdump从小红书上获取到了我想要的资料。同时还节省了大量的时间,大大提高了工作效率(以前这些工作需要2个人2天的时间来整理统计数据)。我也因为这个事情获得公司5K的效率提升奖。

整体事情下来我总结了一下有这些感悟:

一、为什么说这本书适合我这样的小白呢?
1.这本书介绍了学习爬虫之前需要了解的基础知识,如 HTTP、爬虫、代理、网页结构、多进程多线程等内容。可以让我们要做的事情有个了解。
2.深入浅出的介绍了爬虫的“基操”(基本的爬虫操作),最基本的请求库(urllib、requests、httpx)、页面解析库(Beautiful Soup、XPath、pyquery、parsel)和正则表达式的基本用法。我这边用到了request和XPath
3.还有数据存储的知识介绍(包括 TXT、JSON、CSV 各种文件的存储,以及关系型数据库 MySQL 和非关系型数据库 MongoDB、Redis 的基本存取操作)。我这边用到了MongoDB用来存储数据和csv导出数据。
这样就让我对爬虫有了看懂的基础。

二、现学现用
因为我有明确的需求,通过对基础的了解让我有了一个做这件事情的基本逻辑,剩下的就是找对应的方式方法。通过看第十二章

本书从 Python 的安装开始,详细讲解了 Python 从简单程序延伸到 Python 网络 爬虫 的全过程。本书从 实战 出发,根据不同的需求选取不同的 爬虫 ,有针对性地讲解了几种 Python 网络 爬虫 。本书共8章,涵盖的内容有 Python 语言的基本语法、 Python 常用IDE的使用、 Python 第三方模块的导入使用、 Python 爬虫 常用模块、Scrapy 爬虫 、Beautiful Soup 爬虫 、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源代码已上传网盘供读者下载。本书内容丰富,实例典型,实用性强。适合 Python 网络 爬虫 初学者、数据分析与挖掘技术初学者,以及高校及培训学校相关专业的师生阅读。 爬虫 新手一枚,因为工作原因需要学习相关的东西。发表下这段时间学习的心得,有说得不对的地方欢迎指指点点。一.什么是 爬虫 在学习 爬虫 之前只对 爬虫 有个概念性的认识。通过向服务器发送请求获取服务器传回信息,再根据其提取所需的信息。原理虽然简单,但是涉及的细节非常多,从一个坑爬出来又掉进另一个坑。二.post和getpost和get是两种向服务器发送请求的方式,有些http基础的同学应该都清楚他们的用处,在写... 年前学习 python 基础知识之后,在好奇心的推动下,我开始接触了 python 网络 爬虫 ,而在刚开始接触 网络 爬虫 时,繁多的资料让我猝不及防,对于习惯于优先通过书籍进行自主学习的我来说,通过长期看视频学习反而不是很习惯,但是在 网络 上找到的许多 爬虫 相关资料,不是说的过于简略,就是部分内容有些“过时”。该跟谁走?该怎么走?这个问题那段时间一直困扰着我。 写 爬虫 真不是件简单的事学习了大概两个月的 爬虫 ,渐渐感觉到写 爬虫 并不是件简单的事,有诸多的考虑,先简单的记录一下,有时间分部分做示例一、学习 爬虫 知识我是从 python3 开始做 爬虫 的,首先, python3 的语法必须知道,不过 python3 并不难,语法也非常简洁。但是,写着发现有个毛病,就是比如一个形参,由于不确定类型,.无法像java那样补全,导致你如果忘了一个函数,必须查看代码或手册。。。不过这也是... 网络 爬虫 (英语:web crawler),也叫 网络 蜘蛛(spider),是一种用来自动浏览万维网的 网络 机器人。简单来说就是你写个脚本去抓别人网页上的内容。举个例子,上面这张图片是前程无忧招聘网站上关于 python 招聘的一些信息,找工作的时候你想把这些数据抓下来放进一个excel表格里面方便你筛选排序对比选择,这时你一个一个链接点开去复制里面的对应条目内容,显然这个简单重复的操作做多了会让你抓狂,这... 零、背景之前在 node.js 下写过一些 爬虫 ,去做自己的私人网站和工具,但一直没有稍微深入的了解,借着此次公司的新项目,体系的学习下。本文内容主要侧重介绍 爬虫 的概念、玩法、策略、不同工具的列举和对比上,至于具体工具和框架的使用,会单独开辟独立的文章。下面的工具排行,从上往下表示从简单到复杂,从功能少到功能丰富。一、 爬虫 相关工具 爬虫 可以简单分为几步:抓取页面、分析页面和存储数据。1、抓取页面(1)... 文末赠书福利大家好,我是俊欣。说到学习 爬虫 ,相信很多人读过《 Python 3 网络 爬虫 开发 实战 》,这本书豆瓣评分 9.0,是数万 爬虫 学习者的必读经典,我也在很多篇文章中推荐过这本书。... 之前第一版的 爬虫 书《 Python3 网络 爬虫 开发 实战 》在 2018 年出版,上市三年来,一直处于市面上所有 爬虫 书的销冠位置,豆瓣评分 9.0 分,销量 10w 册。如今,这本书现在又进一步做了升级, 第二版 将案例进行了全面升级,自建了案例平台防止代码过期,同时增加了非常多的新技术、新知识的介绍,比如异步 爬虫 、JavaScript 逆向、安卓逆向、Kubernetes、智能解析等等。同时每一个知识点都有自己配套的例子,虽然可能随着时间的变化有些网站的规则改变了,但是思路是一样的。 python3 网络 爬虫 开发 实战 pdf 崔庆才 百度网盘分享 介绍了如何利用 Python 3 开发 网络 爬虫 ,环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,最后介绍了pyspider框架、Scrapy框架和分布式 爬虫 链接:https://pan.baidu.com/s/1i8JS3FUgD–G8tbZOBsKKQ 提取码:zrv9 对于崔大的这本《 python3 网络 爬虫 开发 实战 ( 第二版 )》,其实还得从大一下学期的时候参加老师的课题说起,当时老师的课题需要采集一些旅游网站的评论数据,对于当时的我一筹莫展。然后通过请教老师和查询资料了解到 爬虫 这个东西,当时刚好课程在学习 Python ,然后碰巧中用度娘以及知乎这些工具搜索发现了 python 网络 爬虫 开发 ,对于当时基础很差的我,然后就考虑买一本厚一点的基础的 爬虫 书籍,然后结合豆瓣知乎的评价就冲了《 python3 网络 爬虫 开发 实战 (第一版)》,然后因此也和 爬虫 结下了不解之缘。后续学习过程中发现第一版