爬取拉勾网的最大障碍:普通模块难以实现翻页爬取。自己加了参数page
,经过抓包查询之后也达不到我的理想要求。
没办法了,只好用selenium模块结合浏览器来实现边翻页边爬取了。
实际上比较浪费系统资源,这种情况不得已还是尽量别用的好。
在此记录下主要的过程,包括实现的代码。
还是要说明一下:不懂的地方还是需要自己去查询了解,代码不过就是几个模块的知识运用罢了。
前提
启动Chrome**webdriver插件,之后复制其所在地址,加入代码中启动selenium模块程序。
启动插件。
本机此插件所在的目录位置。
分析过程
经过简单的分析,发现页面的切换的同时URL没有任何的改变(这就是我为何要用selenium来爬取的原因!):
我们的目标是,点击在此符合条件的发布公司链接,进入招聘信息详细的界面爬取详细的所有需要的信息:
一一进入进行爬取。
进入之后详细的招聘信息页面。
那么思路一下就出来了:用selenium模块实现翻页的功能,并且返回对应页面的源代码,并且一一进行分析提取即可。
代码实现
|
|
最后我选择将爬取的内容保存至一个
.txt
文件下。
效果
运行之后的效果,有些爬取不了,明明源代码都没什么变化…
最后
这个代码的模型并不能爬取页面上对应的全部内容,这个我也是有点疑惑。
有时会跳到需要登录的界面,重新来几次就行了,总有一次能爬取。
有不懂的知识可参考:https://cuiqingcai.com/5630.html
以及相关的模块的官网亦可。