您的位置: 首页 > 新闻资讯 > 正文

浅谈动态代理IP爬虫前期准备的准备工作

发布时间:2020-08-20 14:31:03 来源:黑洞代理

浅谈动态代理IP爬虫前期准备的准备工作!如果想要爬虫获得好的效果,只是靠编写好的爬虫程序是不够的,因为你的程序很有可能刚进行就被网站的反爬虫策略给封了。

所以,在我们进行爬虫之前,需要做以下准备工作。

浅谈动态代理IP爬虫前期准备的准备工作

(一)反爬虫策略分析:

(1)单个ip不带cookie访问多次,ip不一会被封

(2)首次访问返回cookie值,带同一个cookie值连续访问,几分钟被封;带不同cookie值访问,大约十分钟之后,IP还是被封了。

(3)单个ip低速访问(10s以上),不会被封

(二) 爬虫策略分析:

简单来说,有这么几个防止反爬方法:

带随机User Agent:最简单,新手也都会

设置爬取间隔时间: 简单,但是大大降低效率

带可用cookie:可难可容易找规律,会需要带上一些认证或者解密的数值去计算

使用代理:简单粗暴有效,但是维护代理是个问题

由于单个ip怎么样都会被封,所以我投向了代理的怀抱,常见的有代理IP如黑洞代理。

爬虫策略大致如下:

三个随机:随机UA,随机代理,随机cookie

对于使用免费代理:

可以参考git上的一个开源项目:jhao104/proxy。用了几个类似的,感觉这个是最好的,它主要用flask做了一个api来实时刷新可用ip,不仅可以抓取各大主流免费代理ip,还能定时检验ip的可用性。但是这个项目还是有一个问题,比如当我设定抓取的间隔为10秒之后,执行任务的时间可能大于10s,会报一个warning引发整个程序暂停。

对于使用付费代理:

如果想要保证爬虫的质量,大家可以选择高质量的付费代理IP。

以上准备就是爬虫前的准备工作,之后就是爬虫程序的编写了。


相关文章内容简介

1 浅谈动态代理IP爬虫前期准备的准备工作

浅谈动态代理IP爬虫前期准备的准备工作!如果想要爬虫获得好的效果,只是靠编写好的爬虫程序是不够的,因为你的程序很有可能刚进行就被网站的反爬虫策略给封了。所以,在我们进行爬虫之前,需要做以下准备工作。(一)反爬虫策略分析:(1)单个ip不带cookie访问多次,ip不一会被封(2)首次访问返回cookie值,带同一个cookie值连续访问,几分钟被封;带不同cookie... [阅读全文]

最新标签