您的位置: 首页 > 新闻资讯 > 正文

采集数据必须要有爬虫IP代理!

发布时间:2019-09-10 16:11:39 来源:互联网

采集数据必须要有爬虫IP代理!之前由于公司项目需要,采集过地图数据,还有一些大型网站数据。

采集数据必须要有爬虫IP代理!

经验如下:

1.代理IP必须需要, 说的非常正确,ADSL。如果有条件,其实可以跟机房多申请外网IP。

2.在有外网IP的机器上,部署代理服务器。

3.你的程序,使用轮训替换代理服务器来访问想要采集的网站。

好处:

1.程序逻辑变化小,只需要代理功能。

2.根据对方网站屏蔽规则不同,你只需要添加更多的代理就行了。

3.如果具体IP被封了,使用代理服务器下线就可以了,程序逻辑不需要变化。

最早是想通过代理,买一些代理IP,比如免费的精灵http代理,上面提供了很多国内的代理IP服务器地址,可以从这边抓取http代理。后来就用ADSL了,缺点要断网,再拨号,断网过程爬虫是空跑的,如果你对数据实时性要求特别高,需要好好规划一下程序。

ADSL另一个不好的地方是服务器厂商似乎都是小作坊,不稳定,找到一个秒拔秒变,又长期稳定的合作伙伴也是很重要的。平均2秒访问一次,即遭封锁代理服务器IP地址,因此只有降低抓取速度,但是又有总量和时间的限制。有个问题:如果我平均2秒多一点访问一次,是否可以永远不被封锁?对方网站的封锁策略你是否都摸透?

按照现有条件,假设封锁条件是确定的,那1万页,30分钟,平均一秒种的量是5.56次。如果不存在调度,用户可以设置至少6条线路来完成抓取(更正一下,应该是至少12条线路,时间仓促,计算失误)推荐阅读:代理ip软件哪个最便宜易用?

终极解决方案就是拉几条电信的ADSL线路代理IP,光纤和电话线都可以,拨号就用CMD方式就可以了,1000多1年,光纤10M,电话线4M,自己再买几台机器放过去就行了。


相关文章内容简介

1 采集数据必须要有爬虫IP代理!

  采集数据必须要有爬虫IP代理!之前由于公司项目需要,采集过地图数据,还有一些大型网站数据。  经验如下:  1.代理IP必须需要,∵说的非常正确,ADSL。如果有条件,其实可以跟机房多申请外网IP。  2.在有外网IP的机器上,部署代理服务器。  3.你的程序,使用轮训替换代理服务器来访问想要采集的网站。  好处:  1.程序逻辑变化小,... [阅读全文]

最新标签

在线客服

QQ咨询

上班时间