代理IP也一样有时效的,每个IP都是有实效的,IP失效是很常见的。所以我们需要定时对IP的有效性进行检验。
我们在爬取动态VPN的过程中会注意到这样一个有趣的现象,每个IP商家都会把它的所在地(北京、上海、欧洲等等)在旁边注明,这是为什么呢?
我之前在爬CSDN的过程中遇到一个问题困扰了我很久,同一个IP我拿去爬简书(具体是不是简书我记得不是很清楚了)没问题信息很快就抓取出来了,但是拿来爬CSDN就不行要么链接中断,要么就是请求超时。后来我做了大量的实验。得出这样一个结论:IP地址的所在位置会影响IP对于不同网站的质量。简单点来说,假设我拿一个位于IP美国的IP去爬美国的网站,从请求到响应的时间为2秒;我再拿这个IP去爬中国的网站,响应时间就是长于2秒甚至出现连接超时的错误。
鉴于上述,我建议大家在检验IP的有效性时,还是以目标网站为检验网站。我要爬A网站,那么我就拿A网站来检验IP的有效性。
既然代理IP的有效性受地域和时间影响,那么我们在使用之前就需要先检查,提取可用的代理IP使用。最好是使用目标网站进行检测的,避免地域的影响。