用动态ip来爬虫的话,我们要选择好爬虫的方式跟ip代理资源。
Python的实现方式:
设计思路和原理本思路就是从目前提供代理服务的网站获取可使用的IP、端口、代理类型信息,并检测可用性,然后对外提供服务。
使用动态IP代理的一些基本概念:
动态IP池其实就是一堆可以用来做代理访问的Pool,作为Service Provider它对外提供可用的动态IP及端口。
动态IP从隐藏级别上分三类:
透明代理,普通代理和高匿代理,透明代理是指服务器知道你用了代理,但同时也知道你的真实IP,其中高匿代理指代理服务器不向目标服务器传递X_FORWARDED_FOR变量。
使用动态ip来进行爬虫,我们可以更加方便的来实现抓取数据。