2025-01-02 03:42:35 | 来源: 互联网整理
转眼2023年已经接近尾声,回顾过去一年,你使用代理IP的体验如何?是爬取的时候代理IP多次访问超时?还是响应速度慢影响爬取效率?
在一连代理IP测评系列文章的第2期,我们从 IP可用率、平均请求时间方差、响应速度三个维度拆解产品稳定性,并与几家友商进行对比分析,帮助用户快速了解产品数据。
代理IP测试详情
测试注意事项
测试环境
为确保数据更加客观,测试需在同一配置下进行:
测试目标
测试产品
一连代理——直连代理白名单访问,测试数量500个
测试目标
本次依旧选择的百度搜索
测试过程
这次为了算出IP平均请求时间方差,我们将可用率和响应速度结合在一起,部分代码如下:
运行结果如下:
结合本次测试数据来看,一连代理综合排名第一,代理IP的稳定性较其他两位友商有明显优势,而有这样的优势离不开多年的技术经验积累。
产品特性
一连代理的前身是成都云立方,专注IDC和拨号VPS十余年,服务企业用户万余家。经过多年的经验积累,具备强大的技术“硬”实力与服务“软”实力。
一连代理基于自研(内网、外网)家宽动态VPS、自研IP可用性机制,使产品在本次《一连代理IP稳定性测评》中,呈现了优异的数据;友商对比中,获得了不错成绩。
说完测评数据,下面来说说如何获取“不限量用3天+1万IP不限时”的代理IP
近来,国内的数据采集环境越来越严峻,不是“非法入侵计算机信息系统”,就是“侵犯公民个人隐私信息”,一个帽子砸下来,直接就“包吃包住”,推荐阅读一下 【K哥爬虫普法专栏】。虽然大伙常说“搏一搏单车变摩托”,但这就像高空走钢丝,谁也说不好下一步会不会掉入万丈深渊。因此何不换个赛道,把目标放到各类海外数据,比如海外电商平台、社交媒体平台等等,同样能带来巨大的价值,最重要的,大多数人的技术也不足以惊动 FBI、ICPO,整个国际红色通缉令,被跨国追捕 ≖‿≖。
不过很多海外平台都有着较严格的风控策略,既然咱无法“肉身出国”,全球各地到处跑,最好的选择自然是使用海外代理 ip,但是大多数海外代理 ip 都价格不菲,下图是一家海外代理商官网的 ISP(住宅)按流量付费产品的价格表,注意货币单位可是“美元”:
这么一来,采集海外数据的成本就太高了,那有什么好的解决办法呢?自然是有的,K哥深知大伙都坚决贯彻着“能白嫖绝不付费”的思想,有免费的用绝不花钱买 ( ´◔ ‸◔`),但是用过国内那些网站的免费代理的都知道,免费的真没啥好东西,质量堪忧。那么问题就来了,海外代理 ip 还更值钱一些,哪里能找到能用且好用的免费海外代理 ip 呢?K哥还真找到一个,本文将手把手教你如何采集该网站的免费海外代理 ip,并给出源代码,一起来给这年轻的网站“上上课”。
该网站为快代理的海外独立站,首先进入到网页,可以看到有很多地区的海外代理 ip,美国、新加坡、泰国等等,全球各地的都有,而且都是高匿名的。这些 ip 时效都显示的 1-10 分钟,但是根据实际测试,部分 ip 半小时之后仍然可用。并且半小时刷新一次,也就是每隔半小时能获取到 12 个新的可用 ip,结合一些合理的调度策略,每天都能够不间断地“白嫖”~
当然,没必要整啥并发之类的,每半小时获取一次就可以了,不间断请求也不会给你一批新货,还会被封哦:
现在,咱们分析下如何采集这些海外代理 ip。
鼠标移动到网页上,右键查看页面源代码(ctrl+u),搜索一下目标 ip,会发现能直接搜索到,且其他 ip 相关数据也都在其中。证明这些数据不是通过接口传输的,可以直接使用一些常用的 Python 解析库,例如 XPath、pyquery 或者正则表达式等方法匹配到想要的数据,而且该页面大概率也是没啥反爬的:
那么,还是老样子,F12,先打开开发者人员工具进行抓包,刷新网页,可以看到,https://www.iphaiwai.com/free/ 请求的响应内容包含我们所需要的 html 源代码:
先点击开发者人员工具左上角的按钮,检查网页元素,再随便点击一个 ip,即可跳转到其在 html 代码中的位置,页面是个表格样式,这里自然就是一些 tr、td 标签,tr 包裹了每行的内容,td 则对应该行中每个单元格的值,如下图所示:
这里我们使用 lxml 解析库中的 Xpath 方法来匹配这部分内容,先简单介绍一下,XPath(XML Path Language)是一种用于在 XML 文档中查找信息的语言,通过特定的路径表达式来匹配在 XML 文档结构中的位置。使用前,需要先安装一下 lxml 解析库:
下面是 Xpath 的一些基本表达式,更详细的可以阅读 K 哥往期文章 【0基础学爬虫】爬虫基础之网页解析库的使用:
我们需要获取
如果还想要别的数据,例如时效、位置等等,方法也都一样,依此类推。这里的样式较为简单,比较容易就能够匹配到值,一般复杂些的,我们可以用些工具先校验一下 xpath 表达式是否正确,比如浏览器插件 XPath Helper,能够显示出输入的 xpath 表达式匹配出来的结果。该插件可以去K哥公众号回复关键字 XPath Helper 获取。
插件安装后,按快捷键ctrl + shift + x即可启动。以下为结果验证,可以看到,该表达式正确匹配到了 12 个 ip 值:
以下代码只是简单实现了一些基本的功能,可以根据自己的需求进行相应的调整,经过K哥测试,这些 ip 好像不区分使用环境,大家可以自行测试一下:
热门手游排行榜