通用轨迹验证码识别代码
本文探讨了网站轨迹验证码反爬技术的演进趋势,指出其正朝着复杂化方向发展:轨迹颜色与背景融合、曲线干扰增多、边界模糊化。为应对这一挑战,作者团队通过大量数据训练出通用识别模型,并提供了基于Python的API调用代码示例,支持将验证码图片转为base64格式后提交云端识别。测试结果显示该方案能有效处理各类复杂轨迹验证码,识别结果可通过可视化界面查看。文末提供了验证码识别平台的访问链接供读者体验。(1
一、简介
现在各个网站反爬措施越来越丰富。反爬方式也越来越难,轨迹验证码就是防御的最好措施,下面最近最近收集到不同网站轨迹验证码的图片样例。
轨迹的也从最开始的简单,变得越来越复杂。为了增加难度,轨迹也变得越来越不清晰,轨迹的颜色也和背景图融为了一体,可能连人眼都很难去区分。

这张图片轨迹还比较简单,轨迹比较直,没有曲线,而且轨迹和背景颜色差别较大,人眼容易区分。

这个网站的轨迹验证码难度就比较大,首先轨迹的颜色比较淡,而且轨迹都是曲线。甚至还有船行驶的轨迹作为干扰,很容易让模型把船行驶的轨迹错误识别为需要鼠标滑动的轨迹。

这个网站的轨迹变得更加不清晰,颜色都是和雾气一样弥散的,轨迹没有明显的分界线。而且比较浅的颜色也容易和背景元素融为一体,甚至行程遮挡关系。只能说是难上加难。
二、识别代码
为了解决越来越多的轨迹识别问题,我们收集了大量图片,标记了大量数据。我们训练出了一个比较完美的模型,几乎可以通用类似的所有轨迹验证码
下面是识别的代码,代码的使用也很简单,只需要上传上面的轨迹图片就行,最后会得到滑动的轨迹。
import base64
import requests
import datetime
from io import BytesIO
from PIL import Image
t1 = datetime.datetime.now()
#PIL图片保存为base64编码
def PIL_base64(img, coding='utf-8'):
img_format = img.format
if img_format == None:
img_format = 'JPEG'
format_str = 'JPEG'
if 'png' == img_format.lower():
format_str = 'PNG'
if 'gif' == img_format.lower():
format_str = 'gif'
if img.mode == "P":
img = img.convert('RGB')
if img.mode == "RGBA":
format_str = 'PNG'
img_format = 'PNG'
output_buffer = BytesIO()
# img.save(output_buffer, format=format_str)
img.save(output_buffer, quality=100, format=format_str)
byte_data = output_buffer.getvalue()
base64_str = 'data:image/' + img_format.lower() + ';base64,' + base64.b64encode(byte_data).decode(coding)
# base64_str = base64.b64encode(byte_data).decode(coding)
return base64_str
# 加载图片
img1 = Image.open(r'E:\Python\lixin_project\OpenAPI接口测试\test_img\84.jpg')
# 图片转base64
img1_base64 = PIL_base64(img1)
验证码识别接口
可以根据自己网络情况选择不同接口
http://bq1gpmr8.xiaomy.net(电信)
http://220.167.181.200:9009(移动、电信、联通)
# 验证码识别接口
url = "http://220.167.181.200:9009/openapi/verify_code_identify/"
data = {
# 用户的key
"key":"onNYnzzAWPO8E0bPDmJv",
# 验证码类型
"verify_idf_id":"84",
# 样例图片
"img_base64":img1_base64,
}
import json
print(json.dumps(data))
header = {"Content-Type": "application/json"}
# 发送请求调用接口
response = requests.post(url=url, json=data, headers=header)
# 获取响应数据,识别结果
print(response.text)
print("耗时:", datetime.datetime.now() - t1)
识别后的图片可视化

想了解更多验证码识别,免费测试效果请访问:https://bq1gpmr8.xiaomy.net/tool/verifyCodeHomePage2/?_=1765759147337
网易易盾是国内领先的数字内容风控服务商,依托网易二十余年的先进技术和一线实践经验沉淀,为客户提供专业可靠的安全服务,涵盖内容安全、业务安全、应用安全、安全专家服务四大领域,全方位保障客户业务合规、稳健和安全运营。
更多推荐



所有评论(0)