MiniMax Vision Captcha Skill
使用MiniMax MCP的视觉理解能力识别图片中的内容,解决验证码、滑块分析等问题。
快速开始
1. 截图
使用OpenClaw浏览器截图:
browser action=screenshot targetId=<页面ID>
或使用OpenClaw的snapshot获取页面结构后分析。
2. 调用MiniMax视觉识别
mcporter call minimax-coding-plan.understand_image prompt="描述图片内容" image_source="/path/to/screenshot.png"
3. 分析结果
根据返回结果进行下一步操作。
典型使用场景
场景1:微信滑块验证码
- 访问微信页面,触发验证码
- 截图:
browser action=screenshot - 发送给视觉模型分析
- 获取滑块位置描述
场景2:图片文字识别
- 截图或获取图片路径
- 调用视觉模型识别文字
- 返回文字内容
场景3:网页元素分析
- 使用snapshot获取页面结构
- 分析特定元素的可见内容和属性
注意事项
- 确保MiniMax MCP已配置
- 图片路径需要是服务器可访问的绝对路径
- 滑块验证码需要描述缺口位置(左侧/右侧/距离)
依赖
- minimax-coding-plan MCP
- OpenClaw浏览器工具