Vision API 配置
功能简介
Vision API(图片转提示词)功能允许您将任意图片转换为可用于 AI 绘画的提示词。鼠标悬停在图片上时会显示转换按钮,点击后 AI 会分析图片内容,生成结构化的双语提示词。
核心特性
- 多服务商支持:预设国内外主流 AI 服务商,一键配置
- 多配置管理:可保存多个 API 配置,随时切换
- 自定义端点:支持接入任意兼容 OpenAI/Anthropic 格式的 API
- 双语输出:同时生成中文和英文提示词,适配不同平台
- 本地存储:所有配置仅存储在本地,不上传云端
配置位置
打开插件侧边栏 → 点击底部「设置」图标 → 进入「Vision API」部分
快速配置
第一步:选择服务商
服务商按类型分组:
| 分组 | 服务商 |
|---|---|
| 国内提供商 | 智谱清言、阿里云百炼、月之暗面 Kimi、小米 MiMo、火山方舟 |
| 国外 API | Anthropic Claude、OpenAI |
| 聚合器 | OpenRouter |
国内服务商优势:无需海外网络,响应更快,中文提示词质量更高
第二步:选择模型
每个服务商提供多个模型选项,例如:
- Anthropic Claude:Claude Opus 4.7、Claude Sonnet 4.6、Claude Haiku 4.5、Claude 3.5 Sonnet 等
- OpenAI:GPT-5.4、GPT-4.1、GPT-4o、GPT-4-turbo 等
- 智谱清言:GLM-5V-Turbo、GLM-4.6V
- 阿里云百炼:Qwen3.5-Flash、Qwen3.6-Plus、Qwen3.5-Omni 等
- Kimi:Kimi-K2.6、Kimi-K2.5
- 火山方舟:Doubao-Seed-2.0-Pro、MiniMax-Latest、Kimi-K2.6
所有列出的模型均支持 Vision(图片理解)功能。
第三步:输入 API Key
根据所选服务商,获取 API Key:
| 服务商 | 获取地址 |
|---|---|
| Anthropic Claude | console.anthropic.com/settings/keys |
| OpenAI | platform.openai.com/api-keys |
| 智谱清言 | open.bigmodel.cn |
| 阿里云百炼 | bailian.console.aliyun.com/#/api-key |
| Kimi | platform.moonshot.cn/console/api-keys |
| 小米 MiMo | platform.xiaomimimo.com/#/console/api-keys |
| 火山方舟 | console.volcengine.com/ark/apikey |
| OpenRouter | openrouter.ai/keys |
点击「保存配置」即可启用。
自定义配置
如果您使用的 API 服务不在预设列表中,可通过「自定义配置」添加:
| 配置项 | 说明 |
|---|---|
| 配置名称 | 自定义名称,便于识别(如「我的硅基流动」) |
| API 格式 | Anthropic 格式 或 OpenAI 格式 |
| API 地址 | 完整 API URL,必须使用 HTTPS |
| 模型名称 | API 支持的模型标识(如 gpt-4o、qwen-vl-max) |
| API 密钥 | 您的 API Key |
兼容说明:大部分国内服务商(硅基流动、零一万物等)采用 OpenAI Chat Completions 格式,可直接使用自定义配置接入。
配置管理
切换配置
保存多个配置后,点击配置卡片上的「使用」按钮切换当前活跃配置。活跃配置用于所有图片转提示词请求。
编辑配置
点击「编辑」可更新 API Key(其他字段不可修改,如需更改请删除后重新添加)。
删除配置
点击「删除」移除配置。删除前请确认该配置不再需要。
使用方法
- 触发转换:在任意网页上,鼠标悬停在图片上,会出现「转提示词」按钮
- 上传图片:点击按钮,图片会压缩后发送给 Vision API
- 获取结果:AI 分析图片后生成双语提示词
- 保存/使用:可保存到临时库,或直接复制使用
输出结构
Vision API 返回结构化数据:
中文提示词:主体 + 动作姿态 + 细节外观 + 环境背景 + 光影氛围 + 风格镜头 + 色彩 + 材质 + 宽高比
英文提示词:同上结构,英文版本
风格标签:4-6 个关键词标签
结构化 JSON:可用于程序化处理的详细字段
注意事项
- API Key 安全:所有配置仅存储在浏览器本地(chrome.storage.local),不上传云端,即使登录账号也不会同步
- HTTPS 要求:API 地址必须使用 HTTPS,不支持 HTTP
- 域名权限:首次使用新 API 地址时,浏览器会请求域名访问权限
- 费用说明:Vision API 调用由您配置的服务商收费,本插件不收取任何费用
- 网络要求:国外服务商(Anthropic、OpenAI)需要稳定的海外网络连接
不支持的格式
以下 API 格式因技术限制暂不支持:
| 格式 | 服务商 | 原因 |
|---|---|---|
| Gemini Native | Google Gemini | 需单独实现 SDK |
| GitHub Copilot | GitHub | 需 OAuth 认证流程 |
如需使用 Google Gemini,可通过 OpenRouter 聚合器间接调用。
功能开关
可在 Vision API 设置页面关闭「转提示词功能」。关闭后:
- 图片悬停按钮不再显示
- API 配置界面隐藏
- 已保存的配置不会丢失,重新开启后可直接使用