Vision API 配置

功能简介

Vision API(图片转提示词)功能允许您将任意图片转换为可用于 AI 绘画的提示词。鼠标悬停在图片上时会显示转换按钮,点击后 AI 会分析图片内容,生成结构化的双语提示词。

核心特性

  • 多服务商支持:预设国内外主流 AI 服务商,一键配置
  • 多配置管理:可保存多个 API 配置,随时切换
  • 自定义端点:支持接入任意兼容 OpenAI/Anthropic 格式的 API
  • 双语输出:同时生成中文和英文提示词,适配不同平台
  • 本地存储:所有配置仅存储在本地,不上传云端

配置位置

打开插件侧边栏 → 点击底部「设置」图标 → 进入「Vision API」部分

快速配置

第一步:选择服务商

服务商按类型分组:

分组 服务商
国内提供商 智谱清言、阿里云百炼、月之暗面 Kimi、小米 MiMo、火山方舟
国外 API Anthropic Claude、OpenAI
聚合器 OpenRouter

国内服务商优势:无需海外网络,响应更快,中文提示词质量更高

第二步:选择模型

每个服务商提供多个模型选项,例如:

  • Anthropic Claude:Claude Opus 4.7、Claude Sonnet 4.6、Claude Haiku 4.5、Claude 3.5 Sonnet 等
  • OpenAI:GPT-5.4、GPT-4.1、GPT-4o、GPT-4-turbo 等
  • 智谱清言:GLM-5V-Turbo、GLM-4.6V
  • 阿里云百炼:Qwen3.5-Flash、Qwen3.6-Plus、Qwen3.5-Omni 等
  • Kimi:Kimi-K2.6、Kimi-K2.5
  • 火山方舟:Doubao-Seed-2.0-Pro、MiniMax-Latest、Kimi-K2.6

所有列出的模型均支持 Vision(图片理解)功能。

第三步:输入 API Key

根据所选服务商,获取 API Key:

服务商 获取地址
Anthropic Claude console.anthropic.com/settings/keys
OpenAI platform.openai.com/api-keys
智谱清言 open.bigmodel.cn
阿里云百炼 bailian.console.aliyun.com/#/api-key
Kimi platform.moonshot.cn/console/api-keys
小米 MiMo platform.xiaomimimo.com/#/console/api-keys
火山方舟 console.volcengine.com/ark/apikey
OpenRouter openrouter.ai/keys

点击「保存配置」即可启用。

自定义配置

如果您使用的 API 服务不在预设列表中,可通过「自定义配置」添加:

配置项 说明
配置名称 自定义名称,便于识别(如「我的硅基流动」)
API 格式 Anthropic 格式 或 OpenAI 格式
API 地址 完整 API URL,必须使用 HTTPS
模型名称 API 支持的模型标识(如 gpt-4oqwen-vl-max
API 密钥 您的 API Key

兼容说明:大部分国内服务商(硅基流动、零一万物等)采用 OpenAI Chat Completions 格式,可直接使用自定义配置接入。

配置管理

切换配置

保存多个配置后,点击配置卡片上的「使用」按钮切换当前活跃配置。活跃配置用于所有图片转提示词请求。

编辑配置

点击「编辑」可更新 API Key(其他字段不可修改,如需更改请删除后重新添加)。

删除配置

点击「删除」移除配置。删除前请确认该配置不再需要。

使用方法

  1. 触发转换:在任意网页上,鼠标悬停在图片上,会出现「转提示词」按钮
  2. 上传图片:点击按钮,图片会压缩后发送给 Vision API
  3. 获取结果:AI 分析图片后生成双语提示词
  4. 保存/使用:可保存到临时库,或直接复制使用

输出结构

Vision API 返回结构化数据:

中文提示词:主体 + 动作姿态 + 细节外观 + 环境背景 + 光影氛围 + 风格镜头 + 色彩 + 材质 + 宽高比
英文提示词:同上结构,英文版本
风格标签:4-6 个关键词标签
结构化 JSON:可用于程序化处理的详细字段

注意事项

  • API Key 安全:所有配置仅存储在浏览器本地(chrome.storage.local),不上传云端,即使登录账号也不会同步
  • HTTPS 要求:API 地址必须使用 HTTPS,不支持 HTTP
  • 域名权限:首次使用新 API 地址时,浏览器会请求域名访问权限
  • 费用说明:Vision API 调用由您配置的服务商收费,本插件不收取任何费用
  • 网络要求:国外服务商(Anthropic、OpenAI)需要稳定的海外网络连接

不支持的格式

以下 API 格式因技术限制暂不支持:

格式 服务商 原因
Gemini Native Google Gemini 需单独实现 SDK
GitHub Copilot GitHub 需 OAuth 认证流程

如需使用 Google Gemini,可通过 OpenRouter 聚合器间接调用。

功能开关

可在 Vision API 设置页面关闭「转提示词功能」。关闭后:

  • 图片悬停按钮不再显示
  • API 配置界面隐藏
  • 已保存的配置不会丢失,重新开启后可直接使用