UI-TARS Desktop 是什么?
UI-TARS Desktop 是字节跳动创建的开源多模态AI智能体栈,它将最先进的视觉语言模型与桌面和浏览器自动化基础设施相连接。该项目在同一个仓库中提供两个互补的产品:
- Agent TARS — 通用多模态AI智能体,可通过CLI和Web UI访问,适用于终端、计算机、浏览器和产品集成。
- UI-TARS Desktop — 桌面端AI助手应用,将UI-TARS模型与自动化引擎相结合,实现跨应用工作流。
截至2026年5月,该项目在GitHub上已获得 31,400+ Stars,成为AI智能体领域增长最快的开源项目之一。它基于 UI-TARS 1.5 系列模型构建,支持多种配置模式,从云端API到本地运行均可灵活部署。
核心功能与架构
多模态视觉语言模型
UI-TARS的核心是字节跳动开发的 UI-TARS 1.5 视觉语言模型,该模型在GUI理解方面达到了业界领先水平。模型通过以下方式实现屏幕理解:
- 屏幕截图解析:实时捕获桌面或浏览器画面,识别UI元素的位置、类型和功能
- 元素定位预测:输出精确的坐标和动作指令(点击、输入、滚动等)
- 跨平台适配:支持Windows、macOS和Linux系统的桌面环境
- 浏览器原生集成:内置Chromium浏览器,可直接操作网页元素
Agent TARS 智能体框架
Agent TARS 提供了完整的智能体执行环境,包括:
| 功能模块 | 说明 |
|---|---|
| 终端执行 | 在本地shell中运行命令,支持多步骤脚本 |
| 计算机控制 | 控制鼠标、键盘,截取屏幕,操作文件系统 |
| 浏览器自动化 | 导航网页、填写表单、提取数据、执行JavaScript |
| 产品集成 | 通过MCP协议连接第三方工具和服务 |
| 多轮对话 | 支持上下文记忆和任务分解 |
MCP 工具集成
通过 Model Context Protocol (MCP),UI-TARS Desktop 可以连接丰富的外部工具生态:
- 文件系统操作:读写本地文件、遍历目录
- 数据库查询:连接SQLite、PostgreSQL等数据库
- API调用:与RESTful API、GraphQL端点交互
- 代码执行:运行Python、JavaScript等脚本
- 版本控制:Git操作、代码审查
安装与配置教程
环境要求
- 操作系统:Windows 10+ / macOS 12+ / Ubuntu 20.04+
- Node.js:18.x 或更高版本
- 内存:建议 8GB+ RAM
- 模型:OpenAI API Key 或本地Ollama部署
快速安装
# 克隆仓库
git clone https://github.com/bytedance/UI-TARS-desktop.git
cd UI-TARS-desktop
# 安装依赖
npm install
# 配置环境变量
cp .env.example .env
# 编辑 .env 文件,填入你的 OpenAI API Key
# 启动桌面应用
npm run dev:desktop
配置模型提供商
UI-TARS Desktop 支持多种模型后端:
# OpenAI (默认)
OPENAI_API_KEY=sk-your-key-here
OPENAI_MODEL=gpt-4o
# 本地 Ollama 部署
OLLAMA_BASE_URL=http://localhost:11434
OLLAMA_MODEL=ui-tars-1.5
# 字节跳动火山引擎
VOLCENGINE_API_KEY=your-key
VOLCENGINE_MODEL=ui-tars-1.5
Agent TARS CLI 安装
# 全局安装 Agent TARS CLI
npm install -g @agent-tars/cli
# 初始化配置
agent-tars init
# 启动交互式会话
agent-tars chat
实际应用场景
场景一:自动化数据录入
假设你需要将Excel表格中的客户信息批量录入到CRM系统:
// 使用 UI-TARS Desktop 录制并执行工作流
const workflow = {
steps: [
{ action: 'open_app', target: 'excel.exe' },
{ action: 'read_cell', range: 'A2:D100' },
{ action: 'open_browser', url: 'https://crm.company.com' },
{ action: 'loop', data: '${excel_data}', steps: [
{ action: 'click', target: '新建客户按钮' },
{ action: 'fill_form', fields: '${row}' },
{ action: 'click', target: '保存按钮' }
]}
]
};
场景二:智能客服助手
UI-TARS Desktop 可以作为客服人员的智能助手,自动处理常见查询:
- 监听客服系统的新消息通知
- 理解客户问题并查询知识库
- 自动回复常见问题
- 复杂问题转人工时提供建议回复
场景三:自动化测试
# 使用 UI-TARS 进行端到端UI测试
from ui_tars import DesktopAgent
agent = DesktopAgent(model='ui-tars-1.5')
# 测试用户注册流程
agent.execute("""
1. 打开浏览器访问 https://app.example.com
2. 点击右上角的"注册"按钮
3. 填写邮箱: [email protected]
4. 设置密码: TestPass123!
5. 勾选同意服务条款
6. 点击"创建账户"
7. 验证是否跳转到欢迎页面
""")
场景四:跨应用数据同步
将Notion中的项目任务同步到Jira,并发送Slack通知:
workflow:
trigger: cron("0 9 * * 1-5") # 工作日早上9点
steps:
- name: 读取Notion任务
tool: notion
action: query_database
filter: { status: "待处理" }
- name: 创建Jira工单
tool: jira
action: create_issues
data: "${notion_tasks}"
- name: 发送通知
tool: slack
action: post_message
channel: "#项目更新"
text: "已同步 ${count} 个任务到Jira"
与竞品对比
| 特性 | UI-TARS Desktop | Microsoft Copilot | Anthropic Computer Use | OpenAI Operator |
|---|---|---|---|---|
| 开源 | ✅ 完全开源 | ❌ 闭源 | ⚠️ 部分开源 | ❌ 闭源 |
| 本地部署 | ✅ 支持 | ❌ 云端 | ✅ 支持 | ❌ 云端 |
| 多模态 | ✅ 视觉+语言 | ✅ 视觉+语言 | ✅ 视觉+语言 | ✅ 视觉+语言 |
| 浏览器控制 | ✅ 内置 | ✅ 集成Edge | ✅ 支持 | ✅ 支持 |
| 桌面应用控制 | ✅ 全面支持 | ⚠️ 有限 | ⚠️ 有限 | ⚠️ 有限 |
| MCP工具生态 | ✅ 丰富 | ⚠️ 有限 | ⚠️ 有限 | ⚠️ 有限 |
| 中文支持 | ✅ 原生优化 | ⚠️ 一般 | ⚠️ 一般 | ⚠️ 一般 |
| 价格 | 免费 | 订阅制 | API计费 | 订阅制 |
UI-TARS Desktop 的核心优势在于:
- 完全开源:代码透明,可自由定制和审计
- 本地优先:数据不出本地,隐私安全有保障
- 中文优化:针对中文UI和场景特别训练
- MCP生态:通过标准化协议连接无限工具
- 双模式架构:桌面应用 + CLI智能体灵活选择
性能与基准测试
UI-TARS 1.5 模型在多个GUI理解基准测试中表现优异:
- ScreenSpot Pro: 准确率 89.2%(业界平均 72%)
- Mind2Web: 任务完成率 78.5%
- WebArena: 端到端任务成功率 65.3%
- OSWorld: 桌面操作准确率 71.8%
模型支持多种尺寸:
- UI-TARS 1.5-7B:适合边缘设备,响应快速
- UI-TARS 1.5-72B:最强性能,复杂任务首选
社区与生态
UI-TARS Desktop 拥有活跃的开发者社区:
- GitHub Stars: 31,400+ ⭐
- 贡献者: 120+ 开发者
- MCP工具: 50+ 官方和第三方集成
- 文档: 完整的中文和英文文档
- Discord: 活跃的实时交流社区
总结
UI-TARS Desktop 代表了AI智能体从云端走向本地、从单一走向多模态的重要演进。对于开发者和企业用户而言,它提供了一个既强大又可控的自动化解决方案:
- 开发者可以利用MCP协议快速扩展功能
- 测试工程师可以构建稳定的自动化测试流程
- 运营团队可以自动化重复性的数据处理任务
- 个人用户可以拥有一个真正理解屏幕内容的AI助手
随着字节跳动持续投入和社区的快速壮大,UI-TARS Desktop 有望成为AI自动化领域的事实标准之一。
相关文章推荐:
参考链接: