UI-TARS Desktop 是什么?

UI-TARS Desktop 是字节跳动创建的开源多模态AI智能体栈,它将最先进的视觉语言模型与桌面和浏览器自动化基础设施相连接。该项目在同一个仓库中提供两个互补的产品:

  1. Agent TARS — 通用多模态AI智能体,可通过CLI和Web UI访问,适用于终端、计算机、浏览器和产品集成。
  2. UI-TARS Desktop — 桌面端AI助手应用,将UI-TARS模型与自动化引擎相结合,实现跨应用工作流。

截至2026年5月,该项目在GitHub上已获得 31,400+ Stars,成为AI智能体领域增长最快的开源项目之一。它基于 UI-TARS 1.5 系列模型构建,支持多种配置模式,从云端API到本地运行均可灵活部署。

核心功能与架构

多模态视觉语言模型

UI-TARS的核心是字节跳动开发的 UI-TARS 1.5 视觉语言模型,该模型在GUI理解方面达到了业界领先水平。模型通过以下方式实现屏幕理解:

  • 屏幕截图解析:实时捕获桌面或浏览器画面,识别UI元素的位置、类型和功能
  • 元素定位预测:输出精确的坐标和动作指令(点击、输入、滚动等)
  • 跨平台适配:支持Windows、macOS和Linux系统的桌面环境
  • 浏览器原生集成:内置Chromium浏览器,可直接操作网页元素

Agent TARS 智能体框架

Agent TARS 提供了完整的智能体执行环境,包括:

功能模块说明
终端执行在本地shell中运行命令,支持多步骤脚本
计算机控制控制鼠标、键盘,截取屏幕,操作文件系统
浏览器自动化导航网页、填写表单、提取数据、执行JavaScript
产品集成通过MCP协议连接第三方工具和服务
多轮对话支持上下文记忆和任务分解

MCP 工具集成

通过 Model Context Protocol (MCP),UI-TARS Desktop 可以连接丰富的外部工具生态:

  • 文件系统操作:读写本地文件、遍历目录
  • 数据库查询:连接SQLite、PostgreSQL等数据库
  • API调用:与RESTful API、GraphQL端点交互
  • 代码执行:运行Python、JavaScript等脚本
  • 版本控制:Git操作、代码审查

安装与配置教程

环境要求

  • 操作系统:Windows 10+ / macOS 12+ / Ubuntu 20.04+
  • Node.js:18.x 或更高版本
  • 内存:建议 8GB+ RAM
  • 模型:OpenAI API Key 或本地Ollama部署

快速安装

# 克隆仓库
git clone https://github.com/bytedance/UI-TARS-desktop.git
cd UI-TARS-desktop

# 安装依赖
npm install

# 配置环境变量
cp .env.example .env
# 编辑 .env 文件,填入你的 OpenAI API Key

# 启动桌面应用
npm run dev:desktop

配置模型提供商

UI-TARS Desktop 支持多种模型后端:

# OpenAI (默认)
OPENAI_API_KEY=sk-your-key-here
OPENAI_MODEL=gpt-4o

# 本地 Ollama 部署
OLLAMA_BASE_URL=http://localhost:11434
OLLAMA_MODEL=ui-tars-1.5

# 字节跳动火山引擎
VOLCENGINE_API_KEY=your-key
VOLCENGINE_MODEL=ui-tars-1.5

Agent TARS CLI 安装

# 全局安装 Agent TARS CLI
npm install -g @agent-tars/cli

# 初始化配置
agent-tars init

# 启动交互式会话
agent-tars chat

实际应用场景

场景一:自动化数据录入

假设你需要将Excel表格中的客户信息批量录入到CRM系统:

// 使用 UI-TARS Desktop 录制并执行工作流
const workflow = {
  steps: [
    { action: 'open_app', target: 'excel.exe' },
    { action: 'read_cell', range: 'A2:D100' },
    { action: 'open_browser', url: 'https://crm.company.com' },
    { action: 'loop', data: '${excel_data}', steps: [
      { action: 'click', target: '新建客户按钮' },
      { action: 'fill_form', fields: '${row}' },
      { action: 'click', target: '保存按钮' }
    ]}
  ]
};

场景二:智能客服助手

UI-TARS Desktop 可以作为客服人员的智能助手,自动处理常见查询:

  1. 监听客服系统的新消息通知
  2. 理解客户问题并查询知识库
  3. 自动回复常见问题
  4. 复杂问题转人工时提供建议回复

场景三:自动化测试

# 使用 UI-TARS 进行端到端UI测试
from ui_tars import DesktopAgent

agent = DesktopAgent(model='ui-tars-1.5')

# 测试用户注册流程
agent.execute("""
1. 打开浏览器访问 https://app.example.com
2. 点击右上角的"注册"按钮
3. 填写邮箱: [email protected]
4. 设置密码: TestPass123!
5. 勾选同意服务条款
6. 点击"创建账户"
7. 验证是否跳转到欢迎页面
""")

场景四:跨应用数据同步

将Notion中的项目任务同步到Jira,并发送Slack通知:

workflow:
  trigger: cron("0 9 * * 1-5")  # 工作日早上9点
  steps:
    - name: 读取Notion任务
      tool: notion
      action: query_database
      filter: { status: "待处理" }
    
    - name: 创建Jira工单
      tool: jira
      action: create_issues
      data: "${notion_tasks}"
    
    - name: 发送通知
      tool: slack
      action: post_message
      channel: "#项目更新"
      text: "已同步 ${count} 个任务到Jira"

与竞品对比

特性UI-TARS DesktopMicrosoft CopilotAnthropic Computer UseOpenAI Operator
开源✅ 完全开源❌ 闭源⚠️ 部分开源❌ 闭源
本地部署✅ 支持❌ 云端✅ 支持❌ 云端
多模态✅ 视觉+语言✅ 视觉+语言✅ 视觉+语言✅ 视觉+语言
浏览器控制✅ 内置✅ 集成Edge✅ 支持✅ 支持
桌面应用控制✅ 全面支持⚠️ 有限⚠️ 有限⚠️ 有限
MCP工具生态✅ 丰富⚠️ 有限⚠️ 有限⚠️ 有限
中文支持✅ 原生优化⚠️ 一般⚠️ 一般⚠️ 一般
价格免费订阅制API计费订阅制

UI-TARS Desktop 的核心优势在于:

  1. 完全开源:代码透明,可自由定制和审计
  2. 本地优先:数据不出本地,隐私安全有保障
  3. 中文优化:针对中文UI和场景特别训练
  4. MCP生态:通过标准化协议连接无限工具
  5. 双模式架构:桌面应用 + CLI智能体灵活选择

性能与基准测试

UI-TARS 1.5 模型在多个GUI理解基准测试中表现优异:

  • ScreenSpot Pro: 准确率 89.2%(业界平均 72%)
  • Mind2Web: 任务完成率 78.5%
  • WebArena: 端到端任务成功率 65.3%
  • OSWorld: 桌面操作准确率 71.8%

模型支持多种尺寸:

  • UI-TARS 1.5-7B:适合边缘设备,响应快速
  • UI-TARS 1.5-72B:最强性能,复杂任务首选

社区与生态

UI-TARS Desktop 拥有活跃的开发者社区:

  • GitHub Stars: 31,400+ ⭐
  • 贡献者: 120+ 开发者
  • MCP工具: 50+ 官方和第三方集成
  • 文档: 完整的中文和英文文档
  • Discord: 活跃的实时交流社区

总结

UI-TARS Desktop 代表了AI智能体从云端走向本地、从单一走向多模态的重要演进。对于开发者和企业用户而言,它提供了一个既强大又可控的自动化解决方案:

  • 开发者可以利用MCP协议快速扩展功能
  • 测试工程师可以构建稳定的自动化测试流程
  • 运营团队可以自动化重复性的数据处理任务
  • 个人用户可以拥有一个真正理解屏幕内容的AI助手

随着字节跳动持续投入和社区的快速壮大,UI-TARS Desktop 有望成为AI自动化领域的事实标准之一。


相关文章推荐:

参考链接: