UI-TARS Desktop:字节跳动开源多模态AI智能体如何自动化你的桌面与浏览器工作流

UI-TARS Desktop 是什么? UI-TARS Desktop 是字节跳动创建的开源多模态AI智能体栈,它将最先进的视觉语言模型与桌面和浏览器自动化基础设施相连接。该项目在同一个仓库中提供两个互补的产品: Agent TARS — 通用多模态AI智能体,可通过CLI和Web UI访问,适用于终端、计算机、浏览器和产品集成。 UI-TARS Desktop — 桌面端AI助手应用,将UI-TARS模型与自动化引擎相结合,实现跨应用工作流。 截至2026年5月,该项目在GitHub上已获得 31,400+ Stars,成为AI智能体领域增长最快的开源项目之一。它基于 UI-TARS 1.5 系列模型构建,支持多种配置模式,从云端API到本地运行均可灵活部署。 核心功能与架构 多模态视觉语言模型 UI-TARS的核心是字节跳动开发的 UI-TARS 1.5 视觉语言模型,该模型在GUI理解方面达到了业界领先水平。模型通过以下方式实现屏幕理解: 屏幕截图解析:实时捕获桌面或浏览器画面,识别UI元素的位置、类型和功能 元素定位预测:输出精确的坐标和动作指令(点击、输入、滚动等) 跨平台适配:支持Windows、macOS和Linux系统的桌面环境 浏览器原生集成:内置Chromium浏览器,可直接操作网页元素 Agent TARS 智能体框架 Agent TARS 提供了完整的智能体执行环境,包括: 功能模块 说明 终端执行 在本地shell中运行命令,支持多步骤脚本 计算机控制 控制鼠标、键盘,截取屏幕,操作文件系统 浏览器自动化 导航网页、填写表单、提取数据、执行JavaScript 产品集成 通过MCP协议连接第三方工具和服务 多轮对话 支持上下文记忆和任务分解 MCP 工具集成 通过 Model Context Protocol (MCP),UI-TARS Desktop 可以连接丰富的外部工具生态: 文件系统操作:读写本地文件、遍历目录 数据库查询:连接SQLite、PostgreSQL等数据库 API调用:与RESTful API、GraphQL端点交互 代码执行:运行Python、JavaScript等脚本 版本控制:Git操作、代码审查 安装与配置教程 环境要求 操作系统:Windows 10+ / macOS 12+ / Ubuntu 20.04+ Node.js:18.x 或更高版本 内存:建议 8GB+ RAM 模型:OpenAI API Key 或本地Ollama部署 快速安装 # 克隆仓库 git clone https://github.com/bytedance/UI-TARS-desktop.git cd UI-TARS-desktop # 安装依赖 npm install # 配置环境变量 cp .env.example .env # 编辑 .env 文件,填入你的 OpenAI API Key # 启动桌面应用 npm run dev:desktop 配置模型提供商 UI-TARS Desktop 支持多种模型后端: ...

2026年5月8日 · dibi8 Tech Team