Agent-S

让 AI 像人一样操作电脑（如 macOS、Windows、Linux、Android），可自动完成复杂的 GUI 操作任务的 AI Agent 框架。它采用“通用体+专家体”组合架构，支持主动分层规划。通过集成大模型（LLM）和视觉多模态模型，能够理解屏幕截图、界面结构等输入，并生成操作指令，实现自动点击、输入、窗口切换、搜索等操作。

主要功能

图形界面操作：模拟鼠标和键盘，与电脑软件互动。
任务分解与规划：将复杂任务拆成小步骤，自动执行。
经验学习：从历史任务中学习，提高效率。
跨平台支持：可在 macOS、Windows 和 Linux 上运行。
多模态输入：结合屏幕图像和界面元素，精准操作。
开源定制：提供源代码和文档，开发者可自由调整。
知识库更新：运行时持续更新经验数据，提升智能性。

安装和使用

准备环境
- 安装 Python 3.9 到 3.12。
- 安装 Git，用于下载代码。
- 可选：准备虚拟机（如 VMware），用于测试或隔离环境。

下载代码

打开终端，运行：

git clone https://github.com/simular-ai/Agent-S.git

进入项目目录：
```
cd Agent-S
```

安装依赖

创建虚拟环境（推荐）：

python -m venv venv
source venv/bin/activate  # macOS/Linux
venv\Scripts\activate     # Windows

安装核心库：
```
pip install gui-agents
```

设置环境变量（如 API 密钥）：

export OPENAI_API_KEY=<你的密钥>
export ANTHROPIC_API_KEY=<你的密钥>
export HF_TOKEN=<你的Hugging Face密钥>

启动 Agent S
- 运行 Agent S1 或 S2：
```
agent_s1  # 运行 Agent S1
agent_s2  # 运行 Agent S2
```
- 启动后，输入任务即可开始使用。

实战演习

场景1: 图形界面操作

功能说明：通过屏幕截图和界面识别，模拟人类操作。
操作步骤：
1. 运行 agent_s2。
2. 输入任务：“打开记事本并输入‘你好’。”
3. Agent S2 找到记事本图标，点击打开，然后输入文字。
4. 按 Ctrl+C 可随时停止。

场景2: 任务分解与规划

功能说明：将复杂任务拆解为小步骤，逐步完成。
操作步骤：
1. 输入：“发送一封邮件给朋友。”
2. Agent S2 自动执行：打开邮件软件、新建邮件、填写内容、点击发送。
3. 用户可在终端查看每步日志。

场景3: 经验学习

功能说明：记录任务过程，优化后续操作。
操作步骤：
1. 完成任务后，经验保存在 gui_agents/kb 文件夹。
2. 再次运行相似任务，效率会提升。
3. 开发者可检查知识库文件，了解学习内容。

场景4: 跨平台支持

功能说明：支持三大主流操作系统。
操作步骤：
1. Windows 需要安装 pywin32 和 pywinauto。
2. macOS 需要 pyobjc，用 pip install pyobjc 安装。
3. Linux 检查 pyautogui 兼容性，可能需调整权限。

场景5: 多模态输入

功能说明：结合图像和界面数据，提高操作准确性。
操作步骤：
1. 输入：“在浏览器中搜索‘天气’。”
2. Agent S2 分析屏幕，找到浏览器窗口，输入搜索词。
3. 结果自动显示。

场景6: 知识库下载

功能说明：Agent S2 使用预训练知识库，支持离线运行。
操作步骤：
1. 首次启动时，自动从 GitHub Releases 下载知识库。
2. 手动下载示例： 复制复制复制复制复制复制复制复制
```
download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
```
3. 知识库路径在 kb_data 文件夹。

场景7: 集成 Perplexica 搜索

功能说明：增强 Agent S 的网页知识检索能力。
操作步骤：
1. 安装 Docker Desktop 并启动。
2. 下载 Perplexica：
```
cd Perplexica
git submodule update --init
```
3. 重命名 sample.config.toml 为 config.toml，填写 API 密钥。
4. 启动服务：
```
docker compose up -d
```
5. 设置 Perplexica URL：
```
export PERPLEXICA_URL=http://localhost:端口/api/search
```

场景8: 自定义模型

功能说明：支持多种大模型和自定义端点。

操作步骤：

使用 Claude 模型：

agent_s2 --model claude-3-7-sonnet-20250219

使用 Hugging Face 端点：

agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"

更多...

小众AI