小众AI

Agent-S
Agent-S - 操作计算机的智能代理框架
让 AI 像人一样操作电脑(如 macOS、Windows、Linux、Android),可自动完成复杂的 GUI 操作任务的 AI Agent 框架。它采用“通用体+专家体”组合架构,支持主动分层规划。
  官网   代码仓

让 AI 像人一样操作电脑(如 macOS、Windows、Linux、Android),可自动完成复杂的 GUI 操作任务的 AI Agent 框架。它采用“通用体+专家体”组合架构,支持主动分层规划。通过集成大模型(LLM)和视觉多模态模型,能够理解屏幕截图、界面结构等输入,并生成操作指令,实现自动点击、输入、窗口切换、搜索等操作。

主要功能

  • 图形界面操作:模拟鼠标和键盘,与电脑软件互动。
  • 任务分解与规划:将复杂任务拆成小步骤,自动执行。
  • 经验学习:从历史任务中学习,提高效率。
  • 跨平台支持:可在 macOS、Windows 和 Linux 上运行。
  • 多模态输入:结合屏幕图像和界面元素,精准操作。
  • 开源定制:提供源代码和文档,开发者可自由调整。
  • 知识库更新:运行时持续更新经验数据,提升智能性。

安装和使用

  1. 准备环境

    • 安装 Python 3.9 到 3.12。
    • 安装 Git,用于下载代码。
    • 可选:准备虚拟机(如 VMware),用于测试或隔离环境。
  2. 下载代码

    • 打开终端,运行:

      git clone https://github.com/simular-ai/Agent-S.git
      
    • 进入项目目录:

      cd Agent-S
      
  3. 安装依赖

    • 创建虚拟环境(推荐):

      python -m venv venv
      source venv/bin/activate  # macOS/Linux
      venv\Scripts\activate     # Windows
      
    • 安装核心库:

      pip install gui-agents
      
    • 设置环境变量(如 API 密钥):

      export OPENAI_API_KEY=<你的密钥>
      export ANTHROPIC_API_KEY=<你的密钥>
      export HF_TOKEN=<你的Hugging Face密钥>
      
  4. 启动 Agent S

    • 运行 Agent S1 或 S2:

      agent_s1  # 运行 Agent S1
      agent_s2  # 运行 Agent S2
      
    • 启动后,输入任务即可开始使用。

实战演习

场景1: 图形界面操作

  • 功能说明:通过屏幕截图和界面识别,模拟人类操作。

  • 操作步骤:

    1. 运行 agent_s2
    2. 输入任务:“打开记事本并输入‘你好’。”
    3. Agent S2 找到记事本图标,点击打开,然后输入文字。
    4. 按 Ctrl+C 可随时停止。

场景2: 任务分解与规划

  • 功能说明:将复杂任务拆解为小步骤,逐步完成。

  • 操作步骤:

    1. 输入:“发送一封邮件给朋友。”
    2. Agent S2 自动执行:打开邮件软件、新建邮件、填写内容、点击发送。
    3. 用户可在终端查看每步日志。

场景3: 经验学习

  • 功能说明:记录任务过程,优化后续操作。

  • 操作步骤:

    1. 完成任务后,经验保存在 gui_agents/kb 文件夹。
    2. 再次运行相似任务,效率会提升。
    3. 开发者可检查知识库文件,了解学习内容。

场景4: 跨平台支持

  • 功能说明:支持三大主流操作系统。

  • 操作步骤:

    1. Windows 需要安装 pywin32pywinauto
    2. macOS 需要 pyobjc,用 pip install pyobjc 安装。
    3. Linux 检查 pyautogui 兼容性,可能需调整权限。

场景5: 多模态输入

  • 功能说明:结合图像和界面数据,提高操作准确性。

  • 操作步骤:

    1. 输入:“在浏览器中搜索‘天气’。”
    2. Agent S2 分析屏幕,找到浏览器窗口,输入搜索词。
    3. 结果自动显示。

场景6: 知识库下载

  • 功能说明:Agent S2 使用预训练知识库,支持离线运行。

  • 操作步骤:

    1. 首次启动时,自动从 GitHub Releases 下载知识库。

    2. 手动下载示例: 复制复制复制复制复制复制复制复制

      download_kb_data(version="s2", release_tag="v0.2.2", download_dir="kb_data", platform="linux")
      
    3. 知识库路径在 kb_data 文件夹。

场景7: 集成 Perplexica 搜索

  • 功能说明:增强 Agent S 的网页知识检索能力。

  • 操作步骤:

    1. 安装 Docker Desktop 并启动。

    2. 下载 Perplexica:

      cd Perplexica
      git submodule update --init
      
    3. 重命名 sample.config.tomlconfig.toml,填写 API 密钥。

    4. 启动服务:

      docker compose up -d
      
    5. 设置 Perplexica URL:

      export PERPLEXICA_URL=http://localhost:端口/api/search
      

场景8: 自定义模型

  • 功能说明:支持多种大模型和自定义端点。

  • 操作步骤:

    1. 使用 Claude 模型:

      agent_s2 --model claude-3-7-sonnet-20250219
      
    2. 使用 Hugging Face 端点:

      agent_s2 --endpoint_provider "huggingface" --endpoint_url "<端点URL>/v1/"
      

更多...


wdoc
一个功能强大的 RAG(检索增强生成)系统,旨在汇总、搜索和查询各种文件类型的文档。
ai-financial-agent
探索人工智能在投资研究中的应用。
Meetily
一个 AI 驱动的会议助手,可捕获实时会议音频、实时转录并生成摘要,同时确保用户隐私。