跳过导航至主内容
Skip to article

研究笔记 · Research Note

macOS 桌面应用自动化

Zhenyu He · Jobs Stroustrup 阅读约 1 分钟

macOS 桌面应用自动化 (macOS Native App Automation)

熟练度

熟练

描述

  • 两层架构:AppleScript(把 app 唤前、切窗口)+ computer-use MCP(视觉截图 + 点击 + 键盘输入)配合使用,绕开无官方 API 的桌面应用
  • 视觉驱动的 UI 操作:基于截图定位 UI 元素(如 WeChat 的 Discover 图标、每条朋友圈的 .. 按钮)、使用显式等待、批量动作合并(computer_batch)优化速度
  • Claude Code Skill 封装:把多步骤 agent 工作流打包成标准 skill(SKILL.md + 辅助数据文件),可复用、可迭代
  • Agent 行为工程:human-in-the-loop review、数据飞轮(自增长 few-shot 语料库)、多级行为规则(blocklist / frequency cap / per-target persona)、结构化长期记忆
  • Python-网页自动化 的 Selenium 脚本形成互补:前者攻浏览器 DOM,后者攻原生 macOS 应用

在哪些经历中用到

  • 个人项目 / 日常效率工具:private personal automation project — social-feed interaction + archival workflow
  • AI工具与效率提升 — 把桌面重复任务交给 AI agent 的路径