自动化工具比较
底层工具对比
| 特性 | Selenium | Puppeteer | Playwright | Scrapy |
|---|---|---|---|---|
| 核心定位 | 老牌 浏览器自动化 | Node.js 浏览器控制 | 现代全能 浏览器自动化 | 纯 Python 异步爬虫框架 |
| 底层技术 | WebDriver (HTTP协议) | DevTools Protocol (CDP) | WebSocket (CDP) | Twisted (异步网络库) |
| 主要语言 | Java, Python, C# 等 | Node.js (Python库为非官方) | TS/JS, Python, Java, C# | Python |
| 抗检测能力 | 弱 (特征极其明显) | 中 (需配合Stealth插件) | 中上 (需配合Stealth插件) | 弱 (仅HTTP请求,易被封) |
| 运行速度 | 慢 (通信开销大) | 快 | 快 | 极快 (纯请求,无渲染) |
| AI 亲和力 | 低 | 低 | 中 | 低 |
| 上手难度 | 中 (配置繁琐) | 中 (JS异步概念) | 中 (概念较多) | 高 (框架重,学习曲线陡) |
| 市占率/热度 | 👑 极高 (企业存量大) | ⭐️ 高 (前端/Node圈) | ⭐️ 极高 (新项目首选) | 👑 高 (数据采集首选) |
中层工具对比
| 特性 | Browser-Use | DrissionPage | Crawl4AI |
|---|---|---|---|
| 核心定位 | AI Agent 浏览器接口 | 轻量级 混合自动化 | LLM 友好型 爬虫框架 |
| 底层技术 | 基于 Playwright + LangChain | 封装 Chromium + Requests | 基于 Playwright/Puppeteer |
| 主要语言 | Python | Python | Python |
| 抗检测能力 | 弱 (依赖底层Playwright) | 强 (原生去特征,非WebDriver) | 中 (依赖底层配置) |
| 运行速度 | 慢 (需等待AI思考+网络) | 极快 (收发包模式) / 中 (浏览器) | 快 (异步+精简输出) |
| AI 亲和力 | 极高 (专为LLM设计) | 低 (传统API) | 高 (输出Markdown/JSON) |
| 上手难度 | 低 (自然语言控制) | 极低 (API非常人性化) | 低 (配置简单) |
| 市占率/热度 | 🔥 爆红 (AI圈新宠) | 🔺 快速上升 (中文圈) | 🔺 快速上升 (RAG圈) |
RPA
- 高集成度,多平台支持。
- 通常具备中控台
| 维度 | 影刀 RPA (ShadowBot) | UiPath | Automation Anywhere | Blue Prism |
|---|---|---|---|---|
| 流程文件格式 | 私有二进制/加密包 (不可直接编辑) | .xaml (XML) (明文但冗长) | 云端数据库/JSON (黑盒) | .xml (主要用于归档) |
| LLM 文件读写能力 | 3 流程文件极难,代码段可 | 4 流程文件困难,代码段可 | 1 无法接触底层代码。 | 1 结构复杂,难以生成。 |
| 国内电商适配 | 最好 内置淘宝/抖音/京东专用指令库,抗干扰能力强。 | 较差 需把电商后台当普通网页抓取,维护成本高。 | 较差 同左 | 最差 主要面向金融内网,极少用于电商。 |
| 捕获能力 | 针对性优化 擅长抓取 WPS、钉钉等国内软件。 | 通用性强 擅长Salesforce、Office等国际软件。 | Web 优先 擅长标准网页,客户端抓取稍弱。 | 底层强 擅长古老的 Java/Mainframe 程序。 |
| 开发语言扩展 | Python (生态结合最好) | VB.NET / C# | Python (仅脚本调用) | C# / VB.NET |
| 主要客群 | 中国电商、中小企业、个人 | 跨国集团、大型外企 | 需快速上云的企业 | 银行、保险核心系统 |
| 手机控制 | 强 ADB | 强 Appium | 中 Appium | 弱 依赖VNC和网关 |