自动操作工具 (图片识别、颜色识别、文字识别OCR、前台、后台点击、浏览器操作)

活在浪里 · [活在浪里] 发表于 2026-1-22 10:41

本帖最后由活在浪里于 2026-1-22 10:43 编辑

AutomationOperation 是一款 Windows 自动化操作软件（主界面：AutomationOperation.exe）。通过“模板/流程”配置，让软件按顺序自动执行鼠标、键盘、识别、浏览器等操作，适合处理重复性工作。

功能概览
自动化模板
鼠标：移动/单击/双击/拖动/滚轮（支持 Ctrl/Shift/Alt + 滚轮、左键按下/弹起、点击次数与点击后延时）；坐标支持固定或变量输入
键盘：文本输入/特殊按键（支持只按下/只释放）；文本可来自变量；前台模式可选“输入前点击”
识别：
图片识别：单图/多图（最多 5 张），支持全屏/指定区域、并行搜索、随机点击点、结果写入布尔变量
颜色识别：单色/多色（最多 10 个），支持区域框选与取色放大镜（显示 HEX/RGB、方向键微调、回车/左键确认）
文字识别：OCR（PaddleOCR），支持全屏/区域；可“识别点击”或“OCR 读取”；结果可复制到剪贴板或存入变量，并可输出布尔结果
等待与延迟：延迟（固定/随机/变量时间，单位毫秒，最小 1ms）；等待条件（程序/文件/窗口/图片/文字/颜色等，支持超时/检查间隔/无限等待；图片等待支持灰度与屏幕变化跳帧优化，支持后台等待）
文件与程序：打开文件/文件夹；启动程序；文件名修改（单文件/批量、通配符与子目录、模板变量）；压缩/解压（zip/7z/rar，可选密码/分卷/删除源文件）
浏览器：浏览器管理（Edge/Chromium/Firefox/WebKit，有头/无头、窗口大小、登录复用）；页面跳转、元素点击、输入/读取、截图；支持智能选择器拾取
屏幕截图：全屏/区域/窗口截图，保存到指定目录；支持文件名模板（如 screenshot_{yyyyMMdd_HHmmss}.png）、覆盖或自动重命名；支持 GDI / DXGI / PrintWindow（PrintWindow 需先绑定窗口）
录制与选点
录制：录制鼠标（含滚轮与修饰键）、键盘输入（自动转换为特殊按键）、截图/图片识别（默认 Shift+Q 或按钮）
坐标模式：
绝对坐标：屏幕坐标
相对坐标：相对当前鼠标位置的偏移
窗口坐标：相对目标窗口客户区坐标（用于后台点击）
工具：适配多屏幕选点；快速截图、拾取颜色、框选区域；截图支持 GDI / DXGI / PrintWindow（适配 DPI 缩放与后台识别），选点/截图时隐藏主界面
运行与控制
执行模式：前台（SendInput）/ 后台（SendMessage）/ 驱动键鼠（罗技 G HUB，需安装驱动并加载 AutomationGHUB.driver.dll）
循环：循环/无限循环、最长执行时间；内循环（开始/结束/跳出）可在两个节点之间重复执行 N 次（N 可固定或来自变量），支持无限循环；可将“当前迭代次数”写入变量，并支持布尔变量条件跳出；
失败与错误处理：识别/等待等步骤可设置失败后处理（停止/继续/跳转序号/进入下一个循环/执行其他配置/等待确认）；可选择“报错后停止/继续”
快捷控制：暂停/继续（默认 F6）、单步执行（默认 F10）、取消执行、强制退出；多套流程可各自配置热键（最多 10 个）
托盘与定时：托盘菜单一键执行/取消、开机自启开关、定时器状态显示；支持多个时间段定时执行并每日重置
配置与界面
配置管理：保存/另存为、新建/清除；配置名可修改；支持从不同文件夹加载；标题显示当前执行配置
操作列表：拖拽排序；Ctrl/Ctrl+Alt + 方向键调整顺序；右键插入；复制粘贴（模板或文本）；Shift/Ctrl 多选；分页显示（每页最多 25）
通知与安全：toast/气泡提示、提醒铃声；同目录单实例运行避免重复打开
后台模式说明
后台模式通过窗口绑定（句柄/标题/进程/类名/窗口组）定位目标窗口；步骤可继承窗口信息，尽量不抢占前台焦点。
后台点击必须使用窗口坐标；可通过选点或录制绑定句柄，执行时优先句柄，失效后回退到标题/进程/类名。
句柄只在当前会话有效，重启后需重新绑定；多窗口建议分别绑定句柄或使用窗口组。
后台识别可选 DXGI/PrintWindow；可在设置中的“后台图片测试”先验证目标窗口是否能被后台识别。
变量系统
变量用于“把数据存起来并在步骤间传递”，让流程更通用：比如坐标/文本/次数可改成变量，识别结果可写入变量用于判断与跳转。

变量类型
类型：字符串 / 数值 / 布尔 / 列表（如一组文件名）
变量在哪里用
鼠标：坐标可选“变量坐标”，用于动态点击/移动/拖动
键盘：输入文本可来自变量（如把 OCR/浏览器读取到的内容再输入）
识别：图片识别/多图识别可把成功/失败写入布尔变量；文字识别可把 OCR 内容存入变量
循环：内循环次数可来自数值变量；内循环可把“当前迭代次数”写入变量；内循环跳出可读取布尔变量作为条件
浏览器：页面跳转，元素输入/输出等可结合变量实现动态 URL、动态表单，爬取内容。
变量读取（把外部数据读进来）
变量读取(文本)：读取 txt等文件内容，支持设置编码、是否去除首尾空白
变量读取(Excel)：读取单元格/范围/工作表/行/列；单元格地址、行号、列标识支持“固定/变量”；输出为文本（换行分行、\\\\t 分列，方便再输出到 Excel）
变量读取(文件名)：读取文件夹内文件名列表，支持过滤器、是否包含子文件夹、是否去除扩展名；输出为列表变量
变量操作（对变量做计算与处理）
变量操作：支持加减乘除、数学表达式、字符串拼接/替换、大小写转换、字符串分割等
数学表达式支持变量引用：${变量名}，例如 ${price}*${count}+10
支持列表变量按索引取值，索引可固定或来自数值变量（适合配合内循环遍历列表）
变量输出（把变量写出去）
变量输出：输出到剪贴板、文本文件（覆盖/追加、编码）、Excel（换行分行、\\\\t 分列；可选工作表/起始单元格/追加模式）
快速开始
运行 AutomationOperation.exe。
选择默认配置或加载自定义配置文件。
通过按钮、热键或托盘菜单执行流程；如需定时，可在设置中添加时间段。
适用场景
需要自动化重复操作的日常工作
需要定时或批量执行的流程
需要在后台稳定执行的自动化任务
操作示例：批量读取文件名 → 网络检索 → 重命名
下面以“视频文件名 = 电影名”为例：自动用电影名搜索演员信息，然后把演员写进文件名。

0) 准备数据
文件尽量命名为“电影名”，例如：盗梦空间.mkv、
如果同一批文件后缀一致，后续操作更简单（例如全是 .mkv）
1) 设置变量参数（把配置做成可复用的“参数”）
添加步骤：设置变量
ext：.mkv（后缀名；如果你的文件是 .mp4 就改成 .mp4）
i：0（数值变量；用于内循环索引）
movieName / actors：可先建空字符串变量（用于存放中间结果）
变量占位符有两套写法：

${变量名}：用于支持“变量解析”的文本输入框（例如页面跳转 URL、浏览器输入内容等），并支持简单函数：replace、split、trim、append/prepend
示例：https://www.bing.com/search?q=${movieName|replace(\\\' \\\',\\\'+\\\')}+演员
{变量名}：用于文件名修改的“新文件名”模板（以及批量模式内置 {index}/{name}/{ext}/{date}/{time}）
2) 读取文件夹里的文件名列表
添加步骤：变量读取(文件名)
文件夹路径：选择视频所在目录
文件过滤器：如 *.mkv
输出变量：例如 movieList（列表变量；如无可选项，先在变量管理中创建一个列表变量名）
3) 用内循环遍历每一个文件名
添加：内循环(开始) / 内循环(结束)，把“循环体”步骤包起来
在内循环(开始) 中开启“输出当前迭代次数到变量”，选择 i（从 0 开始，正好当列表索引）
循环次数：设置为文件数量
4) 取出当前电影名（movieList）
添加步骤：变量操作 → 字符串拼接
第一段：选择源变量 movieList，启用“列表索引”，索引模式选“变量索引”，索引变量选 i
第二段：留空
结果变量名：movieName
5) 搜索网络信息并写入变量（示例：抓取演员）
添加步骤：浏览器管理（打开 Edge/Chromium，建议先用“有头”模式便于拾取元素）
添加步骤：页面跳转
URL 示例：https://www.bing.com/search?q=${movieName|replace(\\\' \\\',\\\'+\\\')}+演员
添加步骤：浏览器输入/输出 → 输出模式 → 存入变量
用“拾取元素”在网页上点选你要的“演员”文本所在元素
输出变量：actors
不同网站 DOM 结构不同，可用“拾取元素”生成选择器

6) 清洗变量并重命名文件
（建议）添加步骤：变量操作 → 字符串替换（勾选正则）
源变量：actors
搜索模式：[\\\\\\\\/:*?\\\\\\\"<>|]
替换文本：_
结果变量名：actorsSafe
添加步骤：变量操作 → 字符串拼接
第一段：源变量 movieName
第二段：源变量 ext（或固定文本直接写 .mkv）
结果变量名：oldFileName
添加步骤：文件名修改 → 单文件
源目录：视频目录
原文件名：选择“变量输入”，变量名选 oldFileName
新文件名：手动输入，例如：{movieName}-{actorsSafe}{ext}
操作示例：文件夹图片 OCR → 追加输出到 TXT
目标：对文件夹内图片依次 OCR（全屏或指定区域），识别结果不断追加写入同一个 .txt 文件。

0) 准备
先用系统图片查看器打开该文件夹里的“第一张图片”，并进入全屏（不同查看器全屏热键不同，常见为 F11）
在软件里准备变量：ocrText（字符串）、empty（字符串，内容留空）
1) 可选：先清空输出 txt
添加步骤：变量输出
变量名：empty
输出目标：文本文件
选择输出路径：例如 C:\\\\\\\\output\\\\\\\\ocr.txt
追加到文件：关闭（覆盖写入，相当于清空）
2)打开图片内
打开文件夹，选择路径
键盘：发送“ENTER”
延迟：建议 200~500ms（让图片切换完成再 OCR）
3) 内循环：OCR → 写入 txt → 下一张
添加：内循环(开始) / 内循环(结束) 包住以下步骤（循环次数设置为已知的张数）
循环体内按顺序添加：
文字识别：模式选“识别文字”，范围选“全屏搜索”（或先框选区域），输出方式选“存入变量”，输出变量填 ocrText
变量输出：输出目标选“文本文件”，变量名选 ocrText，输出路径选同一个 ocr.txt，勾选“追加到文件”
键盘：发送“右方向键（→）”切到下一张图片（如果你的查看器是其它快捷键，请按实际修改）
延迟：建议 200~500ms（让图片切换完成再 OCR）

https://pan.xunlei.com/s/VOchIC5KnhGG9OuBLt_0PeDGA1?pwd=zke3#

liuxing223344 · [liuxing223344] 发表于 2026-1-22 10:49

不明觉厉

zfqsxwd · [zfqsxwd] 发表于 2026-1-22 11:14

加1

6199380 · [6199380] 发表于 2026-1-22 11:23

博文 · [博文] 发表于 2026-1-22 13:24

实用工具

huntst · [huntst] 发表于 2026-1-23 07:52

厉害

帐号		自动登录	找回密码
密码			立即注册

[大家谈谈] 自动操作工具 (图片识别、颜色识别、文字识别OCR、前台、后台点击、浏览器操作)

本帖子中包含更多资源

评分