通用文字识别
指令说明
识别图片文件、桌面元素、网页元素中的字符,可以识别手写字符
可以获取到每段文字在图片、元素上的坐标。
例如您可以把识别发票的文字及坐标数据输入给AI,让AI帮忙分析发票数据
指令输入参数
| 输入参数 | 输入参数类型 | 说明 |
|---|---|---|
| 图像类型 | 枚举项 | 通用文字、手写文字 |
| 图像来源 | 枚举项 | 本地文件、桌面元素、网页元素 |
| 图片路径 | str | 本机图片完整路径,仅图像来源是本地文件时需要输入图片路径 |
| 桌面元素 | WinElement 或 ElementDescriptor | 仅图像来源是桌面元素时需要输入桌面元素对象,可以选择捕获的桌面元素也可以选择获取桌面元素、获取桌面关联元素、获取桌面相似元素等指令获取到的桌面元素 |
| 网页对象 | WebPage | 仅图像来源是网页元素时需要输入网页对象 |
| 网页元素 | WebElement 或 ElementDescriptor | 仅图像来源是网页元素时需要输入网页元素,可以选择捕获的网页元素也可以选择获取网页元素、获取网页相似元素、获取网页关联元素等指令获取到网页元素 |
指令输出参数
| 输出参数 | 输出参数类型 | 说明 |
|---|---|---|
| 识别结果 | List[TextOCR] | 结果是列表,每段文字对应一个TextOCR对象 |
类型定义参考
示例
输出识别结果
