如何从 ocr 识别后的碎片化信息中提取出有效信息，如姓名手机号身份证车牌这种信息。 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 398 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前没有成本和时间搭建一个大模型，能想到的就是比较原始的正则匹配方式。
但是弊端比较多，只能精确匹配，多一个字少一个字都拿不到，或者带*号的，有时候 ocr 出来的也会缺东西多东西。导致肉眼能看到的很多信息正则都匹配不到。
大佬们有什么比较好的方案或者类似工具库吗，可以比较人性化一点的匹配到有效信息，比如多个数字少个数字或者看着比较像人名的都可以匹配到。

8 条回复 • 2024-03-15 15:21:50 +08:00

1

xylitolLin

2024-03-15 10:33:50 +08:00

先用 yolo 处理一下图片，把目标区域切下来之后，再进行 OCR ，这样可以提高 OCR 的准确性

2

lidapang

2024-03-15 10:44:56 +08:00

2

试试这个 https://gitee.com/hongzai/RapidOcr-Java.git

3

KOMA1NIUJUNSHENG

OP

2024-03-15 10:58:57 +08:00

@lidapang 可以啊老哥，这个识别出来的比百度高精度 ocr 还好一点。

4

KOMA1NIUJUNSHENG

OP

2024-03-15 11:04:58 +08:00

@lidapang 但是错别字有点多，文字的识别准确度有待改善。

5

lidapang

2024-03-15 11:07:42 +08:00

你根据文档上面的参数调整下，错别字多的原因可能识别的时候那个临界点没有设置合适，前提不对图片做处理的情况下

6

SuperMaskv

2024-03-15 11:29:04 +08:00

如果是证件，表格这种类型的可以看一下微软的 layoutlm 系列，有中文的预训练模型
https://github.com/microsoft/unilm/tree/master/layoutlmv3

7

xmuli

2024-03-15 12:28:35 +08:00 via iPhone

如百度 ocr 接口也有专门针对车牌，发票等具体的，识别率很高。

8

KOMA1NIUJUNSHENG

OP

2024-03-15 15:21:50 +08:00

@lidapang #5 可以，我试一下。

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 1325 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 24ms · UTC 17:20 · PVG 01:20 · LAX 10:20 · JFK 13:20
Developed with CodeLauncher
♥ Do have faith in what you're doing.