开发一个程序实现图片内容检索,用的 tesseract-ocr 识别图片比较慢,因此想做一个预处理,只识别包含大量文字的图片,忽略风景,人物等不含文字的照片
7 天
1
xwhxbg 2020-07-08 22:34:19 +08:00
提供 training set 不?这个场景可以用个小模型先做分类,然后分类是扫描件的再用 ocr 扫描
|
2
albertofwb OP @xwhxbg 有人接了,因为主要想筛选扫描类文件,特征明显,用传统算法搞
|