V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  tarasha  ›  全部回复第 1 页 / 共 1 页
回复总数  11
换个部署方案吧。转 onnx ,有显卡的话用 trt 更快(启动慢)。
217 天前
回复了 findlisa 创建的主题 Elasticsearch 有没有精通 es 搜索的,可付费咨询
可以试试 bge-m3 ,可以将文本转换为密集向量和稀疏向量()。
然后密集向量在 es 中存储为 Dense_Vector ,稀疏向量用 Rank_Features 。
最后 KnnQuery + RankFeatureQuery 混合检索,效果很好。
借楼请教下大家。我感觉 idea 查看 markdown 预览特别卡顿,但是 vscode 预览 markdown 却很流畅。这是为什么,有什么办法解决吗?
357 天前
回复了 MrWil 创建的主题 职场话题 [字节游戏] [朝夕光年] 大裁员下的动荡
晶核是不是要无了
2023-11-09 14:12:15 +08:00
回复了 psklf 创建的主题 Android 未来的刷机小王子是啥?
借楼问下,努比亚能刷 color os 吗
2023-10-25 14:00:13 +08:00
回复了 qinyui 创建的主题 Python ocr 识别身份证后如何对文本块进行排序?
@qinyui 我这边有训练好的,不知道你要不要。
2023-10-25 13:57:09 +08:00
回复了 qinyui 创建的主题 Python ocr 识别身份证后如何对文本块进行排序?
@qinyui 还是需要训练下的,需要自定义字典文件。也就是分类。看下这个:
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/doc_ch/kie.md
2023-10-25 11:24:54 +08:00
回复了 qinyui 创建的主题 Python ocr 识别身份证后如何对文本块进行排序?
我也是用的百度的 ocr-kie 。kie 可以将识别出的文本分类,例如:
{'NAME_KEY': [], 'NAME_VALUE': ['姓名张三'], 'SEX_KEY': ['性别男民族汉'], 'SEX_VALUE': [], 'NATION_KEY': [], 'NATION_VALUE': []}
唯一需要排序的场景是地址的提取,因为地址可能会换行。
我的办法是通过对比地址和证件号码的位置关系,确定照片的角度是哪一种,然后再依据每种角度来排序
0°:左上角 Y 点从小到大
90°:左上角 X 点从大到小
180°:左上角 Y 点从大到小
270°:左上角 X 点从小到大

# points 结构为 [[左上角 X, 左上角 Y], [右上角 X, 右上角 Y], [右下角 X, 右下角 Y], [左下角 X, 左下角 Y]]
# X 从左至右增大,Y 从上至下增大
# 计算地址文本块水平宽度 右上角 X - 左上角 X
x_length = address_points[1][0] - address_points[0][0]
# 计算地址文本块垂直高度 左下角 Y - 左上角 Y
y_length = address_points[3][1] - address_points[0][1]
# 判断图片是否水平
# 若地址文本块水平宽度大于垂直高度则说明图片处于 0°或 180°,否则处于 90°或 270°
is_horizontal = x_length > y_length
# 判断图片是否反转
# 若水平且地址文本块左上角 Y 点大于证件号码文本块左上角 Y 点 (即地址位于号码下方)则处于 180°
# 若非水平且地址文本块左上角 X 点大于证件号码文本块左上角 X 点 (即地址位于号码右侧),则处于 90°
is_reverse = (is_horizontal and address_points[0][1] >= number_points[0][1]) or \
(not is_horizontal and address_points[0][0] >= number_points[0][0])
# 执行排序
sorted_address_data = sorted(
address_data, reverse=is_reverse,
key=lambda x: x['points'][0][1 if is_horizontal else 0],
)
2023-10-18 17:14:59 +08:00
回复了 godloveplay 创建的主题 程序员 工厂的拍照识别物料信息的需求,想问问有什么方案
yolo -> ncnn?
2020-05-18 18:05:06 +08:00
回复了 GTD 创建的主题 程序员 关于 IDEA/PyCharm 中 DeBug 的一个疑问,望解答
你说的 [内置代码] 是指 [源码] 吗?我猜你 debug 的时候是按 F7 ( Step Into )?换成 F8 ( Step Over )就好了。
2020-01-16 11:52:42 +08:00
回复了 tarasha 创建的主题 Java pdf 长表单填充
@b19g3r 现在我也是用第一个。但是无奈这个表单太大,导致第一次写对象得时候编译报错 [java:参数过多] ,后来才拆成两个对象。不知道有什么办法优化一下这段代码。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5847 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 26ms · UTC 02:00 · PVG 10:00 · LAX 18:00 · JFK 21:00
Developed with CodeLauncher
♥ Do have faith in what you're doing.