1
FlytoSirius 12 天前
同样感兴趣
|
2
gitxuzan OP 收费的也行吧,就是主要是专门解方程式这方面
|
3
ansemz 12 天前
deepseek 的 vl 模型应该可以
|
4
evan1 12 天前
理论上应该是先拍照,然后 OCR 识别内容,然后把内容塞给大模型,然后输出大模型的结果。
|
6
evan1 12 天前
@xiexiping #5 这个没有具体研究过。
理论上接入其它模型最方便,说的直接一点就是直接去套壳。 找个开源模型然后再找些题库、公式数据集训练一下也可以,但是太麻烦了而且效果不一定好。 自己做一个拍照解题应用是可以,但是 google 搜一下"拍照解题"可以看到已经有很多类似产品了。如果只是自己研究的话可以搞搞,想要靠这个实现收入的话我觉得有点困难。 |
7
xiexiping 12 天前 via Android
@evan1 确实很多领域市场上都有比较成熟的产品了,但是还是有很多小公司做的小产品能从中吃到一小块蛋糕,我以前公司的产品就是这个思路,只是集成一下市场上现有的 SDK 提供的功能,做一个简单的产品,赚不了大钱但是能凭借比较简单的功能和低成本,能有一部分用户,所以我才有了这个想法,哈哈
|
8
LingXingYue 12 天前 via Android
我自己目前是拍照,然后传给支持视觉的大模型,让他以 markdown 输出,公式使用 latex 表示实现 OCR
然后再把输出的文字内容传给第二个大模型做题 优点是比直接传图片做题的正确率高,缺点是慢 成本高 没法做有图的题 |
9
gitxuzan OP @LingXingYue 麻烦贴下开源地址,谢谢
|
10
LingXingYue 3 天前
@gitxuzan 项目都没有 2333
就是单纯的先用提示词让大模型 OCR ,然后再让他做题 |