1
crazybubble 2013-12-26 10:14:07 +08:00
你可以先用pdfminer试试parse一个sample pdf看看,然后看那些直线和曲线标注的text pdfminer有没有给你特殊处理,我记得是没有的。。。pdfminer好像只能parse出text。而且pdfminer会把fi这个组合parse成一个单独的字符。。
|
2
Shieffan 2013-12-26 10:30:06 +08:00
之前搞过,读annotation的话就用poppler-python,最多50行代码。
写annotation到PDF的话就poppler qt4。 Linux上的几个PDF reader基本都是基于poppler的,poppler-gtk的文档基本没有,但是qt4的文档比较丰富。 |
3
Shieffan 2013-12-26 10:33:12 +08:00
“python把带注释的页提取出来合成一份新的pdf文件”---现成的库你就别想了,除非你自己再写个poppler的python binding。
|
4
musray OP @crazybubble 是啊,我在网上搜了搜PDFMiner的用法,好像多是谈论pdf中的文字转txt或者html格式。以后再找时间慢慢熟悉。
|
6
musray OP @Shieffan 用./configure 安装poppler的时候出现了一个提醒:
No package 'pygtk-2.0' found No package 'atk' found No package 'poppler-glib' found Consider adjusting the PKG_CONFIG_PATH environment variable if you installed software in a non-standard prefix. Alternatively, you may set the environment variables PYPOPPLER_CFLAGS and PYPOPPLER_LIBS to avoid the need to call pkg-config. See the pkg-config man page for more details. 意思是要手动修改PKG_CONFIG_PATH? 应该如何做呢? |