1
txx 2012-08-22 23:52:43 +08:00
我知道现在的docx pptx 重命名zip后能解压出来一坨xml。。。。
开源组建应该有吧 至少有 openoffice。。。。 |
2
muxi OP @txx 感谢回复 http://poi.apache.org/ apache poi项目已经做了这样的工作 不知道百度文库之类的实现是不是用了这个项目
|
3
doskoi 2012-08-23 00:16:41 +08:00
微软的很多格式实际就是一个文件系统
|
4
xell 2012-08-23 08:46:22 +08:00
请参考 MSDN : http://msdn.microsoft.com/en-us/library/cc313118.aspx
实际上这种问题自己搜索一下就好了,例如 microsoft office format specification 之类的关键字就能带你找到相关技术文档。 |
5
BB9z 2012-08-23 08:54:48 +08:00
不一定非要自己解析吧。比如可以 => PDF => HTML 。
|
6
sectic 2012-08-23 09:36:43 +08:00
ruby有个库,可以解析doc,上次有人在邮件列表里问过,doc格式不适合解析,joel 以前谈过这个问题,首要是要保证计算机的读写,一开始也没有跨平台的需要
|
7
hyq 2012-08-23 09:41:45 +08:00
我先在項目中用的是openoffice轉成pdf,再用swftools轉成swf,最後在flash中閱讀
|
8
muxi OP slideshare 被墙了,百度文库因为版权问题要先审后发,挺麻烦的,如果有成熟的方案,不如自己折腾一个,方便小范围的使用,这个貌似技术门槛挺高的,百度文库做的挺好的,感觉上比slideshare要好
|
9
neildd 2012-08-23 10:23:55 +08:00
openoffice有各个格式的详细解析文档
|
11
chenlong828 2012-10-06 20:34:00 +08:00
百度文库等这种系统里面都是先在后台把文档转换成JPG,PDF等显示的,这方面的工具比较多,用不着去个人解析office文档的格式。
|
12
xuzhe 2012-10-06 21:01:50 +08:00
WPS 兼容微软很多都是照着 Open Office 来的。
|