当前位置:Gxlcms > JavaScript > 详解Linux系统中用node.js提取Word内容的实例

详解Linux系统中用node.js提取Word内容的实例

时间:2021-07-01 10:21:17 帮助过:21人阅读

这篇文章主要给大家介绍了关于Linux系统中利用node.js提取Word(doc/docx)及PDF文本的内容,文中给出了详细的示例代码供大家参考学习,需要的朋友们下面跟着小编来一起看看吧。

前言

想要做全文搜索引擎,则需要将word/pdf等文档内容提取出来。对于pdf有xpdf等一些开源方案。

但Word文档的情况则会复杂一些。

提取PDF文本内容

XPDF是一个免费开源的软件,用于显示PDF文件,并可将pdf转换成文字图片等,同样支持Windows版。在Debian Linux上安装非常简单:


我们这里只使用pdftotext这个功能,直接输入可查看帮助:


测试一下:


然后在node.js中使用 child_process直接调用此命令即可,pdftotext会将内容输出以文本文件中,可能需要多一些操作。具体代码略。

用antiword提取 .doc 的内容

我们这里使用了 antiword 开源软件,来提取word2003以前版本的内容,安装同样非常简单:


查看帮助:


antiword直接将word内容输出到了console中:


root@raspberrypi:/var/www# antiword spec.doc

SYNC Mobile – Ford APA
Project Number: DFYST
Requirements Specification

同样在node.js用child_process调用此命令即可。

解析提取.docx 的内容

对于 docx 文档来说,因基本身就是一个zip文件,只需要在node.js先将其解压,再解析 text.docx\word\document.xml 文件即可。

Github上也有些将docx解析成html的库,

如:

github.com/mwilliamson/mammoth.js

github.com/lalalic/docx2html

等。

以上就是详解Linux系统中用node.js提取Word内容的实例的详细内容,更多请关注Gxl网其它相关文章!

人气教程排行