当前位置：Gxlcms > JavaScript > 详解Linux系统中用node.js提取Word内容的实例

详解Linux系统中用node.js提取Word内容的实例

时间：2021-07-01 10:21:17 帮助过：21人阅读

这篇文章主要给大家介绍了关于Linux系统中利用node.js提取Word(doc/docx)及PDF文本的内容，文中给出了详细的示例代码供大家参考学习，需要的朋友们下面跟着小编来一起看看吧。

前言

想要做全文搜索引擎，则需要将word/pdf等文档内容提取出来。对于pdf有xpdf等一些开源方案。

但Word文档的情况则会复杂一些。

提取PDF文本内容

XPDF是一个免费开源的软件，用于显示PDF文件，并可将pdf转换成文字图片等，同样支持Windows版。在Debian Linux上安装非常简单:

我们这里只使用pdftotext这个功能，直接输入可查看帮助：

测试一下：

然后在node.js中使用 child_process直接调用此命令即可，pdftotext会将内容输出以文本文件中，可能需要多一些操作。具体代码略。

用antiword提取 .doc 的内容

我们这里使用了 antiword 开源软件，来提取word2003以前版本的内容，安装同样非常简单：

查看帮助：

antiword直接将word内容输出到了console中：

root@raspberrypi:/var/www# antiword spec.doc

SYNC Mobile – Ford APA
Project Number: DFYST
Requirements Specification

同样在node.js用child_process调用此命令即可。

解析提取.docx 的内容

对于 docx 文档来说，因基本身就是一个zip文件，只需要在node.js先将其解压，再解析 text.docx\word\document.xml 文件即可。

Github上也有些将docx解析成html的库，

如：

github.com/mwilliamson/mammoth.js

github.com/lalalic/docx2html

等。

以上就是详解Linux系统中用node.js提取Word内容的实例的详细内容，更多请关注Gxl网其它相关文章！

人气教程排行