Linux下使用pdf2htmlEX将pdf转换成html格式

项目上遇到需求:将pdf文件转换成html格式文件,供另外的服务做html解析从而获取文件内容信息,这里我采用的是pdf2htmlEX作为转换工具,效果不错。 推荐使用最便捷的方法,直接运行docker容器内的程序转换,避免部署工具所需要的环境等,节约很多时间。 先安装docker并配置docker服务自启动,参考文章:CentOS7安装Docker配置服务端和容器自启动 直接运行docker进行 […]

CentOS下使用LibreOffice实现文档格式的转换

项目需求,对上传的文档进行一些预处理,如果用户上传了doc格式的文档,需要将其处理为docx或者pdf格式,以便后续的流程对文档内容进行提取。 先是试了一下phpoffice/phpword这个包,发现其对doc的转换很不理想,这个包更适合用来根据内容生成文档,而不是转换文档,不是太适合我这种需求。 然后发现了LibreOffice这个开源工具,经过使用,效果很好,分享一下。 服务器是CentOS […]