项目上遇到需求:将 pdf 文件转换成 html 格式文件,供另外的服务做 html 解析从而获取文件内容信息,这里我采用的是 pdf2htmlEX 作为转换工具,效果不错。 推荐使用最便捷的方法,直接运行 docker 容器内的程序转换, […]
标签: 格式转换
CentOS下使用LibreOffice实现文档格式的转换
项目需求,对上传的文档进行一些预处理,如果用户上传了 doc 格式的文档,需要将其处理为 docx 或者 pdf 格式,以便后续的流程对文档内容进行提取。 先是试了一下 phpoffice/phpword 这个包,发现其对 doc 的转换很 […]