xpdf+docx+googletrans实现机翻pdf
xpdf+docx+googletrans实现机翻pdf

xpdf+docx+googletrans实现机翻pdf

实际应用中有这样的需求,所以写了一下。

最开始想通过python中pdfminer库来做,但是找资料发现这个库变更较大,很多前人的代码已经无法参考了。

所以换个思路,把pdf2text和text2translate分开考虑。

首先找到了xpdf的网站(https://xpdf.net/),可以在线做pdf2doc的转换,并且对于格式/图片都保存得比较好。

其次使用python的docx库和googletrans库。

通过docx库获取所有段落中text内容,通过googletrans库在线翻译,在原text后面增加翻译后的text。

最后另存为新的docx文件。

打开docx文件,看到的就是中英对照的文档了。对于机翻生硬的部分,可以再手工校对整理。


附录一则python打印log时的色彩设置:

https://www.cnblogs.com/wyb666/p/8850276.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注