提取datasheet pdf信息的时候经常用到OCR。以前的笨办法是用云笔记的OCR功能,现在自己调用就更方便啦。
直接上参考链接二则:
https://blog.csdn.net/ITBigGod/article/details/86705491
https://www.jianshu.com/p/e10dc43c38d0
其一输出格式为txt,其二是在原图片上面highlight出识别到的文本框。两相对照可以检查有无遗漏信息。
在写出文件的时候要注意设置encoding: 否则default encoding为None,写出到txt的内容可能会乱码。