Hi 各位大大 我又上来请教大家了
目前想用python识别pdf档 做 key word 查寻
也就是 optical character recognition
昨天朋友说 pytesseract 只能识别图片 不能识别 pdf档
所以我先手动把其中一个pdf档 存成图档 当测试
写了一段code 成功的输出在 cmd里
目前在思考 能不能储存成text档(格式会跑掉吗?)
然后让程式读取资料夹内的下一个 pdf 档案 自行转成 图档后 再跑~~
如果以上有可能的话
该怎么写呢? 麻烦各位大大 谢谢^^"
以下放code:
from PIL import Image
import pytesseract
import argparse
import cv2
import os
# construct the argument parse and parse the arguments
ap = argparse.ArgumentParser()
ap.add_argument("-i", "