倚栏听风倚栏听风

不积跬步
无以至千里

用 python 完成 ocr 文字识别.md

由于网易蜗牛阅读的批注不能导出,只能在手机上看,所以就截了个长图,再用 python 识别一下。

import pytesseract as pt
import requests
from PIL import Image
import sys
import io

sys.stdout = io.TextIOWrapper(
    sys.stdout.buffer, encoding='utf8')  # 改变标准输出的默认编码
pt.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# print("from url:")
# url = "https://china-testing.github.io/images/python_lib_ocr_en.png"
# img = Image.open(requests.get(url, stream=True).raw)
# text = pt.image_to_string(img)
# print(text)
#img = Image.open("textinimage.png")
url = "https://china-testing.github.io/images/python_lib_ocr.PNG"
img = Image.open(r'C:\wang-work\doc\微信图片_20200311154836.png')
# img = Image.open(r'C:\wang-work\doc\微信图片_20200311154824.png')
text = pt.image_to_string(img, lang='chi_sim')
print(text)

遇到的错误

  • pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path
    解决:在这个页面下载 win 版的 tesseract,https://github.com/UB-Mannheim/tesseract/wiki 安装完成后配置一下 exe 的路径,参考源代码。
本原创文章未经允许不得转载 | 当前页面:倚栏听风 » 用 python 完成 ocr 文字识别.md

评论