tesseract-ocrはオープンソースのOCR。辞書を切り替えることで多言語に対応できるのが特徴
今回はそれをPythonを通して使ってみる
環境
インストール
tesseractが入っていなかったらインストールしておく 今回はMacなのでbrew経由でインストール
brew install tesseract
いくつかライブラリあるみたいだけど今回はpytesseractってやつを使う
https://pypi.python.org/pypi/pytesseractpypi.python.org
sudo pip install pytesseract
PIL使うので入ってなかったら pip install pillow
もしておくと吉
使い方
最初にOpenCVで加工してるけどこんな感じ
import cv2 import pytesseract as tess from PIL import Image im = cv2.imread("text.jpg") gray = cv2.cvtColor(im, cv2.COLOR_RGB2GRAY) cv2.imwrite("text_mod.jpg", gray); print tess.image_to_string(Image.open('text_mod.jpg'), lang='en', config='')