動かざることバグの如し

近づきたいよ 君の理想に

tesseract-ocrをPythonから使ってみる

tesseract-ocrオープンソースOCR。辞書を切り替えることで多言語に対応できるのが特徴

github.com

今回はそれをPythonを通して使ってみる

環境

インストール

tesseractが入っていなかったらインストールしておく 今回はMacなのでbrew経由でインストール

brew install tesseract

いくつかライブラリあるみたいだけど今回はpytesseractってやつを使う

https://pypi.python.org/pypi/pytesseractpypi.python.org

sudo pip install pytesseract

PIL使うので入ってなかったら pip install pillowもしておくと吉

使い方

最初にOpenCVで加工してるけどこんな感じ

import cv2
import pytesseract as tess
from PIL import Image

im = cv2.imread("text.jpg")
gray = cv2.cvtColor(im, cv2.COLOR_RGB2GRAY)
cv2.imwrite("text_mod.jpg", gray);
print tess.image_to_string(Image.open('text_mod.jpg'), lang='en', config='')