OCRopus

OCRopus es ​​un sistema de Reconocimiento Óptico de Caracteres (OCR) escrito en Python, NumPy, y SciPy.

Instalar OCRopus en Debian Wheezy

Dependencias

Las siguientes operaciones deben ejecutarse como usuario root.

Actualizar la lista de paquetes de Debian:

apt-get update

El sistema debe tener instalado ImageMagick, Curl y Mercurial, de lo contrario:

apt-get install imagemagick curl hg

Instalar los paquetes de python requeridos por OCRopus:

apt-get install python-scipy python-matplotlib python-tables imagemagick python-opencv python-bs4

Obtener el código y modelos de datos de OCRopus:

Elegir un directorio y realizar una copia local del repositorio de OCRopus (como usuario no root). Reemplazar <version> por la última versión disponible (al momento de escribir esta guía, 0.7):

hg clone -r ocropus-<version> https://code.google.com/p/ocropus

Ingresar al directorio donde se encuentra el código:

cd ocropus/ocropy

Descargar los modelos de datos (son alrededor de 500Mb):

python setup.py download_models

Instalar OCRopus en el sistema

Como root ejecutar la instalación:

python setup.py install

Para verificar que el programa funcione correctamente se puede realizar un test:

./run-test

Al finalizar el proceso, los resultados se leen desde el navegador:

 firefox temp.html
 firefox temp-correction.html
 firefox temp/index.html