OCRopus
OCRopus es un sistema de Reconocimiento Óptico de Caracteres (OCR) escrito en Python, NumPy, y SciPy.
Instalar OCRopus en Debian Wheezy
Dependencias
Las siguientes operaciones deben ejecutarse como usuario root.
Actualizar la lista de paquetes de Debian:
apt-get update
El sistema debe tener instalado ImageMagick, Curl y Mercurial, de lo contrario:
apt-get install imagemagick curl hg
Instalar los paquetes de python requeridos por OCRopus:
apt-get install python-scipy python-matplotlib python-tables imagemagick python-opencv python-bs4
Obtener el código y modelos de datos de OCRopus:
Elegir un directorio y realizar una copia local del repositorio de OCRopus (como usuario no root). Reemplazar <version>
por la última versión disponible (al momento de escribir esta guía, 0.7):
hg clone -r ocropus-<version> https://code.google.com/p/ocropus
Ingresar al directorio donde se encuentra el código:
cd ocropus/ocropy
Descargar los modelos de datos (son alrededor de 500Mb):
python setup.py download_models
Instalar OCRopus en el sistema
Como root ejecutar la instalación:
python setup.py install
Para verificar que el programa funcione correctamente se puede realizar un test:
./run-test
Al finalizar el proceso, los resultados se leen desde el navegador:
firefox temp.html
firefox temp-correction.html
firefox temp/index.html