Instalar tesseract-ocr en Debian o Ubuntu

Para Debian:

 apt-get install tesseract-ocr tesseract-ocr-spa

este comando sólo instalará los recursos para el idioma inglés y español. Para instalar más idiomas, por ejemplo, para Catalán, Francés, Portugués y Español Antiguo:

 apt-get install tesseract-ocr-cat tesseract-ocr-fra tesseract-ocr-por tesseract-ocr-spa-old

la lista completa de paquetes de idiomas puede consultarse aquí

Con el paquete tesseract-ocr-all puede instalar todos los paquetes de idiomas de Tesseract (requiere más de 1GB de espacio adicional en su disco rígido)

Para Ubuntu utilice sudo -i para hacerse root o anteponga sudo a los comandos apt-get, por ejemplo

 sudo apt-get install tesseract-ocr tesseract-ocr-spa

Compilar e Instalar tesseract-ocr en Debian Wheezy

En el sitio de tesseract-ocr (en inglés): instrucciones para la instalación de tesseract-ocr en varias plataformas.

Manual de Tesseract https://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html

Pre-requisitos para la compilación

Asegurarse que el repositorio de código fuente esté habilitado en la lista de fuentes de Debian en /etc/apt/sources.list. Si no, editar el archivo (como root) y agregar o descomentar esta línea:

deb-src http://ftp.us.debian.org/debian wheezy main

Actualizar la lista de paquetes de Debian:

apt-get update

El sistema debe tener instaladas las herramientas básicas de compilación, de lo contrario:

apt-get install autoconf automake libtool build-essential

Dependencias de desarrollo necesarias para Tesseract libjpeg, libtiff, libpng, y zlib1g:

apt-get install libjpeg8-dev libtiff5-dev libpng12-dev zlib1g-dev

Previamente se debe compilar la librería 'Leptonica'

Descargar la última versión del código fuente del sitio leptonica.com:

cd ~
wget http://www.leptonica.com/source/leptonica-1.69.tar.gz

Desempaquetar los archivos:

tar -czfv leptonica-1.69.tar.gz

ir al directorio creado:

cd leptonica-1.69

Configurar con autoconf:

./configure

Compilar:

make

Instalar la librería en el sistema (como root)

make install

O utilizando chekinstall (recomendado)

checkinstall

Obtener el código fuente de tesseract-ocr

Opción 1) Descargar el código fuente de la última versión de tesseract (recomendado)

Descargar el archivo desde el sitio web de tesseract-ocr

cd ~
wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.02.tar.gz

Descomprimir el archivo descargado

tar -czfv tesseract-ocr-3.02.02.tar.gz

Opción 2) Descargar directamente desde el repositorio:

svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr-read-only

Descargar e instalar los archivos de idiomas

Descargar de la sección de descargas del sitio de tesseract-ocr los archivos de idioma necesarios, por ejemplo:

wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.eng.tar.gz&can=2&q=
wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.spa.tar.gz&can=2&q=
wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.spa_old.tar.gz&can=2&q=
wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.por.tar.gz&can=2&q=
wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.fra.tar.gz&can=2&q=

Descomprimir los archivos

tar -czfv tesseract-ocr-3.02.eng.tar.gz
tar -czfv tesseract-ocr-3.02.spa.tar.gz
tar -czfv tesseract-ocr-3.02.spa_old.tar.gz
tar -czfv tesseract-ocr-3.02.por.tar.gz
tar -czfv tesseract-ocr-3.02.fra.tar.gz

Se creará la carpeta ~/tesseract.ocr/tessdata con los arhivos de idiomas, que se deben mover a /usr/local/share/tessdata (como root):

move tesseract.ocr/tessdata /usr/local/share/

Compilar

Renombrar el directorio raíz del código fuente descargado (para compatibilizar con Debian):

mv tesseract-ocr tesseract-ocr-<version>

Ir al directorio:

cd tesseract-ocr-<version>

(se debe reemplazar <version> por la versión descargada, por ejemplo tesseract-ocr-3.02.02)

Tesseract utiliza el proceso estándar de compilación basado en autotools:

./autogen.sh
./configure

Compilar:

make

Instalar

como root:

make install

O utilizando checkinstall (recomendado)

checkinstall

Configurar vínculos del enlazador dinámico en tiempo de ejecución con ldconfig (como root):

ldconfig