Instalar tesseract-ocr en Debian o Ubuntu
Para Debian:
apt-get install tesseract-ocr tesseract-ocr-spa
este comando sólo instalará los recursos para el idioma inglés y español. Para instalar más idiomas, por ejemplo, para Catalán, Francés, Portugués y Español Antiguo:
apt-get install tesseract-ocr-cat tesseract-ocr-fra tesseract-ocr-por tesseract-ocr-spa-old
la lista completa de paquetes de idiomas puede consultarse aquí
Con el paquete tesseract-ocr-all
puede instalar todos los paquetes de idiomas de Tesseract (requiere más de 1GB de espacio adicional en su disco rígido)
Para Ubuntu utilice sudo -i
para hacerse root o anteponga sudo
a los comandos apt-get
, por ejemplo
sudo apt-get install tesseract-ocr tesseract-ocr-spa
Compilar e Instalar tesseract-ocr en Debian Wheezy
En el sitio de tesseract-ocr (en inglés): instrucciones para la instalación de tesseract-ocr en varias plataformas.
Manual de Tesseract https://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html
Pre-requisitos para la compilación
Asegurarse que el repositorio de código fuente esté habilitado en la lista de fuentes de Debian en /etc/apt/sources.list
. Si no, editar el archivo (como root) y agregar o descomentar esta línea:
deb-src http://ftp.us.debian.org/debian wheezy main
Actualizar la lista de paquetes de Debian:
apt-get update
El sistema debe tener instaladas las herramientas básicas de compilación, de lo contrario:
apt-get install autoconf automake libtool build-essential
Dependencias de desarrollo necesarias para Tesseract libjpeg
, libtiff
, libpng
, y zlib1g
:
apt-get install libjpeg8-dev libtiff5-dev libpng12-dev zlib1g-dev
Previamente se debe compilar la librería 'Leptonica'
Descargar la última versión del código fuente del sitio leptonica.com:
cd ~
wget http://www.leptonica.com/source/leptonica-1.69.tar.gz
Desempaquetar los archivos:
tar -czfv leptonica-1.69.tar.gz
ir al directorio creado:
cd leptonica-1.69
Configurar con autoconf:
./configure
Compilar:
make
Instalar la librería en el sistema (como root)
make install
O utilizando chekinstall (recomendado)
checkinstall
Obtener el código fuente de tesseract-ocr
Opción 1) Descargar el código fuente de la última versión de tesseract (recomendado)
Descargar el archivo desde el sitio web de tesseract-ocr
cd ~
wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.02.tar.gz
Descomprimir el archivo descargado
tar -czfv tesseract-ocr-3.02.02.tar.gz
Opción 2) Descargar directamente desde el repositorio:
svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr-read-only
Descargar e instalar los archivos de idiomas
Descargar de la sección de descargas del sitio de tesseract-ocr los archivos de idioma necesarios, por ejemplo:
wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.eng.tar.gz&can=2&q=
wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.spa.tar.gz&can=2&q=
wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.spa_old.tar.gz&can=2&q=
wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.por.tar.gz&can=2&q=
wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.fra.tar.gz&can=2&q=
Descomprimir los archivos
tar -czfv tesseract-ocr-3.02.eng.tar.gz
tar -czfv tesseract-ocr-3.02.spa.tar.gz
tar -czfv tesseract-ocr-3.02.spa_old.tar.gz
tar -czfv tesseract-ocr-3.02.por.tar.gz
tar -czfv tesseract-ocr-3.02.fra.tar.gz
Se creará la carpeta ~/tesseract.ocr/tessdata
con los arhivos de idiomas, que se deben mover a /usr/local/share/tessdata
(como root):
move tesseract.ocr/tessdata /usr/local/share/
Compilar
Renombrar el directorio raíz del código fuente descargado (para compatibilizar con Debian):
mv tesseract-ocr tesseract-ocr-<version>
Ir al directorio:
cd tesseract-ocr-<version>
(se debe reemplazar <version>
por la versión descargada, por ejemplo tesseract-ocr-3.02.02
)
Tesseract utiliza el proceso estándar de compilación basado en autotools
:
./autogen.sh
./configure
Compilar:
make
Instalar
como root:
make install
O utilizando checkinstall
(recomendado)
checkinstall
Configurar vínculos del enlazador dinámico en tiempo de ejecución con ldconfig
(como root):
ldconfig