Sobre Cuneiform

Cuneiform es una herramienta de software para el reconocimiento óptico de caracteres (OCR). Fue desarrollado originalmente por "Cognitive Technologies" y, después de unos años sin desarrollo, fue lanzado como freeware el 12 de diciembre de 2007. El núcleo del motor de OCR fue liberado bajo licencia BSD a principios de abril 2008. Más información en wikipedia

Cuneiform no es tan preciso como tesseract-ocr, sin embargo es extremadamente más rápido. Cuando la calidad del texto en la imagen a realizar el reconocimiento de caracteres es excelente, devuelve un resultado óptimo muy cercano a tesseract, por lo cual es recomendable su uso en esos casos. Cuando la calidad del texto en la imagen no es tan buena, la diferencia con tesseract es enorme y se recomienda usar este último.

Instalación

Se instala directamente desde el repositorio Debian.

Actualizar la lista de paquetes:

apt-get update

Instalar Cuneiform

apt-get install cuneiform

Cuneiform está en el repositorio non-free, por lo tanto si no está incluido en el archivo con la lista de fuentes o repositorios de apt, el comando anterior contestará que el paquete cuneiform no existe. Para activar todos los repositorios de Debian (por defecto sólo viene activo main) editar (como root) el archivo de fuentes /etc/apt/sources.list y agregar contrib y non-free al final de cada línea. Por ejemplo en:

deb http://<url del repositorio debian>/debian wheezy main

agregar

deb http://<url del repositorio debian>/debian wheezy main contrib non-free

Generalmente el archivo sources.list contiene tres repositorios deb, deb-src y security, se puede agregar contrib non-free a todos, aunque para instalar Cuneiform sólo es necesario activarlo en el repositorio principal (la primer línea). Más info sobre configuración de repositorios Debian aquí. Nota: Cuneiform ha sido recientemente liberado como software libre, asi que posiblemente en el futuro se lo encuentre en el repositorio main.

Una vez modificado el archivo sources.list, guardarlo y volver a ejecutar apt-get update y apt-get install cuneiform

Uso

Sinopsis:

cuneiform  [--dotmatrix]  [-f FORMAT] [--fax] [-l LANGUAGE] [-o OUTPUT] INPUT

Ejemplo:

cuneiform -f hocr -l spa -o out.html input.tif

Donde

  • -f hocr indica el formato de salida (el estándar hocr).
  • -l spa el lenguaje en el que está escrito el texto a realizar OCR (español).
  • -o out.html el archivo de salida con el texto resultante en formato hocr.
  • input.tif al final del comando se coloca el nombre de la imagen a la que se le realizará el reconocimiento de caracteres.

Para obtener una lista de los formatos de salida que admite Cuneiform:

cuneiform -f

Para obtener una lista de los lenguajes soportados Cuneiform:

cuneiform -l

Más información en http://www.linuxcertif.com/man/1/cuneiform/330520/ ó http://manpages.ubuntu.com/manpages/natty/man1/cuneiform.1.html