Sobre Cuneiform
Cuneiform es una herramienta de software para el reconocimiento óptico de caracteres (OCR). Fue desarrollado originalmente por "Cognitive Technologies" y, después de unos años sin desarrollo, fue lanzado como freeware el 12 de diciembre de 2007. El núcleo del motor de OCR fue liberado bajo licencia BSD a principios de abril 2008. Más información en wikipedia
- Sitio oficial de Cuneiform en inglés http://en.openocr.org/
- Sitio oficial (en ruso) http://cognitiveforms.com/ru/products_and_services/cuneiform
Cuneiform no es tan preciso como tesseract-ocr, sin embargo es extremadamente más rápido. Cuando la calidad del texto en la imagen a realizar el reconocimiento de caracteres es excelente, devuelve un resultado óptimo muy cercano a tesseract, por lo cual es recomendable su uso en esos casos. Cuando la calidad del texto en la imagen no es tan buena, la diferencia con tesseract es enorme y se recomienda usar este último.
Instalación
Se instala directamente desde el repositorio Debian.
Actualizar la lista de paquetes:
apt-get update
Instalar Cuneiform
apt-get install cuneiform
Cuneiform está en el repositorio non-free, por lo tanto si no está incluido en el archivo con la lista de fuentes o repositorios de apt
, el comando anterior contestará que el paquete cuneiform
no existe. Para activar todos los repositorios de Debian (por defecto sólo viene activo main
) editar (como root) el archivo de fuentes /etc/apt/sources.list
y agregar contrib
y non-free
al final de cada línea. Por ejemplo en:
deb http://<url del repositorio debian>/debian wheezy main
agregar
deb http://<url del repositorio debian>/debian wheezy main contrib non-free
Generalmente el archivo sources.list
contiene tres repositorios deb, deb-src y security, se puede agregar contrib non-free
a todos, aunque para instalar Cuneiform sólo es necesario activarlo en el repositorio principal (la primer línea). Más info sobre configuración de repositorios Debian aquí. Nota: Cuneiform ha sido recientemente liberado como software libre, asi que posiblemente en el futuro se lo encuentre en el repositorio main.
Una vez modificado el archivo sources.list
, guardarlo y volver a ejecutar apt-get update
y apt-get install cuneiform
Uso
Sinopsis:
cuneiform [--dotmatrix] [-f FORMAT] [--fax] [-l LANGUAGE] [-o OUTPUT] INPUT
Ejemplo:
cuneiform -f hocr -l spa -o out.html input.tif
Donde
-f hocr
indica el formato de salida (el estándar hocr).-l spa
el lenguaje en el que está escrito el texto a realizar OCR (español).-o out.html
el archivo de salida con el texto resultante en formato hocr.input.tif
al final del comando se coloca el nombre de la imagen a la que se le realizará el reconocimiento de caracteres.
Para obtener una lista de los formatos de salida que admite Cuneiform:
cuneiform -f
Para obtener una lista de los lenguajes soportados Cuneiform:
cuneiform -l
Más información en http://www.linuxcertif.com/man/1/cuneiform/330520/ ó http://manpages.ubuntu.com/manpages/natty/man1/cuneiform.1.html