notas de desarrollo para futuras versiones de dalclick

Estos principios sirven solo para guiar el desarrollo, no pretenden dar un ordenamiento teórico definitivo del proceso de digitalización.

Estructura de directorios

test/
  └─ .preview/
etc/
  ├─ uneven-illumination-patterns
  ├─ color-correction-charts
  └─ dewarping-grid
raw/
  └─ .preview/ 
pre/
  └─ .preview/ 
pp/
  ├─ <Profile Name>/
  │    ├─ <software o filter name 1> ej: scantailor/
  │    ├─ <software o filter name 2> ej: tesseract-ocr/
  │    ├─ <software o filter name 2> ej: pdfbeads/
  │    ├─ <...>
  │    └─ done/
  ├─ <Profile Name>/
  │    ├─ (...)
  │    └─  done/
  └─ (...)

test: directorio para realizar test transitorios de capturas

etc: directorio que guarda patrones o muestras útiles para el pre o posprocesamiento, como patrones para mejorar uniformidad de iluminación, la corrección de colores o la deformación óptica de las lentes.

raw: en este directorio se guardan las imágenes crudas o sin procesar, y sus metadatos, obtenidos del dispositivo. Entiéndase "sin procesar", como "sin procesos realizados en dalclick". El archivo puede tener el pre-procesamiento realizado por el dispositivo, aunque siempre debe seguirse el criterio de mínimo procesado razonable para conservar la máxima información del registro del sensor. Los dispositivos pueden incluir filtros de software o hardware -por ejemplo- para eliminar unreliable pixels, o mejorar equilibrio tonal según el tipo de iluminación. Estos procesos pueden ser más confiables que otras alternativas posteriores, en la medida que están optimizadas exclusivamente para las caracteristicas del dispositivo por sus propios diseñadores. Entonces puede haber imágenes de diverso formato en esta carpeta: .raw (crudas del sensor), .tif (con filtros del dispositivo) o .jpg (con filtros y compresión del dispositivo), .meta (metadatos de un registro), etc..

pre: aqui se guardan las imágenes que han recibido un pre-procesamiento por parte de los filtros de dalclick. Pre-procesamiento se diferencia de post-procesamiento porque las operaciones que se realizan en el momento de la captura -cuando el operador puede ver el resultado inmediatamente- permiten compararlo con el documento original que tiene a su disposición, y aplicar opciones según lo observado (volver a realizar la captura, determinar un parámetro en forma manual, agregar información de metadatos, etc). Los formatos posibles son tif, jpg, meta, etc

pp: guarda los archivos producto de un post-procesado, es decir, el procedimiento posterior e independiente de la captura, y en general, de ejecución en lote sin intervención de un operador. Los archivos se guardan en subdirectorios cuyo nombre identifica un perfil de postproceso. Pueden existir diferentes postprocesos para una misma fuente de archivos en un proyecto. Ejemplos orientativos: Pdf Web (pdf con imágenes en baja resolución para publicar en la web), Pdf High Resolution (en alta para acceso en sala), Imágenes en JPG (imágenes extraidas del documento en formato jpg), etc.

Nombre de archivos

Estructura para raw

0023.odd.jpg
 |    |   |
 \    \   \_ Formato de archivo `jpg`
  \    \____ Registro identificado con el dispositivo de captura `odd`
   \________ Captura `0023`

Formato: Identifica el formato de archivo. Otras opciones son .raw para registros crudos del lector, .tif para un formato sin pérdida,.jpg para un formato comprimido con pérdida o .meta para un archivo de texto plano de metadatos de ese registro. Puede haber varios archivos de distinto formato que se refieran a una misma captura de un determinado dispositivo.

Registro: Un registro es un objeto digital obtenido a partir de la operación de un sensor, identificado con el nombre dispositivo al que pertenece dicho sensor. Los dispositivos se nombran según el tipo de estativo: oddy even son los dispositivos de un estativo en "V", single de un estativo plano simple, y left y right para un estativo plano multiple con dos dispositivos de captura* (esta lista se puede seguir extendiéndose siguiendo este criterio). Puede existir un caso hipotético especial de una captura compuesta con distintos registros de un mismo dispositivo no simultáneos, en ese caso se acompañará el nombre del dispositivo con un número de orden: 0023.single01.jpg. 0023.single02.jpg. 0023.single03.jpg

Captura: se trata de uno o varios registros unidos en el concepto captura. En general un registro simultáneo desde varios dispositivos se considera una sola captura, pero también varios registros sucesivos sobre un mismo documento (por ejemplo un mapa) con un solo dispositivo, o varios, debería considerarse una única captura, donde el documento otorga la correspondencia de todos esos registros a un solo objeto. Dalclick no concebirá un objeto 'pre' obtenido de dos registros de capturas 'raw' diferentes, aunque si varios objetos 'pre' derivados de una misma captura con uno o varios registros.

Estructura para pre

0476.01.jpg
 |    |   |
 \    \   \_ Formato de archivo `jpg`
  \    \____ Objeto preprocesado `01`
   \________ Captura `0476`

Objeto preprocesado: es un objeto -en general una imagen- que se obtiene a partir de uno o varios registros de la captura raw. No tiene por qué existir coincidencia de un registro con otro, por ejemplo que odd en raw se convierta en 01 en pre: puede existir una captura realizada con dos dispositivos que se combinen en un solo objeto o imagen en la etapa pre (digitalizar en fragmentos) por ejemplo: 0005.left.jpg, 0005.right.jpg => 0005.01.jpg, o al contrario, que se extraigan varios objeto de una sola captura 0342.single.jpg => 0342.01.jpg, 0342.02.jpg, 0342.03.jpg