OCR, indexación y búsqueda de texto
El tratamiento OCR de documentos escaneados es crítico para la búsqueda de palabras clave, su indexación y recuperación. Aquí, de nuevo, el enfoque de DjVu es innovador y garantiza resultados óptimos:
- La información necesaria para OCR se almacena en una capa DjVu separada, no visible, que llamaremos "capa de texto oculto". Esta capa puede ser exportada e importada bidireccionalmente a XML, con lo cual se facilita directamente su integración con los motores de búsqueda e indexación existentes. Esta capacidad abre todas las posibilidades de búsqueda de palabras clave para los sistemas de gestión documental y de contenidos.
- Gracias a la excelente tecnología de segmentación de DocumentExpress con DjVu, los resultados del OCR suelen ser superiores a las soluciones alternativas (como PDF) especialmente en documentos color. La segmentación gestiona texto en color, texto sobre imagen, sobre dibujos, en negativo, básicamente cualquier texto. El resultado es la separación y extracción del texto en una capa bitonal nítida, que permite obtener resultados OCR de alta calidad. Esta posibilidad contrasta con otros productos que solamente pueden tratar texto en blanco y negro.
Para comparación, vea los ejemplos siguientes.
Document Express con DjVu incluye un motor de OCR integrado. La versión Enterprise tiene un conjunto de herramientas para manipular la "capa de texto oculto". Con estas herramientas es muy fácil integrar completamente las búsquedas textuales de documentos DjVu con sistemas de gestión documental o motores de indexación/búsqueda.
Si necesita integrar un motor OCR diferente, nuestro SDK ofrece una API simple y limpia para conseguir esta tarea con un esfuerzo mínimo.