OCR

Aprenda cómo habilitar el Cliente de Proyecto para generar transcripciones de archivos utilizando el reconocimiento óptico de caracteres (OCR), permitiendo que los caracteres de texto en un archivo de imagen sean buscados.

CONTENTdm proporciona una extensión que permite al Cliente del Proyecto generar transcripciones de archivos mediante el Reconocimiento Óptico de Caracteres (OCR). Esto permite que los caracteres de texto en un archivo de imagen sean buscados.

Además, cuando un usuario final busca un término generado por el proceso de OCR, el término de búsqueda se resalta en la imagen. El resaltado de términos de búsqueda no es compatible para hebreo, chino, japonés y coreano.

Para objetos compuestos de imágenes, la extensión OCR también ofrece una opción para crear un PDF con textos OCR incrustados.

Para obtener información sobre cómo usar el procesamiento OCR en los documentos que ya están en su colección, consulte Agregar OCR a los documentos en una colección.

La precisión del OCR depende de:

La calidad de la exploración
La calidad del documento original que está siendo escaneado
Ya sea que los caracteres que se reconocen estén mecanografiados, generados por computadora, impresos a mano o en letra cursiva
La fuente del texto mecanografiado o generado por computadora

El OCR puede realizarse en archivos JPEG2000, JPEG, GIF, PNG y TIFF.

Idiomas compatibles

CONTENTdm OCR es compatible con los siguientes idiomas.

Idiomas compatibles: Abjasio
Adigué
Afrikaans
Agul
Albanés
Altaico
Armenio Oriental
Armenio Grabar
Armenio Occidental
Avar
Aimara
Azerí Cirílico
Azerí Latín
Bashkir
Básico
Vasco
Bielorruso
Bemba
Blackfoot
Bretón
Bugotu
Búlgaro
Buriato
Catalán
Chamorro
Checheno
Química
Chino Simplificado
Chino Tradicional
Chukcha
Chuvasio
Cobol
Corso
Tártaro de Crimea
Croata
Crow
Checo
Danés
Dargwa
Dígitos
Dungano
Holandés
Holandés Belga
E13B (tipo de texto MICR)
Inglés
Inglés y Ruso
Esquimal Cirílico
Esquimal Latín
Esperanto
Estonio
Even
Evenki
Feroés
Fiyiano
Finlandés
Fortran
Francés
Frisón
Friulano
Gagauzo
Gallego
Ganda
Alemán
Alemán de Luxemburgo
Nueva Ortografía Alemana
Griego
Guaraní
Hani
Hausa
Hawaiano
Húngaro
Islandés
Ido
Indonesio
Ingush
Interlingua
Irlandés
Italiano
Japonés
Java
Kabardiano
Kalmuko
Karachay Balkar
Karakalpako
Kasub
Kawa
Kazajo
Khakas
Khanty
Kikuyu
Kirguís
Kongo
Coreano
Koryak
Kpelle
Kumyk
Kurdo
Lak
Lapón
Latín
Letón
Lezgin
Lituano
Luba
Macedonio
Malgache
Malayo
Malinke
Maltés
Mansi
Maorí
Mari
Maya
Miao
Minankabaw
Mohawk
Mongol
Mordvin
Náhuatl
Nenets
Nivkh
Nogay
Noruego
Noruego Bokmal
Noruego Nynorsk
Nyanja
Occidental
Ojibway
Osetio
Papiamento
Pascal
Pidgin Inglés
Polaco
Portugués Brasileño
Portugués de Portugal
Provenzal
Quechua
Rhaeto-Románico
Rumano
Rumano de Moldavia
Romaní
Ruanda
Rundi
Ruso
Ortografía Antigua Rusa
Samoano
Gaélico Escocés
Selkup
Serbio Cirílico
Serbio Latín
Shona
Sioux
Eslovaco
Esloveno
Somalí
Sorbio
Sotho
Español
Sunda
Swahili
Suazi
Sueco
Tabassaran
Tagalo
Tahitiano
Tayiko
Tártaro
Tinpo
Tongano
Setswana
Tun
Turco
Turcomano
Tuvin
Udmurto
Ucraniano
Uzbeko Cirílico
Uzbeko Latín
Visayan
Galés
Wolof
Xhosa
Yakuto
Zapoteco
Zulú

Activar y mover OCR

El reconocimiento óptico de caracteres (OCR) es proporcionado por la extensión OCR de CONTENTdm, con tecnología de ABBYY® FineReader®. Una suscripción estándar a CONTENTdm incluye una licencia básica de OCR para 10 000 páginas al mes. Puede comprar licencias adicionales o una licencia con un mayor número de páginas.

Activar OCR

Abra el cliente de proyecto y abra cualquier proyecto.
Acceda al Administrador de Configuración del Proyecto, y haga clic en la pestaña OCR. La página de OCR se muestra.
Haga clic en el botón Activar licencia de software para mostrar el cuadro de diálogo del Administrador de licencias de WorldShare.
Haga clic en el botón Activar licencia… para abrir el Asistente de Activación. Siga las instrucciones en pantalla para finalizar la activación de la licencia de OCR.
La licencia aparecerá como activada en el Administrador de licencias de WorldShare.
- Imagen:
Cierre y luego reinicie el cliente de proyecto.

Desactivar y trasladar una licencia de OCR a otra instalación

Cada licencia normal de Software OCR solo puede activarse en una instalación de Project Client en un momento dado. La licencia de OCR debe desactivarse (borrarse) antes de que pueda activarse en una nueva instalación, ya sea en otra computadora o en la computadora actual que actualizó su sistema operativo y en la cual se reinstaló el Cliente de Proyecto. Si está reinstalando Project Client en la misma computadora bajo la misma cuenta de usuario, generalmente no necesita desactivar y reactivar la licencia de OCR.

Por lo general, la desactivación de una licencia de OCR ocurre cuando cambian las responsabilidades del personal y es necesario trasladar la licencia a otra computadora o cuando se actualiza o reemplaza la computadora de un miembro del personal. La desactivación y la reactivación no afectarán el límite mensual de páginas proporcionado por su licencia.

Desactivar (borrar) una licencia de software OCR

Abra el cliente de proyecto y abra cualquier proyecto.
Navegue a Administrador de configuraciones del proyecto > OCR.
Haga clic en el botón Revisar licencia para ver la información de la licencia de OCR.
Haga clic con el botón derecho en el número de serie de la licencia y seleccione Desactivar... en el menú emergente.

La licencia de OCR desactivada se puede trasladar a otra estación de trabajo, o se puede activar una licencia de OCR diferente desde la pantalla de OCR en el Administrador de Configuraciones del Proyecto.

Usuarios de máquinas virtuales

Si usted está utilizando una máquina virtual para usar la función OCR en Project Client, la licencia de software normal no funcionará. Solicite una licencia en línea y siga las instrucciones a continuación para activar y desactivar las licencias en línea.

Activar una licencia de OCR en línea

Abra el cliente de proyecto y abra cualquier proyecto.
Navegue a Administrador de configuraciones del proyecto > OCR.
Abra el archivo zip que ha recibido para su licencia.
1. Abra el archivo contraseña.txt. Copie la contraseña y péguela en el campo Contraseña . Haga clic en Guardar.
2. Haga clic en Agregar en el campoArchivo de licencia y elija el archivo en la carpeta zip con la extensión .ActivationToken.
Haga clic en OK en la parte inferior de la pantalla.
Cierre y luego reinicie el cliente de proyecto.

A continuación, la licencia aparecerá activada en la página de configuración de OCR en el Cliente del Proyecto.

Desactivar (eliminar) una licencia de OCR en línea

Haga clic con el botón derecho en el ícono de Project Client y seleccione Ejecutar como Administrador.
Abra cualquier proyecto.
Navegue a Administrador de Configuración del Proyecto > OCR.
Haga clic en el botón Borrar licencia en línea.
- Imagen:
Haga clic en OK en la parte inferior de la pantalla.

Configuración de OCR

Usando la configuración de reconocimiento óptico de caracteres (OCR), usted puede elegir uno o más idiomas para el procesamiento de OCR.

Nota: el «Modo rápido» está en desuso. La selección de esta opción no afectará la velocidad ni la precisión del procesamiento.

La configuración de OCR se gestiona por proyecto mediante el Administrador de Configuración de Proyectos. Cuando se activa la extensión de OCR, se muestra el código de licencia de OCR. Usted puede verificar la cantidad de páginas restantes que puede procesar en el mes y seleccionar uno o varios idiomas de reconocimiento para usar en el procesamiento de OCR.

El procesamiento OCR debe estar activado antes de que usted pueda usar esta opción de procesamiento. Para más información, consulte Activar OCR.

Cambie el idioma de reconocimiento

En el Cliente del Proyecto, seleccione la pestaña de su proyecto. En el panel de tareas izquierdo, en Otras tareas, haga clic en Editar configuración del proyecto.
Seleccione la ficha OCR. La página de OCR se muestra.
Haga clic en Cambiar en la sección de Opciones de OCR. El cuadro de diálogo Opciones de idioma de reconocimiento se abre.
Seleccione el idioma o los idiomas deseados. El idioma actual se muestra en el cuadro de texto en la parte superior del cuadro de diálogo. Las selecciones de idiomas adicionales se añaden al cuadro de texto, separadas por comas. Para eliminar un idioma de la lista, desmarque la casilla junto al idioma.
Nota: algunos idiomas no están soportados en combinación. Por ejemplo, el procesamiento de OCR puede no manejar algunos idiomas cuando se combina con chino, japonés o coreano. Si tiene más de una selección de idioma de reconocimiento y recibe un error al intentar procesar, es posible que deba seleccionar solo el idioma principal para el documento en particular
Haga clic en OK para guardar los cambios.

Generar transcripciones mediante OCR

Si tiene la extensión de OCR, puede utilizar el asistente Agregar objetos compuestos o la opción Agregar texto de OCR en las pestañas de Proyecto y Edición de elementos para generar transcripciones mediante OCR para archivos individuales, múltiples archivos u objetos compuestos.

Genere transcripciones mediante OCR con el Asistente para Agregar Objetos Compuestos

Los asistentes de objetos compuestos ofrecen una opción para generar transcripciones mediante OCR, si usted tiene la extensión OCR. Todos los asistentes de objetos compuestos proporcionan la opción OCR dentro de la pantalla Información de la página. También puede optar por crear un PDF durante el procesamiento de OCR, que se puede utilizar para imprimir.

Genere transcripciones usando OCR con un asistente de objetos compuestos

El administrador debe editar las propiedades de campo de la colección para habilitar la búsqueda de texto completo. El administrador puede agregar un nuevo campo para la transcripción o designar un campo existente como el campo de búsqueda de texto completo.
En la pestaña del proyecto, haga clic en Agregar objetos compuestos en la barra de tareas izquierda. Se muestra la pantalla Agregar múltiples objetos compuestos.
Seleccione un asistente para usar y haga clic en Agregar. Siga las pantallas del asistente.
En la pantalla de Información de la página, seleccione Generar transcripciones usando OCR.
Si lo desea, seleccione Crear PDF de impresión.
Cuando haya terminado con el asistente, podrá revisar el objeto compuesto yendo a la pestaña del proyecto y encontrando el objeto en la hoja de cálculo del proyecto.

Nota: Si elige crear un PDF para imprimir mientras realiza el OCR en un documento, se duplicará el número total de páginas utilizadas para el OCR.

Generar transcripciones mediante OCR con documentos del proyecto

La hoja de cálculo del proyecto y la pestaña de edición de documentos ofrecen otra opción para generar transcripciones mediante el uso de OCR, si usted tiene la extensión OCR. Puede realizar OCR en los documentos que seleccione en la hoja de cálculo del proyecto o abrir documentos y objetos compuestos en la pestaña de edición de documentos para agregar texto OCR.

Genere transcripciones usando OCR en la pestaña Proyecto

La búsqueda de texto completo debe estar habilitada en la colección. En la hoja de cálculo del proyecto, marque las casillas junto a los documentos para OCR.
En el menú Editar o en el menú Más acciones, haga clic en Agregar texto OCR.
Se mostrará una barra de progreso mientras se realiza el OCR. Cuando se completa, una pantalla de resumen muestra el resumen y cualquier error o advertencia.
Haga clic en Cerrar. El texto OCR se muestra en el campo de texto completo de los documentos.

Genere transcripciones usando OCR en la pestaña de edición de documentos

La búsqueda de texto completo debe estar habilitada en la colección. Desde la hoja de cálculo del proyecto, abra el documento u objeto compuesto en una nueva pestaña.
En el menú Editar o en el menú Más acciones, haga clic en Agregar texto OCR.
Para los objetos compuestos, puede optar por realizar OCR en todo el compuesto y crear un PDF impreso, o realizar OCR solo en las páginas seleccionadas. Para realizar OCR en las páginas seleccionadas dentro del objeto compuesto, haga clic en los nombres de las páginas mientras mantiene presionada la tecla Ctrl. Haga clic en Realizar OCR.
Se mostrará una barra de progreso mientras se realiza el OCR. Cuando se completa, el texto OCR se muestra en el campo de texto completo de las páginas del documento o del objeto compuesto.

Límites de páginas para el procesamiento de OCR

La extensión OCR de CONTENTdm le permite procesar un cierto número de páginas al mes, dependiendo de su nivel de licencia. (Puede comprobar el recuento de páginas revisando el límite de páginas en la pestaña OCR del Administrador de Configuración del Proyecto).

Las páginas se miden según el estándar internacional de papel A4: aproximadamente 8,27 pulgadas × 11,69 pulgadas, lo que equivale a 96,68 pulgadas cuadradas. El tamaño carta estándar de EE. UU. de 8,5 pulgadas x 11 pulgadas, que equivale a 93,5 pulgadas cuadradas, es tres pulgadas más pequeño que el A4 y cuenta como una página procesada. Si las páginas exceden el tamaño A4, usted recibirá una advertencia de que el procesamiento de la página excederá el tamaño de escaneo de una sola página y se contará como más de una página. Puede cancelar el proceso si no desea continuar. Si no desea que se le advierta sobre imágenes de tamaño excesivo en el futuro, puede optar por suprimir el mensaje de advertencia.

Si la página que está escaneando es más grande que A4, el número de páginas contadas será igual al área de la página dividida por el área de A4 (96,68 pulgadas). El resultado se redondea al siguiente número entero. Por ejemplo, si está procesando una página de tabloide de 11 pulgadas por 17 pulgadas, el área de esa página es de 187 pulgadas cuadradas. 187 se divide entre 96,68, resultando en 1,93. Esto significa que una página de 11 x 17 se contará como dos páginas procesadas.

Si conoce las dimensiones de su imagen en píxeles, utilice la siguiente fórmula para determinar el tamaño en pulgadas:

(Ancho de píxel) / (Resolución X) * (Altura de píxel) / (Resolución Y)

Por ejemplo, si tiene una imagen que fue escaneada a 72 píxeles por pulgada y la imagen tiene 1200 píxeles de ancho por 1600 píxeles de alto, utilizando la fórmula anterior (1200/72 x 1600/72), las dimensiones son 16,66 pulgadas de ancho x 22,22 pulgadas de alto (370,19 pulgadas cuadradas). Divida eso por el valor de A4, lo que da como resultado 3,82 páginas (o 4 páginas, redondeado al número entero más cercano).

Las pautas generales para las dimensiones de A4 en píxeles son:

72 ppp = 595 x 842 píxeles
300 ppp = 2480 x 3508 píxeles
600 ppp = 4960 x 7016 píxeles

La siguiente tabla es una referencia rápida para las fórmulas y dimensiones mencionadas anteriormente.

Tamaño de papel A4 en pulgadas:	8,27 x 11,69 (96,68 pulgadas cuadradas)
Para determinar el tamaño en pulgadas cuando se proporcionan píxeles:	(Ancho de píxel)/(Resolución X) * (Altura de píxel)/(Resolución Y)
Para determinar el número de páginas contadas para el procesamiento:	Área de la página/Área de A4 (96,8)