Trabaje con archivos PDF
El Formato de Documento Portátil (PDF) es un formato creado por Adobe® y utilizado para la distribución e intercambio de documentos electrónicos.
Nota:
- CONTENTdm proporciona funciones para el procesamiento eficiente de documentos nacidos digitales en formato PDF. Los archivos PDF y los objetos compuestos de PDF pueden mostrarse en línea en el Visor de documentos y el Visor de Objetos Compuestos utilizando Adobe Reader®.
- Las características de PDF incluyen: la conversión automática de archivos PDF de varias páginas en objetos compuestos, la creación de imágenes en miniatura a partir de archivos PDF y la extracción completa de texto. Además, las páginas de un objeto compuesto generadas automáticamente a partir de un archivo PDF no se contarán en el número total de documentos en el servidor.
- Antes de que usted decida utilizar PDF en lugar de otro formato, considere si sus materiales de origen se adaptan bien a este formato y si la experiencia del usuario final se optimizaría utilizando PDF. Por ejemplo, los archivos PDF son ideales para documentos que fueron creados inicialmente como documentación digital, como tesis y actas de consejos municipales. Los archivos PDF no son eficientes ni proporcionan una experiencia óptima al usuario final para imágenes escaneadas, libros, mapas o periódicos.
- Además, el PDF no es ideal para imágenes escaneadas porque un documento que ha sido escaneado no contiene texto incrustado automáticamente. Para las imágenes escaneadas, usted puede utilizar la Extensión OCR de CONTENTdm para generar texto completo. Los archivos PDF creados a partir de imágenes pueden ser muy grandes y lentos para descargar para ver en línea. Para mejorar la experiencia del usuario final, puede utilizar CONTENTdm para crear imágenes de visualización JPEG2000 o JPEG a partir de archivos TIFF escaneados, en lugar de convertir los archivos TIFF a archivos PDF.
- Para ver archivos PDF y objetos compuestos de PDF en el Cliente de Proyecto, debe disponer de Adobe Reader. Si aún no está instalado, instale Adobe Reader.
Precaución: Los PDF protegidos con contraseña y cifrados no se pueden ingerir en el cliente de proyecto de CONTENTdm.
Acerca de los archivos PDF
Un único archivo PDF puede contener muchas páginas. Independientemente del número de páginas, es un archivo único y se sube como un solo archivo. Puede importar varios archivos PDF utilizando el asistente Agregar varios documentos.
Dependiendo de cómo esté configurada su colección, los archivos PDF de varias páginas se pueden agregar a su colección para ser vistos como documentos individuales o, si la conversión a PDF está habilitada, se pueden convertir automáticamente en objetos compuestos de PDF.
Nota: Para garantizar una experiencia óptima al usuario final, los archivos PDF (o las páginas de un objeto compuesto) de más de 20 MB no se cargan en línea en ninguno de los visores de documentos. Estos archivos más grandes pueden guardarse en el escritorio o abrirse fuera del navegador.
Otra forma en que los archivos PDF se diferencian de otros archivos es que el texto de los archivos PDF se extrae y se coloca en un campo de búsqueda de texto completo cuando los archivos PDF son aprobados y añadidos a una colección. La extracción automática de texto ocurre cuando:
Nota: si su archivo PDF se creó a partir de un documento digital nativo, como un archivo de Microsoft Word, casi siempre tendrá texto incrustado. Si su archivo PDF fue creado a partir de imágenes TIFF escaneadas, no contiene texto incrustado a menos que haya realizado el paso adicional de realizar OCR en la imagen (o archivo PDF) y haya añadido ese texto al PDF.
CONTENTdm admite la funcionalidad de OCR integrada a través de la Extensión OCR. Utilizando la extensión OCR, se puede generar texto completo a partir de archivos JPEG2000, JPEG, PNG, GIF y TIFF. El OCR no es compatible con los archivos PDF. (La extracción automática de texto para archivos PDF mencionada anteriormente es una funcionalidad independiente y no requiere la extensión OCR.)
- La extensión de archivo del documento es .pdf.
- La colección a la que se está añadiendo el PDF tiene un campo de búsqueda de texto completo.
- El campo de búsqueda de texto completo está vacío cuando el documento se agrega a la colección.
- El texto está incrustado en el archivo PDF. (Para comprobar si su archivo PDF tiene texto incrustado, guárdelo como un archivo .txt archivo. Si el archivo de texto contiene el texto, entonces el PDF tiene texto incrustado.
Las imágenes en miniatura se pueden generar automáticamente para archivos PDF en función de la primera página del PDF, o usted puede especificar una miniatura personalizada.
Archivos PDF de un solo documento
Los archivos PDF de un solo documento se crean para archivos PDF que solo contienen una página. Los archivos PDF de un solo documento también se crean por defecto para los archivos PDF de varias páginas, a menos que el administrador de CONTENTdm haya configurado la colección para la conversión de PDF. (Esta configuración se puede activar y desactivar para cada colección). Puede anular la configuración de la colección en el servidor editando los ajustes de Procesamiento en el Administrador de Configuración del Proyecto.
Objetos compuestos de PDF
Los objetos compuestos PDF (del tipo monografía) se crean automáticamente cuando se añaden y aprueban archivos PDF de varias páginas a una colección, si esa colección se ha configurado para habilitar la conversión de PDF o si usted ha configurado los ajustes de Procesamiento en el Administrador de configuración del proyecto.
El orden de las páginas del objeto compuesto PDF coincide con el orden de las páginas del archivo PDF original de múltiples páginas. Cada página del archivo PDF tiene un registro de metadatos después de ser añadida a una colección, pero el documento digital asociado a ella en CONTENTdm es virtual (es decir, un enlace a la página relacionada en el archivo PDF). Las páginas individuales de los archivos PDF no existen por separado en el servidor; se extraen y se muestran solo cuando el usuario las solicita. Esto mejora la velocidad de acceso del usuario final porque no es necesario descargar todo el archivo PDF para mostrar la página solicitada. No puede establecer permisos en páginas individuales. Tampoco puede editar las páginas individuales de los objetos compuestos de PDF a menos que elimine el archivo PDF de la colección, edite el PDF original y luego lo agregue nuevamente a la colección.
Cuando se agrega un PDF de varias páginas a un proyecto en el Cliente de Proyecto, puede crear metadatos compuestos a nivel de objeto editando el registro en la vista de hoja de cálculo del proyecto o en la pestaña Edición de documento. Cuando se añade el archivo PDF de varias páginas a la colección, se extrae el texto de cada página y se añade al campo de texto completo en los registros de metadatos a nivel de página asociados.
Las páginas del objeto compuesto se nombran según los ajustes de configuración de la colección o los ajustes de procesamiento de PDF que usted haya especificado mediante el Administrador de Configuración del Proyecto en el Cliente del Proyecto. También puede renombrar páginas individuales en la pestaña de edición de documentos.
Si elige generar automáticamente miniaturas para el objeto compuesto PDF, se crearán miniaturas para cada página. La miniatura que representa el objeto compuesto PDF en sí se basa en la primera página del archivo PDF. (Si elige utilizar una miniatura personalizada para un objeto compuesto PDF, la miniatura personalizada se usará para el objeto compuesto, así como para cada página del objeto).
Importación de archivos PDF de un solo documento
Puede importar archivos PDF para mostrarlos en sus colecciones como documentos, ya sea que contengan una o más páginas.
Importar un PDF de un solo documento
Nota: Usted puede importar varios archivos PDF de un solo documento mediante el asistente para Agregar varios documentos.
- Si desea ver el PDF en el cliente de proyecto, confirme que Adobe Reader está instalado en su equipo.
- Confirme que la extensión del archivo sea .pdf.
- Si su archivo PDF contiene más de una página, verifique la configuración de su proyecto y asegúrese de que la conversión de PDF esté desactivada para archivos PDF de varias páginas.
- Para más información, consulte Procesamiento.
-
Nota: Confirme que el archivo PDF no esté cifrado ni bloqueado. Si está cifrado o bloqueado, es posible que no se genere una miniatura y no se extraiga el texto.
- Siga las instrucciones para agregar un documento. Consulte Añadir un material para obtener más información.
Cuando se añade el archivo, se genera automáticamente una miniatura. (Como alternativa, usted puede utilizar Imágenes y miniaturas para seleccionar una miniatura personalizada para todos los archivos PDF).
Cuando se añade el PDF al proyecto, se extraen los primeros 128 000 caracteres de un byte (64 000 caracteres de doble byte) del PDF y se colocan en el campo de búsqueda de texto completo. Si el texto en el PDF es más largo que eso, el texto se trunca.
Si el campo de búsqueda de texto completo ya contiene datos, el texto no se extrae.
Importación de archivos PDF de varias páginas como objetos compuestos
Usted puede importar archivos PDF de varias páginas para mostrarlos en sus colecciones en el Visor de objetos compuestos.
Importe archivos PDF de varias páginas como un objeto compuesto
Nota: Usted puede importar un lote de archivos PDF de varias páginas utilizando el asistente Agregar Múltiples documentos.
- Confirme que la extensión del archivo sea .pdf.
- Verifique la configuración de su proyecto y confirme que la conversión de PDF esté habilitada para archivos PDF de varias páginas. También puede confirmar la configuración de calidad de impresión de PDF. Para más información, consulte Procesamiento.
-
Nota: Confirme que el archivo PDF no esté cifrado ni bloqueado. Si está cifrado o bloqueado, es posible que no se genere una miniatura, no se extraiga el texto y se agregue como un archivo PDF de un solo documento. No puede crear un objeto compuesto de PDF a partir de un archivo PDF cifrado o bloqueado.
-
- Siga las instrucciones para agregar un documento. Consulte Añadir un material para obtener más información.
Cuando se añade el archivo, las miniaturas se generan automáticamente. (Como alternativa, usted puede utilizar Imágenes y miniaturas para seleccionar una miniatura personalizada para todos los archivos PDF.)
Cuando se añade el objeto compuesto PDF al proyecto, el texto de cada página (hasta 128 000 caracteres de un byte o 64 000 caracteres de dos bytes) se extrae del PDF y se coloca en el campo de búsqueda de texto completo para el registro de metadatos de cada página.
La funcionalidad de PDF de CONTENTdm utiliza la Adobe® PDF Library™. Adobe, Adobe PDF Library y el logotipo de Adobe son marcas comerciales de Adobe Systems Incorporated.
