Amazon S3 metadatos del documento

Puede añadir metadatos (información adicional sobre un documento) a los documentos de un bucket de Amazon S3 mediante un archivo de metadatos. Cada archivo de metadatos está asociado a un documento indexado.

Los archivos de metadatos deben almacenarse en el mismo bucket que los archivos indexados. Puede especificar una ubicación dentro del depósito para sus archivos de metadatos mediante la consola o el S3Prefix campo del DocumentsMetadataConfiguration parámetro al crear una fuente de Amazon S3 datos. Si no especifica un prefijo de Amazon S3 , los archivos de metadatos deben almacenarse en la misma ubicación que los documentos indexados.

Si especifica un Amazon S3 prefijo para los archivos de metadatos, estarán en una estructura de directorios paralela a los documentos indexados. Amazon Kendra busca sus metadatos únicamente en el directorio especificado. Si no se leen los metadatos, compruebe que la ubicación del directorio coincide con la ubicación de los metadatos.

En los siguientes ejemplos se muestra cómo la ubicación del documento indexado se asigna a la ubicación del archivo de metadatos. Tenga en cuenta que la Amazon S3 clave del documento se añade al Amazon S3 prefijo de los metadatos y, a continuación, se añade el sufijo con el sufijo .metadata.json para formar la ruta del archivo de metadatos. Amazon S3 La Amazon S3 clave combinada, con el Amazon S3 prefijo y el .metadata.json sufijo de los metadatos, no debe tener más de 1024 caracteres en total. Se recomienda mantener la Amazon S3 clave por debajo de los 1000 caracteres para tener en cuenta los caracteres adicionales al combinar la clave con el prefijo y el sufijo.


Bucket name:
     s3://bucketName
Document path:
     documents
Metadata path:
     none
File mapping
     s3://bucketName/documents/file.txt -> 
        s3://bucketName/documents/file.txt.metadata.json


Bucket name:
     s3://bucketName
Document path:
     documents/legal
Metadata path:
     metadata
File mapping
     s3://bucketName/documents/legal/file.txt -> 
        s3://bucketName/metadata/documents/legal/file.txt.metadata.json

Los metadatos del documento se definen en un archivo JSON. El archivo debe ser un archivo de texto UTF-8 sin un marcador BOM. El nombre del archivo JSON debe ser <document>.<extension>.metadata.json. En este ejemplo, “document” es el nombre del documento al que se aplican los metadatos y “extension” es la extensión de archivo del documento. El ID del documento debe ser único en <document>.<extension>.metadata.json.

El contenido del archivo JSON sigue esta plantilla. Todos los atributos/campos son opcionales, por lo que no es necesario incluir todos los atributos. Debe proporcionar un valor para cada atributo que desee incluir; el valor no puede estar vacío. Si no especificas el_source_uri, los enlaces que aparecen Amazon Kendra en los resultados de la búsqueda apuntan al compartimento que contiene Amazon S3 el documento. DocumentIdse asigna al campo s3_document_id y es la ruta absoluta al documento en S3.


{
    "DocumentId": "S3 document ID, the S3 path to doc",
    "Attributes": {
        "_category": "document category",
        "_created_at": "ISO 8601 encoded string",
        "_last_updated_at": "ISO 8601 encoded string",
        "_source_uri": "document URI",
        "_version": "file version",
        "_view_count": number of times document has been viewed,
        "custom attribute key": "custom attribute value",
        additional custom attributes
    },
    "AccessControlList": [
         {
             "Name": "user name",
             "Type": "GROUP | USER",
             "Access": "ALLOW | DENY"
         }
    ],
    "Title": "document title",
    "ContentType": "For example HTML | PDF. For supported content types, see Types of documents."
}

Los campos de metadatos _created_at y _last_updated_at son fechas codificadas según la norma ISO 8601. Por ejemplo, 2012-03-25T12:30:10+01:00 es el formato de fecha y hora ISO 8601 para el 25 de marzo de 2012, a las 12.30 h (más 10 segundos) en la zona horaria de Europa Central.

Puede añadir información adicional al campo Attributes sobre un documento que utilice para filtrar consultas o agrupar las respuestas a las consultas. Para obtener más información, consulte Creación de campos de documento personalizados.

Puede utilizar el campo AccessControlList para filtrar la respuesta de una consulta. De esta forma, solo determinados usuarios y grupos tienen acceso a los documentos. Para obtener más información, consulte Filtrar por contexto de usuario.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Creación de una fuente Amazon S3 de datos

Control de acceso a las fuentes de Amazon S3 datos