Bibliotecas de SerDe JSON
En Athena, puede utilizar dos bibliotecas SerDe para deserializar datos JSON. La deserialización convierte los datos JSON para que se puedan serializar (escribir) en un formato diferente como Parquet u ORC.
nota
Las bibliotecas de Hive y OpenX esperan que los datos JSON estén en una sola línea (sin formato), con registros separados por un carácter de nueva línea.
Dado que Amazon Ion es un superconjunto de JSON, puede utilizar el SerDe de Amazon Ion Hive para consultar conjuntos de datos JSON que no sean de Amazon Ion. A diferencia de otras bibliotecas de SerDe JSON de OpenX y Hive, el SerDe de Amazon Ion no espera que cada fila de datos esté en una sola línea. Esta característica resulta útil si desea consultar conjuntos de datos JSON que presentan “un buen formato de impresión” o dividir los campos en una fila con caracteres de nueva línea.
Nombres de las bibliotecas
Utilice una de las siguientes:
org.apache.hive.hcatalog.data.JsonSerDe
org.openx.data.jsonserde.JsonSerDe
com.amazon.ionhiveserde.IonHiveSerDe
Recursos adicionales de
Para obtener más información sobre cómo trabajar con JSON y JSON anidado en Athena, consulte los siguientes recursos:
-
Crear tablas en Amazon Athena a partir de JSON anidado y asignaciones por medio de JSONSerDe
(Blog de macrodatos en AWS) -
Recibo errores cuando intento leer datos JSON en Amazon Athena
(artículo del centro de conocimiento de AWS) -
hive-json-schema
(GitHub): herramienta escrita en Java que genera instrucciones CREATE TABLE
de documentos JSON de ejemplo. Las instruccionesCREATE TABLE
que se generan utilizan SerDe JSON de OpenX.