Estructura de archivos NDJSON
Los archivos NDJSON generados por el ETL contienen los datos estructurados que utiliza la API Georef para indexar entidades geográficas. El formato NDJSON (Newline Delimited JSON) consiste en un archivo de texto donde cada línea es un objeto JSON válido, lo que permite procesar grandes volúmenes de datos de manera eficiente, línea por línea.
Formato del archivo
Cada archivo contiene:
- Una primera línea con los metadatos generales del archivo:
{
"timestamp": "1532435389",
"fecha_creacion": "2018-07-24 12:29:49.813835+00:00",
"version": "X.0.0",
"cantidad": 100
}
- Una serie de líneas subsiguientes, donde cada línea representa una entidad geográfica con su información estructurada.
Contenido común de las entidades
Aunque cada archivo corresponde a un tipo diferente de entidad (provincias, municipios, calles, etc.), la mayoría de los objetos comparten una estructura común con los siguientes campos:
- id: Identificador único y oficial de la entidad.
- nombre: Denominación normalizada.
- nombre_completo (si aplica): Versión extendida de la denominación, con prefijos como “Municipio de...” o “Provincia de...”.
- categoria: Tipo de entidad (ej. “Provincia”, “Partido”, “Localidad simple”).
- centroide: Coordenadas (latitud y longitud) del centro aproximado de la entidad.
- geometria: Representación geoespacial completa en formato GeoJSON. El sistema de coordenadas utilizado es WGS84 (EPSG:4326).
- provincia, departamento, municipio (según corresponda): Objeto anidado que indica la unidad territorial que contiene a la entidad. Incluye ID, nombre y porcentaje de intersección cuando aplica.
- fuente: Institución oficial proveedora del dato (ej. IGN, INDEC, ARBA, BAHRA).
Cada tipo de entidad puede incluir campos adicionales específicos según su naturaleza (por ejemplo, rangos de altura en calles, categoría censal en localidades, ID compuesto en intersecciones, etc.).
Ventajas del formato NDJSON
- Permite el procesamiento incremental, línea por línea, ideal para archivos de gran tamaño.
- Facilita su uso en entornos como Python, jq, bases de datos NoSQL, y flujos de transformación en streaming.
- Es el único formato que incluye geometrías completas, esenciales para análisis geoespacial.