History¶

0.2.17 (2017-07-18)¶

Agrega un método para convertir un intervalo repetido (Ej.: R/P1Y) en su representación en prosa (“Anualmente”).
Agrego método que estima los datasets federados que fueron borrados de un catálogo específico. Se consideran datasets federados y borrados de un catálogo específico aquellos cuyo publisher.name existe dentro de algún otro dataset todavía presente en el catálogo específico.

Modifica la definición de dataset actualizado usando el campo “modified” del perfil de metadatos. Si este campo no está presente en la metadata de un dataset, se lo considera desactualizado.

Modifica la definición de dataset usada para comparar limitándola a la comparación por “title” y “publisher_name”.

Se agrega en core el método DataJson.generate_catalogs_indicators, que genera indicadores de monitoreo de catálogos, recopilando información sobre, entre otras cosas, su validez, actualidad y formato de sus contenidos.

Correción ortográfica del listado de frecuencias de actualización admisibles (pydatajson/schemas/accrualPeriodicity.json).

Hotfixes para que pydatajson sea deployable en nuevos entornos donde el setup.py estaba fallando.

Se agrega una nueva función a readers, read_ckan_catalog, que traduce los metadatos que disponibiliza la Action API v3 de CKAN al estándar data.json. Esta función no está integrada a read_catalog.
Se modifican todos los esquemas de validación, de modo que los campos opcionales de cualquier tipo y nivel acepten strings vacías.

Se reestructura la librería en 4 módulos: core, readers, writers y helpers. Toda la funcionalidad se mantiene intacta, pero algunas funciones muy utilizadas cambian de módulo. En particular, pydatajson.pydatajson.read_catalog es ahora pydatajson.readers.read_catalog, y pydatajson.xlsx_to_json.write_json_catalog es ahora pydatajson.writers.write_json_catalog (o pydatajson.writers.write_json).
Se agrega el parámetro frequency a pydatajson.DataJson.generate_harvester_config, que controla la frecuencia de cosecha que se pretende de los datasets a incluir en el archivo de configuración. Por omisión, se usa 'R/P1D' (diariamente) para todos los datasets.
Se agrega la carpeta samples/, con dos rutinas de transformación y reporte sobre catálogos de metadatos en formato XLSX.

Se agrega el módulo xlsx_to_json, con dos métodos para lectura de archivos locales o remotos, sean JSON genéricos (xlsx_to_json.read_json()) o metadatos de catálogos en formato XLSX (read_local_xlsx_catalog()).
Se agrega el método pydatajson.read_catalog() que interpreta todos las representaciones externas o internas de catálogos conocidas, y devuelve un diccionario con sus metadatos.

Se incorpora el método DataJson.generate_harvestable_catalogs(), que filtra los datasets no deseados de un conjunto de catálogos.
Se agrega el parámetro harvest a los métodos DataJson.generate_harvestable_catalogs(), DataJson.generate_datasets_report() y DataJson.generate_harvester_config(), para controlar el criterio de elección de los datasets a cosechar.
Se agrega el parámetro export_path a los métodos DataJson.generate_harvestable_catalogs(), DataJson.generate_datasets_report() y DataJson.generate_harvester_config(), para controlar la exportación de sus resultados.

Se incorpora el método DataJson.generate_datasets_report(), que reporta sobre los datasets y la calidad de calidad de metadatos de un conjunto de catálogos.
Se incorpora el método DataJson.generate_harvester_config(), que crea archivos de configuración para el Harvester a partir de los reportes de generate_datasets_report().

Al resultado de DataJson.validate_catalog() se le incorpora una lista ("errors") con información de los errores encontrados durante la validación en cada nivel de jerarquía (“catalog” y cada elemento de “dataset”)

Se incorpora validación de tipo y formato de campo
Los métodos DataJson.is_valid_catalog() y DataJson.validate_catalog() ahora aceptan un dict además de un path/to/data.json o una url a un data.json.

Primera versión para uso productivo del paquete.

La instalación via pip install debería reconocer correctamente la ubicación de los validadores por default.
El manejo de data.json’s ubicados remotamente se hace en función del resultado de urlparse.urlparse
El formato de respuesta de validate_catalog se adecúa a la última especificación (ver samples/validate_catalog_returns.json.

Intentar que la instalación del paquete sepa donde están instalados los schemas por default