pydatajson
==========

[![Coverage Status](https://coveralls.io/repos/github/datosgobar/pydatajson/badge.svg?branch=master)](https://coveralls.io/github/datosgobar/pydatajson?branch=master)
[![Build Status](https://travis-ci.org/datosgobar/pydatajson.svg?branch=master)](https://travis-ci.org/datosgobar/pydatajson)
[![PyPI](https://badge.fury.io/py/pydatajson.svg)](http://badge.fury.io/py/pydatajson)
[![Stories in Ready](https://badge.waffle.io/datosgobar/pydatajson.png?label=ready&title=Ready)](https://waffle.io/datosgobar/pydatajson)
[![Documentation Status](http://readthedocs.org/projects/pydatajson/badge/?version=stable)](http://pydatajson.readthedocs.io/es/stable/?badge=stable)

Paquete en python con herramientas para manipular y validar metadatos de catÃ¡logos de datos.

* Licencia: MIT license
* DocumentaciÃ³n: [https://pydatajson.readthedocs.io/es/stable](https://pydatajson.readthedocs.io/es/stable)

<!-- START doctoc generated TOC please keep comment here to allow auto update -->
<!-- DON'T EDIT THIS SECTION, INSTEAD RE-RUN doctoc TO UPDATE -->

## Indice

- [InstalaciÃ³n](#instalaci%C3%B3n)
- [Uso](#uso)
  - [Setup](#setup)
  - [Posibles validaciones de catÃ¡logos](#posibles-validaciones-de-cat%C3%A1logos)
  - [UbicaciÃ³n del catÃ¡logo a validar](#ubicaci%C3%B3n-del-cat%C3%A1logo-a-validar)
  - [Ejemplos](#ejemplos)
    - [Archivo data.json local](#archivo-datajson-local)
    - [Archivo data.json remoto](#archivo-datajson-remoto)
    - [Diccionario (data.json deserializado)](#diccionario-datajson-deserializado)
- [Tests](#tests)
- [CrÃ©ditos](#cr%C3%A9ditos)

<!-- END doctoc generated TOC please keep comment here to allow auto update -->

Este README cubre los casos de uso mÃ¡s comunes para la librerÃa, junto con ejemplos de cÃ³digo, pero sin mayores explicaciones. Para una versiÃ³n mÃ¡s detallada de los comportamientos, revise la [documentaciÃ³n oficial](http://pydatajson.readthedocs.io) o el [Manual de Uso](docs/MANUAL.md) de la librerÃa.

## InstalaciÃ³n

* **ProducciÃ³n:** Desde cualquier parte

```bash
$ pip install pydatajson
```

* **Desarrollo:** Clonar este repositorio, y desde su raÃz, ejecutar:
```bash
$ pip install -e .
```

A partir de la versiÃ³n 0.2.x (Febrero 2017), la funcionalidad del paquete se mantendrÃ¡ fundamentalmente estable hasta futuro aviso. De todas maneras, si piensa utilizar esta librerÃa en producciÃ³n, le sugerimos fijar la versiÃ³n que emplea en un archivo `requirements.txt`.

## Usos

La librerÃa cuenta con funciones para tres objetivos principales:
- **validaciÃ³n de metadatos de catÃ¡logos** y los datasets,
- **generaciÃ³n de reportes** sobre el contenido y la validez de los metadatos de catÃ¡logos y datasets, y
- **transformaciÃ³n de archivos de metadatos** al formato estÃ¡ndar (JSON).

A continuaciÃ³n se proveen ejemplos de cada uno de estas acciones. Si desea analizar un flujo de trabajo mÃ¡s completo, refiÃ©rase a los Jupyter Notebook de [`samples/`](samples/)

### Setup

`DataJson` utiliza un esquema default que cumple con el perfil de metadatos recomendado en la [GuÃa para el uso y la publicaciÃ³n de metadatos (v0.1)](https://github.com/datosgobar/paquete-apertura-datos/raw/master/docs/Gu%C3%ADa%20para%20el%20uso%20y%20la%20publicaci%C3%B3n%20de%20metadatos%20(v0.1).pdf) del [Paquete de Apertura de Datos](https://github.com/datosgobar/paquete-apertura-datos).

```python
from pydatajson import DataJson

dj = DataJson()
```

Si se desea utilizar un esquema alternativo, por favor, consulte la secciÃ³n "Uso > Setup" del [manual oficial](docs/MANUAL.md), o la documentaciÃ³n oficial.

### ValidaciÃ³n de metadatos de catÃ¡logos

- Si se desea un **resultado sencillo (V o F)** sobre la validez de la estructura del catÃ¡logo, se utilizarÃ¡ **`is_valid_catalog(catalog)`**.
- Si se desea un **mensaje de error detallado**, se utilizarÃ¡ **`validate_catalog(catalog)`**.

Por conveniencia, la carpeta [`tests/samples/`](tests/samples/) contiene varios ejemplos de `data.json`s bien y mal formados con distintos tipos de errores.

#### Archivo data.json local

```python
from pydatajson import DataJson

dj = DataJson()
catalog = "tests/samples/full_data.json"
validation_result = dj.is_valid_catalog(catalog)
validation_report = dj.validate_catalog(catalog)

print validation_result
True

print validation_report
{
    "status": "OK",
    "error": {
        "catalog": {
            "status": "OK",
            "errors": [],
            "title": "Datos Argentina"
        },
        "dataset": [
            {
                "status": "OK",
                "errors": [],
                "title": "Sistema de contrataciones electrÃ³nicas"
            }
        ]
    }
}
```

#### Otros formatos

`pydatajson` puede interpretar catÃ¡logos tanto en formato JSON como en formato XLSX (siempre y cuando se hayan creado utilizando la [plantilla](samples/plantilla_data.xlsx), estÃ©n estos almacenados localmente, o remotamente a travÃ©s de URLs de descarga directa. TambiÃ©n es capaz de interpretar diccionarios de Python con metadatos de catÃ¡logos.

```python
from pydatajson import DataJson

dj = DataJson()
catalogs = [
    "tests/samples/full_data.json", # archivo JSON local
    "http://181.209.63.71/data.json", # archivo JSON remoto
    "tests/samples/catalogo_justicia.xlsx", # archivo XLSX local
    "https://raw.githubusercontent.com/datosgobar/pydatajson/master/tests/samples/catalogo_justicia.xlsx", # archivo XLSX remoto
    {
        "title": "CatÃ¡logo del Portal Nacional",
	"description" "Datasets abiertos para el ciudadano."
        "dataset": [...],
	(...)
    } # diccionario de Python
]

for catalog in catalogs:
    validation_result = dj.is_valid_catalog(catalog)
    validation_report = dj.validate_catalog(catalog)
```

### GeneraciÃ³n de reportes y configuraciones del Harvester

Si ya se sabe que se desean cosechar todos los datasets [vÃ¡lidos] de uno o varios catÃ¡logos, se pueden utilizar directamente el mÃ©todo `generate_harvester_config()`, proveyendo `harvest='all'` o `harvest='valid'` respectivamente. Si se desea revisar manualmente la lista de datasets contenidos, se puede invocar primero `generate_datasets_report()`, editar el reporte generado y luego proveÃ©rselo a `generate_harvester_config()`, junto con la opciÃ³n `harvest='report'`.

#### Crear un archivo de configuraciÃ³n eligiendo manualmente los datasets a federar

```python
catalogs = ["tests/samples/full_data.json", "http://181.209.63.71/data.json"]
report_path = "path/to/report.xlsx"
dj.generate_datasets_report(
    catalogs=catalogs,
    harvest='none', # El reporte tendrÃ¡ `harvest==0` para todos los datasets
    export_path=report_path
)

# A continuaciÃ³n, se debe editar el archivo de Excel 'path/to/report.xlsx',
# cambiando a '1' el campo 'harvest' en los datasets que se quieran cosechar.

config_path = 'path/to/config.csv'
dj.generate_harvester_config(
    harvest='report',
    report=report_path,
    export_path=config_path
)
```
El archivo `config_path` puede ser provisto a Harvester para federar los datasets elegidos al editar el reporte intermedio `report_path`.

Por omisiÃ³n, en la salida de `generate_harvester_config` la frecuencia de actualizaciÃ³n deseada para cadad dataset serÃ¡ "R/P1D", para intentar cosecharlos diariamente. De preferir otra frecuencia (siempre y cuando sea vÃ¡lida segÃºn ISO 8601), se la puede especificar a travÃ©s del parÃ¡metro opcional `frequency`. Si especifica expÄºicitamente `frequency=None`, se conservarÃ¡n las frecuencias de actualizaciÃ³n indicadas en el campo `accrualPeriodicity` de cada dataset.

#### Crear un archivo de configuraciÃ³n que incluya Ãºnicamente los datasets con metadata vÃ¡lida

Conservando las variables anteriores:

```python
dj.generate_harvester_config(
    catalogs=catalogs,
    harvest='valid'
    export_path='path/to/config.csv'
)
```

### TransformaciÃ³n de un archivo de metados XLSX al estÃ¡ndar JSON

```python
from pydatajson.readers import read_catalog
from pydatajson.writers import write_json
from pydatajson import DataJson

dj = DataJson()
catalogo_xlsx = "tests/samples/catalogo_justicia.xlsx"

catalogo = read_catalog(catalogo_xlsx)
write_json(obj=catalogo, path="tests/temp/catalogo_justicia.json")
```

## Tests

Los tests se corren con `nose`. Desde la raÃz del repositorio:

**ConfiguraciÃ³n inicial:**

```bash
$ pip install -r requirements_dev.txt
$ mkdir tests/temp
```

**Correr la suite de tests:**

```bash
$ nosetests
```

## Recursos de interÃ©s

* [EstÃ¡ndar ISO 8601 - Wikipedia](https://es.wikipedia.org/wiki/ISO_8601)
* [JSON SChema - Sitio oficial del estÃ¡ndar](http://json-schema.org/)
* [DocumentaciÃ³n completa de `pydatajson` - Read the Docs](http://pydatajson.readthedocs.io)
* [GuÃa para el uso y la publicaciÃ³n de metafatos](https://docs.google.com/document/d/1Z7XhpzOinvITN_9wqUbOYpceDzic3KTOHLtHcGCPAwo/edit)

## CrÃ©ditos

El validador de archivos `data.json` desarrollado es mayormente un envoltorio (*wrapper*) alrededor de la librerÃa [`jsonschema`](https://github.com/Julian/jsonschema), que implementa el vocabulario definido por [JSONSchema.org](http://json-schema.org/) para anotar y validar archivos JSON.