Skip to content

Commit

Permalink
Update QA documentation
Browse files Browse the repository at this point in the history
  • Loading branch information
vnccgmv committed Mar 21, 2024
1 parent ca00e48 commit afd5bcf
Show file tree
Hide file tree
Showing 7 changed files with 2,235 additions and 2,179 deletions.
86 changes: 43 additions & 43 deletions docs/notebooks/aemet_qa.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -8,8 +8,8 @@
"<!-- <div style=\"background-image: url(https://www.emtmadrid.es/getattachment/da3be644-cb9d-44db-8011-e3f40f1c5c34); opacity: 0.2\"/> -->\n",
"<img src=\"https://www.gmv.com/sites/default/files/content/image/2021/11/03/115/gmv_rgbredblack.png\" alt=\"GMV Logo\" style=\"width: 200px\">\n",
"<img src=\"https://www.upm.es/sfs/Rectorado/Gabinete%20del%20Rector/Logos/UPM/CEI/LOGOTIPO%20leyenda%20color%20JPG%20p.png\" alt=\"UPM Logo\" style=\"float: right; width: 200px\">\n",
"<h1>QA: AEMET dataset 🌥️</h1>\n",
"<h4 style=\"text-align: right\">INESDATA-MOV</h4>\n",
"<h1><b>QA: AEMET dataset 🌥️</b></h1>\n",
"<h5 style=\"text-align: right\">INESDATA-MOV</h5>\n",
"</div>\n",
"\n",
"# Análisis de calidad\n",
Expand All @@ -20,14 +20,24 @@
"* Correlaciones entre variables\n",
"\n",
"La **calidad del dato** se refiere a la medida en que los datos son adecuados para su uso, por lo que es esencial para garantizar la confiabilidad y utilidad de los datos en diversas aplicaciones y contextos. Así, en este notebook se evaluarán también las cinco dimensiones de la calidad del dato:\n",
"1. **Exactitud**: Los datos exactos son libres de errores y representan con precisión la realidad que están destinados a describir. Esto implica que los datos deben ser correctos y confiables para su uso en análisis y toma de decisiones.\n",
"2. **Completitud**: Los datos completos contienen toda la información necesaria para el análisis y no tienen valores faltantes o nulos que puedan afectar la interpretación o validez de los resultados.\n",
"3. **Consistencia**: Los datos consistentes mantienen el mismo formato, estructura y significado en todas las instancias, lo que facilita su comparación y análisis sin ambigüedad.\n",
"4. **Validez**: Medida en que los datos son precisos y representan con exactitud la realidad que están destinados a describir. \n",
"5. **Unicidad**: Ausencia de duplicados o registros repetidos en un conjunto de datos. Los datos son únicos cuando cada registro o entidad en el conjunto de datos es único y no hay duplicados presentes.\n",
"\n",
"> Este dataset ha sido creado ejecutando el comando `create` del paquete de Python [`inesdata_mov_datasets`](https://github.com/oeg-upm/inesdata-mov-data-generation).\n",
"> Para poder ejecutar este comando es necesario haber ejecutado antes el comando `extract`, que realiza la extracción de datos de la API de la AEMET y los almacena en Minio. El comando `create` se encargaría de descargar dichos datos y unirlos todos en un único dataset."
"1. **Unicidad**: Ausencia de duplicados o registros repetidos en un conjunto de datos. Los datos son únicos cuando cada registro o entidad en el conjunto de datos es único y no hay duplicados presentes.\n",
"2. **Exactitud**: Los datos exactos son libres de errores y representan con precisión la realidad que están destinados a describir. Esto implica que los datos deben ser correctos y confiables para su uso en análisis y toma de decisiones.\n",
"3. **Completitud**: Los datos completos contienen toda la información necesaria para el análisis y no tienen valores faltantes o nulos que puedan afectar la interpretación o validez de los resultados.\n",
"4. **Consistencia**: Los datos consistentes mantienen el mismo formato, estructura y significado en todas las instancias, lo que facilita su comparación y análisis sin ambigüedad.\n",
"5. **Validez**: Medida en que los datos son precisos y representan con exactitud la realidad que están destinados a describir. "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<div class=\"admonition info\">\n",
"<p class=\"admonition-title\">Nota</p>\n",
"<p>\n",
"Este dataset ha sido creado ejecutando el comando <code>create</code> del paquete de Python <a href=\"https://github.com/oeg-upm/inesdata-mov-data-generation\"><code>inesdata_mov_datasets</code></a>.<br>\n",
"Para poder ejecutar este comando es necesario haber ejecutado antes el comando <code>extract</code>, que realiza la extracción de datos de la API de la AEMET y los almacena en Minio. El comando <code>create</code> se encargaría de descargar dichos datos y unirlos todos en un único dataset.\n",
"</p>\n",
"</div>"
]
},
{
Expand Down Expand Up @@ -74,13 +84,6 @@
"AEMET_DATA_PATH"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Cada fila de este dataset representa la meteorología de Madrid para una determinada fecha y hora concretos."
]
},
{
"cell_type": "code",
"execution_count": 3,
Expand Down Expand Up @@ -115,7 +118,19 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"> **NOTA**: Vamos a analizar la calidad del dataset generado para el día 13 de marzo, que es el más completo."
"**Cada fila de este dataset representa la meteorología de Madrid para una determinada fecha y hora concretos.**"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"<div class=\"admonition warning\">\n",
"<p class=\"admonition-title\">-</p>\n",
"<p>\n",
"Vamos a analizar la calidad del dataset generado solamente para el día 13 de marzo, en el futuro dispondremos de más días.\n",
"</p>\n",
"</div>"
]
},
{
Expand Down Expand Up @@ -780,7 +795,8 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"### Unicidad"
"### Unicidad\n",
"Como hemos comentado anteriormente, **cada fila de este dataset representa la meteorología de Madrid para una determinada fecha y hora concretos.** Por tanto, las claves primarias de este dataset se conformarán teniendo en cuenta dichos atributos:"
]
},
{
Expand Down Expand Up @@ -816,7 +832,7 @@
"cell_type": "markdown",
"metadata": {},
"source": [
"### Exactitud"
"### Exactitud y Completitud"
]
},
{
Expand All @@ -828,22 +844,6 @@
"# TODO"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Completitud"
]
},
{
"cell_type": "code",
"execution_count": 20,
"metadata": {},
"outputs": [],
"source": [
"# TODO"
]
},
{
"cell_type": "markdown",
"metadata": {},
Expand All @@ -853,7 +853,7 @@
},
{
"cell_type": "code",
"execution_count": 21,
"execution_count": 20,
"metadata": {},
"outputs": [],
"source": [
Expand All @@ -869,13 +869,13 @@
},
{
"cell_type": "code",
"execution_count": 22,
"execution_count": 21,
"metadata": {},
"outputs": [
{
"data": {
"application/vnd.jupyter.widget-view+json": {
"model_id": "566f04f26ff740b0aca44fbf6904a635",
"model_id": "337bbd5f42a840a9807b15875f2713ec",
"version_major": 2,
"version_minor": 0
},
Expand All @@ -889,7 +889,7 @@
{
"data": {
"application/vnd.jupyter.widget-view+json": {
"model_id": "453f79212641434f94b1b1836c78d667",
"model_id": "06ac49f8a09847bdbeb84d34569557c9",
"version_major": 2,
"version_minor": 0
},
Expand All @@ -903,7 +903,7 @@
{
"data": {
"application/vnd.jupyter.widget-view+json": {
"model_id": "f49b3081f3ad46b5a03f736ea11d7fdc",
"model_id": "2609894af6524e40bcc68161a1e3ac11",
"version_major": 2,
"version_minor": 0
},
Expand All @@ -917,7 +917,7 @@
{
"data": {
"application/vnd.jupyter.widget-view+json": {
"model_id": "a291d108d65048b7a1abb7121ae9feed",
"model_id": "2791878c9bab469487f6775560ce40b5",
"version_major": 2,
"version_minor": 0
},
Expand Down Expand Up @@ -972,7 +972,7 @@
},
{
"cell_type": "code",
"execution_count": 23,
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
Expand Down
Loading

0 comments on commit afd5bcf

Please sign in to comment.