La función “Facetas” es una forma de visualización de los datos, que permite el tratamiento en bloque de grupos de registros. Las facetas se pueden aplicar a celdas que contengan cualquier tipo de texto, números o fechas.
Ubique la columna "kingdom"
y haga click sobre menu:la ▼ azul[]. Dentro de “Facetas”, escoja “Faceta de texto”, como se muestra a continuación (Figura 12a). Se abrirá entonces a la izquierda una ventana con la faceta (Figura 12b).
En dicha ventana de faceta, puede ordenar los valores alfabéticamente (haciendo click sobre “A-Z”) o según el número de registros asociados a cada valor (haciendo click sobre “conteo”).
En la lista de valores podemos ver que hay algunos errores. Para corregirlos coloque el cursor sobre el valor que desea modificar y haga click en “editar”. Se abrirá entonces una pequeña ventana donde puede cambiar el valor (Figura 13). Para guardar el cambio haga click en “Aplicar”, ello aplicará el cambio a todos aquellos registros que tenían el valor dado.
Corrija los valores “Plante” y “Plants”. Cuando lo haga, habrá corregido todos los registros que contenían esos valores, y se modificará entonces el número de registros que tiene el valor “Plantae”.
Una vez que haya corregido los valores en el punto anterior, notará que aún aparecen 3 valores “Plantae”, aparentemente iguales (Figura 14). Sin embargo, estos valores sí son diferentes: tienen espacios adicionales al final del valor de texto.
Para corregir estos errores, asegúrese de que ninguno de los valores en la faceta están seleccionados y que el número de registros que se muestra arriba de la tabla es el total (24984). Sobre la columna "kingdom"
, haga click sobre menu:la ▼ azul[] y siga las siguientes opciones (Figura 15):
"Editar celdas > Transformaciones comunes > Quitar espacios al inicio y final"
Esta función permite eliminar espacios en blanco que puedan aparecer al principio y al final de cadenas de texto. Cuando termine este paso, los 24,984 registros deberían tener el valor “Plantae” en la columna "kingdom"
.
A veces en campos que contienen cadenas de texto con varias palabras puede haber espacios en blanco extra entre palabras. Para ver un ejemplo, ubique la columna "stateProvince"
en el conjunto de datos. Arme una faceta de texto para dicha columna (click sobre "la ▼ azul > Facetas > Faceta de texto"). Luego, en la faceta, ordene los valores por número de registros asociados (seleccionando “conteo”). Verá entonces los valores que se encuentran en este campo como se muestra en la Figura 16.
Note que en primer y tercer lugar figura aparentemente el mismo valor, “Buenos Aires”. La diferencia entre ambos valores es que uno de ellos tiene un doble espacio entre las palabras.
Para corregir este error, sobre la columna "stateProvince"
, haga click sobre menu:la ▼ azul[] y siga la siguiente ruta (Figura 17):
"Editar celdas > Transformaciones Comunes > Contraer espacios consecutivos"
Esta función le permite convertir múltiples espacios en blanco en un único espacio en blanco.
Una vez que haya removido los espacios en blanco extra, en la faceta sólo verá un valor para “Buenos Aires”, con un número de registros que es la suma de los valores anteriores. Tenga en cuenta que si había otros valores con el mismo problema de dobles espacios entre palabras en esta misma columna, la modificación se aplicará a todos ellos, y no sólo a “Buenos Aires”. Puede comprobar cuántos valores se han modificado comprobando el número de valores disponibles en la faceta antes y después de la transformación.
Las facetas también pueden aplicarse a campos numéricos, y en ese caso son muy útiles para, por ejemplo detectar valores fuera de rangos de interés.
A modo de ejemplo, armaremos una faceta numérica sobre el campo "day"
que hemos creado más arriba. Para ello, hacer click en menu:la ▼ azul[] del campo y seguir la ruta:
"Facetas > Faceta numérica"
Verá entonces una nueva ventana, la faceta, como se muestra en la Figura 18.
Allí se puede ver que el rango de días va desde 1 a 35 inclusive. Es decir, algunos números están fuera de rango, puesto que como máximo puede haber hasta día 31 en algunos meses.
Se pueden seleccionar los registros con los valores superiores desplazando el botón a la izquierda del rango hacia la derecha. Ello incluirá en la tabla los registros por encima del rango seleccionado y, si no desmarca la opción “Blank”, también los blancos, como se muestra en la Figura 19 (en el ejemplo, tres filas en total: un caso con día 32, un caso con día 35 y un caso con día vacío). Si hubiera valores en el campo que no son numéricos, también podría verlos utilizando esta faceta.
Los tres errores encontrados deben ser consultados con la información original de los ejemplares en la colección, y los campos de fecha estrictamente deberían quedar vacíos para estos registros. Una opción es marcar estos registros para revisar más adelante, usando estrellas o banderas (ver sección sobre uso de estrellas y banderas).
Las facetas también permiten la detección y corrección de duplicados.
Note
|
Cuando hablamos aquí de duplicados, nos referimos a valores duplicados dentro de una columna, no necesariamente a registros enteros duplicados, o a duplicados en el sentido biológico/de colecciones. Por ello, tenga especial cuidado a la hora de actuar sobre estos valores duplicados, pues podrían tener efectos a diferentes niveles. |
Veremos un ejemplo de duplicados en la columna "catalogNumber"
. Para ello, haga click en menu:la ▼ azul[] y luego siga la siguiente ruta:
"Facetas > Facetas personalizadas > Faceta por duplicados"
Verá entonces una ventana con la faceta, como se muestra en la Figura 20, donde “true” (“verdadero”) refiere a los valores duplicados.
Si hace click en “true”, la pantalla principal le mostrará los registros que tienen número de catálogo duplicado (Figura 21). Observe por ejemplo los siguientes registros:
-
el primer y quinto registros tienen el mismo número de catálogo, 5567
-
el tercer registro (y otros más abajo que no son visibles entre los 25 primeros) no tiene número de catálogo (el valor nulo es lo que está duplicado).
-
etc.
Corrija los números de catálogo. Para hacerlo, edite las celdas individualmente: sobre la celda haga click en el botón “editar”, modifique el valor y haga click en “Aplicar” (Figura 22).
Note
|
En la práctica la corrección de los números de catálogo sólo debe hacerse una vez que los números y los datos asociados han sido comprobados con las etiquetas de los especímenes. |
En OpenRefine existe un límite para el número de elecciones de faceta que se muestran (“choices”). Muchas veces dicho número está pre-configurado a un valor de 2000. Ello quiere decir que sólo podrá ver 2000 opciones dentro de la faceta de interés.
Por ejemplo, si tiene configurado el valor a 2000 y trata de armar una faceta de texto en el campo "specificEpithet"
, verá que a la derecha la faceta no muestra los valores esperados sino un mensaje que dice que hay demasiados valores para mostrar (Figura 23a).
Haciendo click en “Fije un límite”, se abrirá otra ventana donde puede cambiar el límite al valor preferido (Figura 23b).
Una vez que haya cambiado el valor límite, y si este valor es lo suficientemente grande, podrá ver todos los valores en la faceta del campo de interés (en el ejemplo anterior, el campo "specificEpithet"
).
Alternativamente, para modificar en cualquier momento el límite en el número de valores que se pueden desplegar por faceta, puede ir a la siguiente dirección en su navegador web:
El navegador mostrará una ventana como ciertas opciones (Figura 24a). Allí, establezca el límite preferido para las facetas editando la clave “ui.browsing.listFacet.limit”. Para ello haga click en “core-index/edit”, y en la ventana que se abre, coloque el nuevo valor límite y oprima “OK” (Figura 24b).