Descartando columnas basándonos en su porcentaje de NAs

Seleccionar o descartar columnas en R en base a un porcentaje de NAs ¿Es tu manera la mejor? ¡Te lo mostramos!

Los NAs pueden ser muy informativos, y estudiar cómo se distribuyen en base a una segunda variable suele ser una genial idea. Esto puede aportarnos un extra de información o mostrarnos un fenómeno que de otra manera(mediante imputación o descarte de observaciones) nos pasaría desapercibido.

Sin embargo, para un estudio preliminar o tras haber analizado los valores faltantes, nos encontramos casos en los que queremos quitarlos de manera automatizada basándonos en el porcentaje de NAs.

En este artículo hablamos y comparamos diferentes funciones de BaseR vs Tidy & Purrr para contar el número de NAs por columna.

¿Cuanto cuesta no salir del pipeflow? Dependerá del número de variables, del porcentaje que elijas como frontera y la distribución de NAs a lo largo de las variables, pero no suele ser más que unos pocos nanosegundos.

¿Qué forma eliges tú?

Carlos Vecina
Carlos Vecina
Data Scientist & TechLead en Bankinter

Data Scientist & TechLead en Bankinter | AI & Data Science para aportar valor en la empresa