La mejor manera de hacer recuento de NAs por columna

Recuento de NAs por columna en R. Comparando la manera tidy con base R. ¿Cuánto cuesto no dejar el pipeflow?

¿Estás comenzando tu etapa de exploración de datos? Una de las primeras cosas que solemos hacer es calcular el porcentaje de NAs por variable. Existen muchas maneras de llegar a este resultado, partiendo de R base con summary (obtenemos más estadísticos y con muchas variables puede no interesar todo de golpe)

Vamos a comprobar el performance de las funciones que más usamos para este conteo/porcentaje. Destacamos que el output de ellas no es exactamente igual, así que además de los tiempos, dependerá de la estructura de nuestro programa elegir una u otra.

Comenzamos definiendo la función de comparación para probar con datasets cos más filas y más columnas para ver como escalan:

Veamos el rendimiento entre datasets:

Y para acaba, veamos como escala cada una de estas funciones a un dataset de 100000 filas:

Carlos Vecina
Carlos Vecina
Senior Data Scientist at Jobandtalent

Senior Data Scientist at Jobandtalent | AI & Data Science para aportar valor en la empresa