¡Aumenta la velocidad de tus scripts de R!. Optimiza la lectura, escritura y almacenamiento de grandes datasets con el paquete FST

¡Un must en nuestro R environment! Velocidad imbatidad escritura y lectura. Es el paquete FST! x100 más rápido que write.csv(). Además comprime el tamaño de tu data frame.

¿Quieres guardar tu modelo de DL o un gran dataset? A continuación te mostramos la manera que hemos encontrado de optimizar la lectura, la escritura y almacenaje de data frames con el paquete FST. Si incorporar un paquete a tu environment no te supone un gran problema, te lo recomendamos.

En la repo del paquete hay un pequeño benchmark reliazado por sus autores. Queremos comprobarlo por nosotros mismos y vamos a comparar su rendimiento. Para ello compararemos su performance con el de las funciones que hasta hoy eran parte de nuestra caja de herramientas de R para la lectura y escritura de ficheros en proyectos de datos. Veamos:


¡Wow! Los resultados son impresionantes, incluso mejores que los expuestos en la web de los creadores.

Podemos apreciar una mejora x3 y x50 en el performance comparado con las funciones readr::write_rds() y base R saveRDS()!

Una incremento increible de un x100 performance entre fst y las funciones que trabajan con csv y que anteriormente utilizábamos, aunque realmente esta no es una comparación del todo justa al tratarse de dos extensiones completamente diferentes (csv y bin).


¿Y tú? ¿Estás pensando en incluir FST al toolbox de tu proyecto en R también?


Carlos Vecina
Carlos Vecina
Data Scientist & TechLead en Bankinter

Data Scientist & TechLead en Bankinter | AI & Data Science para aportar valor en la empresa