02/10/2022 –, Margaret Hamilton (Teoría 8)
Idioma: Español
La biblioteca pandas ha sido uno de los factores decisivos para el crecimiento de Python en la década pasada dentro de la industria del análisis de datos y continúa ayudando a data scientists a resolver problemas 15 años después de su creación. Gracias a su éxito, ahora hay varios proyectos open-source que afirman mejorar pandas de diversas maneras: en esta charla haremos un repaso de dichas alternativas.
Durante la charla
- Haremos una breve introducción a pandas, hablaremos de su importancia, y señalaremos algunas de sus limitaciones, como ya hizo su autor hace un lustro.
- Enumeraremos algunas de sus alternativas y las clasificaremos (pandas-like o diferente, nodo único vs distribuido). Mencionaremos RAPIDS, Dask, Modin, y Spark por encima.
- Mostraremos fragmentos de código de Arrow, Vaex, y Polars a través de notebooks de Jupyter almacenados en Orchest Cloud y hablaremos de los puntos fuertes de las bibliotecas anteriores.
- Concluiremos dando una serie de pautas para elegir un proyecto u otro en función del caso y las necesidades.
Al final de la charla la audiencia tendrá más información de cómo algunas de las alternativas modernas a pandas encajan dentro del ecosistema, entenderá cuáles proveen un camino para migrar más sencillo, y estará más preparada para juzgar cuál usar para próximos proyectos.
Conocimientos básicos de pandas ayudarán a entender el resto de la presentación.
Los materiales de la charla se encuentran en GitHub, y una serie de artículos de blog desarrollan los conceptos que se verán durante la charla:
Intermedio
Temática:Ciencia de datos, Machine Learning e IA
Soy Ingeniero Aeronáutico y trabajo como Defensor del Desarrollador (Developer Advocate) en Orchest, una empresa que ofrece generación y alojamiento de documentación. En mi tiempo libre imparto clases, escucho música, berreo en LinkedIn, y persigo sueños imposibles.