Language: Español
10-02, 10:50–11:25 (Europe/Madrid), Margaret Hamilton (Teoría 8)
La biblioteca pandas ha sido uno de los factores decisivos para el crecimiento de Python en la década pasada dentro de la industria del análisis de datos y continúa ayudando a data scientists a resolver problemas 15 años después de su creación. Gracias a su éxito, ahora hay varios proyectos open-source que afirman mejorar pandas de diversas maneras: en esta charla haremos un repaso de dichas alternativas.
Durante la charla
- Haremos una breve introducción a pandas, hablaremos de su importancia, y señalaremos algunas de sus limitaciones, como ya hizo su autor hace un lustro.
- Enumeraremos algunas de sus alternativas y las clasificaremos (pandas-like o diferente, nodo único vs distribuido). Mencionaremos RAPIDS, Dask, Modin, y Spark por encima.
- Mostraremos fragmentos de código de Arrow, Vaex, y Polars a través de notebooks de Jupyter almacenados en Orchest Cloud y hablaremos de los puntos fuertes de las bibliotecas anteriores.
- Concluiremos dando una serie de pautas para elegir un proyecto u otro en función del caso y las necesidades.
Al final de la charla la audiencia tendrá más información de cómo algunas de las alternativas modernas a pandas encajan dentro del ecosistema, entenderá cuáles proveen un camino para migrar más sencillo, y estará más preparada para juzgar cuál usar para próximos proyectos.
Conocimientos básicos de pandas ayudarán a entender el resto de la presentación.
Los materiales de la charla se encuentran en GitHub, y una serie de artículos de blog desarrollan los conceptos que se verán durante la charla:
Intermedio
Topic –Ciencia de datos, Machine Learning e IA
Soy Ingeniero Aeronáutico y trabajo como Defensor del Desarrollador (Developer Advocate) en Orchest, una empresa que ofrece generación y alojamiento de documentación. En mi tiempo libre imparto clases, escucho música, berreo en LinkedIn, y persigo sueños imposibles.