2022-09-30 –, Katherine Johnson (Teoría 7)
Language: Español
Suponed que dos proveedores ofrecen proyectos equivalentes. El primero necesita un cluster de 16 nodos mientras que el segundo sólo necesita un servidor. ¿Cuál elegiríais? Pues como todo en la vida depende. Sí es verdad que hoy es más habitual optimizar el coste que la aplicación que lo genera. En en esta sesión de live coding aprenderéis una serie de técnicas orientadas a modelar grandes cantidades de datos con pocos recursos:
- Almacenar datos indexados de manera eficiente
- Paginado eficiente entre disco y memoria con Apache Arrow
- Solapar cálculo y I/O
- Filter pushdown
- Mejorar las prestaciones de la analítica con Duckdb o polars
- Out-of-core training
El objetivo final será generar una aplicación capaz de cargar, modelar y visualizar un dataset de gran tamaño con una Raspberry Pi 4.
Más información en:
Intermediate
Topic –Data Science, Machine Learning and AI
PhD, MS, Aerospace Engineering. Previously researching on turbulence theory and simulation. Now at BCG Gamma transforming clients with IA