PyConES 2022

El Big Data no existe. Modelando terabytes con una RPi4
30/09/2022 , Katherine Johnson (Teoría 7)
Idioma: Español

Suponed que dos proveedores ofrecen proyectos equivalentes. El primero necesita un cluster de 16 nodos mientras que el segundo sólo necesita un servidor. ¿Cuál elegiríais? Pues como todo en la vida depende. Sí es verdad que hoy es más habitual optimizar el coste que la aplicación que lo genera. En en esta sesión de live coding aprenderéis una serie de técnicas orientadas a modelar grandes cantidades de datos con pocos recursos:

  • Almacenar datos indexados de manera eficiente
  • Paginado eficiente entre disco y memoria con Apache Arrow
  • Solapar cálculo y I/O
  • Filter pushdown
  • Mejorar las prestaciones de la analítica con Duckdb o polars
  • Out-of-core training

El objetivo final será generar una aplicación capaz de cargar, modelar y visualizar un dataset de gran tamaño con una Raspberry Pi 4.


Más información en:


Nivel de la propuesta:

Intermediate

Temática:

Data Science, Machine Learning and AI

PhD, MS, Aerospace Engineering. Previously researching on turbulence theory and simulation. Now at BCG Gamma transforming clients with IA