El Big Data no existe. Modelando terabytes con una RPi4 PyConES 2022

El Big Data no existe. Modelando terabytes con una RPi4
.ical

30/09/2022 17:30–19:30, Katherine Johnson (Teoría 7)
Idioma: Español

Suponed que dos proveedores ofrecen proyectos equivalentes. El primero necesita un cluster de 16 nodos mientras que el segundo sólo necesita un servidor. ¿Cuál elegiríais? Pues como todo en la vida depende. Sí es verdad que hoy es más habitual optimizar el coste que la aplicación que lo genera. En en esta sesión de live coding aprenderéis una serie de técnicas orientadas a modelar grandes cantidades de datos con pocos recursos:

Almacenar datos indexados de manera eficiente
Paginado eficiente entre disco y memoria con Apache Arrow
Solapar cálculo y I/O
Filter pushdown
Mejorar las prestaciones de la analítica con Duckdb o polars
Out-of-core training

El objetivo final será generar una aplicación capaz de cargar, modelar y visualizar un dataset de gran tamaño con una Raspberry Pi 4.

Más información en:

Código: https://git.guillemborrell.es/guillem/PyConES22
Documentación: https://git.guillemborrell.es/guillem/PyConES22/wiki/HomeES

Temática:

Data Science, Machine Learning and AI

Nivel de la propuesta:

Intermediate

Guillem Borrell Nogueras

PhD, MS, Aerospace Engineering. Previously researching on turbulence theory and simulation. Now at BCG Gamma transforming clients with IA

El Big Data no existe. Modelando terabytes con una RPi4 .ical 30/09/2022 17:30–19:30, Katherine Johnson (Teoría 7) Idioma: Español

El Big Data no existe. Modelando terabytes con una RPi4
.ical

30/09/2022 17:30–19:30, Katherine Johnson (Teoría 7)
Idioma: Español