PySpark · Programmazione · Narcis Miclaus

Corso

PySpark, dalle fondamenta

Un corso di 60 lezioni che parte da 'cos'è il big data' e arriva a 'ecco il check di 30 minuti che faccio su un cluster Spark che non ho mai visto.' Teoria dove serve, codice dove conta, niente giri di parole.

Pubblicate: 60 di 60

Vedi le lezioni

Lezione 1

Big data, in parole povere

Pubblicato il 24 novembre 2025 9 min di lettura Read

Quando i dati diventano 'big' nel senso tecnico, perché una macchina sola prima o poi non basta, e dove si colloca Spark nello stack.
- #pyspark
- #spark
- #big-data
- #fundamentals
- #intro
Lezione 2

L'idea di MapReduce, e perché ha contato

Pubblicato il 27 novembre 2025 9 min di lettura Read

Il paper di Google del 2004, il modello che ha reso trattabile il processing distribuito, e perché tutti l'hanno superato nel giro di un decennio.
- #pyspark
- #spark
- #mapreduce
- #hadoop
- #history
Lezione 3

Cos'è Spark e perché ha sostituito Hadoop MapReduce

Pubblicato il 1 dicembre 2025 10 min di lettura Read

Il paper di Matei Zaharia del 2010, l'esecuzione in memoria, il DAG, la lazy evaluation e la dichiarazione del '100x più veloce': cosa significa davvero e cosa no.
- #pyspark
- #spark
- #fundamentals
- #history
Lezione 4

L'architettura di Spark: driver, executor, cluster manager

Pubblicato il 4 dicembre 2025 9 min di lettura Read

Come gira davvero un job Spark su più macchine. Il driver, gli executor, il cluster manager, e il modello di risorse che li tiene insieme.
- #pyspark
- #spark
- #architecture
- #fundamentals
Lezione 5

RDD, DataFrame, Dataset: tre API, un motore

Pubblicato il 8 dicembre 2025 9 min di lettura Read

Perché Spark ha tre API, in cosa è bravo ognuno, quando usare quale, e perché i DataFrame hanno vinto la partita per quasi tutti.
- #pyspark
- #spark
- #rdd
- #dataframe
- #api
Lezione 6

PySpark vs Scala Spark: cosa attraversa il filo

Pubblicato il 11 dicembre 2025 8 min di lettura Read

Come PySpark parla con la JVM, dove vive l'overhead di performance, e quando (raramente) scenderesti davvero a Scala.
- #pyspark
- #spark
- #scala
- #python
- #performance
Lezione 7

Installare PySpark in locale

Pubblicato il 15 dicembre 2025 9 min di lettura Read

Installare PySpark con pip, il requisito di Java che inciampa sempre tutti, e la gotcha di winutils di Hadoop solo su Windows.
- #pyspark
- #spark
- #install
- #setup
Lezione 8

La tua prima SparkSession

Pubblicato il 18 dicembre 2025 9 min di lettura Read

Il punto di ingresso di ogni job PySpark. Cos'è una SparkSession, le configurazioni che contano, e cosa significa davvero `local[*]`.
- #pyspark
- #spark
- #sparksession
- #configuration
Lezione 9

Leggere dati: CSV, JSON, Parquet, e il tradeoff dello schema-on-read

Pubblicato il 22 dicembre 2025 9 min di lettura Read

Tre formati di file, tre comportamenti di default, e perché fare bene le letture all'inizio ti risparmia cento problemi dopo.
- #pyspark
- #spark
- #csv
- #json
- #parquet
- #io
Lezione 10

Show, count, collect: le action che ogni principiante esegue per prime

Pubblicato il 25 dicembre 2025 9 min di lettura Read

Le tre action con cui inizia ogni notebook PySpark, la differenza tra loro, e perché confonderle a scala è pericoloso.
- #pyspark
- #spark
- #actions
- #dataframe
Lezione 11

Scrivere dati: mode, partizioni e il problema del numero di file

Pubblicato il 29 dicembre 2025 9 min di lettura Read

Save mode, write partizionate, la differenza tra molti file piccoli e un file gigante, e perché Parquet è il default per un motivo.
- #pyspark
- #spark
- #write
- #io
- #parquet
Lezione 12

Local contro cluster: workflow di sviluppo che non ti mente

Pubblicato il 1 gennaio 2026 10 min di lettura Read

Quando local mode basta, quando ti serve un cluster vero, e i bug che si presentano solo quando ci sono executor veri in scena.
- #pyspark
- #spark
- #cluster
- #deployment
- #workflow
Lezione 13

Schema: espliciti vs inferiti

Pubblicato il 5 gennaio 2026 9 min di lettura Read

Quando lasciare che Spark inferisca, quando dichiarare il proprio, e perché il codice di produzione dichiara praticamente sempre.
- #pyspark
- #spark
- #schema
- #dataframe
Lezione 14

Select e filter: le due operazioni che farai migliaia di volte

Pubblicato il 8 gennaio 2026 9 min di lettura Read

select, where, filter, e i quattro modi di riferirsi a una colonna, incluso quello che si rompe quando hai spazi nei nomi delle colonne.
- #pyspark
- #spark
- #dataframe
- #select
- #filter
Lezione 15

Aggiungere colonne: withColumn, lit, e la trappola della concatenazione

Pubblicato il 12 gennaio 2026 9 min di lettura Read

Come aggiungere o modificare colonne, perché le chiamate withColumn in un loop sono una trappola di performance nota, e quando usare select invece.
- #pyspark
- #spark
- #dataframe
- #withColumn
- #transformation
Lezione 16

Aggregazioni 101: groupBy, agg e il catalogo delle funzioni di sintesi

Pubblicato il 15 gennaio 2026 9 min di lettura Read

groupBy + agg, le funzioni di aggregazione di base, le aggregazioni multi-colonna in un'unica passata, e perché agg è una wide transformation.
- #pyspark
- #spark
- #dataframe
- #groupby
- #aggregation
Lezione 17

Ordinamento alla scala: orderBy, sort e il costo del sort globale

Pubblicato il 19 gennaio 2026 8 min di lettura Read

Come funziona l'ordinamento in un motore distribuito, perché un sort globale è costoso, e la scappatoia sortWithinPartitions.
- #pyspark
- #spark
- #dataframe
- #sort
- #orderby
Lezione 18

Rinominare, droppare, fare cast: gli operatori di pulizia di tutti i giorni

Pubblicato il 22 gennaio 2026 9 min di lettura Read

withColumnRenamed, drop, cast e le operazioni piccole-ma-frequenti che costituiscono metà di qualsiasi ETL reale.
- #pyspark
- #spark
- #dataframe
- #schema
- #etl
Lezione 19

Lazy evaluation: perché non succede niente finché non lo chiedi

Pubblicato il 26 gennaio 2026 8 min di lettura Read

Perché la tua catena di transformation non calcola davvero quando la chiami, cosa significa veramente 'lazy' in Spark, e l'aggiustamento mentale rispetto a Pandas che ogni nuovo arrivato deve fare.
- #pyspark
- #spark
- #lazy-evaluation
- #fundamentals
- #dag
Lezione 20

Transformation contro action: la dicotomia e il catalogo

Pubblicato il 29 gennaio 2026 9 min di lettura Read

Ogni operazione PySpark è o una transformation o un'action. Sapere qual è qual è metà del debug.
- #pyspark
- #spark
- #dataframe
- #actions
- #transformations
Lezione 21

Narrow contro wide transformation: il concetto più importante di Spark

Pubblicato il 2 febbraio 2026 10 min di lettura Read

Perché alcune transformation sono praticamente gratis e altre richiedono di shuffle l'intero cluster. La singola distinzione che spiega ogni domanda di performance su Spark.
- #pyspark
- #spark
- #transformations
- #shuffle
- #performance
Lezione 22

Il DAG: come Spark organizza il job in stage

Pubblicato il 5 febbraio 2026 9 min di lettura Read

Visualizzare il job come grafo aciclico diretto, leggere la tab Stages della Spark UI e la relazione tra stage e shuffle.
- #pyspark
- #spark
- #dag
- #execution-plan
- #spark-ui
Lezione 23

Caching e persistence: storage level, quando ognuno ha senso

Pubblicato il 9 febbraio 2026 9 min di lettura Read

df.cache() e df.persist(): cosa fanno davvero, gli storage level offerti da Spark e i pattern tipici in cui il caching ripaga.
- #pyspark
- #spark
- #cache
- #persist
- #performance
Lezione 24

.cache() non è gratis — quando usarlo e quando è una trappola

Pubblicato il 12 febbraio 2026 4 min di lettura Read

Il cache e il persist di Spark sembrano bottoni magici per le performance. Non lo sono. Ecco quando il caching aiuta davvero, quando peggiora le cose, e come capire la differenza.
- #pyspark
- #spark
- #caching
- #performance
Lezione 25

Cos'è davvero uno shuffle, in termini fisici

Pubblicato il 16 febbraio 2026 9 min di lettura Read

L'operazione di rete al cuore del calcolo distribuito, cosa succede durante uno shuffle e perché tutti lo temono.
- #pyspark
- #spark
- #shuffle
- #performance
- #network
Lezione 26

Join in PySpark: i sette tipi e quando usare ciascuno

Pubblicato il 19 febbraio 2026 9 min di lettura Read

Inner, left, right, full outer, semi, anti, cross: cosa fa ciascuno, la sintassi e i casi d'uso quotidiani.
- #pyspark
- #spark
- #joins
- #dataframe
Lezione 27

Broadcast join: quando le tabelle piccole viaggiano su ogni executor

Pubblicato il 23 febbraio 2026 9 min di lettura Read

Come i broadcast join saltano lo shuffle, quando Spark ne sceglie uno automaticamente, e come forzare o disabilitare il comportamento.
- #pyspark
- #spark
- #joins
- #broadcast
- #performance
Lezione 28

Il problema dello skew: quando una chiave ha 100 volte le righe

Pubblicato il 26 febbraio 2026 9 min di lettura Read

Come lo skew dei dati rallenta i job anche quando il lavoro totale è poco, come individuarlo nella Spark UI, e che aspetto hanno i sintomi in produzione.
- #pyspark
- #spark
- #skew
- #performance
- #debugging
Lezione 29

Salting: la soluzione standard quando una chiave domina

Pubblicato il 2 marzo 2026 8 min di lettura Read

Come spezzare una hot key aggiungendo un suffisso casuale sintetico, l'esempio pratico, e il costo del trucco.
- #pyspark
- #spark
- #skew
- #salting
- #performance
Lezione 30

Join PySpark che non fanno saltare il cluster

Pubblicato il 5 marzo 2026 6 min di lettura Read

Perché le join sono la principale fonte di dolore in Spark, cosa fa davvero lo shuffle, e i trucchi del broadcast e del salting che trasformano un job da 40 minuti in uno da 4.
- #pyspark
- #spark
- #performance
- #joins
Lezione 31

Cos'è una partition, fisicamente

Pubblicato il 9 marzo 2026 8 min di lettura Read

Le partition in memoria, le partition su disco, e la relazione tra partition e task.
- #pyspark
- #spark
- #partitions
- #fundamentals
Lezione 32

spark.sql.shuffle.partitions = 200 e perché è quasi sempre sbagliato

Pubblicato il 12 marzo 2026 8 min di lettura Read

Il singolo default più consequenziale in Spark, perché non si adatta al tuo cluster, e come tunarlo per il job che hai per le mani.
- #pyspark
- #spark
- #partitions
- #configuration
- #performance
Lezione 33

repartition vs coalesce: due modi per cambiare il numero di partizioni

Pubblicato il 16 marzo 2026 8 min di lettura Read

Quando usare l'uno e quando l'altro, il costo di ciascuno, e la trappola di serializzare per sbaglio l'intero job a un singolo task.
- #pyspark
- #spark
- #partitions
- #repartition
- #coalesce
Lezione 34

Scritture partizionate: layout di directory, predicate pushdown, e quando farle

Pubblicato il 19 marzo 2026 8 min di lettura Read

Colonne di partizione in stile Hive su disco, come Spark le usa in lettura per saltare file, e la trappola della cardinalità da evitare.
- #pyspark
- #spark
- #partitions
- #parquet
- #predicate-pushdown
Lezione 35

Il partitioning: la cosa che silenziosamente ammazza il tuo job Spark

Pubblicato il 23 marzo 2026 4 min di lettura Read

Come i dati vengono distribuiti tra gli executor, perché il default è quasi sempre sbagliato, e la danza repartition/coalesce che ogni job Spark prima o poi deve affrontare.
- #pyspark
- #spark
- #partitioning
- #performance
Lezione 36

Bucketing: quando il partitioning non basta

Pubblicato il 26 marzo 2026 9 min di lettura Read

Hash-partitioning in un numero fisso di bucket in fase di scrittura, l'ottimizzazione del bucket join, e perché il bucketing è sottoutilizzato.
- #pyspark
- #spark
- #bucketing
- #performance
- #joins
Lezione 37

PySpark SQL: quando SQL batte la sintassi DataFrame

Pubblicato il 30 marzo 2026 8 min di lettura Read

Registrare temp view, chiamare spark.sql() e i casi in cui la stringa SQL è davvero più pulita della catena DataFrame.
- #pyspark
- #spark
- #sql
- #dataframe
- #temp-view
Lezione 38

Window function: ranking, lag/lead, totali progressivi

Pubblicato il 2 aprile 2026 8 min di lettura Read

Window.partitionBy().orderBy(), la famiglia delle window function e perché sono lo strumento secondo per utilità dopo groupBy.
- #pyspark
- #spark
- #window-functions
- #dataframe
Lezione 39

Pivot e unpivot: da wide a long e ritorno

Pubblicato il 6 aprile 2026 9 min di lettura Read

Rimodellare i dati con pivot(), il trucco per fare unpivot prima di Spark 3.4 e il costo delle tabelle wide.
- #pyspark
- #spark
- #pivot
- #unpivot
- #reshape
Lezione 40

UDF: quando ti servono, perché evitarle

Pubblicato il 9 aprile 2026 8 min di lettura Read

La tassa di serializzazione Python delle UDF normali, perché pandas_udf ti salva, e i rari casi in cui Scala è l'unica risposta.
- #pyspark
- #spark
- #udf
- #pandas-udf
- #performance
Lezione 41

Catalyst: il cervello dietro ogni DataFrame

Pubblicato il 13 aprile 2026 9 min di lettura Read

Come Spark trasforma il tuo codice in un query plan, le quattro fasi di ottimizzazione, e come leggere .explain(True).
- #pyspark
- #spark
- #catalyst
- #optimizer
- #explain
Lezione 42

Tungsten: code generation e layout di memoria colonnare

Pubblicato il 16 aprile 2026 9 min di lettura Read

Come Spark fonde le operazioni in codice compilato, il formato colonnare off-heap, e perché DataFrame Spark è veloce.
- #pyspark
- #spark
- #tungsten
- #performance
- #internals
Lezione 43

Parquet: perché è il default per un buon motivo

Pubblicato il 20 aprile 2026 9 min di lettura Read

Lo storage columnar spiegato, codec di compressione, predicate pushdown e la struttura a row-group che rende veloci le letture selettive.
- #pyspark
- #spark
- #parquet
- #file-format
- #columnar
Lezione 44

ORC, Avro, Delta: le alternative e quando ognuna vince

Pubblicato il 23 aprile 2026 10 min di lettura Read

Tre famiglie di formati che non sono Parquet, quando ognuna è la scelta giusta, e perché Delta sta silenziosamente prendendo il sopravvento.
- #pyspark
- #spark
- #orc
- #avro
- #delta
- #file-format
Lezione 45

Leggere da JDBC: estrarre da Postgres, MySQL, SQL Server

Pubblicato il 27 aprile 2026 10 min di lettura Read

Il connettore source JDBC, il trucco di partitionColumn, e perché una lettura ingenua manda al tappeto il database sorgente.
- #pyspark
- #spark
- #jdbc
- #postgres
- #mysql
- #parallel-read
Lezione 46

Scrivere su JDBC: parallelismo, batch, idempotenza

Pubblicato il 30 aprile 2026 10 min di lettura Read

Come riscrivere l'output di Spark in un database relazionale senza schiacciarlo, rompere transazioni o perdere dati al retry.
- #pyspark
- #spark
- #jdbc
- #write
- #transactions
Lezione 47

Cloud storage: S3, GCS, Azure Blob, cosa cambia

Pubblicato il 4 maggio 2026 9 min di lettura Read

Le note in piccolo sulla consistency, il problema del rename, e perche' esistono i committer direct-write.
- #pyspark
- #spark
- #s3
- #cloud
- #storage
- #hadoop
Lezione 48

Schema evolution: quando le colonne ti cambiano sotto

Pubblicato il 7 maggio 2026 10 min di lettura Read

Perché i formati schema-on-read gestiscono male il cambiamento, perché Avro+registry lo gestisce bene, e il modo Delta/Iceberg di avere entrambe le cose.
- #pyspark
- #spark
- #schema
- #parquet
- #avro
- #evolution
Lezione 49

Perché lo streaming, e cosa significa davvero 'streaming' in Spark

Pubblicato il 11 maggio 2026 9 min di lettura Read

Dati bounded vs unbounded, batch e streaming come continuum, e perché i DStreams sono deprecati a favore di Structured Streaming.
- #pyspark
- #spark
- #streaming
- #structured-streaming
- #fundamentals
Lezione 50

Structured Streaming: le basi di readStream, writeStream, trigger

Pubblicato il 14 maggio 2026 10 min di lettura Read

Gli entry point per lo streaming, la semantica dei trigger, e il checkpoint da cui dipende tutto.
- #pyspark
- #spark
- #streaming
- #structured-streaming
- #dataframe
Lezione 51

Kafka source: l'ingest di produzione più comune

Pubblicato il 18 maggio 2026 10 min di lettura Read

Come Spark legge da Kafka, la semantica degli offset, e la questione at-least-once vs exactly-once.
- #pyspark
- #spark
- #kafka
- #streaming
- #structured-streaming
Lezione 52

Watermark ed event time: la parte che quasi tutti i principianti sbagliano

Pubblicato il 21 maggio 2026 8 min di lettura Read

Perché l'event time conta più del processing time, cosa fa davvero un watermark, e l'esempio guidato con timestamp concreti.
- #pyspark
- #spark
- #streaming
- #watermarks
- #event-time
Lezione 53

Operazioni stateful: aggregazioni, sessioni e lo state store

Pubblicato il 25 maggio 2026 8 min di lettura Read

Dove Spark Streaming tiene lo stato tra micro-batch, i pattern stateful standard, e quando scendere a mapGroupsWithState.
- #pyspark
- #spark
- #streaming
- #state
- #sessionization
Lezione 54

Output mode e sink idempotenti: foreachBatch e il pattern di upsert

Pubblicato il 28 maggio 2026 8 min di lettura Read

Append vs update vs complete, i sink che Spark fornisce, e l'escape hatch foreachBatch per tutto il resto.
- #pyspark
- #spark
- #streaming
- #sinks
- #idempotent
- #foreach-batch
Lezione 55

La Spark UI: lo strumento più importante che imparerai

Pubblicato il 1 giugno 2026 9 min di lettura Read

Un giro guidato di ogni tab (Jobs, Stages, Tasks, SQL, Storage, Executors) e cosa ti dice ognuno quando qualcosa va storto.
- #pyspark
- #spark
- #ui
- #debugging
- #production
Lezione 56

Leggere gli execution plan: .explain(True), dal parsed al physical

Pubblicato il 4 giugno 2026 9 min di lettura Read

Come leggere ogni riga dell'output di .explain(), gli operatori che contano, e i passi dell'optimizer che li producono.
- #pyspark
- #spark
- #explain
- #execution-plan
- #catalyst
Lezione 57

Memory tuning: executor memory, overhead, diagnostica degli OOM

Pubblicato il 8 giugno 2026 10 min di lettura Read

I quattro config che davvero contano, cosa significa spill, come si legge uno stack trace di OOM, e la regola per dimensionare gli executor.
- #pyspark
- #spark
- #memory
- #tuning
- #production
Lezione 58

Debug di job Spark lenti: la checklist da 30 minuti

Pubblicato il 11 giugno 2026 8 min di lettura Read

Il loop sistematico per capire cosa non va in un job lento: leggi la UI, trova lo stage lento, guarda lo skew dei task, GC, volume di shuffle, in quest'ordine.
- #pyspark
- #spark
- #debugging
- #performance
- #production
Lezione 59

Adaptive Query Execution: la killer feature di Spark 3.x

Pubblicato il 15 giugno 2026 9 min di lettura Read

Dynamic partition coalescing, gestione dello skew a runtime e switch della strategia di join: le config da conoscere e i casi in cui AQE non può aiutarti.
- #pyspark
- #spark
- #aqe
- #optimization
- #performance
Lezione 60

Un health check da 30 minuti su un cluster Spark che non hai mai visto

Pubblicato il 18 giugno 2026 13 min di lettura Read

La checklist di chiusura: ti consegnano il portatile, hai tempo fino alle 17 per capire cosa non va.
- #pyspark
- #spark
- #dba
- #health-check
- #course-summary