PySpark · Programare · Narcis Miclaus

Curs

PySpark, de la zero

Un curs de 60 de lecții care pornesc de la 'ce este big data' și ajung la 'iată check-ul de 30 de minute pe care-l fac pe un cluster Spark pe care nu l-am mai văzut.' Teorie unde contează, cod unde se cuvine, fără ocolișuri.

Publicate: 59 din 60

Vezi lecțiile

Lecția 1

Big data, pe intelesul tuturor

Publicat pe 24 noiembrie 2025 9 min de citit Read

Cand devin datele 'mari' in sens tehnic, de ce o singura masina nu mai e suficienta pana la urma si unde se incadreaza Spark in stiva.
- #pyspark
- #spark
- #big-data
- #fundamentals
- #intro
Lecția 2

Ideea MapReduce si de ce a contat

Publicat pe 27 noiembrie 2025 9 min de citit Read

Lucrarea Google din 2004, modelul care a facut procesarea distribuita abordabila si de ce toata lumea a trecut mai departe intr-un deceniu.
- #pyspark
- #spark
- #mapreduce
- #hadoop
- #history
Lecția 3

Ce este Spark si de ce a inlocuit Hadoop MapReduce

Publicat pe 1 decembrie 2025 10 min de citit Read

Lucrarea lui Matei Zaharia din 2010, executia in memorie, DAG-ul, evaluarea lazy si afirmatia 'de 100 de ori mai rapid' - ce inseamna cu adevarat si ce nu.
- #pyspark
- #spark
- #fundamentals
- #history
Lecția 4

Arhitectura Spark: driver, executors, cluster manager

Publicat pe 4 decembrie 2025 8 min de citit Read

Cum ruleaza efectiv un job Spark pe mai multe masini. Driverul, executorii, cluster manager-ul si modelul de resurse care le leaga.
- #pyspark
- #spark
- #architecture
- #fundamentals
Lecția 5

RDD, DataFrame, Dataset, trei API-uri, un singur engine

Publicat pe 8 decembrie 2025 8 min de citit Read

De ce Spark are trei API-uri, la ce e bun fiecare, cand sa folosesti pe care, si de ce DataFrame-urile au castigat pentru aproape toata lumea.
- #pyspark
- #spark
- #rdd
- #dataframe
- #api
Lecția 6

PySpark vs Scala Spark: ce traverseaza firul

Publicat pe 11 decembrie 2025 8 min de citit Read

Cum vorbeste PySpark cu JVM-ul, unde traieste overhead-ul de performanta si cand (rar) ai cobori efectiv la Scala.
- #pyspark
- #spark
- #scala
- #python
- #performance
Lecția 7

Instalarea PySpark local

Publicat pe 15 decembrie 2025 9 min de citit Read

Instalarea PySpark cu pip, cerinta Java care incurca mereu lumea si capcana cu Hadoop winutils valabila doar pe Windows.
- #pyspark
- #spark
- #install
- #setup
Lecția 8

Primul tau SparkSession

Publicat pe 18 decembrie 2025 8 min de citit Read

Punctul de intrare in orice job PySpark. Ce este un SparkSession, configurarile care conteaza si ce inseamna de fapt `local[*]`.
- #pyspark
- #spark
- #sparksession
- #configuration
Lecția 9

Citirea datelor: CSV, JSON, Parquet si compromisul schema-on-read

Publicat pe 22 decembrie 2025 9 min de citit Read

Trei formate de fisiere, trei comportamente implicite si de ce citirile bune devreme te scutesc de o suta de probleme mai tarziu.
- #pyspark
- #spark
- #csv
- #json
- #parquet
- #io
Lecția 10

Show, count, collect: actiunile pe care orice incepator le ruleaza primele

Publicat pe 25 decembrie 2025 9 min de citit Read

Cele trei actiuni cu care incepe orice notebook PySpark, diferenta dintre ele si de ce e periculos sa le confunzi la scara mare.
- #pyspark
- #spark
- #actions
- #dataframe
Lecția 11

Scrierea datelor: moduri, partitii si problema numarului de fisiere

Publicat pe 29 decembrie 2025 8 min de citit Read

Save modes, scrieri partitionate, diferenta dintre multe fisiere mici si unul gigant si de ce Parquet e default-ul cu motiv.
- #pyspark
- #spark
- #write
- #io
- #parquet
Lecția 12

Local vs cluster: fluxul de dev care nu te minte

Publicat pe 1 ianuarie 2026 10 min de citit Read

Cand modul local e suficient, cand ai nevoie de un cluster real si bug-urile care apar doar cand exista executori reali in peisaj.
- #pyspark
- #spark
- #cluster
- #deployment
- #workflow
Lecția 13

Schema: explicita vs dedusa

Publicat pe 5 ianuarie 2026 9 min de citit Read

Cand sa lasi Spark sa deduca, cand sa o declari tu si de ce in productie codul aproape mereu o declara.
- #pyspark
- #spark
- #schema
- #dataframe
Lecția 14

Select si filter: cele doua operatii pe care le vei face de mii de ori

Publicat pe 8 ianuarie 2026 8 min de citit Read

select, where, filter si cele patru moduri de a te referi la o coloana, inclusiv cel care se rupe cand ai spatii in numele coloanei.
- #pyspark
- #spark
- #dataframe
- #select
- #filter
Lecția 15

Adaugarea de coloane: withColumn, lit si capcana inlantuirii

Publicat pe 12 ianuarie 2026 8 min de citit Read

Cum adaugi sau modifici coloane, de ce apelurile withColumn intr-un loop sunt o capcana de performanta cunoscuta si cand sa folosesti select in loc.
- #pyspark
- #spark
- #dataframe
- #withColumn
- #transformation
Lecția 16

Aggregations 101: groupBy, agg si catalogul functiilor de agregare

Publicat pe 15 ianuarie 2026 8 min de citit Read

groupBy + agg, functiile de agregare de baza, agregari multi-coloana intr-o singura trecere si de ce agg este o transformare wide.
- #pyspark
- #spark
- #dataframe
- #groupby
- #aggregation
Lecția 17

Sortare la scara: orderBy, sort si costul unui sort global

Publicat pe 19 ianuarie 2026 8 min de citit Read

Cum functioneaza sortarea intr-un engine distribuit, de ce un sort global e scump si portita sortWithinPartitions.
- #pyspark
- #spark
- #dataframe
- #sort
- #orderby
Lecția 18

Redenumire, drop, cast: operatorii uzuali de cleanup

Publicat pe 22 ianuarie 2026 8 min de citit Read

withColumnRenamed, drop, cast si operatiile mici-dar-frecvente care formeaza jumatate din orice ETL real.
- #pyspark
- #spark
- #dataframe
- #schema
- #etl
Lecția 19

Lazy evaluation: de ce nu se intampla nimic pana cand nu ceri

Publicat pe 26 ianuarie 2026 8 min de citit Read

De ce lantul tau de transformari nu calculeaza efectiv cand il apelezi, ce inseamna cu adevarat 'lazy' in Spark si ajustarea de model mental Pandas pe care trebuie s-o faca orice nou-venit.
- #pyspark
- #spark
- #lazy-evaluation
- #fundamentals
- #dag
Lecția 20

Transformations vs actions: dihotomia si catalogul

Publicat pe 29 ianuarie 2026 9 min de citit Read

Fiecare operatie PySpark e fie o transformation, fie o action. Sa stii care e care e jumatate din debugging.
- #pyspark
- #spark
- #dataframe
- #actions
- #transformations
Lecția 21

Narrow vs wide transformations: cel mai important concept din Spark

Publicat pe 2 februarie 2026 9 min de citit Read

De ce unele transformari sunt aproape gratis si altele cer ca tot clusterul sa faca shuffle. Distinctia care explica fiecare intrebare de performanta din Spark.
- #pyspark
- #spark
- #transformations
- #shuffle
- #performance
Lecția 22

DAG-ul: cum isi organizeaza Spark job-ul in stages

Publicat pe 5 februarie 2026 9 min de citit Read

Vizualizarea job-ului ca un graf orientat aciclic, citirea tab-ului Stages din Spark UI si relatia dintre stages si shuffles.
- #pyspark
- #spark
- #dag
- #execution-plan
- #spark-ui
Lecția 23

Caching si persistence: storage levels, cand are sens fiecare

Publicat pe 9 februarie 2026 8 min de citit Read

df.cache() si df.persist(), ce fac de fapt, storage levels-urile pe care le ofera Spark si pattern-urile tipice in care caching-ul da roade.
- #pyspark
- #spark
- #cache
- #persist
- #performance
Lecția 24

.cache() nu e gratis — când să-l folosești, când e o capcană

Publicat pe 12 februarie 2026 4 min de citit Read

Cache și persist din Spark sună ca niște butoane magice de performanță. Nu sunt. Iată când caching-ul chiar ajută, când face lucrurile mai rele și cum faci diferența.
- #pyspark
- #spark
- #caching
- #performance
Lecția 25

Ce este de fapt un shuffle, in termeni fizici

Publicat pe 16 februarie 2026 8 min de citit Read

Operatia de retea din inima calculului distribuit, ce se intampla in timpul ei si de ce se teme toata lumea de ea.
- #pyspark
- #spark
- #shuffle
- #performance
- #network
Lecția 26

Join-uri in PySpark: cele sapte tipuri si cand sa folosesti fiecare

Publicat pe 19 februarie 2026 9 min de citit Read

Inner, left, right, full outer, semi, anti, cross: ce face fiecare, sintaxa si cazurile de utilizare zilnice.
- #pyspark
- #spark
- #joins
- #dataframe
Lecția 27

Broadcast joins: cand tabelele mici calatoresc cu fiecare executor

Publicat pe 23 februarie 2026 8 min de citit Read

Cum sar broadcast joins peste shuffle, cand le alege Spark automat si cum sa fortezi sau sa dezactivezi acest comportament.
- #pyspark
- #spark
- #joins
- #broadcast
- #performance
Lecția 28

Problema skew-ului: cand o cheie are de 100 de ori mai multe randuri

Publicat pe 26 februarie 2026 9 min de citit Read

Cum incetineste data skew job-urile chiar si cand munca totala e mica, cum sa o vezi in Spark UI si cum arata simptomele in productie.
- #pyspark
- #spark
- #skew
- #performance
- #debugging
Lecția 29

Salting: solutia standard cand o cheie domina

Publicat pe 2 martie 2026 7 min de citit Read

Cum spargi o cheie fierbinte adaugand un sufix random sintetic, exemplul lucrat si costul trucului.
- #pyspark
- #spark
- #skew
- #salting
- #performance
Lecția 31

Ce este o partitie, fizic

Publicat pe 9 martie 2026 8 min de citit Read

Partitii in memorie, partitii pe disc si relatia dintre partitii si task-uri.
- #pyspark
- #spark
- #partitions
- #fundamentals
Lecția 32

spark.sql.shuffle.partitions = 200 si de ce e aproape mereu gresit

Publicat pe 12 martie 2026 8 min de citit Read

Cel mai consecvent default din Spark, de ce nu se potriveste cu cluster-ul tau si cum sa-l tunezi pentru job-ul curent.
- #pyspark
- #spark
- #partitions
- #configuration
- #performance
Lecția 33

repartition vs coalesce: doua moduri de a schimba numarul de partitii

Publicat pe 16 martie 2026 7 min de citit Read

Cand sa folosesti pe care, costul fiecareia si capcana de a-ti serializa accidental jobul intr-un singur task.
- #pyspark
- #spark
- #partitions
- #repartition
- #coalesce
Lecția 34

Scrieri partitionate: layout de directoare, predicate pushdown si cand sa o faci

Publicat pe 19 martie 2026 7 min de citit Read

Coloane de partitie in stil Hive pe disc, cum le foloseste Spark la read time pentru a sari peste fisiere si capcana cardinalitatii de evitat.
- #pyspark
- #spark
- #partitions
- #parquet
- #predicate-pushdown
Lecția 35

Partiționarea: lucrul care îți omoară job-ul Spark pe tăcute

Publicat pe 23 martie 2026 3 min de citit Read

Cum se împart datele între executoare, de ce valoarea implicită e aproape mereu greșită și dansul repartition/coalesce de care fiecare job Spark are nevoie până la urmă.
- #pyspark
- #spark
- #partitioning
- #performance
Lecția 36

Bucketing: cand partitioning nu e suficient

Publicat pe 26 martie 2026 9 min de citit Read

Hash-partitioning intr-un numar fix de bucket-uri la write time, optimizarea de bucket join si de ce bucketing e subutilizat.
- #pyspark
- #spark
- #bucketing
- #performance
- #joins
Lecția 37

PySpark SQL: cand SQL bate sintaxa DataFrame

Publicat pe 30 martie 2026 8 min de citit Read

Inregistrarea de temp views, apelarea spark.sql() si cazurile in care string-ul SQL e sincer mai curat decat lantul DataFrame.
- #pyspark
- #spark
- #sql
- #dataframe
- #temp-view
Lecția 38

Window functions: ranking, lag/lead, totaluri cumulative

Publicat pe 2 aprilie 2026 8 min de citit Read

Window.partitionBy().orderBy(), familia de window functions si de ce sunt a doua cea mai utila unealta dupa groupBy.
- #pyspark
- #spark
- #window-functions
- #dataframe
Lecția 39

Pivot si unpivot: din wide in long si inapoi

Publicat pe 6 aprilie 2026 8 min de citit Read

Reformarea datelor cu pivot(), trucul pentru unpivot inainte de Spark 3.4 si costul tabelelor wide.
- #pyspark
- #spark
- #pivot
- #unpivot
- #reshape
Lecția 40

UDF-uri: cand ai nevoie de ele, de ce ar trebui sa le eviti

Publicat pe 9 aprilie 2026 8 min de citit Read

Taxa de serializare Python a UDF-urilor obisnuite, de ce te salveaza pandas_udf si cazurile rare in care Scala e singurul raspuns.
- #pyspark
- #spark
- #udf
- #pandas-udf
- #performance
Lecția 41

Catalyst: creierul din spatele fiecarui DataFrame

Publicat pe 13 aprilie 2026 9 min de citit Read

Cum transforma Spark codul tau intr-un query plan, cele patru faze de optimizare si cum sa citesti .explain(True).
- #pyspark
- #spark
- #catalyst
- #optimizer
- #explain
Lecția 42

Tungsten: generare de cod si layout de memorie columnar

Publicat pe 16 aprilie 2026 9 min de citit Read

Cum fuzioneaza Spark operatiile in cod compilat, formatul columnar off-heap si de ce Spark cu DataFrame e rapid.
- #pyspark
- #spark
- #tungsten
- #performance
- #internals
Lecția 43

Parquet: de ce e default-ul si pe buna dreptate

Publicat pe 20 aprilie 2026 9 min de citit Read

Stocarea pe coloane explicata, codecuri de compresie, predicate pushdown si structura row-group care face citirile selective rapide.
- #pyspark
- #spark
- #parquet
- #file-format
- #columnar
Lecția 44

ORC, Avro, Delta: alternativele si cand castiga fiecare

Publicat pe 23 aprilie 2026 9 min de citit Read

Trei familii de formate care nu sunt Parquet, cand este fiecare alegerea corecta si de ce Delta a tot preluat in liniste controlul.
- #pyspark
- #spark
- #orc
- #avro
- #delta
- #file-format
Lecția 45

Citirea din JDBC: extragere din Postgres, MySQL, SQL Server

Publicat pe 27 aprilie 2026 10 min de citit Read

Conectorul de sursa JDBC, trucul partitionColumn si de ce o citire naiva iti omoara baza de date sursa.
- #pyspark
- #spark
- #jdbc
- #postgres
- #mysql
- #parallel-read
Lecția 46

Scriere catre JDBC: paralelism, batch-uri, idempotenta

Publicat pe 30 aprilie 2026 10 min de citit Read

Cum scrii output-ul Spark inapoi intr-o baza de date relationala fara s-o doboari, sa rupi tranzactiile sau sa pierzi date la retry.
- #pyspark
- #spark
- #jdbc
- #write
- #transactions
Lecția 47

Cloud storage: S3, GCS, Azure Blob, ce se schimba

Publicat pe 4 mai 2026 9 min de citit Read

Avertismentele despre consistenta, problema renumirii si de ce exista direct-write committers.
- #pyspark
- #spark
- #s3
- #cloud
- #storage
- #hadoop
Lecția 48

Schema evolution: cand coloanele se schimba sub tine

Publicat pe 7 mai 2026 10 min de citit Read

De ce formatele schema-on-read gestioneaza prost schimbarea, de ce Avro+registry o gestioneaza bine si modul Delta/Iceberg de a le obtine pe ambele.
- #pyspark
- #spark
- #schema
- #parquet
- #avro
- #evolution
Lecția 49

De ce streaming si ce inseamna 'streaming' in Spark

Publicat pe 11 mai 2026 9 min de citit Read

Date marginite vs nemarginite, batch-vs-streaming ca un continuum si de ce DStreams sunt depreciate in favoarea Structured Streaming.
- #pyspark
- #spark
- #streaming
- #structured-streaming
- #fundamentals
Lecția 50

Bazele Structured Streaming: readStream, writeStream, trigger-e

Publicat pe 14 mai 2026 10 min de citit Read

Punctele de intrare pentru streaming, semantica trigger-elor si checkpoint-ul de care depinde totul.
- #pyspark
- #spark
- #streaming
- #structured-streaming
- #dataframe
Lecția 51

Sursa Kafka: cea mai comuna ingerare in productie

Publicat pe 18 mai 2026 10 min de citit Read

Cum citeste Spark din Kafka, semantica offset-urilor si intrebarea at-least-once vs exactly-once.
- #pyspark
- #spark
- #kafka
- #streaming
- #structured-streaming
Lecția 52

Watermarks si event time: partea pe care majoritatea incepatorilor o inteleg gresit

Publicat pe 21 mai 2026 7 min de citit Read

De ce event time conteaza mai mult decat processing time, ce face de fapt un watermark si exemplul lucrat cu timestamp-uri concrete.
- #pyspark
- #spark
- #streaming
- #watermarks
- #event-time
Lecția 53

Operatii stateful: agregari, sesiuni si state store

Publicat pe 25 mai 2026 7 min de citit Read

Unde tine Spark Streaming state-ul intre micro-batch-uri, pattern-urile stateful standard si cand sa cobori la mapGroupsWithState.
- #pyspark
- #spark
- #streaming
- #state
- #sessionization
Lecția 54

Output modes si sink-uri idempotente: foreachBatch si pattern-ul upsert

Publicat pe 28 mai 2026 8 min de citit Read

Append vs update vs complete, sink-urile pe care le aduce Spark si escape hatch-ul foreachBatch pentru tot restul.
- #pyspark
- #spark
- #streaming
- #sinks
- #idempotent
- #foreach-batch
Lecția 55

Spark UI: cea mai importanta unealta pe care o vei invata

Publicat pe 1 iunie 2026 8 min de citit Read

Un tur ghidat al fiecarui tab, Jobs, Stages, Tasks, SQL, Storage, Executors, si ce iti spune fiecare cand ceva nu merge.
- #pyspark
- #spark
- #ui
- #debugging
- #production
Lecția 56

Citirea execution plans: .explain(True), de la parsed la physical

Publicat pe 4 iunie 2026 9 min de citit Read

Cum sa citesti fiecare linie din output-ul .explain(), operatorii care conteaza si pasii optimizatorului care ii produc.
- #pyspark
- #spark
- #explain
- #execution-plan
- #catalyst
Lecția 57

Memory tuning: executor memory, overhead, diagnosticare OOM

Publicat pe 8 iunie 2026 10 min de citit Read

Cele patru config-uri care chiar conteaza, ce inseamna spill, cum sa citesti un stack trace OOM si regula pentru sizing-ul executorilor.
- #pyspark
- #spark
- #memory
- #tuning
- #production
Lecția 58

Debugging la job-uri Spark lente: checklist-ul de 30 de minute

Publicat pe 11 iunie 2026 8 min de citit Read

Bucla sistematica de a-ti da seama ce nu e in regula cu un job lent: citesti UI-ul, gasesti stage-ul lent, te uiti la skew, GC, volum de shuffle, in ordinea asta.
- #pyspark
- #spark
- #debugging
- #performance
- #production
Lecția 59

Adaptive Query Execution: feature-ul killer din Spark 3.x

Publicat pe 15 iunie 2026 8 min de citit Read

Coalescing dinamic al partitiilor, gestionarea skew-ului la runtime si comutarea strategiei de join: configurile de stiut si cazurile in care AQE tot nu te poate ajuta.
- #pyspark
- #spark
- #aqe
- #optimization
- #performance
Lecția 60

Un health check de 30 de minute pe un cluster Spark pe care nu l-ai mai vazut

Publicat pe 18 iunie 2026 12 min de citit Read

Checklist-ul capstone: ti se da laptopul, ai timp pana la ora 17 sa-ti dai seama ce e stricat.
- #pyspark
- #spark
- #dba
- #health-check
- #course-summary