Privacy e compliance: GDPR, CCPA, data residency

Le normative sulla privacy, viste da fuori, sembrano scartoffie legali. Da dentro un’architecture review sono tra i vincoli più costosi che un team dovrà mai assorbire. Una nuova legge sulla privacy in una nuova giurisdizione può forzare la ricostruzione della gestione dell’identità, della deletion plumbing, della topologia di deployment regionale e dell’audit log. Il costo non sta nelle parcelle legali; sta nel lavoro di ingegneria che ne consegue.

L’errore che i team commettono è trattare la compliance come un controllo che il team legale gestisce dopo che la piattaforma è stata costruita. Quando i regolatori iniziano a interessarsi al sistema, l’architettura dà ormai per scontato che i dati dell’utente vivano in un solo warehouse, vengano copiati in tre feature store, vengano esportati ogni notte verso due vendor di analytics, e vengano archiviati ogni mese in cold storage immutabile. Nessuna di quelle copie pensava a un futuro in cui l’utente potesse chiedere di essere cancellato. Tornare indietro e aggiungere quella capacità è difficile, lento, e produce parte del codice più brutto di qualsiasi data platform.

Questa lezione parla delle normative sulla privacy che contano nel 2026, dei pattern architetturali che richiedono, e dei framework di compliance che codificano quei pattern in controlli auditabili.

Le normative che danno forma ai sistemi moderni

Un breve giro. La forma di ciascuna è simile; i dettagli differiscono.

GDPR, il General Data Protection Regulation dell’UE, in vigore dal 2018. La legge sulla privacy più influente al mondo per via della sua portata: si applica a qualsiasi organizzazione che tratti dati personali di residenti UE, indipendentemente da dove l’organizzazione abbia sede. I diritti che garantisce agli utenti includono accesso (dare all’utente una copia dei propri dati), portabilità (darla in formato leggibile da macchina), rettifica (permettergli di correggerli), cancellazione (eliminarli su richiesta, con eccezioni limitate), e il diritto di opporsi a specifici tipi di trattamento. I principi includono data minimisation (non raccogliere più di quanto lo scopo richieda), purpose limitation (non riutilizzare i dati per uno scopo non correlato a quello per cui erano stati raccolti), e storage limitation (non conservarli più a lungo del necessario).

CCPA e CPRA, le leggi sulla privacy della California. Forma simile: diritti di accesso, cancellazione, e di opt-out dalla vendita o condivisione di personal information. Il CPRA ha aggiunto requisiti sulla sensitive personal information e un regolatore (la CPPA) per farla rispettare.

LGPD in Brasile, PIPL in Cina, POPIA in Sud Africa, i principi APP in Australia, e una collezione crescente di leggi statali statunitensi (Colorado, Virginia, Connecticut, Utah, Texas, e altre) portano ciascuna la propria versione delle stesse idee di fondo, con declinazioni locali. Il PIPL ha disposizioni aggressive sui cross-border transfer che colgono di sorpresa le aziende straniere.

Il take-away architetturale è che la “privacy” non è una sola normativa; è un insieme sovrapposto di regimi che la piattaforma deve soddisfare contemporaneamente. La maggior parte dei team sceglie il GDPR come massimo comune denominatore e costruisce su quel livello, con l’idea che soddisfare il GDPR soddisfi la maggior parte degli altri regimi nella maggior parte dei casi.

L’implicazione architetturale: il diritto all’oblio

Il problema architetturale singolarmente più difficile in materia di privacy è il diritto alla cancellazione. L’utente invia una deletion request. Dove sono i suoi dati?

In un piccolo sistema, “la user table” è una risposta difendibile. In una piattaforma vera, i dati esistono in una dozzina di posti: il database operazionale, il data warehouse, il feature store di ML, lo snapshot di backup dello scorso trimestre, la copia del vendor di analytics, lo storico dei ticket nello strumento di supporto, il profilo nel marketing automation tool, l’export che il data team ha mandato a un consulente nel 2024. Ognuna di quelle copie è un target di cancellazione, e ognuna ha meccanismi diversi per rimuovere davvero un record.

I pattern architetturali che rendono la cosa trattabile, in ordine approssimativo di costo:

Tagga ogni riga con l’ID del soggetto. Ogni tabella che contiene dati personali porta un riferimento esplicito all’utente che descrive. La cancellazione diventa “trova ogni riga taggata col soggetto X”. Senza questo tag, il team deve ragionare su ogni tabella individualmente, spesso facendo join contro identificatori transitori che potrebbero non sopravvivere a un backup.

Tombstone propagation. Quando una cancellazione avviene nel sistema sorgente, un tombstone record (l’ID dell’utente più un timestamp “deleted at”) fluisce a valle attraverso le stesse pipeline che originariamente avevano spostato i dati. Ogni sistema downstream applica il tombstone. Il pattern richiede che le pipeline siano idempotenti e rispettino i tombstone, una proprietà non banale da retrofittare.

Pseudonymisation. Invece di memorizzare ovunque identificatori grezzi, la piattaforma memorizza un identificatore pseudonimo mappato attraverso un singolo lookup service. Cancellare la entry del lookup di fatto cancella il legame con la persona reale, anche se le copie downstream dei dati pseudonimi rimangono. Si perde per sempre qualche informazione (il team non può più rispondere a “cosa ha fatto questo utente?”) ma si preserva il valore analitico (il team può ancora rispondere a “come si comportano in aggregato gli utenti che hanno fatto X?”). Fatta bene, è la strada più economica verso la compliance per i workload di analytics. Fatta male, produce una falsa sensazione di privacy perché gli pseudonimi sono facili da re-identificare.

Backup retention ed esclusioni. Il caso più duro è il cold backup immutabile. Il team non può cancellare un singolo utente da un tarball di backup senza ripristinarlo, modificarlo e ri-archiviarlo, cosa impraticabile. La risposta pragmatica che la maggior parte dei team adotta: i backup scadono secondo un calendario (tipicamente 30 o 90 giorni), e la deletion request viene onorata sui backup aspettando che escano dalla retention window, con una procedura documentata per ripristinare da un backup che contiene ancora dati cancellati (l’utente viene ri-cancellato al restore).

flowchart TD
    U[Deletion request<br/>user X]
    OP[Operational DB]
    WH[Data warehouse]
    FS[Feature store]
    AN[Analytics vendor]
    SU[Support tool]
    BK[Backups<br/>retention window]
    T[Tombstone published<br/>subject ID + timestamp]
    U --> OP
    OP --> T
    T --> WH
    T --> FS
    T --> AN
    T --> SU
    T --> BK

Il disegno è ingannevolmente ordinato. In un sistema vero, il tombstone deve fluire attraverso batch pipeline che possono girare ogni giorno, streaming pipeline che hanno un ritardo di minuti, e API di vendor che potrebbero non accettare tombstone affatto. Ogni cammino è un problema di ingegneria a sé, e la postura GDPR del team è il cammino più debole del gruppo.

Data residency

La seconda implicazione architetturale dura è la residency. Diverse giurisdizioni richiedono che i dati personali dei propri residenti rimangano fisicamente all’interno dei loro confini, o che ne escano solo a condizioni specifiche.

L’UE è l’esempio più rumoroso: il GDPR pone condizioni sui trasferimenti di dati personali fuori dall’UE/EEA. La sentenza Schrems II ha invalidato il framework Privacy Shield che in precedenza legittimava la maggior parte dei trasferimenti verso gli USA, e il sostituto (l’EU-US Data Privacy Framework) è esso stesso contestato. Il PIPL cinese ha il proprio regime di cross-border transfer, che può richiedere security assessment da parte dei regolatori cinesi per certi trasferimenti. La DPDPA indiana, la legge di data-localisation russa, diversi altri regimi: ciascuno ha le proprie regole.

La conseguenza architetturale è che il team che gestisce una piattaforma globale non può memorizzare i dati di tutti in una sola region e servirli tutti da lì. I pattern:

Region-locked deployments. Ogni region ha il proprio database, i propri backup, analytics, log archive. La replica cross-region è intenzionalmente ristretta. I dati degli utenti UE vivono esclusivamente nelle region UE; i backup vanno in bucket UE; gli access log restano nell’UE. La postura più forte, la più costosa.

Region-aware data routing. Un control plane globale instrada le richieste utente al data plane della region appropriata in base alla residency. Il data plane non comunica mai con la region sbagliata per i dati personali. I cloud provider offrono servizi che rendono questa cosa più semplice (AWS Local Zones, Azure Data Boundary, i regional service controls di Google).

Restricted-transfer mechanisms. Quando i dati devono lasciare una region (tipicamente per vendor SaaS globali), il trasferimento avviene sotto meccanismi legali espliciti: standard contractual clauses, binding corporate rules, o la rilevante adequacy decision. L’architettura deve taggare i dati con la loro sensibilità e origine per sapere quale meccanismo si applica.

Una piattaforma che ignora la residency finché non le tocca sistemarla si trova davanti una migrazione lunga. Aggiungere storage region-locked a un sistema nato globale è strutturalmente simile ad aggiungere multi-tenancy a posteriori: fattibile, costoso, e visibile nella complessità del sistema per anni dopo.

Encryption con customer-managed keys

Diversi framework e regolatori incoraggiano o richiedono che il customer (o il team della piattaforma, per conto del customer) tenga le encryption key, non il cloud provider.

Il default cloud è encryption at rest con provider-managed keys: i dati sono cifrati, e la chiave sta nel KMS del provider. Questo protegge contro i dischi rubati ma non contro il provider stesso, o contro un attaccante che ha compromesso credenziali IAM in grado di decifrare attraverso l’API del provider.

Le customer-managed keys (CMK o BYOK) mettono la chiave in un KMS che il customer controlla e può revocare: AWS KMS, Azure Key Vault, GCP Cloud KMS, tutti con opzioni di customer-managed key. Alcuni workload vanno oltre con HSM esterni o pattern “hold-your-own-key” in cui il cloud provider non vede mai la chiave. Il trade-off è la complessità operativa: perdi la chiave, perdi i dati; KMS outage, dati illeggibili finché non torna su. La CMK è un obbligo che molti workload regolamentati accettano, non un default per quelli general-purpose.

Audit e access log

L’Articolo 5(2) del GDPR e la maggior parte degli altri regimi richiedono accountability: la piattaforma deve essere in grado di dimostrare, su richiesta, chi ha acceduto a quali dati personali, quando, e per quale scopo. Questo si sovrappone con il security audit log della lezione 77 ma è una preoccupazione distinta con requisiti più stringenti di retention e di interrogazione.

Il privacy audit log risponde a domande come “il 14 marzo 2026, il record di questo utente è stato letto; da chi?”, “quali support agent hanno visualizzato i ticket di questo cliente negli ultimi 90 giorni?”, e “quali pipeline hanno letto dalla tabella che contiene la riga di questo utente, e in quali tabelle downstream sono finiti i dati?”

Costruirlo a posteriori è duro. Costruirlo come parte del data plane fin dall’inizio è molto più facile: ogni read di una tabella che contiene dati personali emette un evento; ogni export verso un vendor viene loggato con i row ID coperti; ogni query analytics viene taggata con i data subject che ha toccato. Il volume è significativo, lo storage è economico, e prima o poi il regolatore chiederà.

La privacy riguarda anche il rispetto delle scelte: l’utente ha fatto opt-in alle email di marketing ma non agli ad personalizzati, ha fatto opt-out dalla condivisione con vendor di terze parti, e ha revocato il consent per i cookie di analytics. L’architettura deve registrare quelle scelte e propagarle a ogni sistema che agisce su di esse.

Il consent record di per sé è semplice: una riga per utente per consent type, con un timestamp e la versione del testo del consenso mostrato. La parte difficile è la propagazione. Ogni sistema downstream che usa i dati deve conoscere lo stato di consent corrente dell’utente, e un nuovo opt-out deve raggiungere il marketing tool, il vendor di analytics, il recommendation engine, e l’email sender entro qualunque tempistica la normativa permetta (spesso “senza ingiustificato ritardo”, in pratica ore, non giorni).

Le consent management platform (OneTrust, Segment Consent Manager, Cookiebot) gestiscono la UI lato utente e il record stesso. Il lavoro architetturale è il livello di propagazione: uno stream di consent change event a cui i sistemi downstream si sottoscrivono, applicazione idempotente di quegli eventi, e un audit log che dimostri che ogni sistema ha applicato il cambiamento.

I framework di compliance come driver architetturali

Oltre alle leggi sulla privacy in sé, diversi framework di compliance codificano i controlli di cui una piattaforma regolamentata ha bisogno. Ciascuno richiede decisioni architetturali specifiche.

SOC 2 è il framework più comune per il B2B SaaS. Valuta la piattaforma rispetto a cinque trust services criteria (security, availability, processing integrity, confidentiality, privacy). I controlli che si aspetta includono change management con approval gate, separation of duties tra sviluppo e produzione, encryption nei posti standard, e un processo documentato di incident response. Il Type II richiede evidenza su 6-12 mesi che i controlli operino davvero.

ISO 27001 è l’equivalente internazionale, di scope più ampio e più prescrittivo sul management system attorno ai controlli (l’ISMS). Controlli simili; più enfasi sul management framework.

HIPAA negli USA, per le protected health information. Aggiunge requisiti su gestione delle PHI, business associate agreement con i vendor, e tempistiche di notifica delle breach. PCI DSS per i dati di carta di pagamento, con segmentazione di rete (il cardholder data environment deve essere isolato), standard di encryption specifici, e scansioni di vulnerabilità trimestrali.

La conseguenza architetturale è che i controlli della piattaforma diventano auditabili. Gli auditor chiedono evidenza: chi ha approvato questo deploy, come viene revisato l’accesso, dove sono le encryption key, chi può leggere l’audit log. Una piattaforma costruita senza questi controlli in mente deve retrofittarli quando il team di procurement di un cliente richiede la certificazione.

Com’è fatto un buon esempio

Un team con una postura sana di privacy e compliance ha i dati classificati per sensibilità e taggati con l’identità del data subject. Pipeline che propagano cancellazioni e cambi di consent a valle entro tempistiche documentate. Region-locked deployment dove la residency lo richiede. Customer-managed keys per i workload che ne hanno bisogno. Un audit log che risponde alle domande del regolatore senza panico. Una compliance roadmap che l’architettura è stata costruita per supportare, non retrofittata per soddisfare.

Niente di tutto questo previene ogni breach o soddisfa ogni regolatore. Tutto questo è la differenza tra una piattaforma che può difendere le proprie decisioni quando vengono scrutinate e una che non può. La discussione su infrastructure-as-code della lezione 53 torna rilevante: ogni policy di region-lock, ogni configurazione di encryption, ogni destinazione di audit log è codice, revisionato, version-controlled. La security architecture della lezione 77 è la fondazione; puoi avere security che fallisce sulla privacy perché il team ha trattato il livello regolatorio come un ripensamento.

La prossima lezione si muove verso le dimensioni sociali e di team dell’architettura: come la legge di Conway dà forma ai sistemi che costruiamo, e le team topology che producono piattaforme in grado di supportare davvero i controlli e i pattern che questo modulo ha passato il suo tempo a descrivere.

Citazioni e ulteriori letture

General Data Protection Regulation (Regulation (EU) 2016/679), https://eur-lex.europa.eu/eli/reg/2016/679/oj (consultato 2026-05-01). Il testo consolidato ufficiale. Vale la pena leggere almeno i considerando e gli Articoli 5, 6, 17, 20, e 32.
California Consumer Privacy Act and California Privacy Rights Act, https://oag.ca.gov/privacy/ccpa (consultato 2026-05-01). La risorsa ufficiale del California Attorney General su CCPA/CPRA.
NIST Privacy Framework v1.0, https://www.nist.gov/privacy-framework (consultato 2026-05-01). Il privacy framework del NIST, strutturato in modo simile al cybersecurity framework, utile per tradurre la normativa in controlli di ingegneria.
NIST Cybersecurity Framework 2.0, https://www.nist.gov/cyberframework (consultato 2026-05-01). Compagno del privacy framework; le sue funzioni protect e detect coprono buona parte dell’infrastruttura di audit e accesso che questa lezione descrive.
CIS Controls v8, https://www.cisecurity.org/controls/v8 (consultato 2026-05-01). La lista pratica di controlli, che si mappa con ragionevole fedeltà su SOC 2 e sui requisiti di evidenza ISO 27001.
European Data Protection Board, “Guidelines on data subject rights”, https://www.edpb.europa.eu/our-work-tools/general-guidance/guidelines-recommendations-best-practices_en (consultato 2026-05-01). Le interpretazioni delle autorità di controllo dei diritti GDPR, inclusi cancellazione e portabilità.