Analisi della correlazione lineare

Correlazione lineare


22Ott2019

Information
Andrea Correlazione 1010 hits
Prima pubblicazione: 17 Luglio 2018

«One of the first things taught in introductory statistics textbooks is that correlation is not causation. It is also one of the first things forgotten».

Thomas Sowell

Quando si parla di correlazione ci si riferisce generalmente al grado di relazione tra due variabili.

La più importante tipologia di correlazione è quella lineare, che viene misurata dall'indice di correlazione di Pearson o indice di correlazione lineare. Esso può assumere valori compresi tra -1 e +1:

  • Quando è positivo, esiste una correlazione lineare diretta tra le due variabili osservate; la correlazione diretta è massima al raggiungimento del valore di +1
  • Quando è negativo, esiste una correlazione lineare inversa tra le due variabili osservate; la correlazione inversa è massima al raggiungimento del valore di -1
  • Quando è uguale a 0, le due variabili osservate non presentano alcuna correlazione lineare (sono cioè linearmente incorrelate)

La disposizione dei punti e i valori dell'indice di correlazione lineare nell'immagine seguente danno un'idea della variabilità di quest'ultimo in funzione delle possibili conformazioni dei fenomeni osservati:

Correlazione lineare

Nell'ultima riga dell'immagine le disposizioni dei punti seguono degli andamenti ben definiti e non casuali. Tuttavia, sono tutti esempi di relazioni non lineari e l'indice di correlazione lineare è pari a 0.

D'ora in poi, quando parleremo di correlazione faremo sempre riferimento alla correlazione lineare.

Indice


Differenza tra correlazione lineare e covarianza

Differenza tra correlazione lineare e covarianza
Victor Palmov, Variations After Gauguin (1910)

«The analysis of variance is not a mathematical theorem, but rather a convenient method of arranging the arithmetic».

Ronald Fisher

La covarianza ed il coefficiente di correlazione lineare sono due misure statistiche simili ma con alcune importanti differenze.

Entrambe misurano il livello di relazione esistente tra due variabili. La correlazione lineare è una funzione della covarianza in quanto si ottiene dividendo la covarianza delle due variabili per il prodotto delle deviazioni standard delle stesse due variabili.

Chiamiamo A la serie storica dei rendimenti del prodotto finanziario x e B quella del prodotto y. La formula dell'indice di correlazione lineare è la seguente: 

cov(A, B) rappresenta la covarianza di A e B, mentre  e  sono, rispettivamente, le deviazioni standard di A e B.

La correlazione lineare fornisce quindi un'informazione in più rispetto alla covarianza: mentre quest'ultima indica soltanto la direzione della relazione lineare tra due variabili, la correlazione lineare ne indica la direzione e ne misura l'intensità.

Quest'ultima caratteristica rende la correlazione lineare molto più conosciuta ed utilizzata della covarianza, perché i suoi valori sono compresi in un intervallo che va da -1 a +1: sono valori standardizzati e di più facile comprensione rispetto a quelli della covarianza, che può variare da meno infinito a più infinito.

Correlazione spuria

Correlazione spuria
Rene Magritte, Il falso specchio (1928), Museum of Modern Art

«But to measure cause and effect... you must ensure that a simple correlation, however tempting it may be, is not mistaken for a cause. In the 1990s the stork population of Germany increased and the German at-home birth rate rose as well. Shall we credit storks for airlifting the babies?».

Neil deGrasse Tyson

La correlazione non implica necessariamente una relazione di causalità tra le due variabili osservate. Quando questa relazione di causa-effetto manca, siamo in presenza di correlazione spuria.

La correlazione, a differenza della regressione lineare, non implica perciò l'esistenza di una variabile dipendente ed una indipendente.

Purtroppo la correlazione spuria, nella quale la casualità (e non la causalità) o una terza variabile sono alla base dei co-movimenti tra due variabili, è stata all'origine di equivoci di notevole portata.

Prendiamo ad esempio la curva di Phillips, che fu resa famosa dall'economista William Phillips nel 1958: essa misura una relazione inversa tra il tasso di inflazione e quello di disoccupazione. Relazione inversa abbiamo detto: se queste due quantità si muovessero davvero in modo inverso, significherebbe che sono legate da una correlazione lineare inversa; l'indice di correlazione dovrebbe perciò essere negativo.

La curva di Phillips nacque dall'osservazione empirica dei movimenti opposti tra il tasso di inflazione e quello di disoccupazione e, soltanto in seguito, ne fu costruito un modello matematico a supporto.

Purtroppo, a partire dagli anni '70 del secolo scorso il modello ha smesso di funzionare: la correlazione inversa tra i due tassi è sovente venuta meno. Come era da aspettarsi, nuovi e più sofisticati modelli hanno cercato di spiegare le anomalie verificatesi: nessuno di essi si è però imposto in modo definitivo.

Le opinioni non sono unanimi e rimane il forte dubbio che la curva di Phillips sia stata originata da una correlazione spuria.

In un libro molto divertente e di facile lettura, intitolato Spurious correlations, Tyler Vigen ha presentato numerosi esempi di correlazione spuria. Vediamone alcuni: 

  1. Perdite economiche causate dal crimine informatico ed utili per azione della società inglese Domino Pizza tra il 2003 e il 2009: indice di correlazione lineare = 0,98
    Correlazione Perdite Utili
  2. Posizione nella classifica degli show più visti della CBS della sitcom "Due uomini e mezzo" e indice NYSE Composite (valori annuali) tra il 2005 e il 2011: indice di correlazione lineare = 0,95
    Correlazione Due uomini NYSE
  3. Libri di filosofia pubblicati negli USA e numero di avvocati nello stato americano del Washington tra il 2005 e il 2009: indice di correlazione lineare = 0,93
    Correlazione Libri Avvocati
  4. Gol segnati da Lionel Messi nella nazionale Argentina e incassi dei film Marvel tra il 2005 e il 2014: indice di correlazione lineare = 0,84
    Correlazione Gol Incassi
  5. Numero di film girati da Jennifer Lawrence e Prodotto Interno Lordo dell'Australia tra il 2009 e il 2013: indice di correlazione lineare = 0,88
    Correlazione Film PIL

Chi fosse interessato ad ulteriori coppie di variabili correlate in modo spurio, ed ai link alle fonti dei dati utilizzati per la realizzazione di questi e di molti altri grafici del libro di Tyler Vigen, può visitare la seguente pagina: Spurious Book Sources.

Perché si verificano correlazioni così elevate tra variabili che non dovrebbero avere alcun legame tra loro? Innanzitutto perché le serie storiche sulle quali sono state misurate le correlazioni sono molto brevi. Negli esempi appena visti sono stati utilizzati soltanto 5-10 anni di dati, quindi non più di 5-10 valori per variabile. In secondo luogo, perché i già brevi periodi utilizzati sono stati selezionati ad hoc: basta modificarli ed il valore dell'indice di correlazione può variare drasticamente.

Ad esempio, se nella prima correlazione spuria si prendessero i dati tra il 2011 ed il 2017, l'indice di correlazione passerebbe da 0,98 a -0,17: se nel secondo caso si spostasse la finestra temporale due anni in avanti, la correlazione scenderebbe da 0,95 a 0,59; se nell'ultimo caso, invece di prendere il quinquennio 2009-2013, si prendesse il 2013-2017, il valore dell'indice di correlazione crollerebbe da 0,88 a -0,72!

Quali conclusioni possiamo trarre dal fenomeno della correlazione spuria? La più importante è quella di analizzare a fondo ogni correlazione lineare tra due serie di variabili, specialmente se la si vuole utilizzare a fini speculativi: ad esempio, si può controllare quanto vari l'indice quando viene calcolato su serie storiche più lunghe o su diverse sezioni della medesima serie storica.

Se il valore dell'indice di correlazione è instabile, vuol dire che molto probabilmente non c'è alcuna causalità tra le variabili esaminate: il co-movimento è dovuto al caso e non esiste alcun motivo per cui debba continuare in futuro.

Correlazione rolling

Analisi della correlazione lineare di Dedalo Invest
William Glackens, Children Rollerskating (1914)

«The only thing that is constant is change».

Eraclito

La correlazione lineare tra due serie storiche di rendimenti finanziari non è costante. Se lo fosse, il lavoro degli statistici e degli analisti sarebbe molto più semplice ed efficace. Purtroppo, tende a modificarsi in base a due fattori:

  • Il periodo di calcolo
  • Il momento in cui avviene la misurazione

Con periodo di calcolo, si intende la numerosità dei valori delle serie storiche di cui vogliamo misurare la correlazione. Ipotizzando serie storiche giornaliere, ci potrebbe interessare calcolare l'indice di correlazione lineare a 20 giorni, a 252 giorni o, magari, a 1000 o più giorni. Gli indici così calcolati assumeranno probabilmente valori molto diversi tra loro.

Il momento in cui avviene la misurazione corrisponde alla data di calcolo dell'indice. Come si vedrà meglio in seguito, l'indice di correlazione a 252 giorni calcolato, ad esempio, il 15 giugno 2004 potrebbe assumere un valore ben diverso da quello calcolato il 15 giugno 2015 (sui rendimenti degli stessi due prodotti finanziari).

Correlazione rolling significa calcolare l'indice di correlazione tra due serie storiche in modo ripetuto per tutto il periodo disponibile (serie storiche giornaliere nel nostro caso). Ogni giorno, l'indice viene ricalcolato utilizzando le nuove informazioni disponibili (i due rendimenti più recenti), mentre quelle più datate vengono escluse. Un po' come avviene nel calcolo delle medie mobili (anche se in questo caso i calcoli vengono effettuati su una sola serie storica).

Prendiamo due fondi con serie storiche molto lunghe, a titolo esemplificativo: Eurizon EasyFund - Bond EUR Long Term LTE R e Anima Selezione Globale A. Il primo è un fondo Obbligazionario Lungo Termine EUR mentre il secondo è un Azionario Internazionale Large Cap Blend.

Vediamo l'andamento del grafico delle correlazioni rolling a 252 giorni (un anno circa) tra i rendimenti di questi due fondi. Il periodo analizzato va dal gennaio 2000 a giugno 2019 (naturalmente i primi valori appariranno nel grafico a partire dal gennaio 2001):

Correlazione rolling 252

I valori dell'indice di correlazione lineare variano nel tempo in maniera abbastanza ampia seguendo trend ben identificabili: in territorio negativo per oltre 10 anni, oscillando tra valori di poco sotto allo zero e ben inferiori a -0,60; leggermenti positivi per circa 4 anni (salvo per un breve periodo di qualche mese); ancora negativi per un anno intero e poi di nuovi positivi ma molto vicini a zero. Il valore minimo dell'indice è stato -0,68; quello massimo 0,26. Il valore medio dell'indice di correlazione in questi 18 anni e mezzo è stato -0,18. La standard deviation è stata pari a 0,21.

Ceteris paribus, vediamo adesso le correlazioni a 1260 giorni (5 anni circa):

Correlazione rolling 1260

I valori dell'indice di correlazione si sono schiacciati verso lo 0 e la varianza è decisamente inferiore. L'indice assume valori negativi per oltre 10 anni prima di diventare positivo e rimanere tale nei successivi 4 anni (seppure di poco superiore a 0). Il valore minimo dell'indice è stato -0,40; quello massimo 0,09. Il valore medio dell'indice di correlazione in questi 14 anni e mezzo è stato -0,19. La standard deviation è stata pari a 0,16.

Aumentiamo ulteriormente il periodo di calcolo, portandolo a 2520 giorni (circa 10 anni). Ecco il grafico:

Correlazione rolling 2520

La distanza tra i valori massimi e minimi è diminuita ulteriormente. Anche la varianza si è ridotta. L'indice non è mai stato positivo, anche se il trend è stato crescente (gli ultimi valori sono di poco inferiori allo 0). Il suo valore minimo è stato -0,35; quello massimo -0,03. Il valore medio dell'indice di correlazione in questi 9 anni e mezzo è stato -0,21. La standard deviation è stata pari a 0,09.

Come varia, invece, l'indice di correlazione calcolato su periodi brevi? Vediamo quello a 20 giorni:

Correlazione rolling 20

Il grafico è molto più difficile da decifrare. Le oscillazioni sono estreme e non è possibile identificare dei trend.

Sembra che l'indice di correlazione calcolato su periodi così brevi (20 giorni è poco meno di un mese) non fornisca molta informazione ma sia costituito, soprattutto, da rumore. Il valore minimo dell'indice è stato -0,86; quello massimo 0,77. Il valore medio dell'indice di correlazione in questi 19 anni e mezzo è stato -0,18. La standard deviation è stata pari a 0,33.

Si può concludere ribadendo come sia la lunghezza del periodo scelto per il calcolo dell'indice di correlazione, sia il momento in cui avviene la misurazione, ne influenzino il valore. In particolare, più il periodo di calcolo è breve e più grandi e frequenti saranno le oscillazioni dell'indice. 

Si dovrà perciò fare molta attenzione alla scelta della lunghezza del periodo di calcolo dell'indice di correlazione e, nel caso in cui lo si voglia utilizzare operativamente, sarà bene non scegliere periodi troppo brevi: è molto probabile che il suo valore cambi troppo velocemente per essere sfruttato in modo proficuo.

Analisi di correlazione lineare di Dedalo Invest

Analisi della correlazione lineare di Dedalo Invest
Naum Gabo, Linear Construction No. 1 (1943)

«There is zero correlation between IQ and emotional empathy... They're controlled by different parts of the brain».

Daniel Goleman

Dedalo Invest permette di calcolare l'indice di correlazione lineare tra due o più serie storiche finanziarie. Nell'output della nostra Analisi di correlazione lineare potrete notare che, indipendentemente dal tipo di analisi scelta, verranno visualizzate due serie di risultati: correlazione dei rendimenti e correlazione dei NAV dei fondi.

In un'ottica di gestione del portafoglio la correlazione dei rendimenti è quella rilevante.

Le differenze sono talvolta notevoli: questi gap sono riconducibili all'assenza di invarianza della correlazione in seguito a trasformazioni non lineari strettamente crescenti.

In linea generale, si può infatti affermare che

corr(T(X), T(Y)) ≠ corr(X, Y)

Senza entrare troppo in tecnicismi, questo significa che i rendimenti di due fondi potrebbero essere incorrelati mentre i prezzi potrebbero essere fortemente correlati (o viceversa).

Come è ormai noto, l'indice di correlazione è sempre compreso tra -1 e +1. Quello che pochi sanno è che questo intervallo di valori è valido soltanto se le variabili casuali misurate seguono una distribuzione normale o t multivariata.

Su questo assunto si basano implicitamente molte delle applicazioni che ricevono in input le serie storiche dei rendimenti di prodotti finanziari. Tuttavia, esso non è necessariamente vero e tanto più ci si allontana dalle due distribuzione citate, tanto più i limiti di -1 e +1 perdono di significato e possono talvolta diventare irraggiungibili.

Ad esempio, se X e Y sono variabili casuali distribuite log-normalmente invece che normalmente, non sarà possibile che l'indice di correlazione lineare assuma determinati valori. Se ipotizziamo che ln(X) segua una distribuzione normale standardizzata e ln(Y) una normale con media 0 e varianza 4 - quindi N(0, 4) - allora l'indice di correlazione lineare non potrà mai superare il valore di 2/3 e non potrà mai essere inferiore a -0,09. Valori che sono ben lontani dai classici +1 e -1.

Nonostante tutti i suoi limiti, l'indice di correlazione lineare rimane una misura statistica molto utilizzata nella pratica, capace di fornire informazioni talvolta fondamentali in un'ottica di gestione del portafoglio.

Le analisi disponibili su Dedalo Invest possono essere effettuate tra singoli prodotti finanziari (fondo-fondo, fondo-indice, fondo-tasso di interesse e fondo-tasso di cambio), ma anche tra tutti i fondi di una o due diverse categorie o tra un elevato numero di indici: anche diverse migliaia di correlazioni per volta.

Di conseguenza, l'analisi potrebbe richiedere un tempo di calcolo relativamente alto: l'output generato, però, fornisce una straordinaria quantità di informazioni e merita l'eventuale attesa.

Qui di seguito vengono visualizzate alcune sezioni della tabella di output dell'analisi di correlazione lineare:

Primo fondoSecondo fondoCorrelazione lineare dei rendimentiCorrelazione lineare dei NAV/valoriDifferenza di rendimento
Schroder ISF - Italian Equity A Acc Schroder ISF - Italian Equity C Acc 1.00000 0.99983 -0.44%
AXA World Funds - Framlington Italy AC EUR AXA World Funds - Framlington Italy FC EUR 0.99999 0.99958 -0.63%
CS (Lux) - Italy Equity B EUR CS (Lux) - Italy Equity IB EUR 0.99999 0.99877 -1.03%
Schroder ISF - Italian Equity A Acc Schroder ISF - Italian Equity C Acc 0.99999 0.99983 -0.44%
Fonditalia Equity Italy R Fonditalia Equity Italy T 0.99999 0.99956 -0.55%
Zenit Multistrategy Stock Picking I Acc Zenit Multistrategy Stock Picking P Acc 0.99999 0.99990 0.59%

Estratto delle prime 6 coppie di fondi nell'output di Analisi di Correlazione Lineare (categoria Azionari Italia)

Primo fondoSecondo fondoCorrelazione lineare dei rendimentiCorrelazione lineare dei NAV/valoriDifferenza di rendimento
Eurizon EasyFund - Equity Italy LTE R OYSTER Italian Value C EUR PF 0.71606 0.91064 -1.49%
OYSTER Italian Value C EUR PF Symphonia Azionario Small Cap Italia I 0.71132 0.71132 -0.88%
OYSTER Italian Value C EUR PF iShares - FTSE MIB UCITS ETF (Acc) (EUR) 0.70876 0.85846 -0.84%
iShares - FTSE MIB UCITS ETF (Acc) (EUR) iShares - MSCI Italy Capped ETF (USD) 0.69869 0.93797 5.54%
Lemanik SICAV High Growth Capitalisation Institutional EUR iShares - MSCI Italy Capped ETF (USD) 0.69573 0.93905 3.79%
Fidelity Funds - Italy E-Acc-EUR iShares - MSCI Italy Capped ETF (USD) 0.69568 0.94270 1.57%

Estratto di 6 coppie di fondi nella parte centrale dell'output di Analisi di Correlazione Lineare (categoria Azionari Italia)

Primo fondoSecondo fondoCorrelazione lineare dei rendimentiCorrelazione lineare dei NAV/valoriDifferenza di rendimento
BG Selection SICAV - Anima Italy Equities AX Anima Geo Italia A 0.07748 0.91022 -5.70%
Atlante Target Italy A Acc BG Selection SICAV - Anima Italy Equities AX 0.07699 0.93830 -5.46%
Allianz Azioni Italia All Stars BG Selection SICAV - Anima Italy Equities AX 0.07489 0.97277 -3.99%
Anima Italia A BG Selection SICAV - Anima Italy Equities AX 0.07420 0.91527 4.58%
BG Selection SICAV - Anima Italy Equities AX Piano Azioni Italia A 0.07207 0.96814 2.33%
AXA World Funds - Framlington Italy FC EUR BG Selection SICAV - Anima Italy Equities AX 0.06856 0.95249 -1.64%

Estratto di 6 coppie di fondi della parte inferiore dell'output di Analisi di Correlazione Lineare (categoria Azionari Italia)

Le correlazioni lineari di queste 18 coppie di fondi rappresentano una minima parte dell'output generato dall'analisi di correlazione lineare a 252 giorni tra tutti i fondi della categoria Azionari Italia. Nella sua interezza, infatti, l'output sarebbe stato composto da 1485 coppie di fondi.

Ogni analisi può infine essere personalizzata in base ai parametri descritti nel paragrafo seguente.

Parametri dell' analisi di correlazione lineare

Parametri analisi correlazione lineare
Vassily Kandinsky, Transverse Line (1923)

«It's a wonderful thing, as a writer, to be given parameters and walls and barriers».

Neil Gaiman

Tipo di analisi: si possono effettuare 6 tipi di analisi di correlazione lineare:

  • Analisi singole:
    • Tra due fondi specifici
    • Tra un fondo ed un indice
    • Tra un fondo ed un tasso di interesse
    • Tra un fondo ed un tasso di cambio
  • Analisi multiple:
    • Tra tutti i fondi di una o due categorie
    • Tra tutti gli indici

Periodo (in giorni): periodi di calcolo dell'analisi di correlazione lineare. Non deve essere inferiore a 5 giorni.

Giorni finali: Numero di giorni che vengono tolti alla fine di tutte le serie storiche prima di calcolare le correlazioni. Serve ad evitare che alcune serie abbiano valori non aggiornati (il NAV di alcuni fondi è disponibile uno o più giorni dopo).

Media periodi: Utilizzazione della media di 3 periodi (in giorni), invece che di un periodo singolo, nel calcolo della correlazione lineare.

Vai all'analisi di Correlazione lineare

Scegli che tipo di utilizzatore vuoi essere

FREE

Gratis senza
registrazione
Portafogli Modello:
nessuno
Portafogli Personali:
nessuno
Backtest Strategie
limitate
Segnali giornalieri
non disponibili
Download
non disponibile
CAPTCHA
presente

BASIC

Gratis con
registrazione
Portafogli Modello:
nessuno
Portafogli Personali:
1
Backtest Strategie
limitate
Segnali giornalieri
non disponibili
Download
disponibile
CAPTCHA
presente

PRO
Mensile

49 € IVA compresa

Portafogli Modello:
52
Portafogli Personali:
illimitati
Backtest Strategie
illimitate
Segnali giornalieri
disponibili
Download
disponibile
CAPTCHA
assente

PRO
Annuale

490 € IVA compresa

Portafogli Modello:
52
Portafogli Personali:
illimitati
Backtest Strategie
illimitate
Segnali giornalieri
disponibili
Download
disponibile
CAPTCHA
assente

Disclaimer

Tutti i tipi di investimento sono rischiosi. Il livello di rischio può essere più o meno alto e i rendimenti possono variare al rialzo o al ribasso. Ogni investimento è soggetto al rischio di perdita.
I rendimenti passati non sono indicativi di quelli futuri.