Analisi della correlazione lineare

Analisi di correlazione lineare


19Mag2019

Information
Andrea Correlazione 429 hits
Prima pubblicazione: 17 Luglio 2018

«One of the first things taught in introductory statistics textbooks is that correlation is not causation. It is also one of the first things forgotten».

Thomas Sowell

Quando si parla di correlazione ci si riferisce generalmente al grado di relazione tra due variabili. La più importante tipologia di correlazione è quella lineare, che viene misurata dall'indice di correlazione di Pearson o indice di correlazione lineare. Esso può assumere valori compresi tra -1 e +1:

  • quando è positivo esiste una correlazione lineare diretta tra le due variabili osservate; la correlazione diretta è massima al raggiungimento del valore di +1;
  • quando è negativo esiste una correlazione lineare inversa tra le due variabili osservate; la correlazione inversa è massima al raggiungimento del valore di -1;
  • quando è uguale a 0 le due variabili osservate non presentano alcuna correlazione lineare (sono cioè linearmente incorrelate).

La disposizione dei punti e i valori dell'indice di correlazione lineare nell'immagine seguente danno un'idea della variabilità di quest'ultimo in funzione delle possibili conformazioni dei fenomeni osservati:

Correlazione lineare

Nell'ultima riga dell'immagine le disposizioni dei punti seguono degli andamenti ben definiti e non casuali. Tuttavia, sono tutti esempi di relazioni non lineari e l'indice di correlazione lineare è pari a 0.

D'ora in poi quando parleremo di correlazione faremo sempre riferimento alla correlazione lineare.

Indice

Correlazione spuria

Correlazione spuria
Rene Magritte, Il falso specchio (1928), Museum of Modern Art

«But to measure cause and effect... you must ensure that a simple correlation, however tempting it may be, is not mistaken for a cause. In the 1990s the stork population of Germany increased and the German at-home birth rate rose as well. Shall we credit storks for airlifting the babies?».

Neil deGrasse Tyson

La correlazione non implica necessariamente una relazione di causalità tra le due variabili osservate. Quando questa relazione di causa-effetto manca, siamo in presenza di correlazione spuria. La correlazione, a differenza della regressione lineare, non implica perciò l'esistenza di una variabile dipendente ed una indipendente.

Purtroppo la correlazione spuria, nella quale la casualità e non la causalità è alla base dei co-movimenti tra due variabili, è stata all'origine di equivoci di notevole portata. Prendiamo ad esempio la curva di Phillips, che fu resa famosa dall'economista William Phillips nel 1958: essa misura una relazione inversa tra il tasso di inflazione e quello di disoccupazione. Relazione inversa abbiamo detto: se queste due quantità si muovessero davvero in modo inverso, significherebbe che sono legate da una correlazione lineare inversa; l'indice di correlazione dovrebbe perciò essere negativo.

La curva di Phillips nacque dall'osservazione empirica dei movimenti opposti tra il tasso di inflazione e quello di disoccupazione e, soltanto in seguito, ne fu costruito un modello matematico a supporto. Purtroppo, a partire dagli anni '70 del secolo scorso il modello ha smesso di funzionare: la correlazione inversa tra i due tassi è sovente venuta meno. Come era da aspettarsi, nuovi e più sofisticati modelli hanno cercato di spiegare le anomalie verificatesi: nessuno di essi si è però imposto in modo definitivo. Le opinioni non sono unanimi e rimane il forte dubbio che la curva di Phillips sia stata originata da una correlazione spuria.

In un libro molto divertente, intitolato Spurious correlations, Tyler Vigen ha presentato numerosi esempi di correlazione spuria; ne vedremo alcuni qui di seguito: 

  1. Perdite economiche causate dal crimine informatico ed utili per azione della società inglese Domino Pizza tra il 2003 e il 2009: indice di correlazione lineare = 0,98
    Correlazione Perdite Utili
  2. Posizione nella classifica degli show più visti della CBS della sitcom "Due uomini e mezzo" e indice NYSE Composite (valori annuali) tra il 2005 e il 2011: indice di correlazione lineare = 0,95
    Correlazione Due uomini NYSE
  3. Libri di filosofia pubblicati negli USA e numero di avvocati nello stato americano del Washington tra il 2005 e il 2009: indice di correlazione lineare = 0,93
    Correlazione Libri Avvocati
  4. Gol segnati da Lionel Messi nella nazionale Argentina e incassi dei film Marvel tra il 2005 e il 2014: indice di correlazione lineare = 0,84
    Correlazione Gol Incassi
  5. Numero di film girati da Jennifer Lawrence e Prodotto Interno Lordo dell'Australia tra il 2009 e il 2013: indice di correlazione lineare = 0,88
    Correlazione Film PIL

Chi fosse interessato ad ulteriori coppie di variabili correlate in modo spurio, ed ai link alle fonti dei dati utilizzati per la realizzazione di questi e di molti altri grafici del libro di Tyler Vigen, può visitare la seguente pagina: Spurious Book Sources.

Perché si verificano correlazioni così elevate tra variabili che non dovrebbero avere alcun legame tra loro? Innanzitutto perché le serie storiche sulle quali sono state misurate le correlazioni sono molto brevi. Negli esempi appena visti sono stati utilizzati soltanto 5-10 anni di dati, quindi non più di 5-10 valori per variabile. In secondo luogo, perché i già brevi periodi utilizzati sono stati selezionati ad hoc: basta modificarli ed il valore dell'indice di correlazione può variare drasticamente. Ad esempio, se nella prima correlazione spuria si prendessero i dati tra il 2011 ed il 2017, l'indice di correlazione passerebbe da 0,98 a -0,17: se nel secondo caso si spostasse la finestra temporale due anni in avanti, la correlazione scenderebbe da 0,95 a 0,59; se nell'ultimo caso, invece di prendere il quinquennio 2009-2013, si prendesse il 2013-2017, il valore dell'indice di correlazione crollerebbe da 0,88 a -0,72!

La lezione da imparare è che bisogna sempre analizzare a fondo ogni correlazione lineare tra due serie di variabili, specialmente se la si vuole utilizzare a fini speculativi: ad esempio, si può controllare quanto vari l'indice quando viene calcolato su serie storiche più lunghe o su diverse sezioni della medesima serie storica. Se il valore dell'indice di correlazione è instabile, vuol dire che molto probabilmente non c'è alcuna causalità tra le variabili esaminate: il co-movimento è dovuto al caso e non esiste alcun motivo per cui debba continuare in futuro.

Analisi di correlazione lineare di Dedalo Invest

Analisi della correlazione lineare di Dedalo Invest
Naum Gabo, Linear Construction No. 1 (1943)

«There is zero correlation between IQ and emotional empathy... They're controlled by different parts of the brain».

Daniel Goleman

Dedalo Invest permette di calcolare l'indice di correlazione lineare tra due o più serie storiche finanziarie. Nell'output della nostra Analisi di correlazione lineare potrete notare che, indipendentemente dal tipo di analisi scelta, verranno visualizzate due serie di risultati: correlazione dei rendimenti e correlazione dei NAV dei fondi. In un'ottica di gestione del portafoglio la correlazione dei rendimenti è quella rilevante. Le differenze sono talvolta notevoli: questi gap sono riconducibili all'assenza di invarianza della correlazione in seguito a trasformazioni non lineari strettamente crescenti. In linea generale si può infatti affermare che corr(T(X), T(Y)) ≠ corr(X, Y). Senza entrare troppo in tecnicismi, questo significa che i rendimenti di due fondi potrebbero essere incorrelati mentre i prezzi potrebbero essere fortemente correlati (o viceversa).

Come è noto (e come è stato ribadito all'inizio di questo articolo) l'indice di correlazione è sempre compreso tra -1 e +1. Quello che pochi sanno è che questo intervallo di valori è valido soltanto se le variabili casuali misurate seguono una distribuzione normale o t multivariata. Su questo assunto si basano implicitamente molte delle applicazioni che ricevono in input le serie storiche dei rendimenti di prodotti finanziari. Tuttavia, esso non è necessariamente vero e tanto più ci si allontana dalle due distribuzione citate, tanto più i limiti di -1 e +1 perdono di significato e possono talvolta diventare irraggiungibili. Ad esempio, se X e Y sono variabili casuali distribuite log-normalmente invece che normalmente, non sarà possibile che l'indice di correlazione lineare assuma determinati valori. Se ipotizziamo che ln(X) segua una distribuzione normale standardizzata e ln(Y) una normale con media 0 e varianza 4 - quindi N(0, 4) - allora l'indice di correlazione lineare non potrà mai superare il valore di 2/3 e non potrà mai essere inferiore a -0,09. Valori che sono ben lontani dai classici +1 e -1.

Nonostante tutti i suoi limiti, l'indice di correlazione lineare rimane una misura statistica molto utilizzata nella pratica, capace di fornire informazioni talvolta fondamentali in un'ottica di gestione del portafoglio. Le analisi disponibili su Dedalo Invest possono essere effettuate tra singoli prodotti finanziari (fondo-fondo, fondo-indice, fondo-tasso di interesse e fondo-tasso di cambio) ma anche tra tutti i fondi di una o due diverse categorie o tra un elevato numero di indici: anche diverse migliaia di correlazioni per volta. Di conseguenza, l'analisi potrebbe richiedere un tempo di calcolo relativamente alto: l'output generato, però, fornisce una straordinaria quantità di informazioni e merita l'eventuale attesa.

Qui di seguito vengono visualizzate alcune piccole parti della tabella di output dell'analisi di correlazione lineare:

Primo fondoSecondo fondoCorrelazione lineare dei rendimentiCorrelazione lineare dei NAV/valoriDifferenza di rendimento
Schroder ISF - Italian Equity A Acc Schroder ISF - Italian Equity C Acc 1.00000 0.99983 -0.44%
AXA World Funds - Framlington Italy AC EUR AXA World Funds - Framlington Italy FC EUR 0.99999 0.99958 -0.63%
CS (Lux) - Italy Equity B EUR CS (Lux) - Italy Equity IB EUR 0.99999 0.99877 -1.03%
Schroder ISF - Italian Equity A Acc Schroder ISF - Italian Equity C Acc 0.99999 0.99983 -0.44%
Fonditalia Equity Italy R Fonditalia Equity Italy T 0.99999 0.99956 -0.55%
Zenit Multistrategy Stock Picking I Acc Zenit Multistrategy Stock Picking P Acc 0.99999 0.99990 0.59%

Estratto delle prime 6 coppie di fondi nell'output di Analisi di Correlazione Lineare (categoria 'Azionari Italia')

Primo fondoSecondo fondoCorrelazione lineare dei rendimentiCorrelazione lineare dei NAV/valoriDifferenza di rendimento
Eurizon EasyFund - Equity Italy LTE R OYSTER Italian Value C EUR PF 0.71606 0.91064 -1.49%
OYSTER Italian Value C EUR PF Symphonia Azionario Small Cap Italia I 0.71132 0.71132 -0.88%
OYSTER Italian Value C EUR PF iShares - FTSE MIB UCITS ETF (Acc) (EUR) 0.70876 0.85846 -0.84%
iShares - FTSE MIB UCITS ETF (Acc) (EUR) iShares - MSCI Italy Capped ETF (USD) 0.69869 0.93797 5.54%
Lemanik SICAV High Growth Capitalisation Institutional EUR iShares - MSCI Italy Capped ETF (USD) 0.69573 0.93905 3.79%
Fidelity Funds - Italy E-Acc-EUR iShares - MSCI Italy Capped ETF (USD) 0.69568 0.94270 1.57%

Estratto di 6 coppie di fondi nella parte centrale dell'output di Analisi di Correlazione Lineare (categoria 'Azionari Italia')

Primo fondoSecondo fondoCorrelazione lineare dei rendimentiCorrelazione lineare dei NAV/valoriDifferenza di rendimento
BG Selection SICAV - Anima Italy Equities AX Anima Geo Italia A 0.07748 0.91022 -5.70%
Atlante Target Italy A Acc BG Selection SICAV - Anima Italy Equities AX 0.07699 0.93830 -5.46%
Allianz Azioni Italia All Stars BG Selection SICAV - Anima Italy Equities AX 0.07489 0.97277 -3.99%
Anima Italia A BG Selection SICAV - Anima Italy Equities AX 0.07420 0.91527 4.58%
BG Selection SICAV - Anima Italy Equities AX Piano Azioni Italia A 0.07207 0.96814 2.33%
AXA World Funds - Framlington Italy FC EUR BG Selection SICAV - Anima Italy Equities AX 0.06856 0.95249 -1.64%

Estratto di 6 coppie di fondi della parte inferiore dell'output di Analisi di Correlazione Lineare (categoria 'Azionari Italia')

Le correlazioni lineari di queste 18 coppie di fondi rappresentano una minima parte dell'output generato dall'analisi di correlazione lineare a 252 giorni tra tutti i fondi della categoria 'Azionari Italia'. Nella sua interezza, infatti, l'output sarebbe stato composto da 1.485 coppie di fondi.

Ogni analisi può infine essere personalizzata in base ai parametri descritti nel paragrafo seguente.

Parametri dell'analisi di correlazione lineare

«It's a wonderful thing, as a writer, to be given parameters and walls and barriers».

Neil Gaiman

Tipo di analisi: si possono effettuare 6 tipi di analisi di correlazione lineare:

  • Analisi singole:
    • Tra due fondi specifici
    • Tra un fondo ed un indice
    • Tra un fondo ed un tasso di interesse
    • Tra un fondo ed un tasso di cambio
  • Analisi multiple:
    • Tra tutti i fondi di una o due categorie
    • Tra tutti gli indici

Periodo (in giorni): periodi di calcolo dell'analisi di correlazione lineare. Non deve essere inferiore a 5 giorni.

Giorni finali: Numero di giorni che vengono tolti alla fine di tutte le serie storiche prima di calcolare le correlazioni. Serve ad evitare che alcune serie abbiano valori non aggiornati (il NAV di alcuni fondi è disponibile uno o più giorni dopo).

Media periodi: Utilizzazione della media di 3 periodi (in giorni), invece che di un periodo singolo, nel calcolo della correlazione lineare.

Vai all'analisi di Correlazione lineare

Scegli che tipo di utilizzatore vuoi essere

FREE

Gratis senza
registrazione
Portafogli Modello:
nessuno
Portafogli Personali:
nessuno
Backtest Strategie
limitate
Segnali giornalieri
non disponibili
Download
non disponibile
CAPTCHA
presente

BASIC

Gratis con
registrazione
Portafogli Modello:
nessuno
Portafogli Personali:
1
Backtest Strategie
limitate
Segnali giornalieri
non disponibili
Download
disponibile
CAPTCHA
presente

PRO
Mensile

49 € IVA compresa

Portafogli Modello:
52
Portafogli Personali:
illimitati
Backtest Strategie
illimitate
Segnali giornalieri
disponibili
Download
disponibile
CAPTCHA
assente

PRO
Annuale

490 € IVA compresa

Portafogli Modello:
52
Portafogli Personali:
illimitati
Backtest Strategie
illimitate
Segnali giornalieri
disponibili
Download
disponibile
CAPTCHA
assente

Disclaimer

Tutti i tipi di investimento sono rischiosi. Il livello di rischio può essere più o meno alto e i rendimenti possono variare al rialzo o al ribasso. Ogni investimento è soggetto al rischio di perdita.
I rendimenti passati non sono indicativi di quelli futuri.