Una matrice di dispersione (nota anche come scatter plot matrix o scatter matrix) è uno strumento visuale utilizzato in statistica e analisi dei dati che visualizza diagrammi di dispersione per diverse coppie di variabili presentate in formato matrice. È utilizzata per comprendere la relazione tra diverse variabili in un dataset. Ecco le principali ragioni per cui si utilizza una matrice di dispersione:
analisi multivariata: fornisce un modo rapido per visualizzare e analizzare contemporaneamente più variabili, il che può essere più efficiente rispetto all'esame di singoli diagrammi di dispersione uno per uno;
ispezione della correlazione: le matrici di dispersione aiutano a identificare il grado e la direzione delle relazioni (correlazioni) tra le coppie di variabili. È possibile rilevare visualmente la correlazione positiva, la correlazione negativa o l'assenza di correlazione;
individuazione degli outlier: consentono di individuare facilmente gli outlier, ossia i punti dati che si discostano significativamente dalla tendenza generale. Gli outlier possono indicare errori nell'immissione dei dati, casi eccezionali o altre anomalie;
identificazione delle tendenze: visualizzando le tendenze all'interno dei dati, le matrici di dispersione possono aiutare a capire come le variabili cambiano in relazione l'una all'altra, il che è utile per la previsione e la modellazione;
comprensione della distribuzione dei dati: forniscono una visione della distribuzione dei punti dati e possono mettere in evidenza se i dati seguono un particolare modello di distribuzione;
generazione di ipotesi: mostrando le relazioni tra le variabili, le matrici di dispersione possono aiutare i ricercatori e gli analisti a generare ipotesi per ulteriori test statistici.
Nel complesso, le matrici di dispersione sono uno strumento esplorativo potente per comprendere dataset complessi con molte variabili, particolarmente utili nelle fasi iniziali dell'analisi dei dati per guidare ulteriori analisi approfondite.
In questa pagina è possibile visualizzare, per il componente selezionato, una serie di matrici scatter che mettono in relazioni tutte le variabili descrittive di un componente fra loro. In questo modo è possibile apprezzare il legame che ogni variabile presenta rispetto alle altre ed è possibile effettuare analisi sulla dispersione per meglio comprendere il legame presente fra diversi fattori descrittivi. Ogni punto all'interno della singola matrice rappresenta un'osservazione di dati per le due variabili di competenza del grafico realizzata allo stesso istante.
Le variabili di descrizione del componente si ripetono sia in orizzontale che in verticale, in questo modo è possibile avere tutte le possibili combinazioni. Si può notare come i grafici posti sulla diagonale della rappresentazione esplicitino il legame di una variabile con se stessa.
Nella parte alta della pagina è possibile sia modificare l'intervallo temporale di riferimento per i dati, sia cambiare il componente da analizzare. Spostando il cursore sui punti delle matrici è possibile visualizzarne il dettaglio.