| Generalità | |
| Campo di variazione | |
| Scarto quadratico medio e varianza | |
| Scostamento semplice medio | |
| Indici di variabilità relativa | |
| Concentrazione |
Esaminando i fenomeni collettivi si è affermato che una delle loro caratteristiche è quella di essere costituiti da più fenomeni individuali atipici; si è anche studiato che il carattere di un fenomeno collettivo può assumere modalità qualitative o quantitative e che lattitudine che tali fenomeni hanno ad assumere diverse modalità qualitative si dice mutabilità, mentre lattitudine ad assumere diverse modalità quantitative si dice variabilità. Si è visto come si possa fare uso dei valori medi allo scopo di condensare linsieme dei dati provenienti dalle osservazioni in un unico valore che possa rappresentarli tutti. Tale valore è spesso indicato come <<centro>> della distribuzione. Occorre ora tenere presente un concetto essenziale della statistica, e cioè che un valore medio, comunque calcolato, non è sufficiente a rappresentare linsieme delle osservazioni effettuate (o linsieme dei valori assunti dalla variabile statistica); è necessario quindi affiancare ad esso altri indici che siano in grado di fornire delle informazioni sulla dispersione, in pratica sulla distanza delle varie osservazioni dal valore medio che rappresenta il centro della distribuzione.

Tanto minore è la distanza (o dispersione) delle osservazioni dal centro, tanto maggiore sarà la rappresentatività e laffidabilità del valore medio. Gli indici di variabilità assumono valore zero solo se è nulla la variabilità, e tutti i valori xi sono quindi uguali fra loro; allaumentare della variabilità tali indici assumeranno valori sempre maggiori. Riassumendo, possiamo affermare che un carattere saliente dei dati statistici è la variabilità. Per analizzare una distribuzione, dopo aver calcolato uno o più valori medi si cerca di evidenziare la dispersione dei dati, dispersione che caratterizza la variabilità del fenomeno. Può interessare conoscere sia di quanto i dati differiscono da un valore medio, sia di quanto i dati differiscono fra loro. Vi sono vari indici che misurano la variabilità di un fenomeno.
È il più semplice da calcolare ed è dato dalla differenza fra il maggiore e il minore dei valori rilevati. Talvolta il campo di variazione si esprime indicando, invece della differenza fra il maggiore e il minore dei valori rilevati, gli estremi dellintervallo. Il campo di variazione è un indice molto semplice da calcolare, ma di scarsa importanza perché tiene conto solo dei valori estremi e non degli altri.
Scarto quadratico medio e varianza
Consideriamo gli scarti dei valori dalla media aritmetica, ossia le differenze xi-M. Per valutare la maggiore o minore dispersione dei valori dalla media aritmetica, si cerca un valore medio degli scarti. Abbiamo già visto che la media aritmetica degli scarti è zero e pertanto non è significativa. Uno degli indici più utilizzato è lo scarto quadratico medio.
Si definisce scarto quadratico medio la media quadratica, semplice o ponderata, degli scarti dei valori dalla media aritmetica.
Nel caso di serie si ha:

Nel caso di seriazioni, dette yi le frequenze, si ha:

Lo scarto quadratico medio è tanto più piccolo quanto più i dati sono prossimi al valore medio ed è uguale a zero se e solo se i dati sono tutti eguali fra loro. Il quadrato dello scarto quadratico medio s ² è detto varianza. Per il calcolo della varianza s ², o dello scarto quadratico medio s , si può utilizzare una formula che si ottiene con semplici passaggi. La ricaviamo per le serie, notando che una relazione analoga vale per le seriazioni.



La varianza è eguale alla differenza fra la media aritmetica semplice o ponderata dei quadrati dei valori e il quadrato della media.
Se i dati sono raggruppati in classi, come per il calcolo della media, si prende come xi il valore centrale di ogni classe anche se questo comporta un errore di approssimazione dovuto proprio al raggruppamento. Lo scarto quadratico medio è un indice della dispersione dei dati molto sensibile per misurare lesistenza dei dati che si scostano molto dal valore medio. Lo scarto quadratico medio (o la varianza) sono utilizzati per determinare un modello teorico del fenomeno.
Un altro indice di variabilità è lo scostamento semplice medio, che è la media aritmetica dei valori assoluti degli scarti xi da un valore medio. Si utilizzano due scostamenti semplici medi:
lo scostamento semplice medio dalla media aritmetica:

lo scostamento semplice medio dalla mediana:

Le precedenti relazioni sono date per una seriazione; nel caso di serie è sufficiente porre yi = 1. Per la proprietà caratteristica della mediana, lo scostamento semplice medio dalla mediana è minore di qualsiasi scostamento semplice medio delle xi da qualunque valore. Nelle applicazioni si preferisce usare s , invece di SM, poiché s evidenzia meglio gli scarti maggiori in valore assoluto.
Indici di variabilità relativa
Tutti gli indici di variabilità sono definiti indici di variabilità assoluta e sono espressi nella stessa unità di misura del fenomeno considerato; nel caso occorra confrontare più distribuzioni che siano espresse con diverse unità di misura, si ricorre agli indici di variabilità relativa. Tali indici si calcolano facendo il rapporto fra gli indici di variabilità assoluta e lintensità media del fenomeno. Il più usato è il coefficiente di variabilità del Pearson dato dallespressione:
![]()
Gli altri indici hanno espressione:
![]()
Gli indici di variabilità relativa hanno quindi la caratteristica di essere dei numeri puri, indipendenti cioè dallunità di misura prescelta, e permettono di confrontare più distribuzioni.
Un particolare aspetto della variabilità di un fenomeno è la concentrazione. Lo studio della concentrazione è utile per vedere se il fenomeno è equamente distribuito fra tutte le unità statistiche oppure è concentrato in poche unità. Ad esempio, si può affermare che la distribuzione delle scuole elementari è poco concentrata sul territorio italiano perché quasi tutti i Comuni ne possiedono almeno una, mentre la distribuzione delle Università è molto concentrata perché pochi Comuni sono sedi di Università. Sono state introdotte varie misure della concentrazione. Interessante è il metodo grafico di Lorenz applicato allo studio della distribuzione della ricchezza; esso è assai utile se i dati sono numerosi e raggruppati in classi. Data una variabile statistica:
| X1 | Y1 |
| X2 | Y2 |
| Xn | Yn |
Dove xi sono i valori nel discreto o i centri delle classi nel caso di raggruppamenti in classi e le yi sono le frequenze, si considerino i prodotti xi yi (essi rappresentano lintensità del carattere della classe i-esima) e la loro somma:
![]()
(rappresenta lintensità globale del fenomeno). Si calcolano le frequenze cumulate e le intensità cumulate, quindi le frequenze relative cumulate e le intensità relative cumulate, che si ottengono, le prime dividendo le frequenze cumulate per la somma delle frequenze e le seconde dividendo le intensità cumulate per l'intensità globale. Se le intensità relative cumulate sono eguali alle frequenze relative cumulate, significa che il fenomeno è equidistribuito poiché a una certa frazione delle unità statistiche corrisponde una frazione uguale dellintensità del fenomeno; se, invece, sono minori, il fenomeno è tanto più concentrato quanto più le intensità relative cumulate differiscono dalle frequenze relative cumulate. La concentrazione è massima quando la curva di concentrazione coincide con i cateti del triangolo OAB, in pratica quando lintensità globale è concentrata in una sola unità statistica. Se lintensità è equamente distribuita, la curva di concentrazione coincide con la retta di equidistribuzione OB. Quanto maggiori sono le differenze pi qi, altrettanto maggiore è la concentrazione. Un rapporto di concentrazione si ottiene dividendo la misura dellarea di concentrazione per la misura dellarea del triangolo OAB;
![]()
Risulta:
![]()
Se larea di concentrazione è zero, ossia se la curva di concentrazione coincide con la retta di equidistribuzione, allora R = 0 e si afferma che non esiste concentrazione. Se larea di concentrazione coincide con quella del triangolo OAB, allora R = 1 e la concentrazione è massima. In tutti gli altri casi si ha 0<R<1. Quindi si ha:
![]()
Graficamente avremo:

Considerando che:
Larea del triangolo OAB equivale a ½,
Larea di ogni trapezio si ottiene con la formula:
![]()
e nel nostro caso:
![]()
Il primo trapezio in realtà è un triangolo rettangolo,
la formula per il calcolo di R diventa:

La formula di R si può semplificare dividendo il numeratore e il denominatore per ½:
![]()
Effettuando il prodotto otteniamo:
![]()
![]()
Poiché:
![]()
e pnqn è uguale a 1, la precedente uguaglianza diventa:
![]()
In definitiva il rapporto di concentrazione risulta:
![]()