Skip to Main Content
1,031
Views
135
CrossRef citations to date
Altmetric

Articles

Head/Tail Breaks: A New Classification Scheme for Data with a Heavy-Tailed Distribution

Pages 482-494
Received 01 Aug 2011
Accepted 01 Jan 2012
Published online: 30 Jul 2012
 
Translator disclaimer

This article introduces a new classification scheme—head/tail breaks—to find groupings or hierarchy for data with a heavy-tailed distribution. The heavy-tailed distributions are heavily right skewed, with a minority of large values in the head and a majority of small values in the tail, commonly characterized by a power law, a lognormal, or an exponential function. For example, a country's population is often distributed in such a heavy-tailed manner, with a minority of people (e.g., 20 percent) in the countryside and the vast majority (e.g., 80 percent) in urban areas. This new classification scheme partitions all of the data values around the mean into two parts and continues the process iteratively for the values (above the mean) in the head until the head part values are no longer heavy-tailed distributed. Thus, the number of classes and the class intervals are both naturally determined. I therefore claim that the new classification scheme is more natural than the natural breaks in finding the groupings or hierarchy for data with a heavy-tailed distribution. I demonstrate the advantages of the head/tail breaks method over Jenks's natural breaks in capturing the underlying hierarchy of the data.

Este artículo presenta un nuevo esquema de clasificación—rupturas de cabeza/cola—para establecer agrupamientos o jerarquía para datos con una distribución de cola pesada. Las distribuciones de cola pesada están fuertemente sesgadas hacia la derecha, con una minoría de valores grandes a la punta y una mayoría de valores pequeños en la cola, comúnmente caracterizados por una ley de potencia, un log-normal, o una función exponencial. Por ejemplo, una población de un país a menudo se distribuye con mayor concentración en la cola, con una minoría de gente (por ej., el 20 por ciento) en el campo y una vasta mayoría (por ej., el 80 por ciento) en las áreas urbanas. En este nuevo esquema de clasificación la partición de todos los datos se hace alrededor de la media en dos partes y se continúa el proceso iterativamente para los valores (por encima de la media) en la cabeza hasta que los valores de la parte de la punta cesan de ocurrir en distribución de cola pesada. Entonces, el número de clases y los intervalos de clase quedan determinados naturalmente. Sostengo, en consecuencia, que el nuevo esquema de clasificación es más natural que las rupturas naturales para establecer los agrupamientos o jerarquías para datos con una distribución de cola pesada. Demuestro las ventajas del método de las rupturas cabeza/cola frente al de las rupturas naturales de Jenks para capturar la jerarquía subyacente que tienen los datos.