Tabla de distribución de frecuencias
Distribuciones de frecuencias e histogramasUna distribución de frecuencias se utiliza a menudo para agrupar datos cuantitativos. Los valores de los datos se agrupan en clases de igual amplitud. Las observaciones más pequeñas y más grandes de cada clase se llaman límites de clase, mientras que los límites de clase son valores individuales elegidos para separar las clases (a menudo son los puntos medios entre los límites de clase superior e inferior de las clases adyacentes).
Uno debería utilizar números «redondos» para sus límites de clase siempre que no haya una razón de peso para evitarlo. Esto hará que su distribución de frecuencias sea más fácil de leer. Por ejemplo, si sus datos comienzan con 43, 46, 48, 48, 52, 57, 58, … podría elegir un límite de clase inferior de 40 y una anchura de clase de 5 (siempre que resulte un número razonable de clases)
Una distribución de frecuencias relativas es muy similar, excepto que en lugar de informar sobre cuántos valores de datos caen en una clase, informan sobre la fracción de valores de datos que caen en una clase. Se denominan frecuencias relativas y pueden darse como fracciones, decimales o porcentajes.
Distribución de frecuencias
La frecuencia (f) de un valor concreto es el número de veces que el valor aparece en los datos. La distribución de una variable es el patrón de frecuencias, es decir, el conjunto de todos los valores posibles y las frecuencias asociadas a estos valores. Las distribuciones de frecuencias se representan en forma de tablas o gráficos de frecuencias.
Las distribuciones de frecuencias pueden mostrar el número real de observaciones que caen en cada rango o el porcentaje de observaciones. En este último caso, la distribución se denomina distribución de frecuencias relativas.
Esta tabla muestra los resultados de la tabla de frecuencias para el número de coches registrados en cada hogar. La información se agrupa por Número de coches (x) (que aparece como encabezado de fila), Frecuencia (f) (que aparece como encabezado de columna).
Una tabla de distribución de frecuencias acumuladas es una tabla más detallada. Su aspecto es casi el mismo que el de una tabla de distribución de frecuencias, pero se han añadido columnas que dan la frecuencia acumulada y el porcentaje acumulado de los resultados.
Distribución de frecuencias en estadística
home / probabilidad y estadística / estadística descriptiva / distribución de frecuenciasDistribución de frecuenciasUna distribución de frecuencias es una representación visual (cuadro, tabla, lista, gráfico, etc.) de la frecuencia con la que se produce algún evento o resultado en una muestra estadística.
Las distribuciones de frecuencia pueden ser útiles para representar patrones en un conjunto de datos determinado. Por ejemplo, la distribución anterior muestra que la edad más común de las personas en la fila era de 25 a 29 años. Además, alrededor del 83% de las personas en el teatro se encontraban en el rango de edad de 20 a 34 años. Conocer este tipo de información ayuda al cine a tomar decisiones más informadas en función de sus clientes.
Hay varios tipos de distribuciones de frecuencia. La tabla anterior es un ejemplo de una distribución de frecuencias agrupada, que es una distribución de frecuencias con un gran rango de valores, de manera que los datos se suelen agrupar en clases que tienen más de una unidad de ancho. En este contexto, una clase es una categoría cuantitativa o cualitativa. Por ejemplo, en la tabla anterior, cada rango de edad es una clase, por lo que hay 6 clases.
Distribución de la frecuencia acumulada
El valor de cada observación (el eje x) se muestra mediante un punto. Por razones obvias, este tipo de gráfico de puntos se conoce como rugplot: el eje y del gráfico no está etiquetado porque no varía, por lo que no transmite ninguna información. A veces es conveniente transponer estos ejes.
Estos rugplots simples funcionan muy bien si hay relativamente pocas observaciones y sus valores no son demasiado similares. Por ejemplo, podemos ver que los pesos de los ratones se distribuyen (más o menos) simétricamente en torno a un peso de 20 g, mientras que la distribución del número de parásitos es mucho más asimétrica. A medida que aumentamos el número de observaciones -y, en particular, el número de empates-, nuestro sencillo método de visualización deja de ser adecuado. De los 30 pesos de las vacas, sólo se han mostrado unos 20 debido a los valores empatados. Este problema se agrava mucho en el cuarto gráfico, donde hemos perdido la mayor parte de la información contenida en los datos brutos.
Cuando hay muchas observaciones, el enfoque convencional consiste en subdividir la distribución en clases de valores similares y sumar las frecuencias dentro de cada clase. Dado que éste es el enfoque más popular en la actualidad, y que su razonamiento está estrechamente vinculado al análisis estadístico convencional, lo consideraremos en primer lugar.