UNIDAD 1

DATOS AGRUPADOS
  • Tabla de distribución de frecuencias.
Para la tabulación de los datos se consideran los siguientes elementos:

a) Rango. Es la diferencia entre el valor máximo y el valor mínimo que toma la variable.
R= Vmáx - Vmín

b) Número de intervalos. Es el número de grupos en que es posible dividir los valores de una variable.
m= 1 + 3.322*log (n)  donde n es el número total de datos

c) Amplitud del intervalo. 
i= Rango/ Número de intervalos= R/m

d) Límites de un intervalo. Son los valores extremos de una clase. El valor menor es considerado como el límite inferior y el valor que se obtiene sumando al límite inferior la amplitud es el límite superior.

e) Marca de clase. Es el punto medio de un intervalo.
x= (L inferior - L superior) / 2

f) Frecuencia absoluta. Indica el número de observaciones que pertenecen a un intervalo dado.
n = Σ fi   donde n es el número total de datos

g) Frecuencia absoluta acumulada (F o fa). Indica de datos de la muestra menores o iguales al límite real superior del intervalo i.
Fi = Σ fi 

h) Determinante: n / 2     donde n es el número de datos totales.

Teniendo lo anterior podemos realizar la tabla de distribución de frecuencias; por lo general se agregan otras columnas donde se representan operaciones que emplean los puntos anteriores, esto con la finalidad de facilitar el cálculo de las medidas de tendencia central y medidas de dispersión.
A continuación un ejemplo de dicha tabla.
En caso de que el ejercicio solicite gráfica circular se agregan dos columnas más, pertenecientes una al porcentaje y otra a los grados.
  • Medidas de tendencia central.
La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de un punto central y por lo general es posible elegir algún valor que describa todo un conjunto de datos. Las medidas de tendencia central a estudiar son: media aritmética, mediana y moda.

1. Media aritmética. Es la medida de tendencia central que se utiliza con mayor frecuencia. Se calcula sumando todas las observaciones de un conjunto de datos, dividiendo después ese total entre el número total de elementos involucrados.
Donde: 
            x es la marca de clase del intervalo.
            f es la frecuencia del intervalo.
            n es el número de datos.
            
2. Mediana. Es el valor que se encuentra en el centro de una secuencia ordenada de datos, La mediana no se ve afectada por observaciones extremas en un conjunto de datos.
Donde:
           Lo es el límite inferior del intervalo del determinante.
           n es el número de datos.
           fa anterior es la frecuencia acumulada anterior al intervalo del determinante.
           f es frecuencia absoluta del intervalo del determinante.
           i es la amplitud del intervalo.

3. Moda. Es el valor de un conjunto de datos que aparece con mayor frecuencia. A diferencia de la media aritmética, la moda no se afecta ante la ocurrencia de valores extremos. Sin embargo, sólo se utiliza la moda para propósitos descriptivos porque es más variable, para distintas muestras, que las demás medidas de tendencia central. Un conjunto de datos puede tener más de una moda o ninguna.
Donde:
           Lo es el límite inferior del intervalo del determinante..
           n es el número de datos.
           fa anterior es la frecuencia acumulada anterior al intervalo del determinante.
           f siguiente es la frecuencia absoluta siguiente del intervalo del determinante.
           f es frecuencia absoluta del intervalo del determinante.
           i es la amplitud del intervalo.
  • Medidas de dispersión.
Dos medidas de dispersión que se utilizan con frecuencia y que sí toman en consideración la forma en que se distribuyen los valores son la varianza y su raíz cuadrada, la desviación estándar. Estas medidas establecen la forma en que los valores fluctúan con respecto a la media.

1. Varianza. Se define como el promedio aritmético de las diferencias entre cada uno de los valores del conjunto de datos y la media aritmética del conjunto elevadas al cuadrado.

2. Desviación Estándar. Es la raíz cuadrada positiva de la Varianza. 
  • Tipos de gráficos.
Su objetivo es captar la información obtenida en los datos en forma rápida por cualquier persona, así cada representación debe llevar un título adecuado. Las normas en la construcción de un gráfico estadístico son similares a los de gráficos de funciones, las variables independientes, se ubican en las abscisas y las dependientes en las ordenadas.

a) Gráfica circular o de pastel: se usan para mostrar el comportamiento de las frecuencias relativas, absolutas o porcentuales de las variables. Dichas frecuencias son representadas por medio de sectores circulares, proporcionales a las frecuencias.

b) Histograma: Es el gráfico adecuado cuando los datos están ordenados en tablas con intervalos, es decir, para datos de variables continuas. También el histograma es una conformación de rectángulos, pero uno al lado de otro cuya área es proporcional a la frecuencia de cada intervalo. Los extremos de la base de cada rectángulo son los límites reales del intervalo. 

c) Polígono de frecuencia: Este gráfico sirve para mostrar la tendencia de la variable, se puede determinar a partir de un histograma uniendo los puntos medios superiores de cada rectángulo del histograma. También, se determina el polígono uniendo los puntos formado por la marca de clase con la frecuencia absoluta del intervalo respectivo.

d) Combinación de Histograma y Polígono de Frecuencia.

e) Ojiva: es un gráfico que se usa para mostrar como se acumulan las frecuencias absolutas, relativas o porcentuales. Se obtiene al unir los puntos formados por los límites superiores de cada intervalo con la frecuencia absoluta o relativas acumuladas del intervalo respectivo. 

A continuación se agrega un documento con un ejercicio resuelto de ejemplo y otro con ejercicios propuestos.