ESTADÍSTICA: 2019

UNIDAD 3

PRUEBA DE HIPÓTESIS

Son procedimientos de decisión basados en datos que puedan producir una conclusión acerca de algún sistema científico.

Una hipótesis estadística es una afirmación o conjetura acerca de una o más poblaciones.

No es posible saber con absoluta certeza la verdad o falsedad de una hipótesis estadística, pues para ello habría que trabajar con toda la población. En la práctica se toma una muestra aleatoria de la población de interés y se utilizan los datos que contiene tal muestra para proporcionar evidencias que confirmen o no la hipótesis. Si la evidencia de la muestra es inconsistente con la hipótesis planteada, entonces ésta se rechaza y si la evidencia apoya a la hipótesis planteada, entonces se acepta ésta.

La estructura de una prueba de hipótesis consiste en la formulación de una , es hipótesis nula decir, cualquier hipótesis que se desee probar, se denota por Ho. El rechazo de Ho, genera la aceptación de una hipótesis alternativa, que se denota por Hi.

En la hipótesis alternativa se plantea usualmente lo que se cree verdadero y en la hipótesis nula lo que se desea rechazar.

La prueba estadística suele seguir una distribución estadística conocida (normal, t-student, ji cuadrado).

La distribución apropiada de la prueba estadística se divide en dos regiones:

a) Región de rechazo región crítica.

b) Región de no rechazo.

Si la prueba estadística cae en la región de no rechazo no se puede rechazar la hipótesis nula y si cae en la región de rechazo, se rechaza la hipótesis nula. Para decidir con relación a la hipótesis nula, primero se tiene que determinar el para valor crítico la distribución estadística de interés. El valor crítico separa la región de no rechazo de la de rechazo.

PRUEBAS UNILATERALES Y BILATERALES.

Una hipótesis será unilateral (de una cola) en los siguientes casos:

La hipótesis alterna indica hacia donde va la cola.

Una hipótesis será bilateral (de dos colas) en el siguiente caso:

Para realizar una prueba de hipótesis se llevarán acabo los siguientes pasos:

1. Encontrar la hipótesis.

2. Encontrar el nivel de significancia.

3. Encontrar el valor crítico.

4. Encontrar el valor estadístico (por medio de la fórmula)

5. Dibujar la campana de Gauss y obtener la conclusión.

A continuación se enuncian los ocho casos de prueba de hipótesis y se añadirá un archivo que contiene un ejemplo de cada uno para hacer más clara su compresión, así como la fórmula para calcular el valor estadístico.

CASO 1. PRUEBA DE HIPÓTESIS PARA MEDIA PARA UNA POBLACIÓN NORMAL CON VARIANZA CONOCIDA O MUESTRA GRANDE.

CASO 2. PRUEBA DE HIPÓTESIS PARA UNA MEDIA DE POBLACIÓN NORMALES O MUESTRA PEQUEÑA.

CASO 3. PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE MEDIAS POBLACIONALES NORMALES CON VARIANZAS CONOCIDAS.

CASO 4. PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE MEDIAS DE POBLACIONES NORMALES CON VARIANZAS DESCONOCIDAS.

CASO 5. PRUEBA DE HIPÓTESIS PARA UNA PROPORCIÓN DE UNA POBLACIÓN NORMAL CON VARIANZAS DESCONOCIDAS.

CASO 6. PRUEBA DE HIPÓTESIS PARA DIFERENCIA DE PROPORCIONES DE UNA POBLACIÓN CON VARIANZAS DESCONOCIDAS.

CASO 7. PRUEBA DE HIPÓTESIS PARA EL COCIENTE DE DOS VARIANZAS.

CASO 8. PRUEBA DE HIPÓTESIS. DISTRIBUCIÓN Ji-Cuadrada.

A continuación se agrega un documentos con ejemplos y otro con ejercicios propuestos:

UNIDAD 2

INTERVALOS DE CONFIANZA

La teoría de Inferencia Estadística consiste en aquellos métodos con los cuales se pueden realizar inferencias o generalizaciones acerca de una población. La Inferencia Estadística puede dividirse en 2 áreas:
a) Estimación de Parámetros y
b) Pruebas de hipótesis.

Estimación de parámetros. Estimación por intervalo.

Una estimación por intervalo de un parámetro poblacional, es un intervalo de la forma:

donde

dependen del valor estimado para una muestra particular.

Basado en la distribución normal, se puede determinar si el intervalo

con una probabilidad dada contiene realmente el parámetro que se supone que se va a estimar. Esto es:

Se trabajaran cinco casos. A continuación se enunciarán y se colocará su respectiva fórmula con la que se calculan los intervalos.

1. Teorema de límite central.

2. Intervalo de confianza para la media.

3. Intervalo de confianza para diferencia de medias.

4. Intervalo de confianza para una proporción.

5. Intervalo de confianza para muestras pareadas.

Se anexa un documento con ejercicios de ejemplo y otro con ejercicios propuestos:

UNIDAD 1

DATOS AGRUPADOS

Tabla de distribución de frecuencias.

Para la tabulación de los datos se consideran los siguientes elementos:

a) Rango. Es la diferencia entre el valor máximo y el valor mínimo que toma la variable.

R= Vmáx - Vmín

b) Número de intervalos. Es el número de grupos en que es posible dividir los valores de una variable.

m= 1 + 3.322*log (n) donde n es el número total de datos

c) Amplitud del intervalo.

i= Rango/ Número de intervalos= R/m

d) Límites de un intervalo. Son los valores extremos de una clase. El valor menor es considerado como el límite inferior y el valor que se obtiene sumando al límite inferior la amplitud es el límite superior.

e) Marca de clase. Es el punto medio de un intervalo.

x= (L inferior - L superior) / 2

f) Frecuencia absoluta. Indica el número de observaciones que pertenecen a un intervalo dado.

n = Σ fi donde n es el número total de datos

g) Frecuencia absoluta acumulada (F o fa). Indica de datos de la muestra menores o iguales al límite real superior del intervalo i.

Fi = Σ fi

h) Determinante: n / 2 donde n es el número de datos totales.

Teniendo lo anterior podemos realizar la tabla de distribución de frecuencias; por lo general se agregan otras columnas donde se representan operaciones que emplean los puntos anteriores, esto con la finalidad de facilitar el cálculo de las medidas de tendencia central y medidas de dispersión.
A continuación un ejemplo de dicha tabla.

En caso de que el ejercicio solicite gráfica circular se agregan dos columnas más, pertenecientes una al porcentaje y otra a los grados.

Medidas de tendencia central.

La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de un punto central y por lo general es posible elegir algún valor que describa todo un conjunto de datos. Las medidas de tendencia central a estudiar son: media aritmética, mediana y moda.

1. Media aritmética. Es la medida de tendencia central que se utiliza con mayor frecuencia. Se calcula sumando todas las observaciones de un conjunto de datos, dividiendo después ese total entre el número total de elementos involucrados.

Donde:

x es la marca de clase del intervalo.

f es la frecuencia del intervalo.

n es el número de datos.

2. Mediana. Es el valor que se encuentra en el centro de una secuencia ordenada de datos, La mediana no se ve afectada por observaciones extremas en un conjunto de datos.

Donde:

Lo es el límite inferior del intervalo del determinante.

n es el número de datos.

fa anterior es la frecuencia acumulada anterior al intervalo del determinante.

f es frecuencia absoluta del intervalo del determinante.

i es la amplitud del intervalo.

3. Moda. Es el valor de un conjunto de datos que aparece con mayor frecuencia. A diferencia de la media aritmética, la moda no se afecta ante la ocurrencia de valores extremos. Sin embargo, sólo se utiliza la moda para propósitos descriptivos porque es más variable, para distintas muestras, que las demás medidas de tendencia central. Un conjunto de datos puede tener más de una moda o ninguna.

Donde:

Lo es el límite inferior del intervalo del determinante..

n es el número de datos.

fa anterior es la frecuencia acumulada anterior al intervalo del determinante.

f siguiente es la frecuencia absoluta siguiente del intervalo del determinante.

f es frecuencia absoluta del intervalo del determinante.

i es la amplitud del intervalo.

Medidas de dispersión.

Dos medidas de dispersión que se utilizan con frecuencia y que sí toman en consideración la forma en que se distribuyen los valores son la varianza y su raíz cuadrada, la desviación estándar. Estas medidas establecen la forma en que los valores fluctúan con respecto a la media.

1. Varianza. Se define como el promedio aritmético de las diferencias entre cada uno de los valores del conjunto de datos y la media aritmética del conjunto elevadas al cuadrado.

2. Desviación Estándar. Es la raíz cuadrada positiva de la Varianza.

Tipos de gráficos.

Su objetivo es captar la información obtenida en los datos en forma rápida por cualquier persona, así cada representación debe llevar un título adecuado. Las normas en la construcción de un gráfico estadístico son similares a los de gráficos de funciones, las variables independientes, se ubican en las abscisas y las dependientes en las ordenadas.

a) Gráfica circular o de pastel: se usan para mostrar el comportamiento de las frecuencias relativas, absolutas o porcentuales de las variables. Dichas frecuencias son representadas por medio de sectores circulares, proporcionales a las frecuencias.

b) Histograma: Es el gráfico adecuado cuando los datos están ordenados en tablas con intervalos, es decir, para datos de variables continuas. También el histograma es una conformación de rectángulos, pero uno al lado de otro cuya área es proporcional a la frecuencia de cada intervalo. Los extremos de la base de cada rectángulo son los límites reales del intervalo.

c) Polígono de frecuencia: Este gráfico sirve para mostrar la tendencia de la variable, se puede determinar a partir de un histograma uniendo los puntos medios superiores de cada rectángulo del histograma. También, se determina el polígono uniendo los puntos formado por la marca de clase con la frecuencia absoluta del intervalo respectivo.

d) Combinación de Histograma y Polígono de Frecuencia.

e) Ojiva: es un gráfico que se usa para mostrar como se acumulan las frecuencias absolutas, relativas o porcentuales. Se obtiene al unir los puntos formados por los límites superiores de cada intervalo con la frecuencia absoluta o relativas acumuladas del intervalo respectivo.

A continuación se agrega un documento con un ejercicio resuelto de ejemplo y otro con ejercicios propuestos.

INTRODUCCIÓN

¿QUÉ ES?

Es el conjunto de métodos y procedimientos que implican recopilación, presentación, ordenación y análisis de datos, con el fin de que a partir de ellos puedan inferirse conclusiones.

Se pueden diferenciar dos ramas de la estadística:

Estadística descriptiva: Es la rama que recolecta, analiza y caracteriza un conjunto de datos con el objetivo de describir características y comportamientos de este conjunto mediante medidas de resumen, tablas o gráficos.
Inferencia estadística: Rama encargada de hacer deducciones, es decir, inferir propiedades, conclusiones y tendencias, a partir de una muestra del conjunto. Su papel es interpretar, hacer proyecciones y comparaciones.

CONCEPTOS BÁSICOS

Población. Conjunto completo de sujetos o elementos que presentan características comunes. Sobre esta se realiza el estudio con el fin de sacar conclusiones.
Muestra. Es un subconjunto de elementos de la población. La muestra debe ser representativa de la población.
Variable. Característica o fenómeno de una población o muestra que será estudiada, la cual puede tomar diferentes valores.
Datos. Número o medidas que han sido recopiladas.
Parámetro. Es una característica cuantificable de una población.

Referencia.

Estuardo Morales, Aaron. Estadística y Probabilidad. 2012