viernes, 28 de abril de 2017

Tema 10: Hipótesis estadísticas. Test de hipótesis.

1. Contrastes de hipótesis.

No solo tenemos el cálculo de intervalo de confianza para controlar los errores aleatorios, sino que también poseemos los test o contrastes de hipótesis.

Los intervalos nos facilitan la idea de un parámetro de una población, ya que entre un par de números confiamos que esté el valor desconocido.

La estrategia de los test de hipótesis es:

-          Establecemos a priori una hipótesis cerca del valor del parámetro.

-          Realizamos la recogida de datos.

-          Analizamos la coherencia de entre la hipótesis previa y los datos obtenidos.

Los contrastes de hipótesis nos permiten cuantificar la compatibilidad entre una hipótesis previamente establecida y los resultados obtenidos.

La finalidad con la que se realiza un test es siempre contrastar la hipótesis nula. 


Según el tipo de variable implicada,  podemos tener  diferentes tipos: 

DEPENDIENTE

INDEPENDIENTE

Cualitativa
2 Grupos
Cualitativa >
2 Grupos
Cuantitativa
Cualitativa 2 Grupos
Chi cuadrado
T comparación proporciones
P. exacta de Fisher
P. Mc Nemar
Chi cuadrado
Q de Cochran
T student
U. de Mann- Whitney
T. Wilcoxon
Cualitativa > 2 Grupos
Chi cuadrado
Q. de Cochran
Chi cuadrado
Q. de Cochrann
A. varianza
Kruskall-Wallis
F. Friedman
Cuantitativa
Regresión logística
Regresion logística
Regression lineal:
Correl. Pearson
Correl. Spearman

2. Errores de hipótesis.

La finalidad con la que se realiza el test de hipótesis es medir la posibilidad de error cuando se rechaza la hipótesis nula.

El erro α es la probabilidad de equivocarnos al rechazar la hipótesis nula. El error α más pequeño al que podemos rechazar H0 es el error p.

Por encima del 5% de error, aceptamos la hipótesis nula. Es lo que llamamos “significación estadística”.

3.  Tipos de errores en el test de hipótesis.

RESULTADO DEL TEST
REALIDAD
Rechazo H0
Acepto H0
H0 cierta
Error tipo 1 (error α)
No error (1-α)
H0 falsa
No error (1-β)
Error tipo 2 (error β)


4. Test de hipótesis Chi-Cuadrado.

Se utiliza para comparar variables cualitativas – Dependientes e independientes.

Los pasos que debemos de seguir suponemos la hipótesis cierta y estudiamos como es de probable que siendo iguales dos grupos se obtengan resultados como los obtenidos o haber encontrado diferencias más grandes por grupos.

miércoles, 26 de abril de 2017

Tema 9: Estadística inferencial: muestreo y estimación.

1. Inferencia estadística.

Los estudios que realizamos se centran en los pacientes que hemos tenido acceso y en todos los pacientes similares a ellos.

         · Población de estudio: grupo de pacientes sobre los que realizamos el estudio.

         ·  Muestra: grupo concreto de personas que participan en el  estudio.

         · Tamaño muestral: número de individuos que participan en la muestra.


         · Inferencia estadística: conjunto de procedimientos estadísticos.





      · Técnica de muestreo: conjunto de acciones que permiten elegir las muestras que representan las características de la población.

        · Al trabajar con muestras hay que tener en cuenta que se comete un cierto error.

        ·  Muestreo probabilístico: la muestra es elegida al azar.

        · Error aleatorio: error de la muestra probabilística.

        · El error no se puede evaluar en los  muestreos no probabilísticos.

Como ya sabemos el estudio puede ser aleatorio (todo el mundo tiene posibilidad de entrar) y no aleatorio.

-  Tipos de estudio no aleatorio: accidental, por conveniencia, por cuotas.

- Tipos de estudio aleatorio: simples, sistemáticos, conglomerados y estratificado.

2. Error estándar.

El error estándar es la medida que toma la variabilidad de los valores estimados. Hay que saber que este error mide el grado de variabilidad en las distintas muestras de un tamaño  determinado.

Cuando el error estándar de un estimador es pequeño, con mayor seguridad nos podemos fiar del valor de la muestra.

3. Cálculo del error estándar. 
  • Error estándar para una media:


  • Error estándar para una proporción: 


 4. Teorema centra del límite:

Se utiliza para estimadores que son manifestados como la suma de valores muestrales. Los valores siguen una distribución normal:

± 1S               68,26% de las observaciones.

± 2S               95,45% de las observaciones. 

± 1,95S          95% de las observaciones.

± 3S               99,73% de las observaciones.

± 2,58S          99% de las observaciones.

5. Intervalos de confianza.

- Los intervalos de confianza son las vías por las que se conoce el parámetro,  midiendo el error (azar).

- Son un par de números con los que conseguimos que el valor del parámetro sea mayor o menor que estos dos números. 

- Para calcularlo se tiene que considerar que el estimador muestral siga una distribución normal.

Cálculo:

- Z es un valor que depende del nivel de confianza 1-α con que se quiera dar el  intervalo.

- Para nivel de confianza 68% z=1.

- Para nivel de confianza 95% z=1,96 ~2.

- Para nivel de confianza 99% z=2,58 ~3.

- Si elegimos el signo negativo se considera el extremo inferior, si elegimos el signo positivo se considera el extremo superior. Cuanta más distancia exista entre los extremos menos precisos será el intervalo.

6. Procedimiento Muestral.

Un muestreo = grupo pequeño de una población, el cual, posea las características de la población que se estudia.

La población sobre la que se realiza el estudio se obtiene aleatoriamente, con ello obtenemos la muestra y a partir e esta hacer inferencia de la población entera.

7. Tipo de muestreo.

-          Probabilístico. Todos los sujetos de la población tienen una probabilidad distinta de cero en la selección de la muestra y conocida. Existe una probabilidad conocida de seleccionar a los sujetos.

1.      Aleatorio simple. P=1/n - por azar. Esta es la mejor opción

2.      Aleatorio sistemático.

3.      Estratificado.

4.      Conglomerados.

-          No probabilístico o de conveniencia del investigador. Puede haber personas en la población que no tengan probabilidad o que se desconozca,  de ser seleccionado en la muestra. No existe probabilidad conocida, es una selección arbitraria. (“Muestreo de lo que tengo a mano”). Tipos:

1.   Por cuotas: en el que el investigador selecciona la muestra considerando algunos fenómenos o variables a estudiar, como: Sexo, raza, religión, etc. (No hay aleatoriedad).

2.    Accidental: consiste en utilizar para el estudio las personas disponibles en un momento dado, según lo que interesa estudiar. De las tres es la más deficiente.

3.      Por conveniencia o intencional. En el que el investigado, decide según sus objetivos, los elementos que integraran la muestra, considerando las unidades “típicas” de la población que se desea conocer. (En función de nuestro interés, nuestra accesibilidad…).

8. Tamaño de la muestra.

El tamaño de la muestra depende del error estándar, de intentar la mínima diferencia entre los grupos de comparación a estudiar, de la variabilidad en la población, y del tamaño de la población a la que se le va a realizar el estudio. 


Si tras realizar esta operación se cumple el resultado N > n(n-1) el cálculo termina aquí. Si no cumple el resultado se obtendrá con la siguiente formula.














sábado, 22 de abril de 2017

Tema 8: Medidas de tendencia central, posición y dispersión.

1. Resumen numérico de una Serie Estadística.

Podemos sintetizar una serie de observaciones mediante estadísticos (función de los  datos observados. Hay que tener en cuenta que se imparte sobre cuantitativas continuas.

Existen tres grandes tipos:

       · Medidas de posición: dan idea de la magnitud, tamaño o posición de los datos (ordenados de mayor a menor).

       · Medidas de tendencia variabilidad: dan idea del comportamiento central de los sujetos.

       · Medidas de dispersión o variabilidad: informan sobre la heterogeneidad de los sujetos (diferencias).

2. Medidas de tendencia central.

   ·  Media aritmética (=mediana).

    Es la suma de los valores de la variable entre el total de observaciones. Es utilizada para calcular variables cuantitativas.
Cuando los se encuentra en dos intervalos: se calcula una media aritmética ponderada (suma de la marca de clase por la frecuencia absoluta/n).
·  Mediana.

Medida de posición y central (50% de los datos  menor y otro 50% de los datos mayor)

- Número de observaciones impar: la mediana seria en la posición n+1/2


- Número de observaciones par: la mediana seria la media entre la observación n/2 y la observación (n/2)+1. Ejemplo: cuatro sujetos de edades, 10, 15, 20, 25, cogemos los dos sujetos centrales y hacemos la media aritmética entre ambos.

      · Propiedad.
Se tiene en cuenta la posición de los valores en la muestra.

     · Moda: valor con mayor frecuencia. Muestra Bimodal = dos modas, muestra Multimodal = más de dos modas. Hay que tener en cuenta que la moda no es el número más frecuente si no  la categoría.

3. Medidas de posición o cuantiles.

Se calcula para variables cuantitativas y solo se tiene en cuenta la posición de los valores, ordenados de mayor a menor.
Los cuantiles se dividen en: - Perciles: muestras ordenadas en 100.
                                             - Deciles: muestras ordenadas en 10.
                                       - Cuartiles: muestras ordenadas en 4.

  • Percentiles (Pi): valor que ordena las observaciones  en forma creciente. Para buscar la posición de un percentil, buscamos el intervalo en la que la frecuencia relativa acumulada sea superior al valor del percentil. P50  = mediana. 

  • Deciles (Di): valor que ordena las observaciones en forma creciente. D5 = Mediana = P50
             · Cuartil: 
                           - El Q1, indica el valor que ocupa una posición en la serie numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores.

  - El Q2, indica el valor que ocupa una posición en la serie numérica de forma que el 50% de las observaciones son menores y que el 50% son mayores. Q2 = D5 = P50.

  - El Q3, indica el valor que ocupa una posición en la serie numérica de forma que el 75% de las observaciones son menores y que el 25% son mayores.

  - El Q4, indica el valor mayor que se alcanza en la serie numérica.

4. Medidas de dispersión.

La información que nos aporta es limitada.

  • Rango o recorrido: diferencia entre el mayor y e menor valor de la muestra     lXn-X1l.


  • Desviación media: media aritmética de las distancias de cada observación con respecto  a la media de la muestra.

  • Desviación típica o estándar: calcular el error que cometemos si representamos una muestra únicamente por su media.
  • Varianza: expresa la misma información en valores cuadráticos
  • Recorrido intercuartílico: diferencia entre el tercer y primer cuartil = lQ3-Q1l.
  • Coeficiente de variación: medida de dispersión relativa (adimensional). Se utiliza para comparar la heterogeneidad de dos series numéricas con independencia de las unidades de medidas. C.V = S/ X (sin unidades).

5. Distribuciones normales.

Se llama distribución normal, distribución de Gauss o distribución gaussina, a la distribución de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales.

La gráfica de su función de densidad tiene una forma acampanada y es simétrica de los valores de posición central. Es simétrica dejando la mitad de los valores por debajo del punto máximo y la mitad de los valores por encima. 

6. Asimetrías y Curtosis. 



La asimétrica hacia la izquierda se sabe porque la media está a la izquierda. La asimétrica hacia la derecha es porque la media está a la derecha.

Hay que tener en cuenta que la asimetría lo marca la media y que el pico de la gráfica es la moda.

  • Coeficiente de asimetría de una variable: grado de asimetría de la distribución de sus datos en torno a su media.
                               - g1 = 0: distribución simétrica.

                               - g1 > 0: distribución asimétrica positiva.

                               - g1 < 0: distribución asimétrica negativa.

  • Curtosis: también recibe el nombre de apuntamiento de la curva, sirve para medir el grado de concentración de los valores que toma en torno a su media.
Como referencia se elige una variable  con distribución normal.



Los resultados pueden ser:
- g2 = 0: distribución mesocúrtica (en la imagen es la B).

- g2 > 0: distribución leptocúrtica (en la imagen es la A).

- g2 < 0: distribución platicúrtica (en la imagen es la C).

7. Tipicación de los valores y su relación con la campana de Gauss.

La tipificación nos permite conocer si el valor corresponde o no a esa distribución con frecuencia.


Por la forma de la curva se sabe:

La media coincide con lo más alto de la campana: 8

La desviación típica es de 2 puntos:

-          El 50 % tienen puntuaciones >8

-          El 50% tiene puntuaciones <8

-          Aproximadamente el 68% puntúa entre 6 y 10

            Media +/- 1 desviación típica: 68%

·         8+/-1: 6-10
Media +/- 2 desviaciones típicas: 95%

·         4-12
Media +/- 3 desviación típica: 99%

·         2-12