lunes, 21 de mayo de 2012

Prueba de Chi cuadrada..


La prueba estadística de X2 para una muestra se emplea frecuentemente como prueba de bondad de ajuste, sin embargo, en un plan experimental, en el que se cuenta con un grupo muestral, con diversas subclases y las mediciones están en escala nominal, resulta muy útil este procedimiento.
La eficacia de la prueba está de acuerdo con el tamaño de la muestra, pues con un grado de libertad, si hay dos subclases, algunos autores consideran que la prueba es insensible, no obstante la información que aporta más de dos categorías es satisfactoria en función de la fórmula:
Donde:
X2 = valor estadístico de ji cuadrada.
fo = frecuencia observada.
fe = frecuencia esperada.
La ji cuadrada se utiliza cuando:
  • Cuando los datos puntualizan a las escalas nominal u ordinal.
  • Se utiliza solo la frecuencia.
  • Poblaciones pequeñas.
  • Cuando se desconocen los parámetros media, moda, etc.
  • Cuando los datos son independientes.
  • Cuando se quiere contrastar o comparar hipótesis.
  • Investigaciones de tipo social - muestras pequeñas no representativas >5.
  • Cuando se requiere de establecer el nivel de confianza o significatividad en las diferencias.
  • Cuando la muestra es seleccionada no probabilísticamente.
  • X2 permite establecer diferencias entre f y se utiliza solo en escala nominal.
  • Población > a 5 y < a 20.

Pasos.
  1. Arreglar las categorías y las frecuencias observadas.
  2. Calcular los valores teóricos esperados para el modelo experimental o tipo de distribución muestral: normal, binomial y de Poisson.
  3. Calcular las diferencias de las frecuencias observadas en el experimento con respecto a las frecuencias esperadas.
  4. Elevar al cuadrado las diferencias y dividirlas entre los valores esperados de cada categoría.
  5. Efectuar la sumatoria de los valores calculados.
  6. Calcular los grados de libertad (gl) en función de número de categorías [K]: gl = K - 1.
  7. Comparar el estadístico X2 con los valores de la distribución de ji cuadrada en la tabla.
  8. Decidir si se acepta o rechaza la hipótesis X2c ³ X2t se rechaza Ho.

Una prueba estadística utilizada para determinar si la media de dos poblaciones es diferente cuando las varianzas son conocidas y el tamaño de la muestra es lo suficientemente grande. Se asume que la prueba tiene una distribución normal y que los parámetros como la desviación estándar deben ser conocidos para que se pueda llevar a cabo una Prueba Z exacta.
Se conoce en inglés como: Z-Test




PRUEBA T DE STUDENT


En estadística, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la que el estadístico utilizado tiene una distribución t de Student si la hipótesis nula es cierta. Se aplica cuando la población estudiada sigue una distribución normal pero el tamaño muestral es demasiado pequeño como para que el estadístico en el que está basada la inferencia esté normalmente distribuido, utilizándose una estimación de la desviación típica en lugar del valor real. Es utilizado en analisis discriminante.

Entre los usos mas frecuentes de las pruebas t se encuentran:
  • El test de locación de muestra única por el cual se comprueba si la media de una población distribuida normalmente tiene un valor especificado en un hipótesis nula.
  • El test de locación para dos muestras, por el cual se comprueba si la media de dos poblaciones distribuidas en forma normal son iguales. Todos estos test son usualmente llamados test t de Student, a pesar de que estrictamente hablando, tal nombre sólo debería ser utilizado si la varianza de las dos poblaciones pueden ser asumidas como iguales; la forma de los test que se utiliza cuando esta asunción se deja de lado suele ser llamada a veces como Prueba t de Welch. Estas pruebas suelen ser comunmente nombradas como pruebas t desapareadas o de muestras independientes, debido a que se tienen su aplicación mas típica cuando las unidades estadísticas que definen a ambas muestras que están siendo comparadas no se superponen.
  • El test de hipótesis nula por el cual se demuestra que la diferencia entre dos respuestas medidas en las mismas unidades estadísticas es cero. Por ejemplo, supóngase que se mide el tamaño del tumor de un paciente con cáncer. Si el tratamiento resulta efectivo, lo esperable seria que el tumor de muchos pacientes disminuyera de tamaño luego de seguir el tratamiento. Esto con frecuencia es referido como prueba t de mediciones apareadas o repetidas.
  • El test para comprobar si la pendiente de una regresión lineal difiere estadísticamente de cero.

Prueba t para muestra única
En esta prueba se evalúa la hipótesis nula de que la media de la población estudiada es igual a un valor especificado μ0, se hace uso del estadístico:


 t = \frac{\overline{x} - \mu_0}{s/\sqrt{n}},
ANOVA

Análisis de la varianza ANOVA
Del mismo modo que la t de Student, la prueba ANOVA es una prueba paramétrica y como tal requiere una serie de supuestos para poder ser aplicada correctamente. Denominada ANOVA o análisis de la varianza, en realidad nos va a servir no solo para estudiar las dispersiones o varianzas de los grupos, sino para estudiar sus medias y la posibilidad de crear subconjuntos de grupos con medias iguales. Se puede decir que la prueba ANOVA es la generalización de la t de Student, ya que si realizamos una prueba ANOVA en la comparación de solo dos grupos, obtenemos los mismos resultados.
Al igual que la t de Student, se requiere que cada uno de los grupos a comparar tenga distribuciones normales, o lo que es más exacto, que lo sean sus residuales. Los residuales son las diferencias entre cada valor y la media de su grupo. Además debemos estudiar la dispersión o varianzas de los grupos, es decir estudiar su homogeneidad. Cuando mayor sean los tamaños de los grupos, menos importante es asegurar estos dos supuestos, ya que el ANOVA suele ser una técnica bastante “robusta” comportándose bien respecto a transgresiones de la normalidad. No obstante, si tenemos grupos de tamaño inferior a 30, es importante estudiar la normalidad de los residuos para ver la conveniencia o no de utilizar el análisis de la varianza. Si no fuera posible utilizar directamente el ANOVA, podemos recurrir al uso de pruebas no paramétricas, como la de Kruskal-Wallis.
Como ya hemos dicho, el ANOVA es la generalización de la t de Student, y sus hipótesis nula y alternativa se pueden formular del siguiente modo:
· Hipótesis nula (Ho): µ1= µ2=…= µk
Las medias de los k grupos son iguales y por tanto las diferencias encontradas pueden explicarse por el azar. Dicho de otro modo, los grupos proceden de poblaciones con medias iguales.
· Hipótesis alternativa (H1): al menos uno de los grupos tiene una media distinta del resto de grupos.
En la prueba ANOVA las comparaciones son siempre bilaterales (a dos colas) ya que estudiamos globalmente si los grupos tienen medias distintas, y no si un grupo tiene una media menor o mayor que otro por separado. Si se rechaza la hipótesis nula, no sabremos entre qué grupos están las diferencias.
Para saber si los grupos tienen medias iguales o no en su IMC, se ha de construir la tabla ANOVA. En muchos libros de estadística podemos encontrar como crear esta tabla a partir de de los datos de la muestra por lo que no creemos necesario explicar detalladamente los pasos a seguir para su construcción. Si nos interesa conocer en qué consiste y en qué nos basamos cuando decimos que los grupos tienen o no medias iguales.

La variabilidad o varianza total que podemos tener en nuestros datos se puede descomponer a su vez en:

-Varianza entre grupos. Mide la variabilidad entre las medias de cada grupo respecto a la media total de todas las observaciones. Denominada también como variabilidad o varianza inter-grupos.

-Varianza dentro de los grupos. Mide la variabilidad de cada observación respecto a la media de su grupo. Podemos encontrarla bajo el nombre de residual, error o varianza intra-grupos.

Resumiendo: Varianza Total = Varianza entre grupos + varianza dentro de los grupos
Del mismo modo que se hace en la t de Student y con otras pruebas estadísticas, se divide un efecto observado respecto a un error aleatorio. En nuestro caso se divide el efecto debido a la pertenencia de los grupos (varianza entre grupos) respecto a la dispersión debida al azar o error aleatorio (varianza dentro de los grupos). A este cociente se le denomina F, o F de Fisher-Snedecor. Si sobrepasa cierto valor crítico, entonces podremos afirmar que el efecto observado es demasiado grande para poder ser explicado por el azar (error aleatorio) y que por tanto no todos los grupos estudiados tienen la misma media.


domingo, 20 de mayo de 2012


Investigación
Es un proceso que, mediante la aplicación de un método, procura obtener información relevante y fidedigna, para entender, verificar, corregir o aplicar el conocimiento.
Estadística
 Trata de la recolección, clasificación y presentación de los hechos sujetos a una apreciación numérica como base a la explicación, descripción y comparación de los fenómenos
       Estadística Descriptiva
 Deductiva.
 Rama de las matemáticas. Conjunto de técnicas utilizadas para colectar, organizar, resumir y presentar información, con el fin de hacer inferencias sobre la población de estudio.

Concepos básicos
Variable: Características o atributos de un grupo de elementos de la población que puede tomar diferentes valores y pueden tener diversas magnitud o intensidad





NIVEL DE MEDICIÓN: Cualitativas o Categóricas: Atributos
Nominal: Nombres.
Ordinal: Orden. Cuantitativas o Numéricas:
Discreta o Discontinua: #s enteros.
Continuas: #s fraccionados. PUNTO DE VISTA METODOLÓGICO: Dependientes: Medibles. Independientes: Manipulable por el investigador

Población:
Es la mayor colección de elementos que poseen características o variables por las que  se tiene interés, el cual forma un conglomerado amplio de valores ; pueden ser :
Finitas: # fijo de valores .
Infinita: # sin fin de valores

Muestra:
Parte representativa de la población.
Muestreo al azar o Aleatorio: Todos los elementos tienen la misma probabilidad de pertenecer a la investigación.
Muestreo No al azar: Los elementos de la muestra se escogen a juicio de un experto o por conveniencia.

Tipos de Muestreo Probabilístico:
Aleatorio Simple:
Todos tienen igual probabilidad de ser elegidos (tabla de #s aleatorios) .
Estratificado:
La población se divide en estratos y hacer muestreo aleatorio simple .
Sistemático:
Se numeran las unidades de la población, se obtiene un intervalo  y se seleccionan a los sujetos.
Conglomerados:
Dividir la población  en grupos en base a sus diferencias y tomar una muestra al azar de c/u de ellos .
Polietápico:
Similar al de conglomerados,  pero con subdivisiones de los grupos.

Estadística inferencial:
Son un conjunto de técnicas utilizadas para obtener conclusiones sobre la población, a partir del análisis de información de la muestra.


Característica de la curva de distribución normal:

La curva de distribución normal representa la distribución teórica de las frecuencias relativas de un gran número de observaciones hechas sobre la misma variable. También, representa la probabilidad (frecuencia), con que se espera se den cada uno de los valores que puede adoptar la variable medida.

Su representación gráfica tiene forma de campana y es simétrica, la curva se extiende en ambas direcciones y a medida que se acerca a los extremos tiende a unirse con el eje horizontal (abscisa) sin llegar a tocarlo (asintótica). Los valores de la media, moda y mediana constituyen el valor central (cero). La curva normal es cóncava hacia abajo entre +1 desviación estándar y –1 desviación estándar. El área total bajo la curva es igual a 1 o 100%.

Probabilidad:
Se considera como todos los posibles valores que puede tomar una variable aleatoria, especificando la posibilidad con la que ocurre cada valor y puede presentarse como una tabla, una grafica o una ecuación.
Se puede medir la probabilidad de ocurrencia de algún evento por medio de un número entre cero y uno. Cuanto más probable sea el evento más próximo estará el número a 1 y cuanto menos probable sea el mismo más próximo estará el número cero.

Z= X - µ
Σ

Calculo de áreas bajo la curva:
Estandarizar la variable x (IPDB) a puntajes estándar o valores de Z con el estadístico de z . z= x-μ/σ
Trazar un esquema de la distribución normal para limitar y sombrear el área bajo la curva con él(los) valor(es) de Zo calculado
Utilizar la tabla de áreas bajo la curva normal (los valores en el cuerpo de la tabla son áreas entre menos infinito y Z)

Diseño de hipótesis de prueba en estadística:

DATOS: Considerar tipo de variables
PLANTEAMIENTO DE UNA PREGUNTA: Diferencia de estadísticos entre grupos
HIPOTESIS: Ho: Hipótesis nula o de no diferencia.
Ha: Hipótesis alterna o de diferencia.
ESTADISTICO DE PRUEBA: Sirve como un productor de decisiones.


Niveles de confianza:
Son los límites dentro de los que se espera encontrar el valor real de la media estadística en un nivel seleccionado de probabilidad (.95 o .99).









Niveles Significancia:

Determina el riesgo de error al afirmar que existe diferencia real, es decir, al rechazar una hipótesis nula (.05 o .01).

Reglas de decisión:
Región de rechazo de Ho, región de no rechazo de Ho.

DECISIÓN ESTADISTICA: Si el valor calculado es el valor critico de tablas se rechaza o no se rechaza la hipótesis nula Ho.
CONCLUSION ESTADISTICA: Si Ho: se rechaza se concluye que Ha: es verdadera. Si no se rechaza Ho se concluye que Ho puede ser verdadera.
CONCLUSION CLINICA: Ayuda a los investigadores a tomar decisiones.


Recolección de Datos o Variables:
Captación de la información necesaria para la ejecución de una investigación:
*Encuesta:
Para identificar características especificas de una población.
*Censo:
Se aplica periódicamente a toda la población obteniendo datos generales.
*Registro:
Recabar información de manera continua.

Organización:
Revisión:
Calidad y congruencia de la información.
Corrección:
Corregir inexactitudes de información incompleta o escritura ilegible.
Clasificación:
Colocación ordenada de los datos.



Recuento:
Realizar la cuenta o el cálculo del número de elementos que componen cada categoría.
.Palotes:
Diseñar previamente una tabla que muestre los posibles valores de cada variable y espacio donde anotar un palote ( / ) por cada elemento.
.Sistema de tarjetas:
Transcribir información a tarjetas, asignando una clave a cada valor.
.Lector óptico:
Llenado de óvalos en cada variable.

Presentación:
Determinada por los objetivos, las variables, el tipo y cantidad de información colectada.
.Verbal – escrita:
En foros.
.Tablas:
Presentar en forma resumida e inteligible los datos.
.Graficas:
Facilitar la comprensión de la relación de las variables.

Tipos de gráficos:
Variables numéricas:
-Histograma
 -Polígono de frecuencias
-Diagrama de dispersión
-Diagrama de puntos

Variables Categóricas:
-Barras
-Barras con desviación estándar
-Sectorial
-Pictogramas

MEDIDAS DE TENDENCIA CENTRAL
Son valores numéricos que tienden a encontrarse en la parte central de la distribución o conjunto de datos.

Medidas de Tendencia Central

.Media: También conocida como promedio (eficiente, suficiente, unicidad)
.Mediana: Valor central, divide en dos partes iguales al conjunto de datos.
.Moda: Valor que se repite con mayor frecuencia.
Ej: Determinación de glucosa de 7 sujetos en
ayunas 72, 65, 57, 68, 79, 63, 65, mg/100 ml

.Media: 72+65+57+68+79+63+65 = 469 = 67
7                                      7

.Mediana: 57 63 65 65 68 72 79.
.Moda: 65



Tipos de Gráficas

Histograma:
Gráfica de barras sin espacio entre ellas, se utiliza para representar la distribución
de los valores de una variable numérica.

Diagrama de Dispersión:
Estudia la relación entre dos variables cuantitativas

Grafica de Barras con Desviación Estándar:
Utilizada para comparar las medias y desviaciones estándar de una variable categórica, la cual puede tener dos o mas categorías.

Diagrama de dispersión con desviación estándar:
Se utiliza para estudiar la relación entre dos variables numéricas. Una de las variables es conocida como variable independiente (X) y la otra como variable dependiente (Y).

Grafica de sectores y de barras con frecuencias y/o porcentajes:
Se utilizan para comparar las frecuencias o porcentajes de una variable discreta o categórica que tenga dos o mas categorías. No se recomienda utilizar cuando la variable es numérica.

Estadística inferencial
Conjunto de técnicas utilizadas para obtener conclusiones sobre la población, a partir del análisis e la información de una muestra.

Probabilidad
La probabilidad estimada ó empírica de un suceso se toma como La frecuencia relativa de ocurrencia o aparición de un suceso. También se considera como todos los posibles valores que
puede tomar una variable aleatoria, especificando la posibilidad con la que ocurre cada valor y puede representarse como una tabla, una gráfica o una ecuación.
Se puede medir la probabilidad de ocurrencia de algún evento por medio de un número entre cero y uno. Cuanto más probable sea el evento más próximo estará el número a 1 y cuanto menos probable sea el mismo más próximo estará el número cero.
Curva Normal
La curva de distribución normal representa la distribución teórica de las frecuencias relativas de un gran número de observaciones hechas sobre la misma variable. También, representa la probabilidad (frecuencia), con que se espera se den cada uno de los valores que puede adoptar la variable medida.

Su representación gráfica tiene forma de campana y es simétrica, la curva se extiende en ambas direcciones y a medida que se acerca a los extremos tiende a unirse con el eje horizontal (abscisa) sin llegar a tocarlo (asintótica). Los valores de la media, moda y mediana constituyen el valor central (cero). La curva normal es cóncava hacia abajo entre +1 desviación estándar y –1 desviación estándar. El área total bajo la curva es igual a 1 o 100%.
El 68.27% o .6827 de los casos están comprendidos entre +- 1 desviación estándar.
El 95.45% o .9545 de los casos están comprendidos entre +- 2 desviaciones estándar.
El 99.73% o .9973 de los casos están comprendidos entre +- 3 desviaciones estándar.

Calculo de probabilidades con áreas bajo la curva
-Estandarizar la variable x (IPDB) a puntajes estándar o valores de Z con el estadístico de z .
 z= x-μ/σ
-Trazar un esquema de la distribución normal para limitar y sombrear el área bajo la curva con él(los) valor(es) de Zo calculado
-Utilizar la tabla de áreas bajo la curva normal (los valores en el cuerpo de la tabla son áreas entre menos infinito y Z)

LIMITE DE CONFIANZA: Son los limites dentro de los que se espera encontrar el valor real de la media estadística en un nivel seleccionado de probabilidad (.95 o .99).
NIVEL DE SIGNIFICANCIA: Determina el riesgo de error al afirmar que existe diferencia real, es decir, al rechazar una hipótesis nula (.05 o .01).

HIPOTESIS ESTADISTICA
*DATOS: Considerar tipo de variables
*PLANTEAMIENTO DE UNA PREGUNTA: Diferencia de estadísticos entre grupos
*HIPOTESIS: Ho: Hipótesis nula o de no diferencia.
Ha: Hipótesis alterna o de diferencia.
*ESTADISTICO DE PRUEBA: Sirve como un productor de decisiones.




*DISTRIBUCIÓN EN EL ESTADISTICO DE PRUEBA: Debe aproximarse a la distribución normal.
*REGLA DE DECISION: Región de rechazo de Ho, región de no rechazo de Ho.
*ESTADISTICO DE PRUEBA CALACULADO: El valor calculado se compara en las regiones de rechazo y no rechazo

*DECISIÓN ESTADISTICA: Si el valor calculado es el valor critico de tablas se rechaza o no se rechaza la hipótesis nula Ho.
*CONCLUSION ESTADISTICA: Si Ho: se rechaza se concluye que Ha: es verdadera. Si no se rechaza Ho se concluye que Ho puede ser verdadera.
*CONCLUSION CLINICA: Ayuda a los investigadores a tomar decisiones.

Pruebas de hipótesis
El objetivo de las pruebas de hipótesis es ayudar al investigador a tomar decisiones en torno a una población examinando una parte (muestra) de ella.
Las hipótesis de investigación nos llevan a las hipótesis estadísticas, las cuales se establecen dé tal forma que puede ser evaluadas por medio de técnicas estadísticas adecuadas.

Por la distribución de los datos.
*Si la distribución de la variable o datos en un histograma es normal o se aproxima. La media, mediana y moda son parecidas se utilizan las técnicas paramétricas.
*Si la distribución de la variable es libre (bimodal) en un histograma, polígono de frecuencias se utilizan las técnicas no paramétricas.




Procedimiento para la prueba de hipótesis
1.Tipo de datos o variables (cuantitativas, cualitativas).
2.Análisis de la pregunta.
3.Juego de hipótesis estadísticas (Ho: Ha:) y clínicas.
4.Selección de tipo de pruebas o técnicas.
5.Calcular el estadístico (valor calculado) en Excel.
6.Obtener valor de tablas.
7.Decisión estadística.
8.Conclusión estadística y clínica.









Procedimiento para estadística inferencial en Excel
1.Introducir los datos en la hoja de Excel en las columnas.
2.Ir al menú principal y seleccionar datos.
3.Seleccionar la opción análisis de datos.
4.Seleccionar en análisis de datos la prueba estadística.
5.Establecer el rango de entrada para la variable 1 y para la variable 2.
6.Diferencia hipotética entre las medias = 0.
7.Dar “clic a rótulos cuando al seleccionar los datos incluyas el título.
8.Alfa, nivel de significancia o probabilidad de error ( P= 0.01, 0.05).
9.Dar “clic” en rango de salida y establece en este espacio el rango donde quieras que aparezcan los resultados del análisis.


Análisis para relacionar variables (análisis de correlación):
Método estadístico utilizado para describir el grado de relación que existe entre dos variables.
Hipótesis:
Ho: No existe relación entre las variables.
Ha: Si existe relación entre las variables.
Coeficiente de correlación:
El valor de r varia entre -1 y +1, incluyendo el cero.

Prueba de student
Prueva estadistica para evaluar dos grupos diferentes entre si de manerasignificativa respecto a sus medias