Archive for the ‘Uncategorized’ Category

CHI-CUADRADO

febrero 3, 2009

Esta prueba puede utilizarse incluso con datos medibles en una escala nominal. La hipótesis nula de la prueba Chi-cuadrado postula una distribución de probabilidad totalmente especificada como el modelo matemático de la población que ha generado la muestra.

Para realizar este contraste se disponen los datos en una tabla de frecuencias. Para cada valor o intervalo de valores se indica la frecuencia absoluta observada o empírica (Oi). A continuación, y suponiendo que la hipótesis nula es cierta, se calculan para cada valor o intervalo de valores la frecuencia absoluta que cabría esperar o frecuencia esperada (Ei=n·pi , donde n es el tamaño de la muestra y pi la probabilidad del i-ésimo valor o intervalo de valores según la hipótesis nula). El estadístico de prueba se basa en las diferencias entre la Oi y Ei.

Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad si n es suficientemente grande, es decir, si todas las frecuencias esperadas son mayores que 5. En la práctica se tolera un máximo del 20% de frecuencias inferiores a 5.

Si existe concordancia perfecta entre las frecuencias observadas y las esperadas el estadístico tomará un valor igual a 0; por el contrario, si existe una gran discrepancias entre estas frecuencias el estadístico tomará un valor grande y, en consecuencia, se rechazará la hipótesis nula. Así pues, la región crítica estará situada en el extremo superior de la distribución Chi-cuadrado con k-1 grados de libertad.

La fórmula que da el estadístico es la siguiente:

Los grados de libertad vienen dados por :

gl= (r-1)(k-1). Donde r es el número de filas y k el de columnas.

Anova

febrero 3, 2009

En estadística, análisis de varianza (ANOVA, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados. El análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos. El procedimiento para comparar estos valores está basado en la varianza global observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de varianza se utiliza para asociar una probabilidad a la conclusión de que la media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.

El ANOVA parte de algunos supuestos que han de cumplirse:

Existen tres tipos de modelos:

  • El modelo de efectos fijos asume que el experimentador ha considerado para el factor todos los posibles valores que éste puede tomar. Ejemplo: Si el género del individuo es un factor, y el experimentador ha incluido tanto individuos masculinos como femeninos, el género es un factor fijo en el experimento.
  • Los modelos de efectos aleatorios asumen que en un factor se ha considerado tan sólo una muestra de los posibles valores que éste puede tomar. Ejemplo: Si el método de enseñanza es analizado como un factor que puede influir sobre el nivel de aprendizaje y se ha considerado en el experimento sólo tres de los muchos más métodos posibles, el método de enseñanza es un factor aleatorio en el experimento.
  • Los modelos mixtos describen situaciones donde están presentes ambos tipos de factores: fijos y aleatorios.

La técnica fundamental consiste en la separación de la suma de cuadrados (SS, ‘sum of squares’) en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un análisis de regresión lineal)

Modelo de efectos fijos

El modelo de efectos fijos de análisis de la varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material analizado a varios factores, cada uno de los cuales le afecta sólo a la media, permaneciendo la “variable respuesta” con una distribución normal.

Modelo de efectos aleatorios

Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren diferencias incomparables en el material o grupo experimental. El ejemplo más simple es el de estimar la media desconocida de una población compuesta de individuos diferentes y en el que esas diferencias se mezclan con los errores del instrumento de medición.

Grados de libertad

Por grados de libertad “degrees of freedom” entendemos el número efectivo de observaciones que contribuyen a la suma de cuadrados en un ANOVA, es decir, el número total de observaciones menos el número de datos que sean combinación lineal de otros.

Pruebas de significación

El análisis de varianza lleva a la realización de pruebas de significación estadística, usando la denominada distribución F de Snedecor.

REGRESION

febrero 3, 2009

REGRESIÓN

La regresión estadística o regresión a la media es la tendencia de una medición extrema a presentarse más cercana a la media en una segunda medición. La regresión se utiliza para predecir una medida basándonos en el conocimiento de otra.

El término regresión fue introducido por Francis Galton en su libro Natural inheritance (1889), partiendo de los análisis estadísticos de Karl Pearson. Su trabajo se centró en la descripción de los rasgos físicos de los descendientes (variable A) a partir de los de sus padres (variable B). Estudiando la altura de padres e hijos a partir de más de mil registros de grupos familiares, se llegó a la conclusión de que los padres muy altos tenían una tendencia a tener hijos que heredaban parte de esta altura, pero que revelaban también una tendencia a regresar a la media. Galton generalizó esta tendencia bajo la “ley de la regresión universal”: «Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.»

Modelos de regresión

Regresión lineal

  • Regresión lineal simple

Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una función simple (lineal) de X que nos permita aproximar Y mediante: Ŷ = a + bX

a (ordenada en el origen, constante)

b (pendiente de la recta)

A la cantidad e=Y-Ŷ se le denomina residuo o error residual.

Así, en el ejemplo de Pearson: Ŷ = 85 cm + 0,5X

Donde Ŷ es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por cada cm del padre.

  • Regresión lineal múltiple

Regresión no lineal

Regresión Exponencial

Regresión Cuadrática

Enlaces externos

MUESTREO

febrero 3, 2009

En estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población.
Al elegir una muestra se espera que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, obteniendo resultados parecidos que si se realizase un estudio de toda la población.
Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio fiable (que represente a la población), debe cumplir ciertos requisitos, lo que lo convertiría en una muestra representativa.
Existen dos métodos para seleccionar muestras de poblaciones: el muestreo no aleatorio o de juicio y el muestreo aleatorio o de probabilidad. En este último todos los elementos de la población tienen la oportunidad de ser escogidos en la muestra. Una muestra seleccionada por muestreo de juicio se basa en la experiencia de alguien con la población. Algunas veces una muestra de juicio se usa como guía o muestra tentativa para decidir como tomar una muestra aleatoria más adelante. Las muestras de juicio contribuyen con el análisis estadístico el cual es necesario para hacer muestras de probabilidad.
Muestreo probabilístico
Forman parte de este tipo de muestreo todos aquellos métodos para los que puede calcularse la probabilidad de extracción de cualquiera de las muestras posibles. Este conjunto de técnicas de muestreo es el más aconsejable, aunque en ocasiones no es posible optar por él. En este caso se habla de muestras probabilísticas, pues no es razonable hablar de muestras representativas dado que no conocemos las características de la población.
Muestreo aleatorio simple
Es la extracción de una muestra de una población finita, en el que el proceso de extracción es tal que garantiza a cada uno de los elementos de la población la misma oportunidad de ser incluidos en dicha muestra. Esta condición garantiza la representatividad de la muestra porque si en la población un determinado porcentaje de individuos presenta la característica A, la extracción aleatoria garantiza matemáticamente que por término medio se obtendrá el mismo porcentaje de datos muestrales con esa característica.

El muestreo aleatorio simple puede ser de dos tipos:
Sin reposición de los elementos: cada elemento extraído se descarta para la subsiguiente extracción. Por ejemplo, si se extrae una muestra de una “población” de bombillas para estimar la vida media de las bombillas que la integran, no será posible medir más que una vez la bombilla seleccionada.
Con reposición de los elementos: las observaciones se realizan con reemplazamiento de los individuos, de forma que la población es idéntica en todas las extracciones. En poblaciones muy grandes, la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse sin reposición aunque, realmente, no lo sea.
Para realizar este tipo de muestreo, y en determinadas situaciones, es muy útil la extracción de números aleatorios mediante ordenadores, calculadoras o tablas construidas al efecto.
Muestreo estratificado
Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos respecto a característica a estudiar. A cada uno de estos estratos se le asignaría una cuota que determinaría el número de miembros del mismo que compondrán la muestra. Dentro de cada estrato se suele usar la técnica de muestreo sistemático, ya que con aquella suelen ser las técnicas más usadas en la practica.
Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos técnicas de muestreo estratificado:
• Asignación proporcional: el tamaño de cada estrato en la muestra es proporcional a su tamaño en la población.
• Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. Para ello es necesario un conocimiento previo de la población.
Por ejemplo, para un estudio de opinión, puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que, dentro de cada uno de estos grupos, puede haber cierta homogeneidad. Así, si la población está compuesta de un 55% de mujeres y un 45% de hombres, se tomaría una muestra que contenga también esa misma proporción.
Para una descripción general del muestreo estratificado y los métodos de inferencia asociados con este procedimiento, suponemos que la población está dividida en h subpoblaciones o estratos de tamaños conocidos N1, N2,…,Nh tal que las unidades en cada estrato sean homogéneas respecto a la característica en cuestión. La media y la varianza desconocidas para el i-ésimo estrato son denotadas por mi y si2, respectivamente.
Muestreo sistemático
Se utiliza cuando el universo o población es de gran tamaño, o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevación K= N/n; donde N es el tamaño del universo y n el tamaño de la muestra. Determinar en qué fecha se producirá la primera extracción, para ello hay que elegir al azar un número entre 1 y K; de ahí en adelante tomar uno de cada K a intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenómeno. esto quiere decir que si tenemos un determinado número de personas que es la población y queremos escoger de esa población un númeno más pequeño el cual es la muestra, dividimos el número de la población por el número de la muestra que queremos tomar y el resultado de esta operación será el intervalo, entonces escogemos un número al azar desde uno hasta el número del intervalo, y a partir de este número escogemos los demás siguiendo el orden del intervalo
Muestreo por estadios múltiples
Esta técnica es la única opción cuando no se dispone de lista completa de la población de referencia o bien cuando por medio de la técnica de muestreo simple o estratificado se obtiene una muestra con unidades distribuidas de tal forma que resultan de difícil acceso. En el muestreo a estadios múltiples se subdivide la población en varios niveles ordenados que se extraen sucesivamente por medio de un procedimiento de embudo. El muestreo se desarrolla en varias fases o extracciones sucesivas para cada nivel.
Por ejemplo, si tenemos que construir una muestra de profesores de primaria en un país determinado, éstos pueden subdividirse en unidades primarias representadas por circunscripciones didácticas y unidades secundarias que serían los propios profesores. En primer lugar extraemos una muestra de las unidades primarias (para lo cual debemos tener la lista completa de estas unidades) y en segundo lugar extraemos aleatoriamente una muestra de unidades secundarias de cada una de las primarias seleccionadas en la primera extracción.

Muestreo por conglomerados
Técnica similar al muestreo por estadios múltiples, se utiliza cuando la población se encuentra dividida, de manera natural, en grupos que se supone que contienen toda la variabilidad de la población, es decir, la representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio.
Dentro de los grupos seleccionados se ubicarán las unidades elementales, por ejemplo, las personas a encuestar, y podría aplicársele el instrumento de medición a todas las unidades, es decir, los miembros del grupo, o sólo se le podría aplicar a algunos de ellos, seleccionados al azar. Este método tiene la ventaja de simplificar la recogida de información muestral.
Cuando, dentro de cada conglomerado, se extraen los individuos que formarán parte de la muestra por m.a.s., el muestreo se llama bietápico.
Las ideas de estratificación y conglomerados son opuestas. El primer método funciona mejor cuanto más homogénea es la población respecto del estrato, aunque más diferentes son éstos entre sí. En el segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben ser muy parecidos entre sí.
recolección y organización de datos:
una vez identificada la población se procede a recoger los datos en muchos ocasiones la población es muy grande y no seria posible realizar la investigación totalmente con el fin de obtener todos los datos asignados a cada uno.
Muestreo no probabilístico
Aquél para el que no puede calcularse la probabilidad de extracción de una determinada muestra.
Muestreo por cuotas
Es la técnica más difundida sobre todo en estudios de mercado y sondeos de opinión. En primer lugar es necesario dividir la población de referencia en varios estratos definidos por algunas variables de distribución conocida (como el género o la edad). Posteriormente se calcula el peso proporcional de cada estrato, es decir, la parte proporcional de población que representan. Finalmente se multiplica cada peso por el tamaño de n de la muestra para determinar la cuota precisa en cada estrato. Se diferencia del muestreo estratificado en que una vez determinada la cuota, el investigador es libre de elegir a los sujetos de la muestra dentro de cada estrato.
Muestreo de “bola de nieve”
Indicado para estudios de poblaciones clandestinas, minoritarias o muy dispersas pero en contacto entre sí. Consiste en identificar sujetos que se incluirán en la muestra a partir de los propios entrevistados.. Partiendo de una pequeña cantidad de individuos que cumplen los requisitos necesarios estos sirven como localizadores de otros con características análogas.
Muestreo subjetivo por decisión razonada
En este caso las unidades de la muestra se eligen en función de algunas de sus características de manera racional y no casual. Una variante de esta técnica es el muestreo compensado o equilibrado, en el que se seleccionan las unidades de tal forma que la media de la muestra para determinadas variables se acerque a la media de la población.

HIPOTESIS

febrero 2, 2009

DEFINICIÓN DE HIPÓTESIS
Es una proposición que establece relaciones, entre los hechos; para otros es una posible solución al problema; otros mas sustentan que la hipótesis no es mas otra cosa que una relación entre las variables, y por último, hay quienes afirman que es un método de comprobación.
La hipótesis como proposición que establece relación entre los hechos: una hipótesis es el establecimiento de un vínculo entre los hechos que el investigador va aclarando en la medida en que pueda generar explicaciones lógicas del porqué se produce este vínculo.
) Hipótesis Descriptiva. La hipótesis descriptiva como su nombre lo indica describe una situación relacional entre las variables que se someten a estudio. Se utiliza en investigaciones de tipo descriptivo, como pudieran ser los estudios por encuesta.
Son ejemplos de hipótesis descriptiva los siguientes:
El periodo de recuperación de la inversión del proyecto Duply Office es de dos años.
Los productos de consumo doméstico en México aumentarán un 18 % en los próximos seis meses.
• Hipótesis Correlacional. La palabra correlación es un término estadístico que expresa una posible asociación o relación entre dos o mas variables, sin que sea importante el orden de presentación de las variables, ya que no expresan una relación de causalidad. Para verificarlas se utilizan pruebas estadísticas de correlación.
Son ejemplos de hipótesis correlacional los siguientes:
A mayor apreciación del dólar norteamericano, mayor depreciación del peso mexicano.
El volumen de importaciones en México disminuye con el aumento en el tipo de cambio peso-dólar.
• Hipótesis de Causalidad. Las hipótesis de causalidad se formulan para investigaciones experimentales. Expresan una relación de causa-efecto entre las variables que se someten a estudio. Una hipótesis de causalidad puede expresar una relación causal entre una variable independiente y una variable dependiente, o bien, puede hacerlo entre mas de una variable independiente y una variable dependiente. Son ejemplos de hipótesis de causalidad: El elevado índice de inflación en México es causa del bajo poder adquisitivo del peso mexicano.
Los factores de productividad total (insumo humano, materia prima, energía, capital y otros gastos) del sector manufacturero mexicano son los determinantes de la productividad total.
• Hipótesis de Nulidad. Este tipo de hipótesis expresa la ausencia de relación, diferencia, causalidad, etc. entre dos o mas variables. De acuerdo con D”Ary,Jacobs y Razavieh (1982) la hipótesis de nulidad “…permite comparar los descubrimientos con las expectativas mediante métodos estadísticos,” (p. 85). Son ejemplos de hipótesis de nulidad:
La oferta de carreras profesionales del Instituto Tecnológico de Cd.
Cuauhtémoc no satisface la demanda de formación académica profesional de los egresados de nivel medio superior en la región.
La tecnología de punta no representa una ventaja competitiva definitiva de la empresa A al disminuir sus costos de producción y hacer mas eficientes los procesos productivos.
• Hipótesis Estadísticas. Una hipótesis estadística expresa en términos o símbolos estadísticos los anteriores tipos de hipótesis. Se pueden expresar en términos de:
• Estadísticas de Estimación. Diseñadas para evaluar la suposición respecto al valor de alguna característica de una muestra de individuos o unidades de análisis.
• Estadísticas de Correlación. Traduce o transforma una situación de correlación entre dos o mas variables a la simbología estadística
propia de las pruebas estadísticas de correlación.
• Estadísticas de la Diferencia de Medias u otros Valores. En este tipo de hipótesis se compara una estadística entre dos o mas grupos.

Es un ejemplo de hipótesis estadística la siguiente:
La hipótesis “No hay relación entre el aprendizaje (mayor cantidad de impresiones por hora) y el costo por unidad impresa en la compañía Ediciones Tarahumara”, se expresa como una hipótesis estadística de la siguiente manera:
• Hipótesis nula: Ho: rxy = 0 (no hay relación entre…)
0 (existe relaciónHipótesis alternativa: H1: rxy entre…)