domingo, 27 de septiembre de 2009

¿què indica cuando la desviaciòn estàndar es màs grande que la media?

La media es susceptible de la distorsión por la presencia de puntuaciones extremas, valores extremos y distribuciones sesgadas. Como se basa en desviaciones de la media, la desviación estándar es susceptible del mismo problema. La distorsión está determinada por el hecho de que las puntuaciones de desviación están elevadas al cuadrado.

Un tipo común de distribución sesgada es un sesgo positivo (o derecho), en el cual la mayoría de las personas tienen bajas puntuaciones, pero algunas obtienen altas puntuaciones. Por ejemplo, “la estancia en el hospital”, o el número de veces que una muestra aleatoria de personas mayores de 65 años han permanecido en un hospital durante el último año, es un sesgo derecho. la mayoría de las personas registrará cero en estancia; algunas ,uno; otras reportarán dos ,y pocas personas muy enfermas, anotarán estancias frecuentes. Este tipo de distribución se presenta en la siguiente tabla.



Incluso sin un histograma, los valores relativos de la media y de la desviación estándar para esta distribución proporcionan una señal de que la distribución sesgada. . Estos estadísticos se calculan como sigue:

X= estancias en el hospital= durante el último año, el número de veces

que una persona es admitida en un hospital y

pasa por lo menos una noche

x¯ =2.41 veces Sx= 3.69 veces n=17 casos

Observe que la desviación estándar es más grande que la media. Esto sugiere que una o más puntuaciones extremas inflaron la media y otra parte la desviación estándar, desde el momento en que se elevan al cuadrado los números en la desviación estándar, unas cuentas puntuaciones extremas pueden hacer “explotar” rápidamente su valor. Note, por ejemplo, la enorme contribución a la suma de cuadrados que los tres casos más grandes hicieron con sus estancias de 9,10 y 10 veces.

¿Por qué una desviación estándar más grande que la media indica un sesgo?

Recuerde que si una distribución no está sesgada (es decir, tiene una forma de campana normal), su rango tendrá una amplitud de aproximadamente 4 a 6 desviaciones estándar. Cuando, la curva es trazada la amplitud de 2 o 3 desviaciones estándar se ajustaran en cada lado de la media. Si el límite inferior de las puntuaciones X de una variable es cero, por lo menos la distancia de 2 desviaciones estándar debería ajustarse entre una puntuación X de cero y la media. Cuando la desviación estándar es más grande que la media, como en el caso de las estancias en el hospital, ni una sola amplitud de la desviación estándar puede lograr este ajuste. Otra manera de explicarlo es que la desviación estándar debería ser alrededor de la mitad del tamaño de la media o más o menos.

Dos reglas generales se aplican a los tamaños relativos de la media y de la desviación estándar:

1. Si la desviación estándar es más grande que la media, esto probablemente indica un sesgo, es decir, la presencia de valores extremos u otra peculiaridad en la forma de la distribución, como una distribución bimodal.

2. Si la desviación estándar no es de la mitad de tamaño de la media o menos, se debe tener cuidado al examinar la distribución para analizar la posible existencia de sesgo o valores extremos.

jueves, 17 de septiembre de 2009

ESTIMACIÓN DE PROMEDIO

Debilidades potenciales de la media: situaciones en las que reportarla sola puede conducir a errores

Cuando se reporta un estadístico de tendencia central, tendemos a suponer que su valor es representativo de puntuaciones típicas en la parte central de una distribución. En ocasiones, sin embargo, cuando se informa la media puede conducir a errores al respecto. Éste es el caso porque el cálculo de la media puede inflarse (aumentar) o desinflarse (disminuir) debido a puntuaciones o valores extremos. Puntuaciones muy altas, o valores extremos positivos, inflan el valor de la media “agrandando” la suma de X (es decir, ΣX) en el numerador de la fórmula. Puntuaciones sumamente bajas en una distribución, o valores extremos negativos, desinflan el valor de la media “encogiendo” ΣX. Por ejemplo, suponga que calculamos la cantidad media del dinero en efectivo que llevan 10 estudiantes. Idealmente, esta media debe indicarnos cuál es la cantidad típica. Pero suponga que un estudiante cobró un cheque por $400 y nuestro cálculo es el siguiente, donde X= la cantidad de dinero en efectivo de cada estudiante (para simplificar, se redondea al dólar más cercano):

Por obvias razones, esta media de $46 no representa la cantidad de dinero promedio típica, o la tendencia central que los alumnos suelen portar en efectivo. La mayoría de los estudiantes tiene menos de $10, y reportar una media de $46 es engañoso.
El cálculo de la media se distorsiona por la presencia de un valor extremo. Para obtener un sentido de proporción sobre cómo se calcula la fórmula de la media, examine la relación entre el numerador (ΣX) y el denominador (n). Cuando ΣX es grande y n es pequeña, la media será grande. Si ΣX es grande debido a la presencia de uno o dos valores extremos de alto valor, la media se “inflará” hasta un valor grande.

Tenga presente que nuestro objetivo es usar estadísticos de muestra para estimar los parámetros de una población. Si se reporta una media muestral inflada o disminuida, se presentará un resumen distorsionado de las puntuaciones que obtienen los sujetos en una población. Esta limitación de la media es un problema especial con muestras pequeñas; cuando menor sea la muestra, mayor será la distorsión que genere un valor extremo. Por ejemplo, calcule la edad media de la siguiente muestra de cinco estudiantes de la universidad local, donde un estudiante en la muestra tiene una edad extremadamente alta: 19, 19, 20, 21, y 54 años. La respuesta dejará la impresión de que esta muestra está bastante arriba de la edad típica en la universidad, cuando, de hecho, cuatro de los cinco estudiantes tiene la edad típica. También observe lo que sucede cuando existe una puntuación sumamente baja, como con esta muestra de edades: 8, 19, 19, 20 y 21 años. En tales casos, los valores extremos deben eliminarse, y la media debe calcularse de nuevo sin ellos. Al informar esta “media ajustada”, notamos por qué se realizó el ajuste.

Debilidades potenciales de la mediana: situaciones en las que reportarla sola puede conducir a errores

La mediana se basa en la ubicación ordenada de puntuaciones en una distribución. Es insensible a los valores de las puntuaciones en una distribución; es decir, sin tener en cuenta los valores de X que la rodean, la mediana es la puntuación de la mitad determinada por el número de puntuaciones (n) en la muestra. Por ejemplo, las siguientes dos distribuciones de puntuaciones en un examen tiene la misma mediana; aunque estén compuestas de puntuaciones muy diferentes.
Afirmar que la calificación promedio del examen en ambas clases es 77 sería impreciso porque sugiere que las dos tuvieron igual desempeño. (De hecho, el aula 2 lo hizo mucho mejor, con una media de 83.6, comparado con una media de 65.2 para el aula 1.) La mediana no se afecta por los valores de X.

Mientras es insensible para valores de las puntuaciones, la mediana es sensible a (o afectada por) cualquier cambio en el tamaño de la muestra. Por ejemplo, suponga que en el aula 1 dos estudiantes hacen el examen tarde; lo realizan mal, que es típico de los estudiantes que llegan tarde a una evaluación. Cuando sus puntuaciones se incluyen en la distribución, la mediana cambia drásticamente de 77 a 51:
Aula 1 (incluye las puntuaciones tardías):


La mediana, entonces, tiene dos debilidades potenciales: 1) es insensible a los valores de las puntuaciones en una distribución, y 2) es sensible a (o afectada por) cualquier cambio en el tamaño de la muestra. Antes de reportar la mediana asegúrese de que ninguna de estas debilidades potenciales lo llevará a conclusiones erróneas.

Debilidades potenciales de la moda: situaciones en las que reportarla sola puede conducir a errores

En general, por sí misma la moda es el estadístico de tendencia central menos útil porque tiene un alcance informativo limitado. Mientras identificar la puntuación que ocurre más frecuentemente, no sugiere nada sobre las puntuaciones que ocurre alrededor de este valor de la puntuación. Así, la moda es muy útil cuando se presenta en conjunción con la mediana y la media. Como veremos más adelante, reportar los tres estadísticos de tendencia central es bastante informativo.
La moda puede ser engañosa cuando se usa sola porque es insensible tanto a los valores de las puntuaciones en una distribución como al tamaño de la muestra. Esto significa que usted puede tener cualquier número de distribución con formas totalmente diferentes, y aun todas podrían tener la misma moda.

Mezcla de subgrupos en el cálculo de la media

Debido a que la media es susceptible de distorsión por valores y puntuaciones extremos, debemos describir claramente qué casos o qué sujetos se incluyen en su cálculo. Organizaciones tales como empresas e instituciones escolares, intencionalmente o no, por lo común informan medias que son irreales. Por ejemplo, el vocero de un distrito escolar público puede informar que el sueldo medio de sus maestros es $45.000. Cuando esto ocurra, los maestros probablemente se reunirán en el aula de descanso de la facultad y se preguntarán entre sí: ¿Quién entre nosotros gana tanto dinero? Por supuesto, los maestros no son tontos. Ellos saben de inmediato que quien realizó los cálculos “mezcló los rangos de estatus”, incluyendo al personal de mayor salario – como consejeros académicos, auxiliares de los directores y directores – todos ellos están certificados como docentes pero rara vez dan clases. Estos administradores quizá hayan sido incluidos porque el “estadístico” simplemente pidió a la computadora calcular el sueldo medio para todos los maestros certificados sin tener en cuenta el rango. Cuando se incluyó este personal bien pagado, sus altos sueldos sesgaron la media. Para evitar tal insensatez estadística, deben informarse por separado las medias para subgrupos distintos.

Mezclar rangos de estatus en ocasiones resulta en una medida que no se ajusta a ningún grupo. Por ejemplo, una compañía puede tener sólo dos rangos de empleados: obreros que promedian cerca de $30.000 dólares al año, y gerentes que promedian cerca de $70.000 dólares al año. Si estos dos grupos son aproximadamente del mismo tamaño, el sueldo medio para la compañía entera estaría cercano a $50.000. Curiosamente, ningún empleado en la compañía gana un sueldo cercano a esa cantidad.

Otro ejemplo es la edad media de asistentes en una clase nocturna de tercer grado en una escuela primaria. La edad media se calculará en 20 años más menos, aunque todos ahí tendrán ocho o nueve años (los niños) o alrededor de treinta (los padres).
La media es ciertamente impropia para resumir esta distribución de edades.

domingo, 6 de septiembre de 2009

EL PROBLEMA DE LOS DENOMINADORES PEQUEÑOS

Se debe tener cuidado al interpretar proporciones y porcentajes basados en grupos sumamente pequeños; los números pequeños en la línea base en reportes de cambio de porcentaje son una particular fuente de confusión. La tabla 1 presenta un ejemplo ficticio de lo que típicamente ocurrió al principio de la epidemia del SIDA.

El cambio de porcentajes se calcula como sigue:

Cambio de porcentaje = # al tiempo 2 - # al tiempo 1

# al tiempo 1


TABLA 1. Cambio del porcentaje en el números de nuevos casos de SIDA informados en un condado, de 1988 a 1989 por genero (datos ficticios)

GENERO

NUNERO DE NUEVOS CASOS EN 1988.

NUMERO DE NUEVOS CASOS EN 1989.

CAMBIO DE PORCENTAJE DE 1988 A 1989

Hombres

78

104

33%

Mujeres

4

7

75%

Total

82

111

35%

La tabla muestra que el incremento de porcentaje en la incidencia del SIDA fue mayor para mujeres que para hombres entre los dos años. Tales estadísticas se reportaron a menudo como evidencia de que la epidemia estaba extendiéndose mucho más rápidamente entre las mujeres que entre los hombres, sugiriendo que el SIDA de repente se había vuelto una enfermedad “femenina”. De hecho, en 1989 solo 7 nuevos casos aparecieron entre mujeres, comparados con 104 en hombres. El aparente fenómeno “femenino” se debió al problema de un denominador pequeño en semejante situación, un buen estadístico simplemente reportaría que había muy pocos casos de mujeres para realizar comparaciones significativas.