Cap 2-Distribucion Normal
12
2. Distribución Normal La distribución Normal es una de las distribuciones de probabilidad más utilizadas en el campo de la estadística, y por esa razón se estudió en el curso de probabilidad y estadística y es requisito para poder estudiar este curso; sin embargo no nos vendría mal darle una revisada a esta importantísima distribución de probabilidad, si no es que la más importante para cualquiera que se inicie en el estudio de la estadística. Para iniciar recordemos los conceptos de Variables aleatorias Una variable aleatoria discreta es aquella cuyo conjunto de valores es finito o numerable (es decir tantos como los números Naturales), como por ejemplo la variable que describe el número de águilas obtenidas al lanzar 5 veces una moneda balanceada. Una variable aleatoria cuyo conjunto de valores posibles es un intervalo se dirá que no es discreta y se le llamará de acuerdo a la siguiente Definición: Una variable aleatoria X se dice continua si su conjunto de valores es un intervalo; es decir X = x donde a ≤ x ≤ b. Ejemplo 1: En el estudio del fondo de un lago para determinar su forma, se realizan medidas de profundidad en localidades previamente elegidas al azar, entonces X =profundidad de cada localidad, es una variable aleatoria continua. Aquí: a = profundidad mínima del lago b = profundidad máxima Ejemplo 2: Si un compuesto químico es elegido al azar y su PH determinado, entonces X = PH es una variable aleatoria continua, porque cualquier valor entre 0 y 14 es posible para el PH. Ejemplo 3: Si se mide la temperatura cada 5 minutos de forma automática en una estación metereológica T= temperatura es ° C, es una variable aleatoria continua, puesto que puede tomar todo un continuo de valores dentro de ciertos intervalos; digamos [-15, 46] para ciudad Juárez.
Distribución de probabilidad de una Variable aleatoria continúa Motivación: Supongamos que nuestra variable de interés es la correspondiente al último ejemplo anterior, es decir: T = temperatura en Cd. Juárez Chih (○ C) Grados centígrados Supongamos que se efectuaron 100 mediciones de temperatura cada mes de Enero durante diez años consecutivos, obteniéndose la siguiente distribución de frecuencias aproximadamente para cada uno de los 10 años muestreados
Cap 2-Distribucion Normal Intervalo de Temperatura
13 Frecuencia
[−12, −8) [−8, −4) [−4, 0) [0, 4) [4,8) [8,12) [12,16]
1 13 13 25 29 17 2
Total
100
representada mediante el siguiente histograma:
.29 .25 .17 .13 .13 .01 | -10
| -6
| -2
| 2
| 6
| 10
.02 | 14
; El cual está construido de tal forma que el área de cada rectángulo representa porcentualmente la cantidad de mediciones para cada intervalo. Note que la suma de las áreas es igual a 1 o el 100% de los datos ahí vertidos y los números en el centro de las bases de los rectángulos son las marcas de clase o puntos medios de los intervalos. Supongamos que la distribución de las temperaturas permanece constante a lo largo del tiempo, entonces podríamos estimar la probabilidad de que la temperatura T en un día cualquiera de Enero, se encuentre dentro del primer intervalo en el histograma por .02 .En otras palabras 2% de las veces” la temperatura en Enero en Cd. Juárez se encontrara dentro del rango [-12,8]grados centígrados .Similarmente podríamos preguntarnos ¿cual es la probabilidad de que la temperatura T se encuentre dentro del los rangos [-4,0) o [0,4) . Para ello basta con sumar las áreas de los correspondientes rectángulos, lo cual es igual a 0.13+0.25 =0.38 Lo anterior se interpreta así: El 38% de las veces la temperatura se encontrará dentro de tal rango. En general el cálculo de probabilidades para otros casos como [a , b] se puede obtener sumando el área arriba del intervalo [a , b];esto requiere efectuar algunas operaciones aritméticas y el uso de la regla de “tres”. Hemos presentado un modelo rudimentario para el cálculo de probabilidades que se puede perfeccionar si supiésemos cual es la curva que mejor se ajusta al histograma, ya que de esa
Cap 2-Distribucion Normal
14
manera calcularíamos las probabilidades como áreas bajo la misma .Si en vez de 100 mediciones tuviésemos, 100,000 entonces el histograma correspondiente se podría dibujar con mas rectángulos como en la figura de abajo, de tal forma que el calculo de probabilidades como suma de áreas de rectángulos sería más exacto.
Representemos la probabilidad de que la temperatura se encuentre dentro del rango [a , b] por P[a ≤ X ≤ b] = “Suma de áreas de rectángulos arriba del intervalo [a , b] Si f(x) es la función correspondiente a la curva suave asociada al polígono de frecuencias, entonces podríamos calcular las probabilidades como área bajo la curva (en lugar de sumar áreas de rectángulos).
b
P ⎡⎣ a ≤ x ≤ b ⎤⎦ = ∫ f ( x)dx = " Area bajo la curva arriba de [a, b]" a
Definición: Se dice que una variable aleatoria continua X tiene distribución de probabilidad normal con y σ donde σ > 0 si su función de densidad de probabilidad es: parámetros µ
f ( x; µ , σ ) =
1
σ 2π
−( x − µ )
e
2σ
2
2
−∞ < x < ∞
Cap 2-Distribucion Normal
(
Representamos por X ∼ N µ , σ 2
µ
y
σ.
15
) cuando X tenga distribución normal con parámetros
Claramente f ( x; µ , σ ) ≥ 0 para todo número x, pero son necesarias técnicas del cálculo en varias variables para mostrar que:
∫
∞
−∞
f ( x; µ , σ ) = 1
También se puede mostrar que E[ X ] = µ y V ( X ) = σ 2 En la siguiente figura 3.3 se presentan gráficas de f(x) para distintos valores de µ y σ . Cada gráfica es simétrica alrededor de µ con forma de campana, entonces el centro de la campana es la media y la mediana. σ es muy grande se tendrán curvas con ramas muy largas, y si σ es muy Así si pequeña ocurriría lo contrario: tendremos "campanas picudas".
Figura 3.3
La distribución de probabilidad normal es la más importante de todas las conocidas en Probabilidad y Estadística. Muchas poblaciones numéricas tienen distribuciones a las cuales se les puede ajustar una distribución normal. También es posible ajustar a distribuciones de probabilidad discretas la distribución normal con bastante aproximación si ciertas condiciones son satisfechas. El aproximar una distribución a otra fue de mucha utilidad antes del advenimiento de las computadoras y el software probabilístico que existe actualmente y nos permite calcular los valores de probabilidad usando la distribución de interés sin tener que usar otra que se le aproxime. Finalmente, si se tienen variables aleatorias que no tienen distribución normal, entonces bajo ciertas suposiciones se tiene que su suma y promedio resultan tener distribución de probabilidad aproximadamente normal. Es último es conocido como el Teorema central del límite; el cual estudiaremos en un capítulo posterior.
Cap 2-Distribucion Normal
16
2.1 Distribución Normal estándar
(
Para calcular P[a ≤ x ≤ b] cuando X ∼ N µ , σ 2
P[a ≤ x ≤ b] = ∫
b
a
)
debemos evaluar:
1 f (t ; µ , σ )dt = ∫ e a σ 2π b
−( t − µ ) 2σ
2
2
dt
Desafortunadamente ninguna de las técnicas conocidas de integración se pueden usar para evaluar lo anterior. Para ello se construyeron tablas (con procedimientos de análisis numérico) de probabilidad para ciertos valores fijos de de b, a = - ∞ con µ = 0 y σ 2 = 1 obteniendo con ello la posibilidad de poder evaluar P[a ≤ x ≤ b] para ciertos valores de a y b. Actualmente existen algunos paquetes de Software estadístico que nos permiten evaluar P[a ≤ x ≤ b] cualesquiera que sean a y b. como son Minitab, NCSS y SPSS. Definición: A la distribución normal con parámetros µ = 0 y σ 2 = 1 se le llama Distribución normal estándar, y se le representa por Z ~ (0, 1). Su densidad de probabilidad es:
1 f ( z;0,1) = e 2π
−( z )
2
2
−∞ < z < ∞
Su función de distribución acumulada es: z
P[ Z ≤ z ] = ∫ f (t;0,1)dt −∞
En la tabla A3 se calcula P[ Z ≤ z ] En la siguiente figura se ilustra el tipo de área acumulada tabulada en la tabla A3. Ejemplo: Calcule las siguientes probabilidades: a) P[ Z ≤ 1.25] c) P[ Z ≤ −1.25] b) P[1.25 < Z ] d) P[−.38 ≤ Z ≤ 1.25] Soluciones: a) P[ Z ≤ 1.25] = Valor que se encuentra en la intersección del renglón marcado con 1.2 y la columna marcada con el valor de .05 en la Tabla A3 Entonces el valor correspondiente es .8944 es decir:
Cap 2-Distribucion Normal
17
P[ Z ≤ 1.25] = 0.8944 = “área encerrada en gris” en la campana dibujada abajo.
b) P[1.25 < Z ] = 1 − P[ z ≤ 1.25] = 1 − 0.8944 = 0.1056 c) P[ Z ≤ −1.25] = 0.1056 de la lectura de la tabla d) P[−.38 ≤ Z ≤ 1.25] = P[ z ≤ 1.25] − P[ z < −.38] = 0.8944 - .3520 = 0.5424
2.2 Distribución normal no estándar
(
)
Si X ∼ N µ , σ 2 las probabilidades se obtienen "estandarizando" X, es decir efectuando la siguiente transformación z = Teorema:
(
)
Si X ∼ N µ , σ 2 entonces la variable formada por z =
x−µ
σ
tiene distribución N(0, 1). Ejemplo: Si queremos calcular P[ X ≤ x] ,”estandarizamos la variable X”
x−µ
σ
Cap 2-Distribucion Normal
18
Lo cual significa que efectuamos las operaciones siguientes creando una nueva variable z para la cual existe la Tabla A 3 y de ahí obtenemos las datos para obtener la probabilidad .En efecto:
x−µ⎤ ⎡X −µ x−µ⎤ ⎡ P[ X ≤ x] = P ⎢ P Z ≤ = ≤ ⎢⎣ σ ⎥⎦ σ ⎥⎦ ⎣ σ significa estandarizar la variable X
x−µ⎤ se puede evaluar con uso de la tabla A3 σ ⎥⎦
⎡ ⎣
La última expresión P ⎢ Z ≤
En las graficas siguientes exponemos lo que ocurre geométricamente al estandarizar X
P[ X ≤ x]
=
x−µ ⎡ ⎤ P ⎢Z ≤ = z⎥ σ ⎣ ⎦
Formalmente se efectúa el cálculo siguiente
P[ X ≤ x] = ∫
x
−∞
f (t ; µ , σ )dt = ∫
x−µ
σ
−∞
f ( z;0,1)dz = P[ Z ≤
x−µ
σ
] = P[ Z ≤ z ]
Ejemplo: Un tipo particular de diodo baja el voltaje a valores X, donde X es una variable aleatoria normalmente distribuida con media µ = 40 volts y σ = 1.5 volts a) ¿Cuál es la probabilidad de que la caída de voltaje se encuentre entre los 39 y 42 voltios? b) ¿Cuál de que sea mayor a los 38 voltios? c) ¿Que sea a lo más de 44 voltios? Respuestas: a)
a)La probabilidad es :
⎡ 39 − 40 x − 40 42 − 40 ⎤ P[39 ≤ x ≤ 42] = P ⎢ ≤ ≤ 1.5 1.5 ⎥⎦ ⎣ 1.5 2 ⎤ ⎡ −1 =P⎢ ≤z≤ = P [ −0.67 ≤ z ≤ 1.33] 1.5 ⎥⎦ ⎣1.5 = P [ z ≤ 1.33] − P[ z < −0.67] = .9082 - .214 = .6568
Cap 2-Distribucion Normal
b)
19
⎡ 38 − 40 x − µ ⎤ P[38 < x] = P ⎢ < = P[−1.333 < z ] σ ⎥⎦ ⎣ 1.5 = 1 − P[ z ≤ −1.33] = 1 − 0.918 = .0982
⎡ x − µ 44 − 40 ⎤ ≤ 1.5 ⎥⎦ ⎣ σ = P[ z ≤ 2.666]
c) P[ x ≤ 44] = P ⎢
= .9981 Ejemplo: El coeficiente de inteligencia (IQ) de cierta población se sabe que esta distribuido aproximadamente normal con µ = 100 , σ = 15 ¿Cuál es la probabilidad de que un individuo seleccionado al azar tenga coeficiente intelectual? a) De al menos 125? b) Entre 90 y 120? Respuestas: a) Sea X = Coeficiente intelectual. Entonces se desea conocer
⎡125 − 100 ⎤ P[125 ≤ x] = P ⎢ ≤ z⎥ ⎣ 15 ⎦ P[1.666 ≤ x] = 1 − P[ z < 1.666] = 1 - .9525 =
.0475
120 − 100 ⎤ ⎡ 90 − 100 ≤z≤ 15 ⎥⎦ ⎣ 15 = P[−0.666 ≤ x ≤ 1.333]
b) P[90 ≤ x ≤ 120] = P ⎢
= =
0.6568
0.9082 - 0.2514
Cap 2-Distribucion Normal
20
Ejercicios: 1.- Sea Z ~ N ( 0,1) calcule las siguientes probabilidades a) P[0 ≤ z ≤ 2.7] b) P[0 ≤ z ≤ 1] c) P[−2.5 ≤ z ≤ 0]
d) P[2.5 ≤ z < 2.5] e) P[−1.65 ≤ z ] f) P[ z ≤ −1.36]
2.- Para cada caso, determine el valor de la constante K de tal forma que los siguientes enunciados sean correctos. a) P[ z ≤ K ] = 0.9838 d) P[− K ≤ z ≤ K ] = .291 b) P[0 ≤ z ≤ K ] = .291 e) P[| z |≤ K ] = 0.984 c) P[ K ≤ z ] = .121 f) P[ K ≤| z |] = .01 3.- Si X ~ N (80, 102) calcule las siguientes probabilidades a) P[ X ≤ 100] d) P[ X ≤ 70] b) P[ X ≤ 80] e) P[85 ≤ X ≤ 95] c) P[65 ≤ X ≤ 100] f) P[| X − 80 |≤ 1]
4.- Muestras de tierra se toman al azar de cierta región en la sierra Tarahumara. Si X = "ph" es una variable aleatoria normal con media µ = 6 y σ =0.10. ¿Cuál es la probabilidad de que una muestra de tierra tenga Ph? a) Entre 5.9 y 6.15? b) Que su Ph sea a lo más 5.9? c) ¿Que valor de X será excedido por sólo el 5% de todos sus posibles valores? 5.- Si X tiene una distribución N(3,4) deseamos encontrar un número K tal que P [X > K] = 2P [X ≤ K] 6.- Suponiendo que la duración de dos instrumentos electrónicos D1 y D2 tienen una distribución N(40,36) y N(45,9) respectivamente. ¿Cuál se recomendaría si se piensa usar durante un período de 48 horas? 7.-Una compañía quiere comprar remaches de diámetro 2cm y está dispuesta a aceptar diámetros con un error de a lo más ± 0.05cm Una fabrica produce remaches cuyos diámetro esta normalmente distribuido con media µ = 2 y desviación estándar σ = 0.08. (a) ¿Qué porcentaje de los remaches serán rechazados por la compañía compradora? (b) Si la tasa de rechazo por la compañía es del 20%, encuentre el verdadero valor de σ si se acepta que el diámetro de los pernos tiene distribución normal N(2, σ ) 8.-La cantidad de lluvia en cada temporada de verano tiene distribución normal con µ = 10 pulgadas y σ 2 = 16 .Si este verano la lluvia fuera menor a las 4 pulgadas, se declararía sequía en el campo. Encuentre la probabilidad de que no haya sequía este año. 9.-En una escuela preparatoria han sido pesados todos sus estudiantes. Más de la mitad pesaron mas de 65kg y 15% pesaron mas de 75kg. Suponga que el peso esta normalmente distribuido. (a) Encuentre los valores de µ y σ
Cap 2-Distribucion Normal
21
(b) El equipo de fútbol americano acepta a los estudiantes cuyo peso sea mayor o igual a los 85 kilos.¿Encuentre el porcentaje de estudiantes que pueden ser aceptados en el equipo de fútbol americano?. 10.-Encuentre la probabilidad de obtener a lo mas 510 águilas si se lanza una moneda 1000 veces. 11.-Si 45% de los votantes apoyan a un candidato a la presidencia municipal, encuentre la probabilidad de que mas de la mitad de una muestra al azar de 400 ciudadanos vayan a votar por el candidato. 12.-En una línea de producción un operador revisa uno por uno 100 artículos para detectar los defectuosos. Se sabe que el 3% de la producción tiene defectos y cada vez que se detecta un artículo defectuoso el operador lo marca como un éxito en una libreta. Encuentre la cantidad x de artículos defectuosos que deberá obtener para que este un 90% seguro de que ha obtenido al menos x defectuosos. 13. En el aeropuerto Internacional de la ciudad de México se ha registrado que arriban mil individuos independientemente y al azar entre las 12:00am y las 5:00pm. Encuentre la probabilidad de que arriben por lo menos 175 en la primera hora. 14.- Cierto tipo de batería tiene una duración que es una variable aleatoria normal con distribución N(3 ; 0,5) años. Hallar la probabilidad de que una batería dure menos de 2.3 años. 15.- Una compañía fabrica focos cuya duración está distribuida normalmente con media 800 horas y desvío 40 horas. ¿Cuál es la probabilidad de que un foco dure entre 778 y 834 horas? Resp: 0,5111 16.- En un proceso industrial el diámetro de un balero es una importante parte componente. El comprador establece en sus especificaciones que el diámetro debe ser (3 0,01) cm. La implicación es que no se acepta ningún balero que se salga de esta especificación. Se sabe que en el proceso el diámetro de un balero tiene una distribución normal con una media de 3 cm y un desvío de 0,005 cm. ¿Qué porcentaje de baleros son descartados? Resp: 4,56% 17.- Una cierta máquina produce resistencias eléctricas que tienen un valor medio de 40 ohms y una desviación estándar de 2 ohms. Suponiendo que los valores de las resistencias siguen una ley normal y que pueden medirse con cualquier grado de precisión, ¿qué porcentaje de resistencias tendrá un valor que exceda los 43 ohms? Resp: 6,68% 18.- La vida promedio de cierto tipo de motor pequeño es de 10 años con una desviación estándar de 2 años. El fabricante repone sin cargo todos los motores que fallen dentro del período de garantía. Si está dispuesto a reponer sólo el 3% de los motores que fallan, ¿qué tan larga deberá ser la garantía que otorgue? Suponga que la vida de un motor sigue una distribución normal. Resp: 6,24 años