230 58 2MB
Spanish Pages [90] Year 2002
Introducción a la teoría de la probabilidad P01/81114/00246
FUOC • P01/81114/00246
Índice
1. Conceptos básicos de la probabilidad: hechos aleatorios y sucesos ................................................................ 5 1.1. Primeros ejemplos ............................................................................. 5 1.2. Un paseo azaroso ............................................................................... 6 1.3. El vocabulario de la probabilidad y su interpretación ...................... 8 1.4. Repaso de las técnicas de contar........................................................ 9 1.5. Los árboles saben multiplicar, ¿y vosotros? ...................................... 9 1.6. Cada cosa en su lugar ........................................................................ 10 1.7. Y ahora, ¡todo en orden!.................................................................... 11 1.8. ¿Y si los tomamos en grandes cantidades?........................................ 12 1.9. Contamos bien los caminos del paseo aleatorio ............................... 13 2. Reglas de probabilidad: probabilidades conjuntas y condicionales ..................................................................................... 16 2.1. Jugando con los sucesos .................................................................... 16 2.2. Representarlo gráficamente ............................................................... 17 2.3. De dos en dos..................................................................................... 18 2.4. Si sabemos lo que sabemos, ¡podemos excluir el resto! .................... 19 2.5. Los árboles de probabilidades condicionadas ...................................... 20 2.6. ¿En serie o “en serio”? ....................................................................... 23 3. Variables aleatorias (I): funciones de probabilidad y valor esperado.................................................................................... 28 3.1. Un poco de formalidad...................................................................... 28 3.2. ¿Qué es una variable aleatoria? ......................................................... 29 3.3. La función de probabilidad ............................................................... 31 3.4. ¿Volvemos a pasear? .......................................................................... 32 3.5. ¿Qué esperáis?.................................................................................... 32 3.6. El valor esperado como centro de masas........................................... 34 3.7. Algunas propiedades del valor esperado ........................................... 35 3.8. La esperanza de la suma .................................................................... 36 4. Variables aleatorias (II): distribuciones acumuladas y varianza .............................................................................................. 38 4.1. La función de distribución acumulada ............................................. 38 4.1.1. Acumulamos probabilidades.................................................. 38 4.2. Varianza ............................................................................................. 40 4.2.1. Algunas propiedades de la varianza ....................................... 43 4.2.2. La varianza de una suma........................................................ 44 5. Distribuciones de probabilidad (I): distribuciones discretas...................................................................... 46 5.1. Distribuciones de probabilidad ......................................................... 46
Introducción a la teoría de la probabilidad
FUOC • P01/81114/00246
5.1.1. Distribución de Bernoulli....................................................... 47 5.1.2. Distribución binomial ............................................................ 49 5.1.3. Distribución de Poisson ......................................................... 53 5.2. Breves notas para utilizar DemoProb ................................................ 56 6. Distribuciones de probabilidad (II): distribuciones continuas................................................................................................ 59 6.1. Histogramas que muestran la frecuencia relativa ............................. 59 6.2. Histogramas que muestran la densidad de frecuencia relativa ......... 60 6.3. Densidades de probabilidad .............................................................. 61 6.4. Definición matemática de una distribución continua...................... 63 6.5. La densidad normal ........................................................................... 64 6.5.1. Propiedades de la densidad normal ....................................... 65 6.5.2. Definición de una densidad normal ...................................... 65 6.5.3. Algunas áreas bajo la curva normal ....................................... 66 6.6. Estandarizar ....................................................................................... 67 6.7. La paradoja de los jugadores de béisbol ............................................ 68 7. Distribuciones de probabilidad (III): distribución normal ...... 70 7.1. Presunción de normalidad ................................................................ 71 7.1.1. Curva de la densidad normal estándar .................................. 71 7.1.2. Cálculo de áreas para la distribución normal estándar ......... 72 7.1.3. Relacionar los datos en las unidades originales con la distribución normal estándar ..................................... 74 7.2. Utilización del Excel para calcular probabilidades............................ 76 Solucionario................................................................................................ 81
Introducción a la teoría de la probabilidad
FUOC • P01/81114/00246
5
Introducción a la teoría de la probabilidad
1. Conceptos básicos de la probabilidad: hechos aleatorios y sucesos
La idea de probabilidad aparece a menudo en el mundo cotidiano y, de hecho, se ha incorporado al lenguaje de la calle. Con frecuencia decimos “es más probable que te falle el programa que el disco duro” o “no es probable que te encarguen el trabajo”. Nos enfrentamos a la probabilidad cuando asumimos riesgos de cualquier tipo, financieros o de aventura, o simplemente cuando conducimos durante horas y horas por la autopista. Muchos hechos de nuestra vida están gobernados de alguna manera por el azar e incluso la mayoría de la población conoce y desafía al mismo tiempo las leyes del azar como mínimo una vez al año, y se gasta un buen pellizco en el Sorteo de Navidad, cuando es tan poco probable que toque. Algunos de estos problemas pueden resultar complicados, pero las ideas básicas se pueden ilustrar con ejemplos sencillos. En este apartado introductorio aprenderéis: • qué entendemos por hecho o experimento aleatorio; • qué son los resultados de un hecho aleatorio; • qué son los sucesos vinculados a un hecho aleatorio: • cómo se puede calcular e interpretar la probabilidad de un suceso; • qué significa simular un hecho aleatorio y cómo hacer simulaciones sencillas con el ordenador. También repasaremos las técnicas de contar que necesitamos para el cálculo de probabilidades.
1.1. Primeros ejemplos
Un hecho aleatorio es el que tiene varios resultados posibles con incertidumbre respecto a cuál se producirá realmente.
Por ejemplo, cuando lanzamos una moneda hay dos resultados posibles: cara y cruz. La única certeza que tenemos es que al lanzarla aparecerá uno de estos dos resultados, pero no tenemos ningún modo de saber cuál de los dos saldrá. También sabemos (o, mejor dicho, suponemos) que ni la cara ni la cruz tienen más tendencia a salir. De no ser así, diríamos que la moneda no es fiel o que está sesgada. Decimos que la probabilidad de cara es 1/2, ya que en uno de cada dos casos esperamos que salga cara. Si pensamos en un dado, tenemos seis resultados posibles y también la creencia de que cualquiera de las caras tiene la misma tendencia a salir. En este caso tam-
Los ejemplos típicos de aleatoriedad... ... están relacionados con el juego: tirar un dado, sacar cartas de una baraja, etc. y no es casual que los primeros problemas analizados por los primeros matemáticos interesados en la probabilidad estuvieran muy relacionados con las apuestas y los juegos de azar.
FUOC • P01/81114/00246
6
Introducción a la teoría de la probabilidad
bién nos podemos plantear, con vistas al juego o quizá para apostar: ¿saldrá par?, ¿saldrá mayor que cuatro? Puesto que tres posibilidades de seis da par, decimos que la probabilidad de “par” es 3/6 = 1/2, o que la probabilidad de “mayor de cuatro” es 2/6 = 1/3.
1.2. Un paseo azaroso Veamos una situación un poco más compleja. Lanzamos la moneda como antes, pero según lo que salga tomamos un camino u otro. Como el borracho a la salida de la taberna, el paseo aleatorio es un proceso en el que decidimos, según el resultado del lanzamiento de la moneda, si subimos (cara) o bajamos (cruz) un nivel. Pongamos que partimos del nivel cero. Lanzamos la moneda cuatro veces y obtenemos los resultados del gráfico I. Gráfico I Denotaremos cruz con “+” y cara con “C”.
En este caso, después de cuatro tiradas estamos en el nivel dos. Podemos preguntarnos si volveremos al nivel cero. ¿Qué probabilidad hay de que volvamos al nivel cero después de cuatro tiradas de la moneda? ¿Cuáles son ahora los posibles resultados del juego aleatorio? Sólo hemos encontrado uno, (C, +, C, C). Como éste, ¿cuántos hay diferentes? Puesto que tenemos dos posibilidades en cada tirada, y hemos hecho cuatro, habrá un total de 2 · 2 · 2 · 2 posibilidades, es decir, dieciséis. Las podríamos enumerar todas e incluso dibujarlas como hemos hecho antes: (C, C, C, C), (C, C, C, +), (C, C, +, +), (C, C, +, C), etc. Queremos saber cuántos de los dieciséis caminos acaban en el nivel cero. Teniendo presente que los caminos que acaban en el nivel cero son precisamente los que tienen tantas caras como cruces, es decir, dos caras y dos cruces,
Dicen que el borracho siempre acaba volviendo a la taberna...
7
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
podemos elaborar fácilmente una lista: (CC++, C+C+, C++C, +CC+, +C+C, ++CC). Son, por lo tanto, seis de los dieciséis.
Si entendemos por probabilidad, como antes con el dado o la moneda,
Un poco más adelante, en este mismo apartado, repasaremos las técnicas de contar posibilidades.
la fracción de veces que acabaremos en el cero sobre el total de posibilidades que puede generar la moneda en cuatro tiradas tendremos: P[“nivel 0 después de 4 tiradas”] = # de caminos que acaban en el nivel 0 6 = ---------------------------------------------------------------------------------------------------------- = ------ = 0,375 = 37,5%. # total de caminos posibles 16
Utilizamos el signo # para indicar “número de” o cantidad de elementos.
Actividad En el Excel (como en muchos otros entornos de computación) podemos simular el lanzamiento de una moneda y otros hechos aleatorios. La función siguiente:
si(aleatorio()>0,5; 1; –1)
nos da como resultado 1 y −1 con igual tendencia a salir, de manera que a la larga aparece la mitad de cada opción.
Para conocer más detalles sobre la función aleatorio () revisad el resumen de los conceptos principales que encontraréis al final del módulo.
Podéis introducir la función en la casilla B3 tecleando =si(aleatorio()>0,5; 1; −1). Podéis replicar la función en las casillas B3::E3 y tendréis el equivalente a cuatro tiradas de la moneda. En la fila de debajo, pondréis el nivel al que nos llevan las tiradas de la moneda. Debemos sumar los números que nos dan: poned en B4 la fórmula =B3, en C4 la suma =C3+B4, y esta última fórmula la replicáis en B5 y B6. Añadid unos cuantos rótulos y tendréis una simulación completa para nuestro paseo aleatorio similar a la que se muestra en el primer gráfico de la página siguiente. Un hecho interesante de esta simulación es que, cada vez que pedís que se recalcule la hoja, los números cambian, ya que la función aleatorio da un número diferente entre 0 y 1 cada vez que se utiliza. Esto significa que cada vez que recalculéis la hoja obtendréis un camino diferente*.
*La manera más sencilla de recalcular una hoja de Excel es pulsando la tecla F9.
1.1 Introducid todo esto en una hoja de Excel, o pedid que se recalcule un mínimo de 100 veces. Contad cuántas de estas 100 veces obtenéis 0 como final del paseo. ¿Se parece el número que habéis obtenido a 37,5%? Si lo hacéis 500 veces, ¿se parecerá más? ¿Y si lo hacéis 1.000 o 10.000 veces?
En vuestra pantalla deberíais obtener una imagen similar.
FUOC • P01/81114/00246
8
Introducción a la teoría de la probabilidad
En el gráfico siguiente os presentamos el resultado de contar la fracción de paseos de cuatro pasos que acaban en 0 y llegan hasta 10.000 al final. Después de cada repetición hemos contado la fracción de todas las que ya hemos hecho que han acabado en 0. Podéis observar cómo, al tener más y más paseos, la fracción de los que acaban en 0 se parece más y más al valor calculado 0,375 (señalado por la línea horizontal).
Frecuencias relativas de “final 0”... ... obtenidas en una serie de simulaciones de un paseo aleatorio de cuatro pasos.
1.3. El vocabulario de la probabilidad y su interpretación
Hemos visto unos cuantos ejemplos de hechos aleatorios y hemos encontrado algunos conceptos comunes que reunimos a continuación:
a) Resultados: cada uno de los diferentes resultados elementales del hecho aleatorio. Juntos forman lo que se denomina espacio muestral o universo del experimento. Ejemplos En el lanzamiento de una moneda los resultados son cara y cruz; en el del dado, las caras 1, 2, 3, 4, 5, y 6. En el paseo aleatorio de cuatro pasos, los resultados son los dieciséis caminos posibles.
b) Sucesos o acontecimientos: conjunto de resultados que pueden haber sucedido o no en la realización del hecho aleatorio. Se puede describir un suceso mediante una frase o mediante la enumeración de los resultados que lo satisfacen. Ejemplos Cuando lanzamos un dado, “cara par” o “mayor que cuatro” son sucesos que se pueden dar o no hacerlo. El suceso “cara par” corresponde al conjunto de resultados {2, 4, 6}. En el paseo aleatorio, podemos considerar el suceso “acabar en nivel 0” o “acabar en nivel superior a 0”. Cada uno de estos sucesos engloba algunos caminos posibles.
9
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
c) Probabilidad: número entre 0 y 1 que asociamos a cada resultado y a cada suceso siguiendo unas normas que aclararemos más adelante. La probabilidad de un suceso A lo escribimos P[A]. Ejemplos Hemos visto, por ejemplo, que en el paseo aleatorio la probabilidad de cada uno de los caminos es 1/16, y la del suceso “acabar en nivel 0” es 0,375.
La probabilidad de un suceso es la suma de las probabilidades individuales de cada uno de los resultados que lo forman. Cuando todos los resultados son igualmente probables, la probabilidad de un suceso es igual a*: # de resultados a favor del suceso -------------------------------------------------------------------------------------------- . # total de resultados
*La probabilidad de un suceso es especialmente simple en el caso de los resultados equiprobables.
Hemos visto también que otra manera de ver la probabilidad aparece cuando el hecho aleatorio se puede repetir según la voluntad de un experimentador. Entonces decimos que las frecuencias relativas o proporciones aproximan la probabilidad cuando el número de repeticiones del experimento es alto. Por eso decimos que una probabilidad pequeña corresponderá a sucesos poco frecuentes y que una probabilidad alta, cercana a 1, corresponde a sucesos muy habituales, o que una probabilidad de 0,5 se interpretará como que tan probable es que se dé el suceso como que no. Las frecuencias relativas se expresan normalmente entre 0 y 1, pero a veces puede resultar más expresivo hablar de probabilidades en tanto por ciento o porcentajes. Actividad 1.2 Lanzamos un dado y una moneda. Representamos por (C, n) el resultado de obtener cara en la moneda y cara n en el dado. a) ¿Cuáles son los resultados posibles? ¿Son todos igualmente probables? b) ¿Diríais que “obtener cruz y cara par” es un resultado o un suceso? ¿Cuál es su probabilidad? c) ¿Diríais que “obtener cara” es aquí un resultado o un suceso? ¿Cuál es su probabilidad?
1.4. Repaso de las técnicas de contar Nos centraremos ahora en repasar algunas técnicas que facilitan el recuento en situaciones que pueden convertirse en complejas.
1.5. Los árboles saben multiplicar, ¿y vosotros? Muy a menudo encontramos situaciones en las que para llevar algo a cabo debemos seguir unos pasos consecutivos, cada uno de los cuales nos ofrece un determinado número de posibilidades.
Miremos hacia atrás a) El número de paseos aleatorios de cuatro pasos es 2 · 2 · 2 · 2, es decir, dieciséis. Aplicando la regla de multiplicar, son dos posibilidades para el primer paso, dos para el segundo... b) El número de resultados, al lanzar un dado y una moneda, es 2 · 6.
10
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Podemos enunciar la regla de multiplicar siguiente: si en pasos sucesivos tenemos que tomar decisiones con k1 posibilidades en el primer paso, k2 en el segundo, etc., sin que las decisiones de cada paso alteren estos números, el total de maneras de realizar todo el proceso es el producto k1 · k2 · ... ¿Qué hay para comer? Por ejemplo, si para elegir el menú nos ofrecen cuatro primeros platos, tres segundos platos y dos postres, en total tendremos 4 · 3 · 2 menús diferentes. Esto se puede reflejar en un árbol: del primer nodo salen los cuatro primeros platos, de cada rama saldrán tres segundos platos (con un total de 4 · 3 posibilidades), de cada una de las doce ramas saldrán los dos postres posibles y, finalmente, tendremos veinticuatro posibilidades (observad la página siguiente).
Esta regla tan simple nos permite resolver muchos de los problemas de contar. Actividad 1.3. Para montar un ordenador personal encontramos en la tienda tres modelos diferentes de unidad central, cinco modelos diferentes de monitor, cuatro modelos diferentes de disco duro. Podemos poner 4,8 o 16 Mb de RAM y podemos elegir también entre el teclado barato y el caro. ¿Cuántos modelos diferentes de ordenador podemos montar?
1.6. Cada cosa en su lugar Hay tantas maneras de colocar k objetos elegidos entre n objetos dados, como se refleja en esta fórmula: n · (n − 1) · (n − 2) · ... · (n − k − 1), en la cual el producto tiene un total de k factores.
Un ejemplo Si entre los ochenta estudiantes de una clase debemos elegir a un delegado, un subdelegado y un encargado de hacerle la pelota al profe, estamos calculando de cuántas maneras podemos poner tres objetos elegidos entre ochenta, y esto es 80 · 79 · 78.
En un árbol... ... cada rama nos da una posibilidad, y el número total de ramas nos da el número de posibilidades.
11
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Esta regla (que también recibe el nombre de número de variaciones de n tomadas de k en k) es consecuencia directa de la regla de multiplicar. Actividad 1.4. Tenemos siete programas de ordenador y sospechamos que uno de ellos tiene como efecto secundario el hecho de que, después de ejecutarlo, otros programas no funcionan bien. ¿Cuántas pruebas deberemos realizar como máximo para descartar el problema?
1.7. Y ahora, ¡todo en orden! Si tenemos n objetos y debemos colocarlos todos, el producto comenzará desde n y tendrá n factores, o sea que acabará en 1:
a) Cuatro estudiantes llegan al bar de la facultad y, al ponerse a la cola, discuten de cuántas maneras diferentes se pueden poner. Tanto si aplicamos directamente la regla de multiplicar como la de las variaciones, llegamos al mismo resultado: hay 4 · 3 · 2 · 1 = 24 posibilidades. De hecho, no es difícil enumerar todas las posibilidades, pues se trata de volver a hacer un árbol como otros que ya hemos hecho. Pongamos que los estudiantes se llaman A, B, C y D.
Nota Cuando hacemos estos árboles siempre seguimos la idea de que si en un momento tenemos más de una posibilidad, siempre tomaremos en primer lugar la que va delante en orden alfabético:
A-B-C-D A-B-D-C A-C-B-D A-C-D-B A-D-B-C A-D-C-B B-A-C-D B-A-D-C B-C-A-D B-C-D-A B-D-A-C B-D-C-A etc.
b) ¿De cuántas maneras diferentes se pueden sentar en la primera fila del Senado los diecisiete presidentes de las comunidades autónomas españolas?
Se trata de colocar diecisiete objetos (sea dicho con todo el respeto) en las diecisiete sillas previstas; por tanto, tendremos que contar 17 · 16 · 15 · ... · 2 · 1, que son una barbaridad de maneras diferentes: 355.687.428.096.000. Actividad 1.5. a) Elaborad una lista completa de las maneras en que podéis ordenar tres objetos. b) Completad la lista de posibilidades del ejemplo de los cuatro estudiantes. c) En el caso de los presidentes de las comunidades autónomas, imaginaos que dos de ellos son miembros de un mismo partido político y tienen mucho interés en sentarse juntos. ¿De cuántas maneras pueden sentarse los diecisiete para que queden los dos juntos? ¿Cuál sería, por tanto, la probabilidad de que quedasen juntos?
Factorial Algunos sabéis que estos productos reciben el nombre de factorial del número, de manera que 3! = 3 · 2 · 1, y también sabéis que cada una de las maneras en que se puede reordenar un conjunto recibe el nombre de permutación. Sin embargo, aquí es más importante entender que recordar palabras o fórmulas.
12
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
1.8. ¿Y si los tomamos en grandes cantidades? Hay situaciones un poco diferentes a las que hemos visto hasta ahora. Imaginaos que en una librería de saldos tienen cinco libros en oferta y os permiten tomar tres cualesquiera (diferentes) por 200 u.m. De entrada podríamos intentar contar todas las posibilidades igual que hemos hecho en el caso anterior. Pongamos que A, B, C, D y E son los libros que se pueden comprar. La lista de posibilidades sería:
A-B-C A-B-D A-B-E A-C-B A-C-D A-C-E A-D-B A-D-C A-D-E etc.
hasta un total de 5 · 4 · 3 = 60 posibilidades. Sin embargo, vemos enseguida que aquí tenemos posibilidades repetidas: es lo mismo comprar ABC (primera posibilidad de la lista) que comprar ACB (cuarta posibilidad). De hecho, cada posibilidad aparece repetida tantas veces como maneras de reordenar los tres libros que la forman, es decir, seis veces. Por lo tanto, tenemos sesenta posibilidades y cada una está repetida seis veces. ¿Cuántas diferentes hay? Claramente, 60/6 = 10. Actividad 1.6. Debemos enviar a cuatro compañeros del grupo de quince que somos a discutir con el profesor sobre la lista de actividades que nos ha encargado, que es absolutamente excesiva. ¿Cuántas comitivas ordenadas (con un delegado, un subdelegado, un pelota y uno que recoja los trozos de estudiante) podríamos formar? De estas comitivas, ¿cuántas estarían formadas por los mismos estudiantes? ¿Cuántos comités realmente diferentes podemos enviar?
Maneras de tener n elementos extraídos entre m dados cuando el orden en el que se tienen no tiene relevancia: ⋅ ( n – 1 ) ⋅ ... ⋅ ( n – k + 1 ) n! n = n ------------------------------------------------------------------- = ----------------------- k k ⋅ ( k – 1 ) ⋅ ... ⋅ 2 ⋅ 1 k! ( n – k )! Estas diferentes maneras se denominan combinaciones, y este número se denomina número combinatorio o binomial de n sobre k.
¿Cuántas posibilidades diferentes tenemos?
13
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Un ejemplo: la baraja del póquer La primera cuestión es: ¿cuántas manos de cinco cartas diferentes puede tener un jugador de póquer? La respuesta será muy parecida a la de los dos ejemplos anteriores. Las formas diferentes de repartir las cinco cartas son 52 · 51 · 50 · 49 · 48 = 311.875.200, y todas son igualmente probables si mezclamos bien las cartas. De hecho, todas estas posibilidades incluyen muchas repetidas: por cada cinco cartas, ¡las formas de haberlas repartido son cinco!, por lo cual el número de manos realmente diferentes es muy pequeño: ⋅ 51 ⋅ 50 ⋅ 49 ⋅ 48- = 2.598.960. 52 --------------------------------------------------5⋅4⋅3⋅2
Actividades 1.7. Utilizando las técnicas que acabamos de presentar, calculad las probabilidades de los sucesos siguientes, en el contexto del juego del póquer: a) ¿Cuántas manos sin ningún as se pueden formar? ¿Qué probabilidad hay de no tener ningún as? b) ¿Cuántas manos con una pareja, es decir, con dos cartas del mismo número y las otras tres de números diferentes al de la pareja, se pueden formar? ¿Qué probabilidad hay, pues, de tener una parejita? 1.8. Siguiendo con las manos de cinco cartas de póquer, podemos considerar los sucesos siguientes: A = “tener exactamente un as”, B = “todas son corazones”. Calculad las probabilidades de estos sucesos.
1.9. Contamos bien los caminos del paseo aleatorio Recordemos que habíamos calculado dieciséis caminos aleatorios diferentes gobernados por cuatro tiradas de moneda. Para calcular cuántos de estos caminos vuelven al nivel cero, debemos calcular cuántos caminos responden a dos caras y dos cruces, o sea, de cuántas maneras podemos sacar exactamente dos caras al tirar cuatro veces una moneda. Pueden salir a la primera y a la segunda, a la primera y a la tercera, etc. En definitiva, lo que necesitamos es decidir en qué dos posiciones tiene que ir la cara, y esto significa tomar dos números del 1 al 4, lo cual se puede llevar a cabo de seis maneras diferentes, ya que tenemos: 4 = 6. 2 ¿Y cuál será la probabilidad de acabar en el nivel dos? Acabar en el nivel dos significa sacar tres +1 y un solo −1. Esto se puede llevar a cabo de cuatro maneras (sólo se puede decidir en qué posición sale el −1). Actividad 1.9. Si damos un paseo aleatorio de seis pasos decididos por una moneda como antes y salimos del nivel cero, ¿qué probabilidad tenemos de acabar en el nivel dos?
Baraja de póquer Utilizaremos ahora y también más adelante la baraja de póquer en algunos ejemplos. Por si no lo sabéis, se trata de una baraja de cincuenta y dos cartas con cuatro palos (corazones, diamantes, tréboles y picas) y trece cartas de cada palo, numeradas con as, del 2 al 10 y J, Q, K.
FUOC • P01/81114/00246
14
Los conceptos principales que hemos visto en este apartado son los siguientes: Probabilidad: número entre 0 y 1 que equivale a la frecuencia relativa del resultado o suceso cuando repetimos un gran número de veces el experimento. Suceso: conjunto que recopila algunos resultados del hecho aleatorio y que, por tanto, puede presentarse o no en la realización del experimento. A menudo el suceso se define por medio de una propiedad que pueden satisfacer o no los resultados del experimento. Simulación de un hecho aleatorio: programa de ordenador por medio del cual conseguimos resultados que responden a la descripción y a las mismas frecuencias relativas que el experimento de interés. Funciones del Excel utilizadas: • Función aleatorio (). Esta función proporciona un número entre 0 y 1 cada vez que se calcula, de manera que todos tienen la misma probabilidad de salir. Se utiliza como base para simular procesos diferentes, como una moneda o un paseo aleatorio. • Función si (test, valor-cierto, valor-falso). Es una función que primero calcula el test. Si el resultado del test es “cierto”, la función vuelve al valor valor-cierto. En caso contrario, la función vuelve a valor-falso. • Recalcular la hoja de cálculo: es una operación que el Excel realiza automáticamente cada vez que modificamos alguna de las celdas de la hoja. Podemos forzar el recálculo de la hoja pulsando la tecla F9. Resultados equiprobables: resultados de un hecho aleatorio en el caso de que ninguno tenga más tendencia a aparecer que los demás. Espacio muestral: conjunto de todos los resultados posibles del experimento. Hecho o experimento aleatorio: proceso en el que hay un conjunto conocido de resultados posibles, pero el resultado que se obtiene está sometido a incertidumbre. Resultado del experimento aleatorio: cada uno de los resultados simples posibles del experimento. Regla de multiplicar: regla que nos permite calcular el número de maneras de ejecutar un proceso que se puede descomponer en dos o más subprocesos.
Introducción a la teoría de la probabilidad
15
FUOC • P01/81114/00246
Árbol de posibilidades: representación de un proceso en el que la aparición de diferentes posibilidades se representa mediante ramas que salen de un punto denominado nodo. Frecuencia relativa de un suceso: cociente entre el número de veces en que se da el suceso y el número total de veces que se ha repetido el experimento. Variaciones de n elementos tomando k cada vez: cada una de las maneras de colocar ordenadamente k objetos tomados entre n objetos diferentes dados. Combinaciones de n elementos tomando k cada vez: cada una de las posibilidades de tomar k objetos de entre n dados, sin tener en cuenta el orden en el que los tomamos o tenemos. Permutaciones de n elementos: cada una de las maneras en las que podemos colocar ordenadamente los n elementos. Hay tantas como n! = n · (n − 1) · ... · 1.
Introducción a la teoría de la probabilidad
FUOC • P01/81114/00246
16
2. Reglas de probabilidad: probabilidades conjuntas y condicionales
Ahora ya tenemos las herramientas básicas para entrar en el mundo de la probabilidad. En este apartado tenemos que analizar principalmente la relación que puede haber entre diferentes sucesos en un hecho aleatorio.
Si tenemos dos sucesos, nos interesará plantearnos, estudiar y responder preguntas como: ¿cuándo se da al menos uno de los dos sucesos?, ¿con qué probabilidad?, ¿cuándo se dan los dos a la vez?, y si sabemos que uno de los sucesos se ha dado, ¿qué podemos decir del otro?
Algunas de las técnicas que desarrollaremos para estudiar estas situaciones incluirán diagramas de Venn, árboles de probabilidad y tablas de contingencias como herramientas gráficas que ayudan a plantear y resolver problemas.
En definitiva, en este apartado aprenderéis:
• qué es el suceso contrario a uno dado y su probabilidad; • qué es el suceso unión y cómo se calcula su probabilidad; • qué es el suceso intersección y cómo se calcula su probabilidad; • qué es la probabilidad condicionada, cómo se interpreta y cómo se calcula; • qué significa independencia entre sucesos y cómo se detecta.
2.1. Jugando con los sucesos Cuando tenemos un suceso, podemos pensar en el suceso contrario, que se da siempre que no se da el otro. Por ejemplo, si B era el suceso “todas las cartas de la mano del póquer eran de corazones”, el contrario será “no todas son corazones” y lo denotaremos con B. El número de resultados favorables al suceso contrario estará constituido precisamente por todos los que no eran favorables al suceso original B. Por tanto, en caso de resultados equiprobables, tendremos: #B # total – # B #B P [ B ] = ------------------ = --------------------------------- = 1 – ------------------ = 1 – P [ B ]. # total # total # total Esto se cumplirá en general (como podéis concluir si recordáis que la probabilidad del suceso es la suma de las de los resultados que lo conforman).
Introducción a la teoría de la probabilidad
17
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
La probabilidad del suceso contrario es, pues, la total menos la del mismo suceso: P [ B ] = 1 – P [ B ]. Esta regla es especialmente importante porque en ocasiones resulta mucho más sencillo calcular la probabilidad del contrario que la de un suceso que nos interesa.
Por ejemplo, para calcular la probabilidad de que en la mano del póquer nos toque al menos un as, podríamos calcular el número de maneras en que nos puede tocar exactamente un as, el número de maneras de que nos toquen exactamente dos ases, etc. y sumarlas todas. No obstante, es mucho más fácil calcular lo con-
Truco importante Siempre que tengáis que contar algo, pensad antes si no sería más fácil contar lo contrario.
trario, la probabilidad de que no nos toque ningún as; hay cuarenta y ocho cartas que no son ases, por tanto: ⋅ 47 ⋅ 46 ⋅ 45 ⋅ 44- ≈ 0,66. P [ ″cap as″ ] = 48 --------------------------------------------------52 ⋅ 51 ⋅ 50 ⋅ 49 ⋅ 48 Esto nos permite asegurar lo siguiente: P[“algún as”] = 1 − P [“ningún as”] ≈ 1 − 0,66 = 0,34. Actividad 2.1. Tratándose de manos de póquer de cinco cartas, decid cuáles de estos sucesos son contrarios el uno del otro: • A = “todas son del mismo palo”. • B = “alguna es de trébol”. • C = “tengo alguna de cada palo”. • D = “alguna no es de trébol”. • E = “no tengo ninguna de trébol”.
2.2. Representarlo gráficamente Una manera simple de representar los resultados, los sucesos y sus probabilidades es mediante el diagrama de Venn. Los sucesos son como conjuntos situados dentro de un rectángulo que representa todo el espacio muestral. Gráfico I
Diagrama de Venn Los conjuntos representan sucesos.
18
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
• Los puntos de los rectángulos representan los resultados posibles, unos dentro del suceso y los otros, fuera. • La superficie ocupada por un conjunto representa su probabilidad. La superficie total será la unidad. • El suceso contrario es el exterior del conjunto. Ahora nos centraremos en ver cómo pueden ser dos sucesos entre ellos. Quizá tengan cosas en común, como los conjuntos del gráfico I, o que no.
2.3. De dos en dos Si consideramos ahora el experimento aleatorio de elegir a un estudiante al azar, podemos considerar los sucesos: A = “lleva vaqueros Levi’s”, B = “lleva bambas Nike”, y suponemos lo siguiente: P[A] = 0,65, P[B] = 0,55. Nos puede interesar combinar estos hechos, por ejemplo, ¿qué probabilidad hay de que el estudiante elegido lleve vaqueros Levi’s o bambas Nike? Si los contásemos, ¿sumaríamos los que llevan Levi’s y los que llevan Nike? ¿No contaríamos dos veces los que llevan las dos cosas, que es un caso que puede darse? Juntar dos sucesos como éstos, en lenguaje de conjuntos, se denomina hacer
Seguro... ... que hay estudiantes que llevan vaqueros Levi’s y bambas Nike, ya que, de no ser así, el total de los estudiantes sería más del 100%.
la unión, y se denota: A ∪ B = “lleva vaqueros Levi’s o lleva bambas Nike”. Denotamos con la intersección a los que llevan las dos cosas: A ∩ B = “lleva vaqueros Levi’s y lleva bambas Nike”.
Regla de la unión de sucesos: la probabilidad de que se dé un suceso u otro es la suma de las probabilidades menos la probabilidad de que se den todos. P[A ∪ B] = P[A] + P[B] − P[A ∩ B]. Gráfico II
El gráfico II ayuda a entender la regla de la unión.
19
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Una observación importante sobre la última regla es que si tenemos sucesos que no pueden ocurrir al mismo tiempo, su intersección estará vacía.
Unión de sucesos incompatibles: si A y B son incompatibles, la probabilidad de la unión es la suma de probabilidades. P[A ∪ B] = P[A] + P[B].
Definición Denominamos incompatibles o disjuntos a los sucesos que no tienen ningún resultado en común.
Por ejemplo, A = “tener un póquer” y B = “tener una doble pareja” son claramente sucesos incompatibles, ya que no pueden ser ciertos a la vez y no hay ningún resultado (mano de póquer) que pueda satisfacerlos a los dos. Actividades 2.2. Decid cuáles de los siguientes sucesos son incompatibles y cuáles no lo son, en el contexto de las manos de póquer. Si no son incompatibles, escribid una frase que describa bien la intersección. • A = “todas son del mismo palo”. • B = “alguna es de trébol”. • C = “tengo alguna de cada palo”. • D = “no tengo ninguna de trébol”.
Póquer y pareja • El suceso “tener un póquer” significa tener cuatro cartas del mismo número. • El suceso “tener una doble pareja” significa tener dos cartas del mismo número y otras dos iguales con otro número diferente.
2.3. El 30% de los estudiantes de una clase ha suspendido la asignatura de matemáticas y el 20% ha suspendido la de lengua. ¿Qué probabilidad hay de que un estudiante haya suspendido alguna asignatura si sabemos que el 15% de los estudiantes ha suspendido las dos materias?
2.4. Si sabemos lo que sabemos, ¡podemos excluir el resto! Volvamos al paseo aleatorio. Habíamos visto que los caminos posibles eran dieciséis, de los cuales seis nos volvían a situar en el nivel cero. Esta probabilidad de volver al cero, 6/17, queda radicalmente alterada si nos dicen “después de la segunda tirada estabais en el nivel dos”. Debemos restringir nuestro es-
Recordad que hemos visto el ejemplo del paseo aleatorio en el apartado 1 de este módulo.
pacio de resultados a los caminos que cumplen la restricción, y naturalmente también nos quedarán menos caminos que acaben en el cero pasando por el nivel dos en la segunda tirada; de hecho, sólo hay uno. El nuevo cálculo se plantea ahora de la forma siguiente: P[“acabar en el nivel 0 sabiendo que en la segunda estabais en el nivel 2”] = caminos que acaban en cero pasando por 2 en la segunda- . = # -------------------------------------------------------------------------------------------------------------------------------------------------------------------# caminos que pasan por 2 en la segunda Ya hemos visto que el numerador tiene que ser 1. Entonces, si sólo quedan dos tiradas de la moneda, quedarán cuatro posibilidades, por lo que el denominador será 4: 1 P[“acabar en el nivel 0 sabiendo que en la segunda estabais en el nivel 2”] = --- . 4
Nota Los números son fáciles, lo importante es lo que hemos hecho: cuando tenemos información adicional, restringimos el espacio de resultados, tanto en el numerador como en el denominador.
20
FUOC • P01/81114/00246
Escribimos B | A y lo leemos “B condicionado a A” o bien “B dado A” para referirnos a este suceso que hemos analizado, que tiene como casos posibles sólo los de A y como favorables los que están en A ∩ B.
Introducción a la teoría de la probabilidad
Nota Podemos decir, para memorizarlo, “la probabilidad de la intersección dividida por la de la condición”.
Si tenemos dos sucesos A y B, definimos la probabilidad de A condicionada a B como: P[A
P[A ∩ B] B ] = ------------------------ . P[B]
Gráfico III
Para calcular la probabilidad condicionada, nos olvidamos de las otras probabilidades.
2.5. Los árboles de probabilidades condicionadas
Para representar las probabilidades condicionadas son muy útiles los árboles de probabilidad en los cuales los diferentes sucesos se representan con ramas y nodos de donde nacen otras ramas.
Por ejemplo, para los ordenadores del modelo JCN-25 que trabajan en condiciones normales sabemos que es necesario cambiar el disco duro después de dos años de trabajo con probabilidad 0,03. No obstante, alguno de los ordenadores que hemos instalado (el 25%) trabaja en condiciones de alta temperatura, y sabemos que el 5% del total de ordenadores trabajaba a altas temperaturas y ha sufrido averías en el disco duro en dos años de funcionamiento. Tenemos los sucesos: • A = P[“avería en el disco duro”], • T = P[“sometido a altas temperaturas”], entonces: • P[A ∩ T] = 0,05, • P [ A T ] = 0,03, • P[T] = 0,25. Fijaos bien en que son dos tipos de información muy diferentes; el primero no está condicionado, ya que nos dicen que “el 5% del total trabaja...”. En cambio, en el otro caso nos dicen que “el 3% de los que trabajan en condiciones normales...”.
21
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Esto lo podemos representar en el árbol siguiente:
Gráfico IV En el árbol hemos marcado la información que tenemos de entrada y algunos interrogantes que hay que resolver.
Observad que en los nodos del árbol ponemos la probabilidad de llegar al nodo. En las ramas ponemos probabilidades condicionadas, las que corresponden a
En el árbol hemos marcado los nodos con círculos.
“probabilidad de tomar aquella rama en el caso de que hayamos llegado a ese nodo”. Esto significa que la suma de las ramas que salen de un nodo debe ser 1, y que la suma de todos los nodos terminales debe ser también 1.
Por ejemplo, ¿qué va en el lugar del interrogante “¿1”? Esto es fácil, la probabilidad absoluta de no estar sometido a altas temperaturas: 1 − 0,25 = 0,75. En el lugar “¿2”, en cambio, ponemos la probabilidad de avería condicionada a “alta temperatura” que es, como sabemos:
P[“avería” | “alta temperatura”] =
[ ″avería″ ∩ ″alta temperatura″ -] = 0,05 = P ---------------------------------------------------------------------------------------------------- = 0,2. P [ ″alta temperatura″ ] 0,25
Y en el lugar de “?3”, ¿qué va? La probabilidad de tener avería y no estar a alta temperatura, ¿verdad? Y como conocemos la condicional, podemos calcularla:
P[ A ∩ T] P[ A ∩ T] 0,03 = P [ A T ] = ------------------------ = ------------------------ , 0,75 P[T] P [ A ∩ T ] = 0,75 ⋅ 0,03 = 0,0225.
El truco que acabamos de utilizar es muy importante y lo resaltamos porque muchas veces es más fácil calcular la probabilidad condicionada y utilizarla para calcular la de la intersección que hacerlo al revés.
La probabilidad... ... de que se den dos sucesos al mismo tiempo se puede calcular como el producto de la probabilidad de que se dé el primero, supuesto el segundo, por la probabilidad del segundo. Aunque parezca mentira, esto es a menudo muy útil.
22
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Regla del producto: si tenemos dos sucesos cualesquiera A y B, entonces se cumple P[A ∩ B] = P[A|B] P[B].
Ahora podemos completar el árbol de los ordenadores JCN-25. Lo podéis ver en el gráfico V. Podemos completar el nodo inferior de dos maneras: viendo que la rama de debajo debe tener 1 − 0,03 para que el total de las dos ramas sume 1, o bien observando que la suma de los dos nodos debe ser 0,75. Para completar la segunda rama de las de arriba, el proceso es similar. Gráfico V Aquí tenemos toda la información recopilada en el árbol.
En un árbol de probabilidades siempre tenemos: • En los nodos: la probabilidad de estar en el nodo. • En las ramas: la probabilidad de pasar por la rama, suponiendo que hayamos llegado al nodo del que arranca. • La suma de las ramas que salen de un mismo nodo debe ser 1. • La suma de los nodos terminales debe ser 1.
Un par de comentarios más sobre los árboles de probabilidad:
• Las ramas que salen del nodo inicial siempre tendrán los mismos números que los nodos en los que acaban; así pues, quizá no será necesario repetirlas. • Por otro lado, hay muchos casos en los que el árbol se puede dibujar de varias maneras.
23
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Por ejemplo, el anterior lo podíamos haber representado también partiendo de los nodos iniciales con “¿avería en el disco duro?” “sí” o “no”, y después desde cada uno de los dos nodos, bifurcando según “¿altas temperaturas?”. Los dos árboles contienen la misma información, decidiremos uno u otro según si nos interesa más conocer unas probabilidades condicionadas u otras. Hablaremos de ello más adelante. Actividad 2.4. En el juego del parchís utilizamos un dado estándar de seis caras. Considerad los sucesos A = “sacar 1, 2, 3 o 4”, B = “sacar un 5” y C = “sacar un 6”. Queremos saber la probabilidad de salir de casa (sacando un 5) en una tirada típica del parchís. Dibujad el árbol de probabilidades que resulta de aplicar las reglas a una jugada de parchís. ¿Cuántos nodos terminales tiene? Id colocando en los nodos del árbol las probabilidades absolutas que conocéis, y en las ramas, las condicionales. Comprobad que la suma de los nodos terminales es 1. Calculad la probabilidad total de poder salir de casa en una jugada.
2.6. ¿En serie o “en serio”? Los componentes electrónicos, las partes de un sistema o los elementos de un organigrama pueden estar conectados en serie o en paralelo, y esto tiene consecuencias muy diversas para el funcionamiento del sistema.
a) En el gráfico vemos que los componentes S1 y S2 están conectados en serie. Para que el sistema funcione es imprescindible que funcionen los dos componentes. Si ponemos: S1 = “el componente 1 funciona”, S2 = “el componente 2 funciona”, y nos interesa el suceso “el sistema funciona”, tenemos: “el sistema funciona” = S1 ∩ S2. Si las probabilidades de funcionamiento correcto de los componentes son P[S1] = = 0,9 y P[S2] = 0,7, tendremos, según la regla del producto que hemos visto, que: P[S1 ∩ S2] = P[S1 | S2] P[S2].
Las reglas del parchís... ... dicen que cuando sacáis un 6 debéis volver a tirar, y que si os salen seis consecutivos, os vais a casa. Para salir de casa, necesitáis un 5 a la primera, o bien un 6 y después un 5, o bien dos 6 y después un 5.
24
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
En este caso podríamos suponer que la probabilidad condicionada que nos aparece es la misma que nos ha dado 0,9. Esto significaría que las averías de S2 no afectan al funcionamiento de S1, no alteran la probabilidad de error de S1. Podemos decir también que S1 no depende de S2. Así pues, tendríamos: P[S1 ∩ S2] = P[S1 | S2] P[S1] = P[S1] P[S2] = 0,9 · 0,7 = 0,63. b) En el mismo gráfico vemos los componentes P1 y P2 que están conectados en paralelo. Para que el sistema funcione es suficiente con que funcione alguno de los dos componentes. Si ponemos: P1 = “el componente P1 funciona”, P2 = “el componente P2 funciona”, tendremos: “el sistema funciona” = P1 ∪ P2. El suceso contrario será: “el sistema no funciona” = P1 ∩ P2 que nos está diciendo que para que el sistema falle, deben fallar los dos componentes. Con los mismos datos que antes, y suponiendo aún que la avería de un componente no altera el comportamiento del otro, tendremos: P[“el sistema funciona”] = P [ P1 ∩ P2 ] = 1 – 0,1 ⋅ 0,3 = 1 – 0,03 = 0,97.
Podemos observar, pues, que los montajes en paralelo son más fiables que los montajes en serie.
Sin embargo, deberíamos pensar que si tenemos los componentes en paralelo, cuando uno de los dos se avería, el otro debe trabajar más y, por lo tanto, tendrá más tendencia a averiarse, ¿verdad? Pongamos que la probabilidad de que P1 se averíe en caso de que se haya averiado P2 sea 0,4. Ahora tendremos: P [ P1 ∩ P2 ] = P [ P1 P2 ] ⋅ P [ P2 ] = 0,4 ⋅ 0,3 = 0,12, con lo cual: P[“el sistema funciona”] = 1 − P [ P1 ∩ P2 ] = 1 − 0,12 = 0,88; el sistema paralelo aún resulta bastante fiable.
La probabilidad de funcionamiento correcto de S1 teniendo en cuenta que S2 trabaja correctamente.
25
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Decimos que dos sucesos A y B son independientes cuando se cumple: P[A | B] = P[A] Por lo tanto, A es independiente de B si el hecho de que se haya producido o no B no altera la probabilidad de A.
Un ejemplo más Los sucesos “ser un buen músico” y “ser del signo Escorpión del zodíaco” son independientes, ya que son idénticas las probabilidades condicionada y sin condicionar: P[“ser un buen músico” | “ser Escorpión”] = P[“ser un buen músico”].
Actividad 2.5. Un conductor en condiciones etílicas fuera de la ley regresa a su casa por la autopista. Cada vez que encuentra una salida de la autopista, la toma al azar con probabilidad 1/3. Si la que lo lleva a casa es la tercera, ¿cuál es la probabilidad de que la tome?
Veámoslo conjuntamente
Imaginemos que en la empresa Servicios Psicopedagógicos Telerín tenemos tres tipos de clientes: los de guarderías, los de escuelas primarias y escuelas secundarias. Además, cada operación que realizamos con alguno de estos clientes puede corresponder a material, asesoramiento o servicios a medida.
Esto nos da dos distribuciones de probabilidad que actúan conjuntamente: seleccionada una operación cualquiera de la empresa, la tabla siguiente nos proporciona las probabilidades de que pertenezca a cada una de las categorías mencionadas: Servicios Psicopedagógicos Telerín Guarderías
Escuelas primarias
Escuelas secundarias
Total
Material
0,24
0,04
0,32
0,60
Asesoramiento
0,06
0,05
0,11
0,22
Servicios
0,10
0,01
0,07
0,18
Total
0,40
0,10
0,50
1
Las tablas de este tipo se denominan tablas de contingencia. Al construirlas, debemos procurar que los sucesos que definen las filas y las columnas sean disjuntos y que el total de probabilidad sea 1, tanto para las filas como para las columnas.
Las probabilidades que aparecen en la parte central de la tabla se llaman probabilidades conjuntas, y corresponden a la intersección de los sucesos. Por ejemplo, la probabilidad de que una operación corresponda a material de escuela secundaria de un cliente la expresaremos P[M ∩ S] = 0,32. En la última columna y en la última fila nos aparecen las probabilidades marginales, que veremos más adelante. En este tipo de tabla las probabilidades condicionales no aparecen, pero son más fáciles de calcular.
Utilizamos las iniciales para denotar los sucesos involucrados.
26
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Por ejemplo, la probabilidad de que una operación de servicios sea de clientes de guarderías es, según la definición de probabilidad condicionada: P[ G ∩ S] 0,1 P [ G S ] = ----------------------- = ------------ ≈ 0,56. P[S ] 0,18 ¿Y cuál sería la probabilidad de que una operación de guarderías sea de material? Pues exactamente 0,24/0,4 = 0,6 (¿lo veis?). En este caso resulta que la probabilidad de que sea de material suponiendo que era de guarderías es la misma que sin suponerlo. Los denominamos, como hemos visto, sucesos independientes, ya que tenemos que:
La independencia... ... se nota porque el hecho de condicionar no altera la probabilidad, o porque la probabilidad conjunta es el producto de las probabilidades marginales.
P[M | G] = P[M] , lo cual equivale a P[M ∩ G] = P[G] · P[M], como resulta de aplicar la definición de condicional. Encontramos así una forma de reconocer la independencia especialmente adecuada para las tablas de doble entrada o de contingencias: vemos que M y G son independientes, ya que su probabilidad conjunta es igual al producto de las probabilidades marginales (0,4 · 0,6) correspondientes a los dos sucesos en cuestión. Actividades 2.6. Siguiendo con el mismo ejemplo de la empresa de Servicios ¿sabríais encontrar otro caso de sucesos independientes? Que una operación sea de guardería, ¿depende del hecho de que sea de asesoramiento o no lo sea? Para calcular la probabilidad de que una operación hecha por un cliente de Secundaria corresponda a material, ¿qué debemos calcular, P[M | S] o P[S | M]? 2.7. En la tabla se anotan datos sobre las probabilidades de que un estudiante de la Universidad Abastable de Katangunya (UAK) lleve ciertas marcas de calzado deportivo o no las lleve, y también sobre su sexo. Marcas de calzado deportivo que llevan los estudiantes de la UAK Nike
Reebok
Otras
Total
Chicos
0,41
0,1625
0,0775
0,65
Chicas
0,04
0,0875
0,2225
0,35
Total
0,45
0,25
0,3
1
¿Podéis saber si “llevar bambas Reebok” es independiente de “ser chica”? ¿Veis casos de independencia entre sucesos en la tabla?
Los conceptos principales que hemos visto en este apartado son los siguientes: Suceso contrario a un suceso dado: suceso formado por todos los resultados que no están en el dado. Corresponde, por tanto, al conjunto complementario.
La probabilidad conjunta corresponde al 0,24 que aparece dentro de la tabla de la página anterior.
FUOC • P01/81114/00246
27
Diagrama de Venn: tipo de gráfico en el que los sucesos se representan mediante conjuntos dibujados dentro de un rectángulo que representa el espacio total disponible. Regla de la unión: regla que nos dice que la probabilidad de la unión de dos sucesos es la suma de probabilidades si son disjuntos y que, en caso contrario, hay que restar la de la intersección. Sucesos incompatibles o disjuntos: sucesos que no tienen ningún resultado común. Probabilidad condicionada: la probabilidad de un suceso A condicionada a otro suceso B se define como el cociente P[A ∩ B]/P[B] y se interpreta en el sentido de que sólo se consideran los resultados que forman parte de B y, por tanto, A queda reducido a A ∩ B. Árbol de probabilidades: diagrama en que los nodos representan sucesos y las ramas que salen de un mismo nodo conducen a sucesos subordinados a éste. En los nodos ponemos la probabilidad de llegar a aquel nodo, es decir, la de la intersección de los sucesos que llevan a él. En las ramas, ponemos la probabilidad condicionada de pasar por aquella rama. Son diagramas especialmente útiles cuando el problema se puede plantear en fases sucesivas. Sucesos independientes: decimos que dos sucesos A y B son independientes si, al condicionarse el uno al otro, su probabilidad no cambia. Es decir, si P[A | B] = P[A] o, de forma equivalente, P[B | A] = P[B] o, de forma equivalente, P[A ∩ B] = P[A] · P[B]. Tablas de contingencias: tablas de doble entrada en las cuales las filas (y las columnas) están definidas por sucesos disjuntos que cubren todos los resultados del espacio. Probabilidad marginal de un suceso: probabilidad propia de un suceso cuando se está en un contexto en el que ésta se ha descompuesto en varias partes. Probabilidad conjunta de dos sucesos: probabilidad de la intersección de los dos sucesos. Es un término especialmente utilizado en el contexto de las tablas de contingencias.
Introducción a la teoría de la probabilidad
FUOC • P01/81114/00246
28
Introducción a la teoría de la probabilidad
3. Variables aleatorias (I): funciones de probabilidad y valor esperado
En este apartado aplicaremos lo que conocemos de la probabilidad a un caso particular y muy frecuente: nos interesa el caso en el que los resultados del hecho aleatorio son números. Esto sucede con mucha frecuencia. El tiempo, el beneficio, el número de errores, etc. son magnitudes numéricas sobre las cuales tenemos que elaborar modelos en los que el azar tiene un papel importante: las denominaremos variables aleatorias. En este apartado sobre variables aleatorias aprenderéis: • qué es una variable aleatoria; • qué es la función de probabilidad y la distribución de probabilidad; • cómo las representamos gráficamente; • qué es y cómo se calcula el valor esperado de una variable aleatoria.
3.1. Un poco de formalidad Antes de hablar de variables aleatorias, conviene repasar y aclarar algunos aspectos formales para enmarcar claramente los conceptos que hemos visto en los últimos apartados. Un espacio de probabilidad está formado por los conceptos siguientes: a) Espacio muestral: habitualmente denotado con Ω, es el conjunto de resultados elementales posibles. b) Sucesos: conjuntos de resultados. Hay dos sucesos un poco especiales: el Ω mismo y el conjunto vacío, ∅. c) Ley de la probabilidad: ley que asocia a cada suceso A un número real P[A] denominado probabilidad de A, que cumple: • 0 ≤ P[A] ≤ 1. • P[∅] = 0, P[Ω] = 1. • Si A y B son sucesos con A ∩ B = ∅, P[A ∪ B] = P[A] + P[B]. De las propiedades que exigimos en la ley de la probabilidad se deducen otras que ya hemos visto anteriormente y que resumimos a continuación. • Si A denota el complementario de un suceso A,P [ A ] = 1 – P [ A ]. • Si A y B son sucesos cualesquiera, P{A ∪ B] = P[A] + P[B] − P[A ∩ B].
Consultad los apartados 1 y 2 de este módulo didáctico.
29
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Cuando tenemos una ley de la probabilidad, podemos introducir la idea de probabilidad condicionada de una manera sencilla y, entonces, aparece la importante idea de independencia. • Si A y B son sucesos cualesquiera, denominamos probabilidad de A condicionada a B al cociente: P[ A ∩ B] P [A B ] = ------------------------ . P[B ] Decimos que A y B son independientes si se cumple:
Las tres condiciones son equivalentes.
– P[A | B] = P[A]. – P[B | A] = P[B]. – P[A ∩ B] = P[A] · P[B].
3.2. ¿Qué es una variable aleatoria? Cuando nos interesa estudiar algún tipo de resultado numérico de un hecho aleatorio hablamos de variables aleatorias. Más adelante proporcionaremos una definición más precisa. Tabla I Variables aleatorias Resultado del dado
X
Y
(1, 1)
2
1
(1, 2)
3
2
(1, 3)
4
3
...
...
...
(2, 1)
3
2
(2, 2)
4
2
(2, 3)
5
3
...
...
...
(6, 1)
7
6
(6, 2)
8
6
...
...
...
(6, 5)
11
6
(6, 6)
12
6
Por ejemplo, si tiramos un dado dos veces, los resultados posibles serán parejas de números del 1 al 6. Si nos interesa anotar la suma de las caras, tendremos una variable aleatoria. Para cada resultado posible la variable aleatoria nos da un número, la suma de las caras obtenidas, llamémosle X. También podríamos considerar otra variable aleatoria, la mayor de las caras obtenidas, llamémosle Y.
30
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Inmediatamente surgen preguntas como éstas: ¿qué probabilidad hay de que la suma de las caras dé 4?, ¿qué probabilidad hay de que dé menos de 4?, ¿qué probabilidad hay de que la cara mayor sea 2? Se trata de probabilidades de sucesos, en este caso no demasiado difíciles de calcular con las técnicas que hemos aprendido en los apartados anteriores: # { ( 1,3 ), ( 2,2 ), ( 3,1 ) } 1 • P[“suma de las caras es 4”] = ---------------------------------------------------------- = ------ . 36 12 • P[“suma de las caras es inferior a 5”] = # { ( 1,1 ), ( 1,2 ), ( 2,1 ), ( 1,3 ), ( 2,2 ), ( 3,1 ) } 1 = ------------------------------------------------------------------------------------------------------------ = --- . 36 6 # { ( 1,2 ), ( 2,2 ), ( 2,1 ) } 1 • P[“cara mayor es 2”] = ---------------------------------------------------------- = ------ . 36 12 Vemos, pues, que cuando utilizamos variables aleatorias nos aparecen de manera natural sucesos descritos para relaciones como las siguientes: X = 4, X < 5, Y = 2, de los cuales podemos calcular las probabilidades:
•
1 P [ X = 4 ] = ------. 12
•
1 P [ X < 5 ] = --- . 6
•
1 P [ Y = 2 ] = ------. 12
Las probabilidades de cada uno de los valores posibles de la variable son importantes, ya que nos la describen muy bien. Las podemos poner en una tabla: Tabla II Valores posibles
Probabilidad
x
P[X = x]
2
1/36
3
2/36 = 1/18
4
3/36 = 1/12
5
4/36 = 1/9
6
5/36
7
6/36 = 1/6
8
5/36
9
4/36 = 1/9
10
3/36 = 1/12
11
2/36 = 1/18
12
1/36
Consultad las técnicas de cálculo de probabilidades en los apartados 1 y 2 de este módulo.
31
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Esta tabla la representamos muy a menudo con un diagrama de barras: Gráfico I X
p[X = x]
2
0.027777778
3
0.055555556
4
0.083333333
5
0.111111111
6
0.138888889
7
0.166666667
8
0.138888889
9
0.111111111
10
0.083333333
11
0.055555556
12
0.027777778
3.3. La función de probabilidad
La función de masa de probabilidad de una variable aleatoria X es la función que nos da, para cada valor x de la variable, la probabilidad de que la variable tenga este valor, f(x) = P[X = x].
A veces la denominamos función de masa de probabilidad de X para remarcar la idea de que la probabilidad está concentrada en valores aislados. Actividad 3.1. Definimos la variable Y como el máximo número obtenido en dos tiradas del dado: a) Calculad los posibles valores de la variable. b) Construid la tabla de la función de masa de la probabilidad. c) Dibujad el diagrama de barras correspondiente. ¿Es simétrico? Para calcular, por ejemplo, P[Y = 3] habrá que contar en cuántas de las treinta y seis parejas de la lista anterior la cara mayor es 3. Si se cuenta según el resultado del primer dado, sólo tendremos una cuando el primer dado da 1, una cuando el primer dado da 2, tres cuando da 3, y ninguna más, en total 6.
La función de probabilidad siempre cumple que la suma de la probabilidad de todos los valores da 1, es decir:
∑ f(x)
= 1.
x
Esto puede entenderse de la siguiente manera: si juntamos todos los valores de la variable, estamos considerando todos los resultados al mismo tiempo, y la probabilidad es la de todos los resultados juntos, 1.
Nota Observad que seguimos una notación que ayuda a no confundirse: las letras X, Y, ... mayúsculas denotan variables aleatorias, mientras que las minúsculas x, y, ... denotan los valores correspondientes.
32
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
3.4. ¿Volvemos a pasear? Recordad el ejemplo del paseo aleatorio. Lanzamos una moneda y según el resultado subimos (cara) o bajamos (cruz). El nivel resultante después de cuatro tiradas, por ejemplo, es una variable aleatoria. Analizamos ahora el ejemplo desde el punto de vista de las variables aleatorias: • Los resultados posibles del experimento son cada uno de los paseos, por ejemplo (C, +, +, +). Hay dieciséis, como ya sabemos. • Para cada uno de estos resultados, la variable X = “nivel al final” nos da un número, por ejemplo –2 en el caso mencionado. • Los valores posibles de la variable X son −4, −2, 0, 2, 4. • Las probabilidades respectivas son: Tabla III x
−4
−2
0
2
4
P[X = x]
1/16
4/16 = 1/4
6/16 = 3/8
4/16 = 1/4
1/16
Puesto que tratamos sucesos, ya sabemos cómo se calculan las probabilidades condicionales que también pueden interesar en este contexto. Por ejemplo, podemos preguntarnos por la probabilidad de acabar en el nivel dos si sabemos que la primera tirada ha salido cara: X = 2 ∩ ″la primera es cara″ P [ X = 2 ″la primera es cara″ ] = ----------------------------------------------------------------------------- = ″la primera es cara″ # ( X = 2 ∩ ″la primera es cara″ ) 3 = ------------------------------------------------------------------------------------- = --- . # ( ″la primera es cara″ ) 8 Actividad 3.2. Siguiendo con los dados anteriores: a) Calculad la probabilidad de que X dé 10 si sabemos que ambos dados han dado cara par. b) ¿Son sucesos independientes? c) ¿Qué probabilidad hay de que X ≤ 5? d) ¿Qué significa P[X ≤ 5Y = 3], y cómo la calcularíais?
3.5. ¿Qué esperáis?
1) En un juego de dados, debéis lanzar un dado, y si sacáis más de 4 (5 o 6) pagáis 10 u.m. y, en caso contrario, cobráis 10 u.m. ¿Qué esperaríais sacar de un juego así? ¿Ganaríais o perderíais?
Evidentemente, no hay manera de saber lo que sucedería en una sola jugada, pero sabemos calcular la probabilidad de cobrar (4 de 6, 2/3) y la de pagar (2 de 6,1/3). Por lo tanto, diremos que si jugamos muchas veces, 1/3 de las veces
Releed el ejemplo del paseo aleatorio en los apartados 7 y 8 de este módulo didáctico.
33
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
pagaremos y 2/3 de las veces cobraremos. De media, ganaremos 2/3 de 10 y perderemos 1/3 de 10, es decir, tenemos un beneficio esperado de 10/3 de u.m.
2) Sabemos que el 20% de los componentes electrónicos de un laboratorio psicológico dura un año, el 30% dura dos años y el 50% dura tres años. ¿Re-
Revisad el cálculo de la media de una muestra en el apartado 3 del módulo I.
cordáis cómo calculábamos la media de una muestra? Sumamos los datos, es decir, cada dato se multiplica por su frecuencia absoluta (número de apariciones) y la suma final se divide por el número de datos. Aquí hacemos, más o menos, lo mismo; si tuviéramos N, la media sería: 0,2N ⋅ 1 + 0,3N ⋅ 2 + 0,5N ⋅ 3 ------------------------------------------------------------------------------- = 0,2 ⋅ 1 + 0,3 ⋅ 2 + 0,5 ⋅ 3, N es decir, para calcular la media de tiempo de duración, llevamos a cabo lo siguiente:
Σ valores · probabilidades,
y las probabilidades corresponden a las frecuencias relativas. Este número recibe la denominación de valor esperado o esperanza de X, o también la media.
El valor esperado, esperanza o media de una variable aleatoria X,
... es un modelo teórico de los valores de la población. Las frecuencias relativas de los valores de la muestra se convierten en probabilidades en la variable aleatoria, que modeliza los valores de la población. Recordad estos conceptos.
que toma valores x con probabilidad f(x), es:
E(X) =
∑x
f ( x ).
x
3) Otro ejemplo más: compráis una acción en Bolsa por 1.000 u.m. y os dicen que con probabilidad 1/4 mañana valdrá 1.800 u.m., con probabilidad 1/2 valdrá 800 u.m. y con probabilidad 1/4 se quedará igual, a 1.000 u.m. ¿Hemos hecho un buen negocio? ¿Cuál es el valor esperado de la acción al día siguiente? Puesto que tenemos Tabla IV x
800
1.000
800
P[X = x]
1/2
1/4
1/4
resultará E(X) =
∑x x
1 1 1 f ( x ) = 800 ⋅ --- + 1.000 ⋅ --- + 1.800 ⋅ --- = 1.100, 2 4 4
y, por tanto, parece que sí hemos comprado bien.
La variable aleatoria...
34
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
4) Si volvemos a los ejemplos que hemos discutido antes, cuando lanzamos dos dados y sumamos las caras, obtenemos valores de 2 a 12 con probabilidades que ya hemos calculado antes. El valor esperado será, según la definición,
∑x
E(X) =
x
1 2 1 1 5 1 5 f ( x ) = 2 ⋅ ------ + 3 ⋅ ------ + 4 ⋅ ------ + 5 ⋅ --- + 6 ⋅ ------ + 7 ⋅ --- + 8 ⋅ ------ + 36 36 12 8 36 6 36 1 1 1 1 + 9 ⋅ --- + 10 ⋅ ------ + 11 ⋅ ------ + 12 ⋅ ------ = 7. 8 12 18 36
Actividades 3.3. Si X es el nivel final después de cuatro pasos en un paseo aleatorio, ¿cuál es el valor esperado de x?
3.6. El valor esperado como centro de masas Recuperamos la variable Y = “cara mayor en dos tiradas de un dado”. Según hemos calculado en la actividad 3.1, se tiene: Tabla V y
1
2
3
4
5
6
P[Y = y]
1/36
1/12
5/36
7/36
1/4
11/36
El valor esperado será Nota
∑y y
1 1 5 7 1 11 f ( y ) = 1 ⋅ ------ + 2 ⋅ ------ + 3 ⋅ ------ + 4 ⋅ ------ + 5 ⋅ --- + 6 ⋅ ------ ≈ 4. 36 12 36 36 4 36
Observamos el gráfico de la función de probabilidad, y dibujamos en el mismo
Tanto si se entiende mejor como si se entiende peor el porqué, no debe olvidarse: el valor esperado mantiene el diagrama de barras en equilibrio.
el valor esperado. Gráfico II
Gráfico de la función de probabilidad Vemos cómo el valor esperado queda situado en el centro de gravedad del diagrama de barras.
Puesto que tenemos: E(X) =
∑x
f(x)
x
y también
∑ f(x)
= 1, podemos poner:
x
0 =
∑x x
f(x) – E(X) =
∑x x
f(x) – E(X)∑ f(x) = x
∑ (x – E(X )) x
f ( x ).
35
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Para cada valor x, la diferencia (x – E(X)) recibe el nombre de desviación respecto al valor esperado. Hemos visto que la suma de las desviaciones por las probabilidades da cero.
Sin embargo, ésta es la propiedad que define el centro de gravedad: la suma de los pesos por la distancia da cero. Por lo tanto, si consideramos f(x) como masas situadas en los puntos x, la suma de las masas por la distancia E(X) da cero.
Esto nos lo imaginamos como si el diagrama de barras fuera de material pesado y se mantuviera en equilibrio sobre la cuña situada exactamente sobre el valor esperado. Actividad 3.4. Dibujad los diagramas de barras con el valor esperado para los ejemplos del juego de dados en el que ganáis o perdéis 10 u.m., el de la acción de Bolsa y el de la duración de los componentes que hemos visto al principio de la sección. Comprobad visualmente que el valor esperado coincide con el punto sobre el cual el diagrama se mantendría en equilibrio.
Diagrama de barras Si ahora volvéis a mirar el diagrama de barras correspondiente a la variable “suma de dos caras del dado”, observaréis que es totalmente simétrico y que, por tanto, el centro de gravedad debe estar justo en el medio, y por eso podríamos saber que el valor esperado es 7 sin hacer el cálculo.
3.7. Algunas propiedades del valor esperado
1) El valor esperado de una constante es la propia constante. Una constante puede considerarse una variable aleatoria con un único valor k que acumula toda la probabilidad, 1. Tendremos
E(k) =
∑x
f ( x ) = k ⋅ 1 = k.
x
2) Si multiplicamos por una constante k una variable X, su valor esperado quedará también multiplicado por k, E ( kX ) = k E ( X ).
Esto es consecuencia de la definición, ya que kX es la variable aleatoria que tiene como valores los de X multiplicados por k y con idénticas probabilidades, por tanto, E ( kX ) =
∑ kx x
f ( x ) = k ∑ x f ( x ) = k E ( X ). x
3) Un cambio de signo de la variable cambia el signo del valor esperado.
Cambiar el signo es multiplicar por −1.
36
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
4) Si sumamos una constante a la variable X, el valor esperado queda también aumentado en k. La nueva variable aleatoria k + X toma los valores k + x, en los que x son los valores de X, por tanto, E(k + X) =
∑ (k + x)
f(x) =
x
∑ ( kf ( x ) + x
f(x)) =
x
= k ∑ f ( x ) + ∑ x f ( x ) = k ⋅ 1 + E ( X ). x
x
3.8. La esperanza de la suma La variable X, la suma de las caras de dos tiradas de un dado, la podemos ver (no la dejamos tranquila, a la pobre) como la suma de dos variables. Tenemos D1, el resultado de la primera tirada, y D2, el de la segunda, y resulta que
U observando que tiene una distribución simétrica y, por tanto, el valor esperado está en el medio.
X = D1 + D2. El valor esperado de cada una de las variables Di es 7/2, como podéis comprobar aplicando la definición. Comprobamos, por tanto, que aquí se cumple que la esperanza de la suma de las dos variables, E(X) = 7, es igual a la suma de las esperanzas, E(D1) + E(D2) = 7/2 + 7/2. La regla se cumple, en general, para cualquier par de variables aleatorias.
El valor esperado de la suma de dos variables aleatorias X, Y es la suma de valores esperados: E(X+Y) = E(X) + E(Y).
Si volvemos al paseo aleatorio, también podemos reinterpretarlo como la suma de cuatro variables: cada variable es una tirada de la moneda con resultados –1 y +1 y con valor esperado igual a 0,5 · (−1) + 0,5 · 1 = 0. Por tanto, el paseo aleatorio tendrá como valor esperado la suma de cuatro ceros, cero. Actividad 3.5. El tiempo de ejecución de un programa de ordenador es diferente según la diferente carga del sistema, ya que en el momento de arrancar el programa se le puede asignar un procesador u otro: • El programa Abacus tarda 20 minutos con probabilidad 1/3, 30 minutos con probabilidad 1/2 y 50 minutos con probabilidad 1/6. • El programa Windows tarda 5, 10 o 15 minutos con las mismas probabilidades. Supondremos que los tiempos de los dos programas son independientes para facilitar los cálculos que proponemos a continuación. Sea A la variable aleatoria “tiempo de ejecución de Abacus”, B la de “tiempo de ejecución de Windows”, y sea X la variable “tiempo de ejecución de ambos programas, uno tras otro”, de manera que X = A + B. a) ¿Cuáles son los posibles valores de A, B y X? b) ¿Cuál es la probabilidad de X = 25?
Ayuda: X = 25 es lo mismo que A = 20 ∩ B = 5, y puesto que son sucesos independientes...
FUOC • P01/81114/00246
37
c) Construid una tabla de doble entrada con las columnas encabezadas por los valores de A y las filas encabezadas con los de B. En los márgenes, los totales os vienen dados por los datos del enunciado. Las probabilidades conjuntas las podéis calcular fácilmente si tenéis en cuenta la independencia. d) Con vistas a la tabla, ¿cuál es la probabilidad del valor X = 35 que corresponde a dos casillas? e) Construid la tabla de la función de probabilidad de X, con sus valores y probabilidades respectivas. f) Calculad los valores esperados de A y de B e interpretadlos en el contexto del enunciado. g) Calculad el valor esperado de X y comprobad si coincide con la suma de los anteriores.
Los conceptos principales que hemos visto en este apartado son los siguientes: Variable aleatoria: función que da un número real para cada resultado del hecho aleatorio. Nos suele interesar qué valores posibles toma la función y cuál es la probabilidad de cada uno. Función de probabilidad de una variable aleatoria X: función que da, para cada valor de x de X, la probabilidad P[X = x]. También se llama función de masa de probabilidad de X. Simulación de una variable aleatoria: procedimiento por el cual se obtienen valores con la garantía de que responden a las mismas probabilidades que los de la variable aleatoria de interés. Valor esperado, esperanza o media: suma de los valores de la variable ponderados por sus probabilidades. Da una medida de tendencia central de la variable.
Introducción a la teoría de la probabilidad
Ayuda: recordad la regla de la unión.
38
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
4. Variables aleatorias (II): distribuciones acumuladas y varianza
En este apartado seguimos adelante en el estudio de las variables aleatorias discretas. Haremos un breve repaso de lo que hemos visto en el apartado anterior e introduciremos ideas nuevas, bueno, no tan nuevas, ya que son ideas para construir un modelo teórico sobre conceptos que ya conocéis. Convendrá que mantengáis frescas las ideas de dispersión, varianza y desviación estándar.
Repasad los conceptos de dispersión, varianza y desviación estándar en el apartado 4 del módulo I.
En este apartado sobre variables aleatorias aprenderéis: • qué es la distribución acumulada de probabilidad; • cómo la representamos gráficamente; • qué es, cómo se calcula y cómo se interpreta la varianza de una variable aleatoria; • cuáles son las propiedades principales de la varianza.
4.1. La función de distribución acumulada Hay situaciones en las cuales nos interesa, más que la probabilidad de un valor exacto de la variable, la probabilidad de que nos quedemos por encima o por debajo. Han aparecido algunos ejemplos de ello en el apartado anterior.
Para obtener esta probabilidad, se utiliza la función de distribución acumulada de probabilidad de una variable aleatoria X, que es la función: F ( x ) = P [ X ≤ x ].
En muchos casos resulta más sencillo hacer los cálculos con la función de distribución acumulada que con la función de probabilidad. Veremos ejemplos de ello más adelante.
4.1.1. Acumulamos probabilidades En el juego que ya hemos estudiado de tirar dos veces un dado y sumar las caras obtenidas, sabemos las probabilidades de cada valor. Ahora nos interesa disponer la información en forma acumulada. Actividad 4.1. Comprobad con la tabla II del apartado anterior si estamos acumulando correctamente.
Revisad el juego del dado del apartado 3 de este módulo didáctico.
Consultad la tabla II del apartado 3 de este módulo didáctico.
39
FUOC • P01/81114/00246
Valores posibles
Probabilidad
x
P[X = x]
2
1/36
3
3/36 = 1/12
4
6/36 = 1/6
5
10/36
6
15/36
7
21/36 = 7/12
8
26/36 = 13/18
9
30/36 = 10/12
10
33/36 = 11/12
11
35/36
12
36/36 = 1
Introducción a la teoría de la probabilidad
En la tabla tenemos, para cada valor, la probabilidad de que la suma de las caras quede por debajo o iguale el valor, o dicho de otro modo, que no supere el valor. Esto lo podemos representar en un gráfico de la manera usual:
Gráfico I
Una característica fundamental de la función de distribución acumulada es que siempre parte desde cero y llega a uno.
La función de distribución (no es necesario decir acumulada, se sobreentiende) nos permite calcular fácilmente y sobre todo visualizar características de la variable aleatoria que os sonarán, ya que son traducciones teóricas de ideas que ya habéis encontrado cuando habéis analizado datos empíricos.
La mediana de una variable aleatoria se define como el valor de x0,5 de la variable tal que la probabilidad acumulada es 0,5.
Si no hay ninguna confusión posible,... ... se sobreentiende que la función de distribución es acumulada. En inglés se denomina Cumulative Distribution Function, CDF.
FUOC • P01/81114/00246
40
Introducción a la teoría de la probabilidad
Gráfico II
La mediana y los cuartiles Sobre la distribución acumulada podemos visualizar la mediana y los cuartiles.
La mediana es el valor al que corresponde el 50% de la probabilidad acumulada. Sobre el gráfico de la función de distribución acumulada podemos resolver el cálculo de la mediana. Tomando 0,5 en el eje vertical, buscamos el valor de x al que corresponde, y obtenemos que la mediana es 7. Podemos hacer lo mismo para los cuartiles. El primer cuartil x0,25 es el valor que acumula el 25% de la probabilidad, y el tercer cuartil, x0,75, el 75%. Para encontrar los cuartiles realizamos el mismo procedimiento partiendo ahora desde 0,25 y 0,75 del eje vertical. Obtenemos x0,25 = 5 y x0,75 = 9. Como sabéis, los cuartiles nos dan una buena idea de la dispersión: en el caso de datos empíricos, interpretamos la dispersión como la mayor o menor distancia de los datos respecto al centro, la media. Aquí la interpretación es un poco distinta: es la masa de probabilidad la que está más concentrada o más dispersa respecto al centro, el valor esperado. Aquí, no obstante, como hemos visto con anterioridad, la principal medida de
Repasad la varianza en el apartado 4 del módulo I.
dispersión será la varianza. Actividad 4.2. Calculad la función de distribución acumulada de la variable Y generada por la cara más alta en dos tiradas de un dado, representadla gráficamente y calculad los cuartiles de la misma.
Revisad la función de probabilidad de la variable Y en el apartado 3 de este módulo didáctico.
4.2. Varianza Tenemos dos posibilidades en el momento de comprar acciones de 1.000 u.m. que cotizan en Bolsa: a) Una acción X que mañana puede valer 900, 1.000 o 1.100 u.m. con probabilidades respectivas de 1/3. b) La otra acción Y mañana puede valer 100 u.m. o 1.900 u.m. con probabilidad respectiva de 1/2.
¿Qué nos recomendáis?
41
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Resulta que tenemos:
1 1 1 a) E ( X ) = 900 ⋅ --- + 1.000 ⋅ --- + 1.100 ⋅ --- = 1.000. 3 3 3
1 1 b) E ( Y ) = 100 ⋅ --- + 1.900 ⋅ --- = 1.000. 2 2
Por lo tanto, la esperanza es la misma. Las expectativas de beneficio o pérdida son las mismas para las dos acciones, pero indudablemente son inversiones muy distintas: Y es mucho más arriesgada que X.
Gráficamente, ya vemos que el aspecto de las distribuciones de la probabilidad es muy distinto:
El valor esperado es el mismo, pero son casos muy diferentes.
Gráfico III
Observamos gráficamente que en el caso de la izquierda las probabilidades están mucho más concentradas alrededor del valor esperado 1.000 que no en el caso de la derecha, en el que están mucho más dispersas. El resultado es 1.000 en ambos casos, aunque el valor esperado no lo detecta. En los gráficos vemos el valor esperado en la forma de soporte de la balanza, y hemos visualizado también la medida de dispersión más habitual y que ya conocéis, las desviaciones.
La varianza de una variable aleatoria X es la siguiente: La varianza... 2
V( X) = E( ( X – E( X) ) ) =
∑ (x – E(X))
2
f ( x ).
x
Es decir, es la media o valor esperado de las desviaciones al cuadrado. Si esta media es elevada, significará que las desviaciones son altas y que hay mucha dispersión.
... mide la dispersión. En muchos casos, se puede interpretar como una medida de riesgo. En nuestro ejemplo, las dos acciones tienen el mismo valor esperado, pero la segunda representa una inversión mucho más arriesgada, ya que se puede ganar mucho más y también perder mucho más que con la otra.
42
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Hacemos los cálculos para el caso de las dos acciones de Bolsa: a) V ( X ) =
∑ (x – E(X ))
2
f(x) =
x
2 2 2 = ( 900 – 1.000 ) ⋅ 1 --- + ( 1.000 – 1.000 ) ⋅ 1 --- + ( 1.100 – 1.000 ) ⋅ 1 --- = 3 3 3 20.000 = ------------------ ⋅ 3 2 1 2 1 b) V ( Y ) = ( 100 – 1.000 ) ⋅ --- + ( 1.900 – 1.000 ) ⋅ --- = 810.000. 2 2
Incluso podemos poner los cálculos en una hoja de cálculo de manera que podamos experimentar, pero esto es vuestro trabajo: Gráfico IV
En la hoja de cálculo... ... tenemos los cálculos de la esperanza y la varianza para una variable de cinco valores.
Actividades 4.3. Introducid en una hoja del Excel los cálculos que aparecen en el gráfico IV. Tal como están en la hoja de cálculo, observad que en las filas 44 y 45 se han puesto, respectivamente, los valores de la variable y sus probabilidades. Los introducimos como nos parece y, cuando los modificamos, toda la hoja de cálculo se recalcula y nos muestra a la derecha el valor esperado y la varianza. En las filas de la 46 a la 49 hemos puesto los cálculos paso a paso para facilitar su comprensión. Tenemos, respectivamente, los productos de los valores por las probabilidades, las desviaciones, sus cuadrados y el producto de estos cuadrados por las probabilidades. De esta manera, en las casillas de resultados de la derecha sólo debemos sumar: en la casilla G46 sumamos toda la fila 46, y en la G49, la fila 49. Una vez construida la hoja, podéis jugar a cambiar los valores de X y sus probabilidades y ver cómo van cambiando el valor esperado y la varianza. Poned como valores de X los 1, 2, 3, 4, 5 y distribuid la probabilidad de manera que obtengáis varianza aproximadamente igual a 2. ¿Cómo debéis poner las probabilidades para obtener varianza cero? ¿Cómo debéis poner las probabilidades para obtener varianza máxima (con los mismos valores de X)? 4.4 Jugando a un juego de dados, nos planteamos una variable X igual a la suma de dos tiradas de dado (vieja conocida), y otra Y que es 2 multiplicado por el resultado de una sola tirada: a) ¿Cuáles son los valores posibles de las variables X, Y?
Si también añadís el gráfico, hay un premio de un pito y una pelota.
Tal como hemos comentado... ... al hablar del valor esperado, conviene que recordéis aquí que en el apartado 4 del módulo I también apareció la varianza. Calculábamos la varianza de unos datos procedentes de una muestra como la media de las desviaciones respecto a la media. Ahora hacemos lo mismo, pero la variable aleatoria representa los datos de la población.
43
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
b) ¿Cuáles son las probabilidades de cada uno de estos valores? c) ¿Cuáles son los valores esperados E(X), E(Y)? d) Antes de calcularlo, ¿qué opináis de las varianzas de X y de Y? ¿Serán iguales? ¿Cuál debería ser mayor? Calculadlas y contrastad el resultado.
4.2.1. Algunas propiedades de la varianza 1) La varianza de una constante es cero: V(k) = 0. Como ya hemos comentado, una constante se puede considerar una variable aleatoria con un único valor
Entender estas demostraciones no es muy importante, pero es una buena manera de asegurarse que se entiende el resto, que sí que es importante.
k que acumula toda la probabilidad, 1.
Tendremos E(k) = k y, por tanto:
V(k) =
∑ (x – E(k))
2
Nota
2
f ( x ) = ( k – k ) ⋅ 1 = 0.
x
2) Si multiplicamos por una constante k una variable X, su varianza queda multiplicada por k2: V(kX) = k2 V(X).
Esto es consecuencia de la definición, y de las propiedades del valor esperado, que nos permiten sacar las constantes fuera del valor esperado: V(kX) = V(kX) = E((kX – E(kX))2) = E(k2 (X – E(X))) = k2 E((X – E(X))).
3) Un cambio de signo de la variable no altera la varianza, un cambio de signo multiplica la variable por −1, la varianza quedará multiplicada por (−1)2.
V(X) = V(–X).
4) Un desplazamiento de la variable no modifica la varianza:
V(k + X) = V(X).
Esta propiedad se puede deducir de la manera siguiente: V(k + X) = E(((k + X) – E(k + X))2) = E((k + X – k – E(X))2) =V(X).
44
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
4.2.2. La varianza de una suma La última propiedad de la varianza que presentamos merece un apartado propio. Ya vimos cómo la variable X “suma de dos dados” se puede considerar la suma de
Revisad el apartado 3 de este módulo didáctico.
dos variables D1 y D2. La varianza de estas últimas es (el valor esperado es 3/2): 2 2 2 V( Di) = 1 – 3 --- ⋅ 1 --- + 2 – 3 --- ⋅ 1 --- + ... + 6 – 3 --- ⋅ 1 --- ≈ 2,917. 2 6 2 6 2 6
Revisad la tabla II que elaboramos en el apartado 3 de este módulo didáctico.
mientras que la varianza de X será: 2 2 2 1 1 1 V ( X ) = ( 2 – 7 ) ⋅ ------ + ( 3 – 7 ) ⋅ ------ + ... + ( 12 – 7 ) ⋅ ------ ≈ 5,833. 36 18 36
Vemos que se continúa cumpliendo que la varianza de la suma es la suma de varianzas, pero no siempre se cumplirá.
La varianza de la suma de dos variables aleatorias X, Y independientes es igual a la suma de las varianzas.
Esta propiedad no la demostraremos, pero observad un pequeño ejemplo que
Nota Si sabemos que las variables son independientes, podemos calcular la varianza de la suma sumando las varianzas. Si no, esto puede no ser cierto.
nos muestra que sin independencia la propiedad no puede funcionar:
?
4V ( X ) = V ( 2X ) = V ( X + X ) = V ( X ) + V ( X ) = 2V ( X ).
Dos variables X e Y son independientes si el hecho de saber el valor de una no altera la probabilidad de que la otra tome un valor u otro, es decir, si para cualquier valor x de X y cualquier valor y de Y se cumple lo siguiente: P[X = x | Y = y] = P[X = x].
Está claro que si lanzamos un dado dos veces, el resultado del segundo no está condicionado en absoluto por el primero. En cambio, si elegimos una bola de una urna que contiene tres bolas con los números 1, 2 y 3, y después elegimos otra sin haber devuelto la primera, el segundo resultado está condicionado por el primero. Tenéis, pues, un ejemplo de variables que no son independientes, pero ya volveremos a insistir en ello. En caso de tener diversas variables independientes, podremos aplicar las propiedades que ya conocemos de la varianza para obtener la varianza de la media.
Sabemos lo que significa sucesos independientes, pero, ¿qué significará exactamente variables aleatorias independientes?
45
FUOC • P01/81114/00246
La varianza de la media de n variables aleatorias independientes que tienen igual varianza V es V/n.
Puede ser interesante tener presente esta propiedad más adelante, la dejamos anotada aquí.
Los conceptos principales que hemos visto en este apartado son los siguientes: Función de distribución acumulada de probabilidad de una variable aleatoria X: función que para cada valor x de X da F(x) = P [ X ≤ x ] , es decir, la probabilidad de que X no supere x. También se denomina función de distribución. Varianza de una variable aleatoria X: valor esperado de la desviación respecto a la media al cuadrado: E((X – E(X))2). Variables aleatorias independientes: decimos que dos variables aleatorias son independientes si para cualquier valor x de X y cualquier valor y de Y, se cumple: P[X = x | Y = y] = P[X = x].
Introducción a la teoría de la probabilidad
FUOC • P01/81114/00246
46
Introducción a la teoría de la probabilidad
5. Distribuciones de probabilidad (I): distribuciones discretas
¿Qué probabilidad hay de que el mensaje que hemos enviado por correo electrónico no llegue a su destino? ¿Cuántos números de lotería tenemos que comprar si queremos tener buenas perspectivas de ganar un premio? ¿Podemos idear un sistema para ganar cuando jugamos en el casino? Todas estas cuestiones se pueden responder si consideramos las variables aleatorias y las probabilidades asociadas a las mismas. Hasta ahora hemos visto la manera de calcular y manipular probabilidades para valores específicos de una variable aleatoria. También hemos visto las probabilidades asociadas al conjunto entero de valores que puede tomar una variable aleatoria, es decir, la distribución de probabilidad. Ahora trataremos las distribuciones específicas de algunas variables aleatorias discretas, que en la práctica resultan muy útiles. En este apartado sobre distribuciones discretas aprenderéis: • qué es la distribución de Bernoulli; • qué es la distribución binomial; • qué es la distribución de Poisson; • varias propiedades y aplicaciones de estas distribuciones.
5.1. Distribuciones de probabilidad Una variable aleatoria discreta tiene unos cuantos valores, y cada uno de estos valores tiene una probabilidad de ser observado. En un ejemplo vimos las pro-
Leed las probabilidades de cada valor del paseo aleatorio al final del apartado 1 de este módulo didáctico.
babilidades de cada valor del paseo aleatorio, después de cuatro pasos: valores −4, −2, 0, 2 y 4 con probabilidades 1/16, 1/4, 3/8, 1/4 y 1/16. Podemos dibujar esta distribución de probabilidad como la del gráfico I (prestad atención a la página siguiente). En este caso, hablaremos de una distribución discreta por-
En el apartado 6 de este módulo didáctico trataremos de un caso un poco más difícil: una distribución continua.
que la variable aleatoria es discreta. Las propiedades importantes de una distribución son la esperanza y la varianza, que indican el centro y la dispersión de los valores. Como ya hemos visto, la esperanza es la suma de todos los valores de la distribución, ponderados por sus probabilidades, y la varianza es la suma de todas las desviaciones de la esperanza, elevadas al cuadrado, también ponderadas por sus probabilidades. Así pues, después de cuatro pasos, el paseo aleatorio tiene una esperanza y una varianza de: 1 + –2 ⋅ 1 1 = 0. --- + 0 ⋅ 3 --- + 2 ⋅ 1 --- + 4 ⋅ -----• Esperanza = – 4 ⋅ -----16 4 8 4 16
Revisad los conceptos de esperanza y de varianza en los apartados 3 y 4 de este módulo didáctico.
FUOC • P01/81114/00246
47
Introducción a la teoría de la probabilidad
2 1 2 1 2 2 1 3 1 • Varianza = 4 ⋅ ------ + 2 ⋅ --- + 0 ⋅ --- + 2 ⋅ --- + 4 ⋅ ------ = 4 . 16 4 8 4 16
Gráfico I
Actividad 5.1. Calculad la esperanza y la varianza del paseo aleatorio después de dos pasos y después de tres pasos. ¿Veis algún patrón en los resultados?
En este apartado presentamos cuatro distribuciones discretas importantes y las propiedades que tienen, y de qué manera nos pueden servir para resolver problemas prácticos.
5.1.1. Distribución de Bernoulli
La variable discreta más simple es la que tiene únicamente dos valores, por ejemplo, sí o no, o funciona o no funciona. La denominamos variable binaria o también variable de Bernoulli. Conviene codificar las dos categorías de una variable binaria con los valores 1 y 0.
Ejemplos de una variable de Bernoulli son los siguientes: • El resultado de lanzar una moneda al aire. • El resultado de un control de calidad: satisfactorio o defectuoso. • El resultado de un examen: aprobado o suspendido. • Un paso del paseo aleatorio: arriba o abajo. Una notación muy utilizada es hablar del 1 como un “éxito” y del 0 como un “fracaso”, en la cual el éxito es el resultado que tiene más interés. El éxito no debe ser el resultado positivo de la variable, puede ser, por ejemplo, el hecho de encontrar un sujeto con trastornos neurológicos, lo cual sería un desastre.
Jacob Bernoulli (1654-1705) Teólogo, matemático y astrónomo. En su obra Ars conjectandi enunció el llamado teorema de Bernoulli sobre cálculo de probabilidades.
48
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
El ejemplo clásico de una variable de Bernoulli es lanzar una moneda al aire y observar el resultado, cara o cruz. La cara sería, por ejemplo, el éxito y la cruz el fracaso. En este caso, la distribución de la probabilidad se corresponde simplemente con las dos probabilidades 0,5 y 0,5, asociadas a los valores 0 y 1 de la variable aleatoria. La codificación depende del contexto: en el paseo aleatorio utilizamos otros valores, −1 y 1, para los dos resultados porque queríamos indicar el movimiento arriba o abajo. La probabilidad de un éxito puede ser cualquier probabilidad. Por ejemplo, lanzáis un dado y, si sacáis, pongamos un 6, entonces ganáis; pero, si no, perdéis. La probabilidad de un éxito en este caso es 1/6 y la probabilidad de un fracaso es 5/6. Estos dos valores definen la distribución de la variable aleatoria, que podemos dibujar como: Gráfico II
Ahora que tenemos sólo dos valores, la esperanza y la varianza son fáciles de calcular: • Esperanza = E ( X ) =
∑x x
5 1 1 f ( x ) = 0 ⋅ --- + 1 ⋅ --- = --- = 0,1667. 6 6 6
• Varianza = = V(X) =
2 2 1 2f( x ) = 0 – 1 5 = 0,1389. --- ⋅ 5 --- + 1 – 1 --- ⋅ 1 --- = ----- 6 6 6 6 36
∑ x – --6- x
La distribución de Bernoulli con una probabilidad de éxito igual a p se escribe de la manera siguiente: p f(x) = 1 – p y la esperanza y la varianza son: • Esperanza = p. • Varianza = p (1− p).
si x = 1 si x = 0′
Releed el ejemplo del paseo aleatorio en el apartado 1 de este módulo didáctico.
FUOC • P01/81114/00246
49
Introducción a la teoría de la probabilidad
Actividad 5.2 Una variable aleatoria binaria tiene dos valores 1 o 0, con una probabilidad de 0,25 de que sea 1. ¿Cuáles son la esperanza y la varianza de la variable?
Muchas situaciones de la vida real se pueden describir mediante una distribución de Bernoulli. Nos encontramos constantemente ante situaciones en las cuales un determinado suceso puede producirse o no producirse, y pensamos en la probabilidad de que se produzca. Por ejemplo: a) Cuando compramos un billete de lotería, tenemos una cierta probabilidad p de ganar y (1 − p) de no ganar. Por lo tanto, podemos modelar esta situación mediante una distribución de Bernoulli, en la cual asociamos 1 al resultado de ganar y 0 al de no ganar. b) Cuando conducimos el coche, hay una cierta probabilidad de que tengamos un accidente. c) Un programador informático tiene una cierta probabilidad de introducir un virus en un programa de ordenador. De nuevo, esta posibilidad se puede modelar mediante una distribución de Bernoulli, con una probabilidad específica p. En la vida real, pocas veces estamos interesados en una sola realización de una prueba de Bernoulli. Utilizamos nuestros coches muchas veces y cada vez queremos conocer la probabilidad que hay de que tengamos un accidente. La gente, normalmente, compra muchos números de la misma lotería y puede estar interesada en saber cuánto han aumentado sus probabilidades de ganar. Por tanto, estamos interesados en las probabilidades de éxito de diferentes variables de Bernoulli, cada una con la misma probabilidad p de éxito. Esto nos conduce directamente a la distribución binomial.
5.1.2. Distribución binomial En el juego de la moneda o del dado estudiamos el comportamiento de un experimento que consiste en realizar una sola tirada. Para simular el juego repetimos muchas tiradas, y después examinamos las propiedades de estas repeticiones, por ejemplo, la media y la varianza. Ahora consideramos un juego más extenso, con muchos más de dos resultados posibles. Lanzamos el dado veinte veces, por ejemplo, y contamos el número de éxitos (número 6 del dado) en estas tiradas. La variable aleatoria es “número de éxitos en veinte tiradas” y tiene valores 0, 1, 2, ..., hasta 20.
Este tipo de variable se denomina variable aleatoria binomial. Cada valor tiene una probabilidad y el conjunto de probabilidades define la distribución binomial.
Leed la simulación del juego de la moneda o del dado en el apartado 1 de este módulo didáctico.
50
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Antes de calcular estas probabilidades, podemos obtener fácilmente la media o la varianza de la variable binomial, utilizando las propiedades ya conocidas de la distribución de Bernoulli y de la esperanza y la varianza de una suma de
Consultad la propiedad de la varianza de la suma en el apartado 4 de este módulo didáctico.
variables. Cada tirada del dado es o bien un éxito, con valor 1, o bien un fracaso, con valor 0, es decir, una variable de Bernoulli en este caso, con probabilidad 1/6 de éxito. El número de éxitos en veinte tiradas es simplemente la suma de los resultados de las veinte tiradas, a causa de los códigos 1 y 0 de la variable de Bernoulli. Entonces, la variable binomial es igual a la suma de una serie de variables de Bernoulli, en este caso a la suma de veinte de estas variables. Ya conocemos la esperanza y la varianza de una variable de Bernoulli, que nos da directamente la esperanza y la varianza de la binomial, así pues:
Variable binomial = suma de variables de Bernoulli.
En el apartado 3 vimos que la esperanza de una suma de variables es la suma de sus esperanzas.
--- = 3,333, esperanza, = 20 ⋅ 1 6 y, puesto que cada tirada es independiente de las demás, la varianza de la suma es la suma de las varianzas: 5 = 2,778 . varianza = 20 ⋅ -----36 La variable binomial y su distribución dependen de dos cantidades: p, la probabilidad de éxito en una tirada, y n, el número de tiradas. Denominamos n y p a los parámetros de la distribución. Valores diferentes de n y p describen situaciones distintas. En general, la esperanza y la varianza de la binomial son: • Esperanza de la binomial = n · p. • Varianza de la binomial = n · p · (1 − p).
Ahora veremos alguna aplicación de la variable binomial y su distribución. Imaginad que sois inspectores de enseñanza. Sabéis que el 3% de los niños puede presentar hiperactividad. Ahora, tomad al azar veinte niños de una escuela. El número de niños hiperactivos en esta muestra es una variable aleatoria binomial con n = 20 y p = 0,03. Estos valores 20 y 0,03, son todo lo que necesitamos para describir las probabilidades de detectar un número cualquiera, entre 0 y 20, de niños hiperactivos. La media y la varianza de esta distribución serán 20 · 0,03 = 0,6 y 20 · 0,03 · 0,97 = 0,582. Puesto que la media es 0,6, lo que parece más probable es que o bien no obtendremos ningún niño hiperactivo o bien obtendremos uno. Esto nos lleva a la distribución binomial: ¿cuáles son las probabilidades de cada valor de la binomial y, en particular, cuál es la probabilidad de que no haya nin-
Fijaos en este ejemplo... ... encontrar a un niño hiperactivo se interpreta como un éxito; así pues, vemos que un “éxito” no tiene que ser forzosamente un resultado positivo.
51
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
gún niño hiperactivo, o bien de que haya uno, dos, tres, etc., en la muestra de veinte? Como antes, llamamos f(x) a la función de probabilidad, en la que x es el número de niños hiperactivos, entonces: • La probabilidad f(0) de no obtener ningún niño hiperactivo se calcula fácilmente como el producto de las probabilidades de no ser hiperactivo:
Podemos hacer el cálculo de esta manera porque cada circuito es independiente de los demás.
f(0) = 0,97 · 0,97 · ... · 0,97 (veinte veces) = 0,9720 = 0,5438. Ahora calculemos la probabilidad f(1) de obtener exactamente un niño hiperactivo. Supongamos que este niño sea el primero de la muestra. Ahora bien, la probabilidad se calcula como un producto de veinte probabilidades, en el cual una de estas probabilidades es 0,03 y las otras son 0,97: 0,03 · 0,97 · ... · 0,97 = 0,03 · 0,9719 = 0,01682. Sin embargo, es posible que el niño hiperactivo sea el segundo de la muestra, el tercero, etc., o bien el vigésimo. Estos veinte resultados definen el suceso “hiperactivo”, todos tienen la misma probabilidad –0,01682– y todos son mutuamente excluyentes o incompatibles. Entonces, la probabilidad f(1) es igual a: f(1) = 20 · 0,01682 = 0,3364. • Hasta ahora, hemos calculado dos de los veintiún valores de esta distribución. Calculemos otro antes de deducir la fórmula general. Resulta más complicado encontrar la probabilidad f(2) de obtener exactamente dos niños hiperactivos, pero veremos que estamos realizando el mismo tipo de cálculo que cuando contábamos manos de póquer.
Revisad el cálculo que hicimos cuando contábamos manos de póquer en el apartado 1 de este módulo didáctico.
Supongamos que los dos primeros niños son hiperactivos. La probabilidad de este resultado particular es pequeña: 0,032 · 0,9718 = 0,0005202. No obstante, hay muchas otras maneras diferentes de observar a dos niños hiperactivos entre veinte, por ejemplo, el primero y el tercero, el primero y el cuarto, el segundo y el tercero, el segundo y el cuarto, etc., hasta el decimonoveno y el vigésimo. El número de parejas de niños que podemos seleccionar entre veinte es, como vimos: 20! 20 ⋅ 19 -------------- = ------------------ = 190. 2!18! 2⋅1 Así pues, la probabilidad de encontrar a dos niños hiperactivos es: f(2) = 190 · 0,0005202 = 0,09884, por tanto, un poco menos del 10%.
Recordad El número de maneras de tener x elementos extraídos de n elementos dados es: n! ------------------------- ⋅ x! ( n – x )!
52
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Podemos continuar así, pero ahora ya podemos deducir la fórmula general para la probabilidad de x niños hiperactivos. La probabilidad de tener x niños hiperactivos en un resultado específico es 0,03x · 0,9720−x, y hay los siguientes resultados posibles, todos con la misma probabilidad: n! ------------------------ ⋅ x! ( n – x )! Entonces la probabilidad f(x) del suceso es: 20! - ⋅ 0,03 x ⋅ 0,97 ( 20 – x ) . f ( x ) = --------------------------x! ( 20 – x )! Para cualquier n y p la probabilidad de x éxitos es la siguiente, que define la distribución binomial: n! - ⋅ p x ⋅ ( 1 – p ) ( n – x) ; f ( x ) = -----------------------x! ( n – x )!
x = 0, 1, 2, ...,n.
Podemos dibujar la distribución para nuestro ejemplo de n = 20 y p = 0,03: Gráfico III
Actividades 5.3. Tiramos cuatro dados al mismo tiempo. ¿Cuál es la probabilidad de obtener dos o más 6? 5.4. Suponed que en la actividad 5.3, dos dados tienen el mismo color rojo y los otros dos son negros. ¿Cuál es ahora la probabilidad de tener al menos dos 6 y de que al menos uno de estos 6 esté en uno de los dos dados rojos?
A menudo nos interesa saber la probabilidad de un conjunto de valores de la variable aleatoria, por ejemplo, la probabilidad de ganar un juego al menos una vez, o la probabilidad de encontrar hasta dos componentes defectuosos.
En el gráfico vemos que a partir de x = 5 las probabilidades son muy pequeñas.
53
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
En el ejemplo anterior con n = 20 y p = 0,03, la distribución acumulada se calcula de la manera siguiente: • F(0) = P(número de hiperactivos ≤ 0) = 0,5438. • F(1) = P(número de hiperactivos ≤ 1) = 0,5438 + 0,3364 = 0,8802. • F(2) = P(número de hiperactivos ≤ 2) = 0,5438 + 0,3364 + 0,09884 = 0,9790. Y así sucesivamente, hasta: • F(20) = P(número de hiperactivos ≤ 20) = 1.
La distribución acumulada Recordad que ya tratamos de la distribución acumulada en el apartado 4, definida como la suma de las probabilidades f(x) de una distribución para todos los valores de la variable menores o iguales a un valor específico. La distribución acumulada se escribe como F(x): F(x) =
∑ f ( y ).
y≤x
5.1.3. Distribución de Poisson
Otra distribución muy útil para modelizar el comportamiento de una variable discreta es la distribución de Poisson. Se puede considerar la distribución de Poisson como una aproximación a la distribución binomial cuando el número n es muy alto y la probabilidad p de un éxito es muy pequeña.
Un buen ejemplo de uso de la distribución de Poisson es el estudio de la fiabilidad de un componente electrónico en un periodo fijo de tiempo. Supongamos que un chip de un ordenador tiene una probabilidad de 0,00016 de fallar en diez años de utilización. Una empresa fabrica 50.000 chips y quiere saber cuál es la probabilidad de que no falle ninguno durante los siguientes diez años. Si utilizamos la distribución binomial, tenemos que n = 50.000 y p = 0,00016. La esperanza y la varianza son, pues: • Esperanza = n · p = 50.000 · 0,00016 = 8. • Varianza = n · p · (1 − p) = 50.000 · 0,00016 · 0,99984 = 7,9987. Puesto que (1 − p) está mucho más cerca de 1, la varianza es casi idéntica a la esperanza.
La distribución de Poisson tiene una fórmula matemática muy distinta de la binomial, pero veremos que es una buena aproximación a la binomial en esta situación.
La distribución de Poisson depende sólo de un parámetro, λ: f(x) = e
–λ
x
λ ----- ; x!
x = 0, 1, 2, ... Simeón Denis Poisson (1781 −1840) Matemático y físico francés.
54
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Una diferencia con la binomial es que la variable Poisson tiene valores de todos los enteros a partir de 0 hacia arriba –podemos decir que es una binomial con una n muy elevada, casi infinita.
Antes de comentar las propiedades de la distribución, comprobemos qué probabilidad nos da para el cálculo que acabamos de hacer. El valor de λ es la esperanza de la distribución binomial, n · p = 8; entonces la probabilidad de cero éxitos es: f(0) = e
–8
0
–8 8 ----- = e = 0,00033546. 0!
Comparando este valor con el valor 0,00033525, que obtendremos aplicando la fórmula de la distribución binomial, vemos que es diferente sólo en la cuarta cifra significativa.
La distribución de Poisson es excepcional, ya que la esperanza y la varianza son iguales: • Esperanza de la distribución de Poisson = λ. • Varianza de la distribución de Poisson = λ.
No obstante, ¿por qué necesitamos una distribución como la de Poisson si podemos calcular las probabilidades directamente con la binomial? La razón es que a menudo no sabemos los valores de n y p individualmente, sólo conocemos el valor del producto n · p. En este caso, podemos utilizar directamente la distribución de Poisson, con λ igual a n · p. Ejemplos de variables de Poisson
Un buen ejemplo de una variable de Poisson es la llegada de gente a una tienda o a un banco durante un periodo fijo, pongamos de cinco minutos. Otro ejemplo puede ser el número de personas que llama a un módem en un periodo de una hora, o el número de personas que visita una página web en Internet en un periodo de veinticuatro horas.
La variable aleatoria también puede ser el resultado del recuento en un espacio fijo, por ejemplo, el número de personas que hay en un cine, el número de personas que hay en una fila o el número de archivos por imprimir que hay en una cola de espera de una impresora en red.
Daos cuenta de que en cada caso se especifica un periodo de tiempo (o un espacio) fijo. Ahora bien, podemos imaginar este periodo de tiempo dividido entre
Si los sucesos tienen lugar en un espacio fijado, debemos imaginarnos el espacio dividido en muchos espacios pequeños.
55
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
centenares o millares de pequeños intervalos de tiempo, cada uno tan pequeño que sólo sea posible la ocurrencia de un suceso (llegada al banco, llamada al módem, conexión a la página web): 1) En el caso del banco, podemos dividir los cinco minutos en 300 segundos. Para cada segundo hay una determinada probabilidad de que una persona llegue al banco. El número de personas que llega en cinco minutos es equivalente al número de éxitos en trescientas pruebas, en las cuales la probabilidad de llegar en un segundo es muy pequeña. Supongamos que la media del número de personas que llega en cinco minutos es doce. Esto significará que la probabilidad de que una persona llegue en un determinado segundo es de 12/300 = 0,04. El parámetro λ es el único valor que necesitamos para describir la distribución. Para λ = 12 la distribución de Poisson tiene el siguiente aspecto:
Recordad La probabilidad de Poisson es la probabilidad de la binomial cuando el número n es muy alto.
Gráfico IV
2) Una media de 300 usuarios se conecta cada hora a un mismo servidor de Internet. El gestor de la compañía está interesado en saber la distribución de llamadas que se han recibido en un minuto. Se trataría de una variable de Poisson con parámetro λ igual a 300/60 = 5 llamadas por minuto. La distribución se puede obtener de la manera siguiente: f(x) = e
–5
x
5 ----- ; x!
x = 0, 1, 2, ...
Como campaña de marketing, la compañía quiere elegir aleatoriamente un minuto del día y ofrecer una conexión gratuita a todas aquellas personas que se conecten durante este minuto. ¿Cuál es la probabilidad de que nadie gane el premio? La probabilidad de que no haya ganadores es e–5 = 0,0067.
FUOC • P01/81114/00246
56
Introducción a la teoría de la probabilidad
Actividades 5.5. Todos los días se envían miles de mensajes por correo electrónico desde una universidad. Siempre que un mensaje tiene la dirección incorrecta vuelve al emisor. Hay una media de 150 mensajes devueltos al día. ¿Cuál es la probabilidad de que durante una determinada hora del día sólo retornen al remitente dos mensajes o menos? 5.6. Los cortes de electricidad son muy raros, la media de ocurrencia es de un par de veces al año. ¿Qué probabilidades hay de que haya un corte de suministro eléctrico en un determinado mes?
5.2. Breves notas para utilizar DemoProb DemoProb es un pequeño programa que permite analizar gráfica y numéricamente diferentes modelos de probabilidad y explorar cómo varían las funciones de probabilidad asociadas según los valores de los parámetros.
1) Arrancar el software
Para arrancar el software DemoProb sólo es necesario hacer doble clic sobre el icono correspondiente. Es indispensable que el archivo DemoProb esté en la misma carpeta que el archivo xlisp.wks. Una vez abierta la ventana llamada XLISP-STAT, seguramente os interesará maximizarla, lo cual podéis llevar a cabo con el botoncito central de arriba a la derecha de la ventana o haciendo doble clic sobre la barra de título.
Podéis ignorar (incluso cerrar) la ventana que lleva el título Listener; sólo os serviría si conocierais Lisp-Stat, un dialecto del lenguaje de programación Lisp con el cual se ha elaborado el programa DemoProb. 2) Elegir un modelo
Todo el control sobre DemoProb lo realizaréis por medio del diálogo de selección de modelo que veis a la derecha. Os permite decidir cuál de los seis modelos de probabilidad queréis explorar. Los tres primeros corresponden a variables discretas, los otros tres a variables continuas.
Una vez seleccionado el modelo con un clic del ratón, podéis pulsar el botón Ver modelo. Observad que los otros botones tienen también nombres muy explícitos.
3) Ajustar los parámetros de un modelo Una vez elegido el modelo, obtendréis dos ventanas de gráficos y un cuadro de control. Las ventanas gráficas, como podéis ver por el título, muestran la función de masa de probabilidad (o de densidad en caso de variables continuas) y la de distribución.
W1/00702.08 En la web de la asignatura encontraréis el programa DemoProb.
FUOC • P01/81114/00246
57
Hasta ahora hemos visto que hay tantas distribuciones binomiales como valores podemos dar a los parámetros n (el número de experimentos de Bernoulli independientes) y p (la probabilidad de éxito de cada uno). Las barras de desplazamiento del diálogo de control, llamadas n y p, permiten modificar los valores de los parámetros y muestran a la derecha, en todo momento, su valor actual. El botón Ayuda ofrece información sumaria sobre el modelo con el que estéis trabajando y el significado de sus parámetros. Después de cambiar los valores de algunos parámetros os puede interesar recalcular las escalas de los gráficos para verlos mejor. El botón Ajustar gráficos sirve para esto. Recordad que en una barra de desplazamiento podéis hacer clic sobre las flechitas que hay en los extremos de las barras (pequeños incrementos), o sobre las zonas grises a cada lado del cuadrito central (para cambiar el valor en saltos más grandes) y podéis también pulsar sobre el cuadrito central y arrastrarlo y dejarlo en el lugar deseado, para ir de pronto a un valor alejado.
Modelo binomial
4) Utilizar los gráficos Las ventanas gráficas de DemoProb también os pueden proporcionar información numérica sobre las probabilidades de los diferentes valores de la variable, acumuladas o no. En el ejemplo del margen, veis cómo haciendo clic sobre la columna del valor x = 5, obtenéis en la parte superior del gráfico la información de que la probabilidad es 0,067. Si hacéis lo mismo en la ventana de probabilidades acumuladas, veréis que la probabilidad acumulada para cualquier valor 5 ≤ x < 6 es 0,105.
Introducción a la teoría de la probabilidad
58
FUOC • P01/81114/00246
Otro aspecto interesante de las ventanas gráficas de DemoProb es que os podéis llevar una copia y pegarla en cualquier software Windows que acepte gráficos. Por ejemplo, la figura que veis a la derecha ha sido obtenida a partir del modelo normal, activando la ventana de la función de densidad y seleccionando Copiar del menú Edit. Después, simplemente Pegar en un documento de Word. También os lo podéis llevar a algún software de manipulación gráfica para añadirle o sacarle lo que queráis. 5) Notas técnicas DemoProb es un software desarrollado mediante Xlisp-Stat, un entorno de programación desarrollado por Luke Tierney en la Universidad de Minnessota, EE.UU. De hecho, la distribución de DemoProb incluye prácticamente el entorno Xlisp-Stat completo. La versión que se distribuye sólo puede funcionar sobre versiones de 32 bits de Windows (Windows95 o Windows 3.1 con los correspondientes añadidos). Remarcamos que es indispensable que el archivo llamado xlisp.wks permanezca en el mismo directorio que la aplicación principal DemoProb.
Los conceptos principales que hemos visto en este módulo son los siguientes: Variable de Bernoulli: variable discreta X, que tiene dos valores, 1, llamado éxito, y 0, llamado fracaso, con densidad de probabilidad: p si x = 1 f(x) = 1 – p si x = 0 y esperanza y varianza E(X) = p y V(X) = p(1 – p), respectivamente. Variable binomial: variable discreta X definida como la suma de n variables de Bernoulli independientes, cada una con probabilidad p de éxito, es decir, el número de éxitos en n pruebas. La densidad de probabilidad es: n x (n – x) f(x) = p (1 – p) ; x
x = 0, 1, 2, ..., n,
y la esperanza y la varianza son E(X) = np y V(X) = np(1 – p). Variable Poisson: variable discreta X, que es una aproximación de la variable binomial cuando n es grande y p pequeña. La densidad de probabilidad se define en función del parámetro λ = np: f(x) = e
–λ
x
λ ----- ; x!
x = 0, 1, 2, ..., n,
y la esperanza y la varianza son E(X) = λ y V(X) = λ.
Introducción a la teoría de la probabilidad
FUOC • P01/81114/00246
59
Introducción a la teoría de la probabilidad
6. Distribuciones de probabilidad (II): distribuciones continuas
En la práctica, todas nuestras observaciones son discretas. Sabemos que el tiempo es continuo, pero cuando decimos la edad que tenemos no decimos, por ejemplo, 24 años, 2 meses y 5 días, sino simplemente decimos 24. Cuando tomamos alguna medida, por ejemplo 14,3 cm, redondeamos el valor según la precisión del instrumento de medida o la precisión requerida para el estudio.
No obstante, en muchas situaciones la variable subyacente es una variable continua, en el sentido de que nosotros teóricamente podemos observar cualquier número, a pesar de que, en realidad, estamos interesados en los valores de la variable que están en un intervalo, por ejemplo, una fiabilidad de diez años o más, o llamadas de teléfono entre uno y cinco minutos de duración. La distribución de una variable de este tipo se llama distribución continua.
Las distribuciones continuas se utilizan frecuentemente en estadística, incluso en el estudio de variables discretas, porque representan aproximaciones útiles de las distribuciones discretas.
En este apartado sobre distribuciones continuas aprenderéis: • cómo se pueden definir los histogramas como densidades de frecuencia relativa; • qué es una densidad de probabilidad; • qué es una distribución normal.
Cuando hemos ilustrado una distribución discreta, hemos visto que la distribución se puede considerar como el conjunto de probabilidades calculadas de una muestra muy grande de sucesos. De la misma manera, ahora consideraremos muestras muy grandes para ilustrar el concepto de distribución continua.
6.1. Histogramas que muestran la frecuencia relativa
Todos los ejemplos de histogramas que hemos visto han sido representaciones gráficas de un número relativamente pequeño de observaciones.
Revisad las distribuciones discretas en el apartado 5 de este módulo didáctico.
FUOC • P01/81114/00246
60
Introducción a la teoría de la probabilidad
Por ejemplo, si considerásemos un conjunto de alturas de hombre, el histograma podría tener el aspecto siguiente: Gráfico I
Con el conjunto de datos de las diferentes alturas de un grupo de hombres podemos construir un histograma.
La escala vertical está en unidades de frecuencias absolutas, por ejemplo: podemos ver que hay quince hombres con una altura entre 1,70 y 1,75 m. Es más conveniente expresar la escala vertical en unidades de frecuencia relativa o proporciones. Esto significa que calculamos la proporción de hombres que hay en cada clase de altura del histograma, lo cual determina la altura de las barras: Gráfico II
Fijaos en que la forma del histograma es idéntica, lo único que ha cambiado es la escala vertical. En lugar de ser en frecuencias absolutas, ahora está en proporciones del recuento total n.
6.2. Histogramas que muestran la densidad de frecuencia relativa Ahora imponemos un requisito más en el momento de elaborar el histograma: queremos que el área de todas las barras juntas sea exactamente 1. Sabemos que la suma de las alturas de las barras en el gráfico II es exactamente 1, de
FUOC • P01/81114/00246
61
manera que, si la anchura de cada barra fuera una unidad sobre la escala horizontal (metros), entonces el área total de las barras sería 1. Sin embargo, la anchura de cada barra es de 0,05 m (5 cm), de manera que el área de todas las barras es exactamente 0,05. Por tanto, hacer que el área de este histograma en particular sea exactamente 1 es sencillo, simplemente tenemos que volver a cambiar la escala vertical multiplicándola por 20: Gráfico III
El resultado de este proceso se denomina histograma de densidad de frecuencia relativa, o simplemente histograma de densidad. En lugar de leer las alturas de las barras para evaluar la proporción de hombres que hay en ciertas clases de altura, ahora la regla es calcular el área de las clases correspondientes. Por ejemplo, imaginemos que en el gráfico III queremos calcular la proporción de hombres que tienen alturas superiores a 1,8 m en este conjunto de datos. Para calcularlo tenemos que evaluar el área de la zona sombreada en el gráfico IV: Gráfico IV
6.3. Densidades de probabilidad Ahora imaginémonos que hemos reunido muchas observaciones de alturas de hombres. Cuantos más datos tengamos, más pequeños podremos hacer los in-
Introducción a la teoría de la probabilidad
FUOC • P01/81114/00246
62
tervalos de clase. Supongamos que tenemos unos cuantos miles de observaciones y que podemos definir unas clases muy estrechas, por ejemplo: intervalos de 1 cm (0,01 m). La densidad de frecuencia podría tener esta apariencia: Gráfico V
La regla para calcular la proporción de hombres en determinadas clases de altura sería la misma que antes: calcular el área de la densidad que corresponde a las clases. Ahora imaginaos que hemos reunido muchísimas observaciones; por ejemplo, las alturas de todos los hombres de Cataluña, y supongamos que hemos tomado las alturas al milímetro. En este caso, la densidad de frecuencia sería aún más lisa, ya que definimos longitudes de clase más estrechas, y podría resultar aproximadamente así: Gráfico VI
Denominamos a este tipo de curva tan lisa curva de densidad de probabilidad. Su forma lisa es una curva teórica que resume las proporciones (o proba-
Introducción a la teoría de la probabilidad
63
FUOC • P01/81114/00246
bilidades) tal como son en una determinada población (por ejemplo, todos los hombres de Cataluña). Desde una curva así podemos evaluar la proporción (o probabilidad) de cualquier intervalo de alturas calculando el área bajo la curva para este intervalo. Por ejemplo, el área sombreada en el gráfico VI muestra la proporción relativa de hombres con una altura entre 1,60 y 1,65 m. Puesto que la anchura del intervalo es de 0,05 y el área formada tiene aproximadamente una altura de 1,4, el área es aproximadamente 1,4 · 0,05 = 0,07; es decir, más o menos el 7% de la población tiene una altura entre 1,60 y 1,65 m.
Introducción a la teoría de la probabilidad
Pensad en ello En el ejemplo de las alturas, ¿tiene sentido pedir qué proporción de la población mide exactamente 1,65 m? La respuesta debería ser que no se puede saber, y tendríamos que cambiar la pregunta por: ¿qué proporción de la población tiene una altura redondeada en 1,65 m?
6.4. Definición matemática de una distribución continua Pasar matemáticamente de distribuciones discretas a distribuciones continuas es relativamente fácil. Todas las definiciones y los tipos de cálculos que hacemos para las distribuciones discretas se aplican también a las distribuciones continuas. La principal diferencia que hay es que para las variables continuas no tiene sentido hablar de la probabilidad de un único valor, sino que se debe hablar de la probabilidad de un conjunto de valores de un intervalo. En lugar de una función discreta de probabilidad, tenemos una función continua f(x), como ya hemos visto antes. La suma de probabilidades en el caso discreto se sustituye por la integración de probabilidades en el caso continuo. Por ejemplo, sea f(x) la densidad de probabilidad del gráfico VI. Para calcular la probabilidad exacta de una altura entre 1,60 y 1,65 m, tendríamos que in-
La integral ∫ tiene la forma de una “S” para la suma: es una suma del área bajo la curva de densidad de probabilidad.
tegrar la función entre los límites 1,60 y 1,65:
P ( 1,60 ≤ X ≤ 1,65 ) =
1,65
∫ 1,60 f ( x )
dx.
De la misma manera que la suma de todas las probabilidades de una distribución discreta es igual a 1, la integral de la unión de probabilidad entre los límites extremos de la variable continua es igual a 1. Si no estamos seguros de los límites, y puesto que la distribución tiene valor cero fuera de los límites de la variable, podemos poner límites − ∞ y +
∫ –∞ f ( x ) dx ∞
∞
Recordad
para cubrir todas las posibilidades:
= 1.
De manera similar, puesto que la media (o valor esperado) de una variable aleatoria discreta se definía como su media ponderada, tenemos:
∑ x f( x) , x
ponderando cada valor discreto x por su correspondiente probabilidad de ocurrencia f(x); en el caso de una distribución continua el valor esperado µ es la
64
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
integral de todos los valores de la variable multiplicados por la función de densidad de probabilidad:
∞
∫ –∞ x
f ( x ) dx,
µ
=
=
∫ –∞ ( x – µ )
y la varianza es:
σ
2
∞
2
f ( x ) dx.
Resumen del CD El CD empieza con una breve introducción a los aparentes bajadas en las medias de bateos de los jugadores profesionales de béisbol a lo largo de este siglo (una cuestión a la que volveremos al final del CD).
Consultad la unidad 7 del CD.
Después presenta un histograma de la distribución de sueldos en una gran empresa. Para presentar sólo el perfil general, podemos dibujar una curva suave a lo largo de la parte superior de las barras del histograma. Podemos hacer que el área bajo esta curva sea exactamente igual a 1; en este caso la curva se denomina curva de densidad. En particular, esta curva de densidad es asimétrica por la derecha. Vemos otra curva de densidad, en esta ocasión de alturas de chicas, que parece bastante simétrica. Se supone que esta curva resume la distribución de todas las chicas, no de una pequeña muestra, y la emplearemos para calcular la proporción, o el porcentaje, de chicas de cualquier conjunto de alturas, por ejemplo, Todas las mujeres que pasen de 5 pies y 10 pulgadas. La curva de densidad particularmente simétrica que tenemos aquí se denomina curva normal. Tiene aspecto de campana y permite responder a muchas cuestiones estadísticas. Con la ayuda del CD aprendemos que la curva normal la describen totalmente su media aritmética, indicada por µ , y su desviación estándar, indicada por σ . Todas las curvas normales son iguales cuando miden la distancia en desviaciones estándar con respecto a la media aritmética. Todas contienen el 68% del área bajo la curva de una desviación estándar, el 95% bajo la de dos desviaciones estándar y el 99,7% bajo la de tres desviaciones estándar. Si queremos comparar medias de bateo de jugadores de béisbol de varios periodos, tenemos que observar cuántas desviaciones estándar hay desde la media aritmética, para lo cual tenemos que utilizar ahora la distribución de las medias de bateo. Dividir la desviación de una observación con respecto a la media aritmética por la desviación estándar se denomina estandarizar una observación. Vemos que, cuando estandarizamos las medias de bateo de los mejores jugadores de 1911 y de 1980, estos jugadores están igualmente sobre la media. La desviación estándar ha disminuido con el tiempo, ha causado la apariencia mencionada al principio del CD –en realidad, el patrón del juego ha mejorado.
6.5. La densidad normal Fijaos en que no es necesario que la densidad de las alturas de hombre resulte tan simétrica como hemos mostrado en los gráficos. En el CD hemos visto un ejemplo de una curva de densidad que era bastante asimétrica. Sin embargo, hay muchas situaciones en estadística en las que consideramos curvas de densidad que parecen aproximadamente simétricas y con forma de campana como los gráficos anteriores. Hay una densidad de probabilidad teórica que es la más útil que tenemos al alcance: se denomina densidad normal. En los siguientes apartados mostraremos has-
Pensad en ello ¿Qué es lo que determina la forma de la campana de una distribución normal? Los errores que se producen al medir muchas veces una misma magnitud siguen una distribución normal. Gauss lo estudió y encontró la fórmula matemática que describe esta distribución. De Moivre obtuvo este tipo de curva antes que Gauss, a partir de estudios sobre algunos juegos de azar, pero no dio la fórmula matemática.
65
FUOC • P01/81114/00246
ta qué punto la distribución normal es corriente y por qué es tan importante. De momento, veamos sus propiedades y cómo podríamos relacionar datos que tienen histogramas aproximadamente de este perfil con la densidad normal.
6.5.1. Propiedades de la densidad normal
Las curvas normales tienen la forma característica y simétrica de campana:
Gráfico VII
Introducción a la teoría de la probabilidad
Nota Cuando hablamos de densidad normal, queremos decir específicamente la curva de densidad normal. El CD ilustra que todas las curvas de densidad normal tienen el mismo perfil general, la única diferencia entre sí es que se pueden centrar en varias posiciones (de acuerdo con su media aritmética) y pueden tener varias dispersiones (de acuerdo con su desviación estándar).
Puesto que la curva es simétrica, la media aritmética y la mediana son las mismas, justo en el centro de la curva. La densidad normal es un concepto teórico, y utilizamos letras griegas para representar la media aritmética y la desviación estándar: • La media aritmética de un conjunto de observaciones se representaría con x , pero, para una curva de densidad normal ideal, nosotros representamos su media aritmética teórica, situada justo en el punto medio de la curva, con µ . • La desviación estándar de un conjunto de observaciones se representaría con s, pero para la densidad normal nosotros representamos su desviación con σ . Una propiedad muy atractiva de la densidad normal es que la curva se describe totalmente con su media aritmética µ y con la desviación estándar σ . Denominamos µ y σ a los parámetros de la distribución normal.
6.5.2. Definición de una densidad normal
La función de probabilidad de una distribución normal es la siguiente: (x – µ )
2
– -------------------1 f ( x ) = --------------- e 2 σ 2 . 2π σ
Observad... ... que a menudo empleamos el término distribución normal en este contexto y decimos que los datos están distribuidos normalmente.
FUOC • P01/81114/00246
66
Introducción a la teoría de la probabilidad
6.5.3. Algunas áreas bajo la curva normal Una propiedad muy útil de la densidad normal es que, en términos de desviación estándar, los cálculos del área bajo la curva son los mismos para todas las densidades normales. Por ejemplo, para cualquier densidad normal, el área bajo la curva para el intervalo descrito por una desviación estándar a un lado u otro de la media aritmética es la misma: 0,68. En otras palabras, el 68% de las unidades de población tiene valores entre la media aritmética menos una desviación estándar y la media aritmética más una desviación estándar. Si vamos a dos desviaciones estándar a un lado u otro de la media aritmética, el resultado es 0,95 –o el 95%. Y si vamos más allá, como tres desviaciones estándar a un lado u otro de la media aritmética, entonces hemos cubierto casi toda la población: 0,997 –o el 99,7%–; es decir, solamente el 0,3% de la población queda fuera de este intervalo. En el CD, esto se denomina regla 68-95-99,7; pero también se puede calcular con múltiplos de desviaciones que no sean números enteros de las desviaciones estándar. Por ejemplo, para cualquier densidad normal, si tomábamos 1,645 desviaciones estándar a un lado u otro de la media, tendríamos 0,90 –o el 90%– del área cubierta: Gráfico VIII
Suponed que las alturas de los hombres siguen una curva de densidad normal con una media aritmética de 1,69 m y una desviación estándar de 0,15 m. Entonces, por la regla de 68-95-99,7 podemos deducir que: • La altura del 68% de los hombres está entre 1,54 m y 1,84 m. • La altura del 95% de los hombres está entre 1,39 m y 1,99 m. • La altura del 99,7% de los hombres está entre 1,24 m y 2,14 m. Además, sabiendo que 1,645 desviaciones estándar alrededor de la media aritmética incluyen el 90% del área bajo la curva, podemos deducir también que:
• La altura del 90% de los hombres está entre 1,69 m – 1,645 · 0,15 m = 1,443 m y 1,69 m + 1,645 · 0,15 m = 1,937 m.
Densidad normal La función de densidad normal fue descubierta por Karl Friedrich Gauss, un matemático autodidacta que vivió en Alemania desde 1777 hasta 1855. La distribución normal a menudo se llama distribución de Gauss en su honor. La fórmula matemática que la define y la curva de densidad se ilustran actualmente en el billete alemán de diez marcos.
67
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Con tablas estadísticas (o utilizando un ordenador) podemos obtener el área bajo cualquier parte de la curva normal. De esto hablaremos con detalle en el siguiente apartado.
6.6. Estandarizar El primer paso en el momento de relacionar un valor dado con una densidad normal es expresar el valor con un número de desviaciones estándar desde la media aritmética. Este proceso se denomina estandarizar el valor. Empleando el mismo ejemplo de una densidad normal de las alturas de los hombres con una media aritmética de 1,69 m y una desviación estándar de 0,15 m, imaginémonos que queremos saber la proporción de hombres con una altura superior a 2,00 m. Queremos saber en cuántas desviaciones estándar este valor está sobre la media aritmética. La diferencia entre 2,00 y la media aritmética 1,69 es 0,31. Puesto que la desviación estándar es 0,15, este valor es, por tanto, 0,31/0,15 = 2,067 desviaciones estándar sobre la media aritmética. El valor 2,067 es el valor estandarizado de la altura 2,00 m. Normalmente, representamos el valor estandarizado con la letra z. En general, cuando tenemos una densidad normal con media aritmética
µ
y
desviación estándar σ , estandarizamos un valor x restando la media aritmética y después dividiendo el resultado por la desviación estándar: x–µ z = ------------ . σ
Para obtener la proporción concreta de hombres sobre 2,00 m, necesitamos conocer el área bajo la curva normal sobre el valor estandarizado de 2,067. Todo lo que sabemos de momento es que, sobre dos desviaciones estándar desde la media aritmética (por ejemplo: sobre un valor estandarizado de 1,69 + 2 · 0,15 = 1,99 m), el área bajo la curva es del 2,5%, tal como se ilustra en el gráfico siguiente: Gráfico IX
68
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Por tanto, sabemos que la proporción de hombres será justo el 2,5%, pero no sabemos exactamente cuánto. Éste es el tema del apartado que viene a continuación.
6.7. La paradoja de los jugadores de béisbol Ahora podemos comprender el razonamiento de Stephen Jay Gould en el momento de explicar por qué en la actualidad no hay jugadores de béisbol con medias de bateo tan altas como en otras épocas de este siglo. Observad que la variable es la media de bateo –es una media de la habilidad para batear de un jugador en particular. Vemos que la media aritmética de media de bateo se ha mantenido más o menos igual a lo largo de los años, pero la desviación estándar ha disminuido. En realidad, esto es resultado de la mejora general de todos los jugadores, pero sí significa que ahora hay menos oportunidades para que un jugador consiga una puntuación alta. Al mismo tiempo que la desviación estándar disminuye, el área bajo la curva de densidad normal para una media de bateo superior a 0,400 también disminuye. En el CD vemos las medias de bateo estandarizadas de ciertos campeones de varios años y vemos que sus valores estandarizados no han cambiado demasiado: aún son tan excelentes como cada uno de ellos en su propio tiempo. Hagamos, sin embargo, otro cálculo con un ejemplo más de estandarización. En el CD vemos que la media aritmética de media de bateo era 0,260 en la década de los setenta, con una desviación estándar de 0,049. El valor estandarizado que corresponde a un valor de 0,400 es, pues: 0,400 – 0,260 -------------------------------------- = 2,857. 0,049 En otras palabras, en la década de los setenta una media de bateo de 0,400 era 2,857 desviaciones estándar sobre la media aritmética; por tanto, había una proporción muy pequeña de jugadores en esta parte extrema de la distribución. En la década de los treinta, la desviación estándar se ve que ha bajado a 0,031, mientras que la media aritmética no ha cambiado, de manera que el valor estandarizado para 0,400 ahora es: 0,400 – 0,260- = 4,516. ------------------------------------0,032 Esto es cuatro desviaciones estándar y media de la media aritmética; por tanto, ahora hay una proporción próxima a cero bajo esta parte tan alejada de la curva. Por eso, ya casi no hay jugadores que consigan obtener una media de bateo tan alta como 0,400.
La media de bateo es una media de la habilidad para batear de un jugador en particular.
FUOC • P01/81114/00246
69
Introducción a la teoría de la probabilidad
Ahora consultad de nuevo la unidad 7 del CD. Centraos en la manera como el histograma de una muestra de datos pasa a ser suave cuando observamos muchísimos valores. Reflexionad acerca de por qué es conveniente redefinir la escala de la distribución teórica de manera que la curva de densidad tenga un área total de 1 y nos permita evaluar proporciones en cualquier parte de la curva calculando el área correspondiente. Observad el perfil de la curva de densidad normal y cómo su centro, la media aritmética y su dispersión, la desviación estándar, la definen completamente, y tomad nota del hecho de que ciertos porcentajes fijos del área bajo la curva están dentro de 1, 2 y 3 desviaciones estándar de la media aritmética.
Los conceptos principales que hemos visto en este apartado son los siguientes: Curva de densidad: función continua de probabilidad que tiene un área total de 1 bajo la función, la cual se supone que representa la distribución teórica de una variable aleatoria continua. Frecuencia relativa: proporción, o frecuencia relativa al total; por ejemplo, si 33 hombres de 215 miden entre 1,8 m y 1,9 m, entonces la frecuencia relativa es 33/215 = 0,153 –o el 15,3%. Distribución normal: curva de densidad específica muy utilizada como distribución estadística, simétrica, completamente descrita por su centro, la media aritmética µ y su dispersión, la desviación estándar σ . Estandarización: acción de expresar un valor x como el número de desviaciones estándar con respecto a la media aritmética; por ejemplo, si una densidad normal tiene la media aritmética 245 y la desviación estándar 61, entonces el valor 150 tiene un valor estandarizado de (150 – 245)/61 = − 1,56; en otras palabras, el valor 150 está 1,56 desviaciones estándar bajo la media aritmética.
Consultad la unidad 7 del CD.
FUOC • P01/81114/00246
70
Introducción a la teoría de la probabilidad
7. Distribuciones de probabilidad (III): distribución normal
Continuamos el estudio de la curva de densidad normal. En este apartado calculamos áreas bajo cualquier parte de la curva de densidad, entre cualesquiera valores estandarizados. Esto nos proporcionará estimaciones de la frecuencia relativa, o probabilidad, de un conjunto determinado de valores de la población. Utilizamos una curva de densidad normal particular, conocida como densidad normal estándar, que tiene media aritmética 0 y varianza 1. Esta curva se define en términos de una variable que está expresada en unidades de desviaciones estándar de la media aritmética, de manera que se pueden transmitir los valores estandarizados directamente a esta curva de densidad. Las tablas que dan el área de la densidad normal se utilizan hasta un valor en particular para obtener las estimaciones de probabilidad que necesita. En este apartado sobre la distribución normal aprenderéis: • qué es una distribución normal estandarizada; • cómo se utilizan las tablas de la distribución normal estandarizada para buscar áreas (probabilidades) bajo la curva normal, entre dos valores; • cómo se utilizan las tablas para buscar valores entre los cuales un área específica queda bajo la curva normal; • cómo se puede utilizar el Excel para hacer los mismos cálculos. Resumen del CD La primera parte de este CD trata de las pruebas de prototipos de motores de coche de niveles de contaminantes en las emisiones de los tubos de escape. Los investigadores y las investigadoras suponen que la cantidad de óxidos de nitrógeno emitidos por los motores de un tipo específico sigue una distribución normal. La media aritmética y la desviación estándar de esta distribución se obtienen sometiendo a pruebas a un gran número de prototipos de motor. Después se utiliza la distribución normal para calcular qué porcentaje de motores tiene emisiones por encima del límite legal. En primer lugar, se estandarizan las observaciones restando la media aritmética y dividiendo el resultado por la desviación estándar, tal como explicábamos en el apartado anterior. Las observaciones estandarizadas siguen la distribución normal estándar, con media aritmética 0 y desviación estándar 1, de manera que a continuación necesitamos tener la posibilidad de evaluar cualquier área que elijamos bajo la curva de densidad normal estándar. Las tablas normales estándar dan estas frecuencias relativas de la manera siguiente: para cualquier valor estandarizado z podemos buscar el área bajo la densidad normal estándar hasta el valor z. Aplicando esto al problema que tenemos entre manos, el CD muestra cómo el límite NOX de 1 gramo por milla se convierte en un valor estandarizado de 0,44. Si se busca este valor en las tablas normales estándar se obtiene una probabilidad de 0,67 –o del 67% menos que este valor. En otras palabras, se estima que el 33% de los motores produce emisiones NOX por encima del límite. El segundo ejemplo es el estudio del ejército de Estados Unidos sobre las medidas de la cabeza de los soldados para mejorar el diseño del casco. El ejército quiere identificar el 5% de los soldados con las cabezas más grandes. De nuevo, se supone una distribución normal de medidas de cabeza, y de los estudios se estima que la media aritmética de medida de cabeza es 22,8 pulgadas, y la desviación estándar, 1,1 pulgada. Éste es el problema contrario: conocemos el área (0,05) y queremos saber desde qué valor hacia arriba separa
Consultad la unidad 8 del CD.
Usamos la abreviación NOX para referirnos al óxido de nitrógeno.
71
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
0,05 bajo la curva de densidad normal. Por las tablas podemos ver que el valor estandarizado de 1,65 separa el 5% de densidad normal estándar de encima. Ahora debemos convertir esta cifra de 1,65 desviaciones estándar por encima de la media aritmética a las unidades originales, y en el CD vemos que esto nos da el valor 24,6 pulgadas. Por lo tanto, de este modo el 5% de los soldados tiene medidas de cabeza superiores a 24,6 pulgadas.
Recordad Para estandarizar un valor: restadle la media y dividid el resultado por la desviación estándar.
7.1. Presunción de normalidad Aquí deberíamos enfatizar que el uso de la distribución normal como ideal teórico para una población de unidades, como las alturas de las chicas, las emisiones de NOX de los motores de los coches o las tallas de la cabeza de los soldados, es una presunción y, en la mayoría de los casos, una aproximación a la realidad. Si vemos que el histograma de algunos valores reales es más o menos simétrico y aproximadamente acampanado, entonces la presunción de normalidad es razonable. Sin embargo, de lo contrario no deberíamos usar la distribución normal. En apartados posteriores trataremos de las situaciones en las que se justifica la distribución normal por otras razones teóricas. De momento simplemente suponemos que es válido familiarizarse con las propiedades de la distribución y con las tablas normales estándar.
7.1.1. Curva de la densidad normal estándar
Puesto que todas las curvas de densidad normal tienen las mismas propiedades y difieren solamente en su centro (media aritmética) y la dispersión (desviación estándar), nosotros nos centraremos sólo en una de éstas, la de la densidad normal estándar.
La curva de la densidad normal estándar es la distribución de una variable normal estandarizada z, que tiene la media aritmética 0 y la desviación estándar 1.
Suponemos que la variable X tiene una distribución normal (pensad que X es una variable como el nivel de emisiones de NOX, en gramos por milla), y suponemos que la verdadera media aritmética de esta variable en la población de unidades considerada es un determinado valor que representamos por µ . También suponemos que la desviación estándar de X en la población de unidades es un valor que representamos por σ . Para estandarizar esta variable hemos visto que primero restamos la media aritmética
µ
de la variable para
obtener una desviación desde la media aritmética y después dividimos esta desviación por la desviación estándar
σ.
Esta nueva variable estandarizada,
Nosotros normalmente... ... decimos media aritmética 0 y varianza 1; pero, puesto que la desviación estándar es la raíz cuadrada de la varianza, la desviación estándar y la varianza son idénticas.
72
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
que representamos por Z, se denomina variable normal estandarizada, y se representa así: X–µ Z = -------------. σ
Fijaos en el uso de letras mayúsculas para la variable en general. Podríamos escribir “emisiones NOX estandarizadas” para el símbolo Z y “emisiones NOX” para la variable X. Cuando tenemos valores específicos de X, entonces los escribimos en minúsculas, de manera que para un valor específico x tenemos una fórmula similar, que conduce a valores estandarizados específicos: x–µ z = ------------ . σ
La variable Z sigue una distribución normal estándar, con media igual a 0 (ya que le hemos restado la media aritmética) y desviación estándar 1 (ya que la hemos dividido por la desviación estándar). Siempre estandarizamos los datos normalmente distribuidos, de manera que podremos usar simplemente una curva de densidad normal, la de la densidad normal estándar. Esta curva se muestra en el gráfico I. Gráfico I
Fijaos... ... en la escala de densidad de la izquierda y recordad que el área total bajo la curva es igual a 1.
7.1.2. Cálculo de áreas para la distribución normal estándar Hemos suministrado las tablas del área bajo la curva de densidad normal estándar. Las podemos usar para obtener la probabilidad de cualquier intervalo que elijamos. El CD muestra cómo se usan estas tablas, pero aquí damos algunos ejemplos más. Primero permitidnos comprobar la regla 68-95-99,7. Fijaos en que las tablas normales dan el área bajo la curva normal hasta un cierto valor z, de manera que,
Encontraréis la tabla de las áreas bajo la curva normal estándar en el anexo 1.
73
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
a medida que z aumenta, el valor en la tabla sube, empezando por una probabilidad muy pequeña (0,0003) para el valor –3,40 en la parte superior izquierda de la tabla, hasta una probabilidad 0,9998 para el valor 3,49 en la parte inferior derecha de la tabla. Para ver el área en una desviación estándar de la media aritmética, tendríamos que buscar el valor z = –1,0; y vemos en la fila etiquetada –1,0 y la columna 0,00 la probabilidad de 0,1587. Ésta es la probabilidad de un valor menor o igual que –1. No obstante, queremos saber la probabilidad entre –1,0 y 1,0. Puesto que la densidad normal es simétrica, sabemos que a la derecha de +1,0 habrá exactamente la misma área de 0,1587. De esta manera hay un área de 2 · 0,1587 = 0,3174 fuera del intervalo que consideramos. Puesto que el área bajo la curva completa es 1, simplemente restamos 0,3174 del valor 1 para obtener nuestro resultado: 1 – 0,3174 = 0,6826. Esta probabilidad de 0,6826 –o 68,3%– corresponde al 68 de la regla 68-95-99,7. Las otras partes de la regla se pueden verificar de una manera similar. Gráfico II
Utilizamos el símbolo P para la probabilidad, o el área bajo la curva de densidad, y podemos escribir lo que acabamos de hacer de la manera siguiente: P ( Z < – 1,0 ) = P ( Z > 1,0 ) = 0,1587, P ( – 1,0 < Z < 1,0 ) = 1 – P ( Z < – 1,0 ) – P ( Z > 1,0 ) = = 1 – 2 ⋅ 0,1587 = 0,6826.
• La primera expresión dice que la probabilidad de que Z sea más pequeña que –1,0 iguala la probabilidad de que la variable Z sea mayor que 1,0; la cual en la tabla es igual a 0,1587.
• La segunda expresión dice que la probabilidad de que Z quede dentro de una desviación estándar (que es lo que queremos) es 1 menos cada una de las probabilidades de encima, y el resultado es 0,6826.
Consultad las probabilidades de z en la tabla A del anexo 1.
74
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Permitámonos observar el uso contrario de las tablas de nuevo, como en el ejemplo de las medidas de cabeza en el CD. Ahora especificamos por adelantado un determinado porcentaje, o probabilidad. Supongamos que hemos estandarizado las puntuaciones de un grupo de estudiantes y queremos eliminar el 10% más bajo (más adelante damos un ejemplo específico de esto). Necesitamos encontrar el valor z hasta el cual el área bajo la curva es 0,10. Ahora necesitamos buscar en las tablas un valor tan aproximado a 0,10 como sea posible, y el valor al que más nos podemos acercar es 0,1003, que está en la fila etiquetada − 1,2 y la columna etiquetada 0,08. Es decir, el valor z de − 1,28 separa 0,10 a la izquierda, o P(Z < − 1,28) = 0,10.
7.1.3. Relacionar los datos en las unidades originales con la distribución normal estándar
Para relacionar datos en las unidades originales con unidades estándar, estandarizamos los datos. Para volver a relacionar datos estandarizados con datos en las unidades originales, podremos decir que quitamos la estandarización en los datos. Revisad la estandarización en el apartado 6 de este módulo.
El acto de estandarización de una variable es, como sabemos:
X–µ Z = -------------, σ
Notación a) Media teórica de una distribución: µ . b) Varianza teórica de una distribución: σ 2. c) Desviación estándar teórica de una distribución: σ .
de manera que el acto de sacar la estandarización es la fórmula inversa:
X =
µ
+ Zσ .
Por ejemplo, suponemos que asumimos que las puntuaciones de los exámenes de una clase de estudiantes de estadística son normales, con la media aritmética 6,4 y la desviación estándar 1,2. Supongamos que queremos saber la puntuación de estudiantes con puntuaciones superiores a 5,0. Primero estandarizamos el valor 5,0: 5,0 – 6,4 z = ------------------------ = – 1,167. 1,2 Sólo tenemos tablas con espacio para dos decimales, de manera que buscamos el valor más próximo de − 1,17 observando la fila etiquetada − 1,10 y la columna etiquetada 0,07. En la intersección de la fila y la columna encontramos el valor 0,1210. Ésta no es el área que queremos; nosotros queremos el área de
Si disponemos de las puntuaciones de los exámenes de una clase de estudiantes de estadística podemos saber la proporción de estudiantes con puntuaciones superiores a 5,0.
75
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
encima de z, de manera que restamos este valor de 1 para obtener nuestro resultado 0,879. Por tanto, se estima que el 87,9% de las puntuaciones están por encima de 5,0 (y el 12,1%, por debajo de 5,0).
Como ejemplo del uso inverso de las tablas, permitámonos suponer que queremos identificar la puntuación por debajo de la cual queda exactamente el 10% de las puntuaciones. Siempre hemos visto que el valor z de − 1,28 da una probabilidad de 0,1003, que es la más próxima en la tabla a 0,10. Necesitamos sacar la estandarización de este valor para volver a la escala original. Primero multiplicamos − 1,28 por la desviación estándar 1,2, para obtener el valor − 1,536, que es la desviación de la media aritmética. Después le sumamos la media aritmética 6,4 para obtener la puntuación de 4,864, que vuelve a estar en nuestras unidades originales. De esta manera la respuesta a la pregunta es que el 10% de las puntuaciones es 4,86 o menos. Actividad Consultad de nuevo la unidad 8 del CD. Recordad cómo estandarizamos los datos y fijaos en que todos los datos normales que están estandarizados siguen la distribución normal estándar. Procurad entender cómo se usan las tablas normales estándar para obtener el área (o probabilidad) bajo la curva correspondiente a un intervalo dado y al mismo tiempo, además, obtener el intervalo correspondiente a una probabilidad dada. A continuación, resolved la actividad siguiente: 7.1. En un estudio previo hemos visto que el número de consultas anuales que recibe el psicólogo escolar de un centro educativo, por parte de los estudiantes, sigue una distribución normal, con una media del número de consultas de 6,2 y una desviación estándar de 1,8. Convertid los datos siguientes en valores estandarizados:
0 1 2 3 4 5 6 7 8 9 10
Después, usando las tablas normales estándar, evaluad la proporción de estudiantes que consultan: a) 1 vez o menos; b) 10 veces o más; c) entre 4 y 6 veces (ambos incluidos).
Si queréis calcular el área entre dos valores z, entonces evaluamos las probabilidades acumuladas para cada valor z y después restamos la menor a la mayor. Por ejemplo, para evaluar el área bajo la curva normal entre –0,5 y 1,5 hacemos este cálculo:
P ( – 0,5 < z < 1,5 ) = P ( z < 1,5 ) – P ( z < – 0,5 ) = = 0,9332 – 0.3085 = 0,6247
Ésta es el área que mostramos sombreada en el gráfico III.
Consultad la unidad 8 del CD.
76
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Gráfico III
7.2. Utilización del Excel para calcular probabilidades La hoja de cálculo Microsoft Excel también se puede utilizar para buscar probabilidades acumuladas e inversas. Las funciones del Excel DISTR.NORM.ESTAND. y DISTR.NORM.ESTAND.INV significan DISTRibución NORMal ESTÁNDar y función INVersa de la DISTRibución NORMal ESTÁNDar. El Excel también tiene funciones DISTR.NORM y DISTR.NORM.INV en las cuales se tiene que dar la media y la desviación estándar de la distribución, a pesar de que lo más habitual es trabajar con las distribuciones estándar. Como ejemplos de uso del Excel, verificamos la regla 68-95-99,7, es decir, el hecho de que para una distribución normal el 68% de la probabilidad está entre +1 o –1 desviación estándar de la media, el 95%, entre +2 o –2 desviaciones y el 99,7%, entre +3 o –3 desviaciones. Ponemos los valores 1,2 y 3 en la primera fila de la hoja, en las celdas A1, B1 y C! (observad la tabla I). En la celda A2 calculamos el valor de la función DISTR.NORM.ESTAND (debemos dar la instrucción: =DISTR.NORM.ESTAND (A1) en esta celda), después copiamos la celda A2 en las celdas B2 y C2 para repetir este cálculo. Esto da la probabilidad acumulada hasta el valor 1, 2 y 3 de la distribución normal. Si queremos la probabilidad en el interior de los intervalos (− 1;1), (− 2;2) y ( − 3;3) debemos restar la probabilidad a la izquierda de cada límite inferior, es decir,
DISTR.NORM.ESTAND(A1) – DISTR.NORM.ESTAND(–A1)
o bien
2*DISTR.NORM.ESTAND(A1)-1
Órdenes de uso del Excel a) DISTR.NORM.ESTAND genera el área bajo la curva normal hasta un valor z. b) DISTR.NORM.ESTAND.INV genera el valor normal estandarizado hasta el cual el área bajo la curva normal es igual a p.
77
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
En la celda A3 hemos hecho el cálculo =2*A1–1 y hemos copiado A3 en las celdas B3 y C3. Ahora ya podemos ver los valores de las probabilidades que dan la regla 68-95-99,7. Tabla I Resultado final deseado A
B
C
D
E
F
1
1
2
3
2
0,84134474
0,97724994
0,99865003
3
0,68268948
0,95449988
0,99730007
5
0,1
0,05
0,025
0,01
0,005
0,001
6
-1,28155079
-1,644853
-1,95996108
-2,32634193
-2,57583451
-3,09024472
4
Al final de la tabla enseñamos cómo se pueden calcular los valores de la variable aleatoria normal estándar que dan probabilidades específicas. En la fila 5 ponemos los valores 0,1; 0,05; 0,025; 0,01; 0,005 y 0,001 en las celdas A5 a F5. Bajo la celda A5, en la celda A6 ponemos la instrucción =DISTR.NORM.ESTAND.INV (A5). El valor –1,28155079 indica que la probabilidad cumulativa hasta el valor –1,28155079 es igual a 0,1. Cuando copiamos la celda A6 en las celdas B6 a F6, obtenemos los otros puntos de la distribución normal estándar que cortan estas probabilidades en la cola izquierda. Actividad 7.2. Verificad la regla 68-95-99,7 usando DISTR.NORM.ESTAND. 7.3. Usad DISTR.NORM.ESTAND.INV. para encontrar los valores z que cortan el 10%, el 1% y el 0,1% del área bajo la curva normal.
El Excel tiene una larga lista de funciones estadísticas. Buscad la ayuda de alguna, como por ejemplo DISTR.NORM.ESTAND.INV.
78
FUOC • P01/81114/00246
Al final del menú Ayuda hay una lista de funciones relacionadas con una lista de Funciones estadísticas.
Si hacéis un clic sobre esta etiqueta, obtendréis la lista completa de funciones.
Las funciones de esta lista, que está incluida en el contenido de esta asignatura, se detallan en la tabla siguiente: Funciones estadísticas BINOM.CRIT
Da el valor más pequeño, que tiene la distribución binomial acumulativa más pequeña o igual que un valor de criterio.
COEF.DE.CORREL
Da el coeficiente de correlación entre dos conjuntos de datos.
COVAR
Da la covarianza, que es la media de los productos entre las desviaciones, de los valores por pares.
CUARTIL
Da el cuartil de un conjunto de datos.
DESVEST
Calcula la desviación estándar de una muestra.
Introducción a la teoría de la probabilidad
79
FUOC • P01/81114/00246
Funciones estadísticas DESVIA2
Da la suma de los cuadrados de las desviaciones.
DISTR.BINOM
Da la probabilidad de una variable aleatoria discreta siguiendo una distribución exponencial.
DISTR.EXP
Da la probabilidad de una variable aleatoria continua siguiendo una distribución exponencial.
DISTR.LOG.INV
Da, para una probabilidad concreta, el valor de la variable aleatoria siguiendo una distribución lognormal.
DISTR.LOG.NORM
Da la probabilidad para una variable aleatoria continua siguiendo una distribución lognormal acumulativa.
DISTR.NORM.ESTAND.INV
Da, para una probabilidad concreta, el valor de la variable aleatoria siguiendo una distribución normal estándar.
DISTR.NORM.ESTAND
Da la probabilidad acumulada de una variable aleatoria continua siguiendo una distribución normal estándar.
DISTR.NORM.INV
Da, para una probabilidad concreta, el valor de la variable aleatoria siguiendo una distribución normal.
DISTR.NORM
Da la probabilidad acumulada de una variable aleatoria continua siguiendo una distribución normal.
FRECUENCIA
Da una distribución de frecuencia como una matriz vertical.
INTERVALO.CONFIANZA
Da el intervalo de confianza de la media de una población.
MAX
Da el valor máximo de una lista de argumentos.
MRDIANA
Da la mediana de los números.
MIN
Da el valor mínimo de una lista de argumentos.
NORMALITZACION
Da el valor normalizado.
POISSON
Da la probabilidad de una variable aleatoria siguiendo la distribución de Poisson.
VAR
Calcula la varianza de una muestra.
Los conceptos principales que hemos visto en este apartado son los siguientes: Distribución normal estándar: distribución de una variable normal que ha sido estandarizada, es decir, una distribución normal con media aritmética 0 y varianza 1. x–µ Estandarizar una observación x: z = ------------ (z recibe el nombre de valor estandarizado).
σ
Funciones del Excel para el cálculo de la distribución normal: DISTR.NORM.ESTAND (), DISTR.NORM.ESTAND.INV ().
Introducción a la teoría de la probabilidad
81
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
Solucionario Actividades 1.1. A 2
B
C
Paso 1
Paso 2
3
Moneda
=SI (ALEATORI () > 0.5; 1; –1)
=SI (ALEATORI () > 0.5; 1; –1)
4
Nivel
=B3
=C3+B4
Como podéis ver en el gráfico que acompaña a la actividad, es posible que en 100 repeticiones del paseo aleatorio la frecuencia relativa de finales igual a cero no se aproxime demasiado al resultado teórico de 0,375. 1.2. Los resultados posibles tienen que ser 12, ya que hay dos posibilidades para la moneda y seis para el dado. Los reproducimos todos: (C,1), (C,2), (C,3), (C,4), (C,5), (C,6), (+,1), (+,2), (+,3), (+,4), (+,5), (+,6). a) Todos los resultados son igualmente probables, no hay ninguno que esperemos que aparezca con más frecuencia que los demás. b) “Obtener cruz y cara par” es un suceso que engloba los resultados (+,2), (+,4), (+,6) y sólo estos. Su probabilidad es 3/12 = 0,25. c) “Obtener cara” es un suceso que engloba seis resultados diferentes (los seis primeros de la lista de arriba). Su probabilidad es 6/12 = 0,5. 1.3. Tenemos sucesivamente 3, 5, 4, 3, 2 posibilidades de elección, y cada elección que hacemos no afecta a las demás, podemos aplicar la regla de multiplicar y obtenemos 3 · 5 · 4 · 3 · 2 = 360 modelos de ordenador diferentes. 1.4. Debemos probar todas las parejas de programas, y el orden en que lo hagamos tiene mucha importancia: 7 · 6 será el total de posibilidades. 1.5. a)
ABC ACB BAC BCA CAB CBA
b)
CABD
DABC
CADB
DACB
CBAD
DBAC
CBDA
DBCA
CDAB
DCAB
CDBA
DCBA
c) Si dos tienen que estar siempre juntos, hay 16 posiciones diferentes, y puesto que puede ser que tanto uno como otro estén a la izquierda, en total hay 32 posibilidades para estos dos. Una vez colocados, deberemos colocar los otros quince de todas las maneras posibles en los 15 lugares restantes. Total de posibilidades: 2 · 16 · 15! 1.6. ¿Cuántos grupos diferentes podemos formar? Si el orden en que los elegimos tiene relevancia, sabemos que podríamos colocarlos de 15 · 14 · 13 · 12 maneras diferentes. Sin embar-
En el gráfico... ... se puede ver el detalle exacto de las fórmulas utilizadas.
82
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
go, de estos grupos encontraríamos 4 · 3 · 2 · 1 que estarían formados por los mismos cuatro amigos y, por tanto, de grupos realmente diferentes hay 15 ⋅ 14 ⋅ 13 ⋅ 12 ----------------------------------------- = 15 ⋅ 7 ⋅ 13 = 1.365, 4⋅3⋅2⋅ 1 que son muchos menos. 1.7. a) Si no podemos poner ningún as, sólo tendremos 48 cartas para combinarlas de 5 en 5 y formar las manos. El número de manos será: 48 5
48 ⋅ 47 ⋅ 46 ⋅ 45 ⋅ 44 = ---------------------------------------------------- = 1.712304, 5⋅4⋅3⋅2⋅1
La probabilidad de no tener ningún as es 1,712304/(2,598.960) ≈ 0,66. b) Primero contamos cuántas parejas diferentes se pueden formar. Está claro que para cada 4 número del as en la K(13 números) podemos formar = 6 parejas diferentes. Para cada 2 pareja, podemos completar la mano con cartas de números diferentes al de la pareja, por 48 3
tanto con 48 cartas de las cuales hemos tomado 3,
= 17.296 y esto nos da un total
de 13 · 6 · 17.296 = 1.349.088 manos. La probabilidad de tener una parejita (incluidos los casos de 2 + 3 denominados full) será 1,349088/(2,598.960) ≈ 0,52. 1.8. Para tener exactamente un as hay cuatro posibilidades. Para cada una tenemos que com 48 4
pletar la mano con cuatro cartas que no sean as, y esto lo podemos hacer de
maneras
diferentes. Por tanto: 48 48 ⋅ … ⋅ 45 4⋅ 4 ⋅ --------------------------- 4 4⋅… ⋅1 P [ ″ tenir exactament un as ″ ] = -------------------- = -----------------------------------, 52 ⋅ … ⋅ 48 52 --------------------------- 5 5⋅… ⋅1 que da aproximadamente 0,229. 13 El número de manos formadas por corazones será . Nos piden: 5 13 4
P [ ″ tots són cors ″ ] = ------------ ≈ 0,000275. 52
5
1.9. Si salimos de nivel cero y en seis pasos nos plantamos a nivel 2, significa que hemos quitado cuatro +1 y dos − 1, y para saber de cuántas maneras se puede hacer esto debemos 6 6⋅5 observar en cuántas posiciones podemos colocar dos − 1, y hay = ----------- = 15 parejas de 2 2 posiciones. También podríamos contar de cuántas maneras podemos elegir cuatro posiciones para poner los cuatro +1. Comprobad que el resultado es el mismo. La probabilidad pedida será 15/26 ≈ 0,24. 2.1. A y C no son contrarios, una mano donde sólo haya corazones y tréboles no sería de A ni de C. B y E sí que son contrarios. Ninguna de las otras combinaciones da sucesos contrarios. 2.2. • A ∩ B es “todas son de trébol”. • A ∩ C está vacío, A y C son incompatibles. • A ∩ D es “todas del mismo palo, pero no de trébol”.
83
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
• B ∩ C es de hecho el mismo C ya que C ⊂ B. • B ∩ D está vacío, de hecho B y D son contrarios y, por tanto, son incompatibles. • C ∩ D también está vacío; son incompatibles. 2.3. Ponemos E = “suspender matemáticas” y U = “suspender lengua”, tendremos: P[“suspender alguna asignatura”] = P[E ∪ U] = P[E] + P[U] − P[E ∩ U] = 0,3 + 0,2 − 0,15 = 0,35. 2.4.
El árbol... ... tiene la solución respetando las normas que hemos fijado para los árboles de este tipo. Del árbol que hay en el gráfico vemos que la probabilidad de sacar un cinco será 1 1 1 43 1 --- + ------ + ---------- = ---------- ≈ --- . 6 36 216 216 5 2.5.
Podemos dibujar un árbol, que en este caso será casi un mapa de carreteras. Como siempre, en los nodos existe la probabilidad de llegar a aquel punto y en las ramas, la probabilidad condicionada de tomar la salida o continuar por la autopista. Lo tenéis en el gráfico; comprobad que las ramas sumen 1, y que los nodos terminales también. La solución, pues, es 4/27, sólo el 15% de llegar a casa. 2.6. Observando la tabla vemos que el único caso en que el producto de las probabilidades marginales coincide con la conjunta, salvo el 0,24, que ya hemos utilizado antes, es el 0,11 = 0,22 · 0,50 que nos dice que P[A ∩ S] = P[A] +P[S], o bien P[A | S] = P[A],
84
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
o también P[S | A] = P[S]. Por otra parte, la probabilidad de que una operación sea de guardería es P[G] = 0,40, mientras que si sabemos que es de asesoramiento, P[G | A] = 0,06/0,22 ≈ 0,273. Por tanto, sí que son dependientes. Finalmente, si queremos conocer la probabilidad de que una operación realizada por un cliente de secundaria corresponda a material, lo que estamos haciendo es restringir el espacio a las operaciones educacionales, y de éstas nos quedamos con las de material, por tanto debemos calcular 0,32 P [ S M ] = ------------ ≈ 0,53. 0,60 2.7. Por lo que respecta al caso de las bambas, tenemos ″ Reebok ″ ∩ ″ chica ″ 0,0875 P [ ″ Reebok ″ ″ chica ″ ] = ------------------------------------------------------ = ------------------- = P [ ″ Reebok ″ ] = 0,25. ″ chica ″ 0,35
También hay independencia entre “Reebok” y “chicos”, entre “otros” y “chicas”, y también entre “otros” y “chicos”. 3.1. a) Los valores posibles de la variable Y = “cara mayor en dos tiradas de un dado” son 1, 2, 3, 4, 5 y 6. b) Una manera de contar los valores posibles sería construir la tabla de todas las tiradas posibles, similar a la que hemos elaborado al principio del apartado, y contar los casos en los que aparece cada valor como máximo de las dos tiradas. También podemos ver que, de los 36 casos posibles, el número de casos en que el máximo es n será Primer dado
Posibilidades del segundo dado
1, 2, ..., n − 1
1
n
1, 2, ..., n
n + 1, ...
0
Es decir, que en total habrá n − 1 + n = 2n − 1. Esto nos da la tabla de probabilidades siguiente x P[Y = y]
1
2
3
4
5
6
1/36
1/12
5/36
7/36
1/4
11/36
c) El diagrama de barras de esta distribución de probabilidad lo hemos visto en el gráfico II de este apartado. 3.2. El espacio muestral son las parejas (m,n) de números del 1 al 6; en total 36 resultados posibles. X es la suma m + n. a) Siempre utilizando la definición de probabilidad condicional, [ X = 10 ∩ ″ dos caras par ″ ] P [ X = 10 ″ dos caras par ″ ] = P ---------------------------------------------------------------------------= P [ ″ dos caras par ″ ]
[ X = 10 ∩ ″ dos caras par ″ ] 2 -. = # ---------------------------------------------------------------------------= ---------# [ ″ dos caras par ″ ] 3⋅3
b) Acabamos de ver que la probabilidad condicionada es de 2/9, y hemos visto antes que la probabilidad de X = 10 es 1/12. Son diferentes, y, por tanto, no son independientes.
85
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
c) Esta probabilidad acumulada es P[X ≤ 5] = P[X = 2] + P[X = 3] + P[X = 4] + P[X = 5] = 10/36 ≈ 0,28. d) P[X ≤ 5 | Y = 3] es una probabilidad condicionada, se lee “probabilidad de que X sea menor o igual que 5, dado que Y vale 3”, la interpretamos como la probabilidad de que, si sabemos que la cara mayor ha sido un 3, la suma de las dos caras no pase de 5. Para calcularla, 2 -----P [ X ≤ 5 ∩ Y = 3] 36 2 P [ X ≤ 5 Y = 3 ] = --------------------------------------------- = ------- = --- , P[ Y = 3] 5 5 -----36 donde la probabilidad del numerador la sabemos, ya que sólo hay dos casos en los cuales la suma sea 5 con cara mayor 3, y el denominador lo sacamos de la actividad anterior. 3.3. Hemos visto que por el paseo de cuatro pasos, teníamos x P[X = x]
−4
−2
0
2
4
1/16
4/16 = 1/4
6/16 = 3/8
4/16 = 1/4
1/16
Por lo tanto, sólo se tratará de aplicar la definición: 1 1 3 1 1 E ( X ) = – 4 ⋅ ------ + – 2 ⋅ --- + 0 ⋅ --- + 2 ⋅ --- + 4 ⋅ ------ = 0. 16 4 8 4 16 3.4. El juego del dado que paga 10 u.m. o las cobra tiene un valor esperado de 10/3.
La acción en Bolsa tiene un valor esperado de 1.100 u.m.
Los componentes electrónicos tienen una duración esperada de 2,3.
86
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
3.5. a) Tenemos los valores siguientes: a
20
30
50
P[A = a]
1/3
1/2
1/6
5
10
15
1/3
1/2
1/6
b P[B = b]
Los valores diferentes de X = A + B serán las diferentes sumas que puedan darse entre valores de A y de B, es decir, 25, 30, 35, 40, 45, 55, 60 y 65. b) P[X = 25] = P[A = 20 ∩ B = 5] = [A = 20] · P[B = 5] = 1/9. c) La tabla de probabilidades conjuntas es Tabla de posibilidades conjuntas 20
30
50
5
1/9
1/6
1/18
1/3
10
1/6
1/4
1/12
1/2
15
1/18
1/12
1/36
1/6
1/3
1/2
1/6
1
d) El valor X = 35 corresponde a dos sucesos diferentes y disjuntos, por lo cual se puede calcular P[X = 35] = P[(A = 20 ∩ B = 15) ∪ (A = 30 ∩ B = 5)] = = P[(A = 20 ∩ B = 15)] + P[(A = 30 ∩ B = 5)] = 1/18 + 1/6 = 2/9. e)
x
25
30
35
40
45
55
60
65
P[X = x]
1/9
1/6
2/9
1/4
1/12
1/18
1/12
1/36
f) E(A) = 30, E(B) = 9,67. El valor esperado de A es el tiempo esperado o tiempo medio de ejecución del programa Abacus. g) E(X) = 39,67, igual a la suma de las esperanzas.
87
FUOC • P01/81114/00246
Introducción a la teoría de la probabilidad
4.2. Según hemos visto en la actividad 9.1., los valores para la función de probabilidad son 1
2
3
4
5
6
1/36
1/12
5/36
7/36
1/4
11/36
y P[Y = y]
Si lo acumulamos, obtendremos 1
2
3
4
5
6
1/36
1/36 = 1/8
9/36 = 1/4
16/36 = 4/9
25/36
36/36 = 1
y P[Y ≤ y]
En el gráfico siguiente vemos la función de distribución acumulada, la mediana y el primer cuartil:
La mediana la calculamos saliendo del 0,5 en el eje vertical y encontrando el valor xm = 5 en el eje horizontal. Cuando hacemos lo mismo con el primer cuartil, salimos de 0,25 y encontramos como valor todo el intervalo [3,4]; en casos así solemos decir que el primer cuartil es 3,5, el punto del medio. El tercer cuartil es claramente x0,75 = 6, igual al valor máximo. 4.3. En el gráfico veis las fórmulas necesarias para montar la hoja de cálculo, naturalmente será necesario replicar las cuatro fórmulas de la columna B en las columnas C:F como siempre, arrastrándolas por la crucecita de debajo de la selección.
Fórmulas para montar la hoja de cálculo B
G
44
0
44
45
0.1
45
EX
46
=B44*B45
46
=SUMA (B46:F46)
47
=B44–$G46
47
48
=B47^2
48
VX
49
=B48*B45
49
=SUMA (B49:F49)
a) Se trata de ir cambiando los valores de probabilidad; si queréis que aumente la varianza, poned la probabilidad más lejos del valor esperado; si queréis que baje, ponedla más cerca. Naturalmente, hay muchas maneras de obtener varianza 2, una de ellas es la siguiente:
88
FUOC • P01/81114/00246
x P[X = x]
Introducción a la teoría de la probabilidad
1
2
3
4
5
0,25
0,1
0,35
0,09
0,21
No obstante, tened cuidado; es preciso que nos aseguremos de que la probabilidad total es siempre 1; si no, significa que estamos haciendo trampa. Una manera de asegurarlo es pidiendo al Excel que nos avise cuando infringimos, y esto nos lo hace la celda G47 si ponemos una fórmula como =SI(SUMA(B45:F45)1;”Ep!”;””). Esta fórmula contempla si la suma de las probabilidades es diferente de 1, y si lo es nos muestra una advertencia. b) La única manera de obtener varianza cero es acumular toda la probabilidad en el mismo lugar en el que está el valor esperado. De esta manera, tenemos una variable aleatoria que es constante, que tiene un único valor. Por ejemplo, ponemos x
1
2
3
4
5
P[X = x]
0
1
0
0
0
c) Si no tocamos los valores de X, la varianza máxima la obtendremos cuando pongamos el máximo de probabilidad lejos del valor esperado. Lo conseguiremos con x P[X = x]
1
2
3
4
5
0,5
0
0
0
0,5
4.4. a) La variable X ya la conocemos, sabemos que tiene valores posibles del 2 al 12. La nueva variable Y sólo puede dar resultados pares, pero también del 2 al 12. b) Las probabilidades de X las conocemos. Las probabilidades de Y son fáciles de saber. Cada cara tiene 1/6 de probabilidad, o sea que cada valor de Y, del 2 al 12, tendrá exactamente esta probabilidad. En el gráfico las hemos introducido con una columna única de valores para poder tener el gráfico combinado. c) Ambas distribuciones de probabilidad son perfectamente simétricas, por lo cual ya podemos saber que el valor esperado estará en el centro, que es 7 en ambos casos. En cualquier caso, si tenéis los datos en el Excel, calcular el valor esperado no es difícil (quizá necesitéis alguna columna auxiliar que no se ve en el gráfico). Observando el gráfico ya se ve cuál es más disperso, ¿verdad?.
89
FUOC • P01/81114/00246
d) En el gráfico se ve claramente que la variable Y tiene la masa de probabilidad repartida de manera que queda más lejos del centro. El cálculo corrobora la impresión visual. De paso, fijaos que en la simulación de 20.000 tiradas de dos dados que hemos hecho en la actividad 9.4 hemos obtenido un valor empírico de 5,82, y aquí vemos que el valor teórico es 5,833. 5.1. Después de dos pasos tenemos: 1 1 1 Esperanza = – 2 ⋅ --- + 0 ⋅ --- + 2 ⋅ --- = 0. 4 2 4 1 1 1 • Varianza = 4 ⋅ --- + 0 ⋅ --- + 4 ⋅ --- = 2. 4 2 4
•
Después de tres pasos tenemos: 1 3 3 1 Esperanza = – 3 ⋅ --- + – 1 ⋅ --- + 1 ⋅ --- + 3 ⋅ --- = 0. 8 8 8 8 1 3 1 1 • Varianza = 9 ⋅ --- + 1 ⋅ --- + 1 ⋅ --- + 9 ⋅ --- = 3. 8 8 8 8
•
Por tanto, podemos deducir que la esperanza es igual a cero y la varianza es igual al número de pasos. 5.2. Es una variable de Bernoulli con p = 0,25. Entonces la media es 0,25 y la varianza, 1/4 · 3/4 = 3/16 = 0,1875. 5.3. p = 1/6, n = 4. • P(“cero seises”) = f(0) = (5/6)4 = 0,48225. • P(“un seis”) = f(1) = 4·(1/6)·(5/6)3 = 0,3858. • P(“dos o más seises”) = 1 – f(0) – f(1) = 0,13195. 5.4. La probabilidad de que un dado rojo específico sea un seis es de 1/6. Independientemente, la probabilidad de que al menos uno de los otros sea un seis es 1 menos la probabilidad de que ninguno de los tres sea un seis, es decir 1 − (5/6)3 = 0,4213. Porque los dos sucesos son independientes, la probabilidad de su intersección, que es el suceso que nos interesa aquí, es el producto (1/6)0,4213 = 0,07022. 5.5. El número medio de mensajes devueltos por hora es 150/24 = 6,25. Éste es el parámetro λ de la distribución de Poisson que hemos utilizado en los cálculos probabilísticos. La probabilidad de que devuelvan dos o más es: 2
k
2
–λ λ – 6,25 6,25 - = e 1 + 6,25 + --------------- = 0,0517. ∑ e --- k! 2 k=0
5.6. El número esperado de fallos de energía por mes es de 2/12 = 1/6. Por tanto, λ = 1/6 (fijaos en que este valor no es una probabilidad, a pesar de que podéis tener la tentación de pensar que la probabilidad es de un sexto). Para calcular las posibilidades de uno o más fallos de energía por mes, por ejemplo, restamos de 1 la probabilidad de que no haya fallos: e− 1/6 = 0,8464, por tanto 1 − 0,8465 = 0,1535. 7.1. Valores estandarizados: − 3,44 − 2,89 − 2,33 − 1,78 − 1,22 − 0,67 − 0,11 0,44 1,00 1,56 2,11. a) 0,0019. b) 1 − 0,9826 = 0,0174. c) 0,4562 − 0,0375 = 0,4187. (Observad que la primera área es la que llega e incluye 6 consultas, y la segunda área llega e incluye 3 consultas: veréis que aquí hay un problema porque usamos una distribución continua para describir datos que son únicamente enteros). 7.2.
Cmd> (1)
cumnor(1.0) – cumnor(– 1.0) 0.68269
Cmd> (1)
cumnor(2.0) – cumnor(– 2.0) 0.9545
Cmd> (1)
cumnor(3.0) – cumnor(– 3.0) 0.9973
Introducción a la teoría de la probabilidad
90
FUOC • P01/81114/00246
7.3.
Cmd> (1)
invnor(0.1) –1.2816
Cmd> (1)
invnor(0.01) –2.3263
Cmd> (1)
invnor(0.001) –3.0902
Introducción a la teoría de la probabilidad