476 56 6MB
Spanish Pages [710] Year 2013
Cálculo Numérico y Estadística Aplicada
LUIS M. SESÉ SÁNCHEZ
ERRNVPHGLFRVRUJ UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA
CÁLCULO NUMÉRCO Y ESTADÍSTICA APLICADA
Quedan rigurosamente prohibidas, sin la autorización escrita de los titulares del Copyright, bajo las sanciones establecidas en las leyes, la reproducción total o parcial de esta obra por cualquier medio o procedimiento, comprendidos la reprografía y el tratamiento informático, y la distribución de ejemplares de ella mediante alquiler o préstamos públicos.
© Universidad Nacional de Educación a Distancia Madrid 2013 www.uned.es/publicaciones © Luis M. Sesé Sánchez Todas nuestras publicaciones han sido sometidas a un sistema de evaluación antes de ser editadas. ISBN electrónico: 978-84-362-6654-2 Edición digital: mayo de 2013
A Mariano, mi padre
«¡Bellos copos de nieve! Nunca caen fuera de ninguna parte» P’ang Yun (S. VIII) «Tan malo es vivir en la oscuridad absoluta como bajo la más brillante luz: Ambas te dejan ciego»
ÍNDICE
Presentación .....................................................................................................................................................
21
I MÉTODOS NUMÉRICOS Capítulo 1. AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS ..............................................
31
1.1. Introducción .......................................................................................................................................
32
A. Polinomios de colocación ............................................................................................................ 1.2. Ajustes con polinomios de colocación....................................................................... Opciones de ajuste polinómico......................................................................................... El criterio de colocación: casos simples .................................................................. Observaciones de interés ........................................................................................................ 1.3. La tabla de diferencias y los polinomios de Newton ................................... El polinomio de avance de Newton .............................................................................. El polinomio de retroceso de Newton ....................................................................... Observaciones prácticas .......................................................................................................... 1.4. El polinomio de Lagrange ..................................................................................................... 1.5. Otras técnicas ....................................................................................................................................
34 34 35 36 38 39 40 42 43 44 46
B. Mínimos cuadrados............................................................................................................................ 1.6. Concepto y aplicación al caso lineal ............................................................................ Estudio del caso lineal: determinación de los coeficientes.................... Unicidad de la solución............................................................................................................ El carácter de mínimo............................................................................................................... La «bondad» del ajuste ............................................................................................................. La utilidad extendida del caso lineal ........................................................................... Nota adicional sobre el error .............................................................................................. 1.7. Ajustes de mínimos cuadrados de orden superior ......................................... El caso cuadrático .........................................................................................................................
46 46 47 48 49 50 51 56 56 57
11
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
El caso general.................................................................................................................................. Observaciones prácticas ..........................................................................................................
58 59
Bibliografía ......................................................................................................................................................
61
Problemas teóricos y numéricos..................................................................................................
62
Capítulo 2. AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES ................
81
2.1. Introducción ....................................................................................................................................... 2.2. El caso discreto: Polinomios de Gram-Tschebyscheff ............................... El sistema normal de ecuaciones ................................................................................... Forma de los polinomios de Gram-Tschebyscheff ........................................ 2.3. El caso continuo: Producto escalar y distancia entre funciones ...... Producto escalar de funciones .......................................................................................... Criterios de aproximación entre funciones........................................................... Desarrollos en serie de una base completa ........................................................... El cálculo de los coeficientes del desarrollo......................................................... Observaciones de interés ........................................................................................................ 2.4. Caso continuo: polinomios de Legendre ................................................................. Ortogonalización constructiva de Gram-Schmidt ......................................... Forma de los polinomios normalizados de Legendre ................................. Forma habitual de los polinomios de Legendre ............................................... Propiedades adicionales .......................................................................................................... 2.5. Caso continuo: polinomios de Tschebyscheff .................................................... Definición .............................................................................................................................................. Propiedades adicionales .......................................................................................................... La economización de polinomios .................................................................................. Observaciones de interés ........................................................................................................ 2.6. Caso continuo: polinomios de Hermite y de Laguerre ..............................
82 84 85 86 88 89 93 93 94 96 100 100 102 104 105 107 107 109 111 113 114
Bibliografía ...................................................................................................................................................... 117 Problemas teóricos y numéricos.................................................................................................. 118 Capítulo 3. APLICACIONES NUMÉRICAS BÁSICAS ................................................................. 129 3.1. Los errores en el cálculo numérico .............................................................................. Errores absoluto y relativo ................................................................................................... El error de redondeo y conceptos asociados ....................................................... Errores de entrada y cifras significativas «fisico-químicas» ................ Consideraciones adicionales ...............................................................................................
12
130 131 132 135 137
ÍNDICE
3.2. Interpolación y extrapolación ............................................................................................ Observaciones prácticas en interpolación: elección de grado, selección de puntos de la tabla y tipo de polinomio, tabla desigualmente espaciada ........................................................................................................ Notas complementarias ........................................................................................................... El error de interpolación ........................................................................................................ 3.3. Propagación de los errores en los datos de entrada ..................................... Alternancias de signo en una tabla de diferencias ......................................... Errores de entrada ........................................................................................................................ 3.4. Diferenciación numérica ........................................................................................................ Fórmulas de Newton .................................................................................................................. Fórmulas de Stirling ................................................................................................................... Extrapolación de Richardson............................................................................................. 3.5. Integración numérica ................................................................................................................ Regla del trapecio .......................................................................................................................... Regla de Simpson .......................................................................................................................... Técnicas Gaussianas: Gauss-Legendre, Gauss-Hermite y Gauss-Laguerre ........................................................................................................................... Tratamiento de integrales singulares ......................................................................... Tratamiento de integrales oscilantes .......................................................................... Complementos: Tablas para integración Gaussiana ....................................
139
141 145 146 149 150 151 152 153 155 157 159 159 162 163 168 170 173
Bibliografía ...................................................................................................................................................... 176 Problemas teóricos y numéricos.................................................................................................. 177 Capítulo 4. RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS ........................ 201 4.1. Conceptos preliminares ........................................................................................................... 202 Raíces (ceros) de ecuaciones no lineales ................................................................. 203 Sistemas de ecuaciones y diagonalización ............................................................ 205 A. Ecuaciones no lineales ................................................................................................................... 4.2. Separación de raíces reales y estimación del error ....................................... 4.3. Método de bisección ................................................................................................................... 4.4. Método de la falsa posición (regula falsi) ................................................................ 4.5. Método de Newton-Raphson .............................................................................................. Definición del algoritmo ......................................................................................................... Condiciones suficientes de convergencia................................................................ Estimación del error ...................................................................................................................
206 206 208 210 214 214 215 216
13
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
La variante Newton-secante ................................................................................................ 4.6 Método iterativo de punto fijo.............................................................................................. 4.7 El caso de las raíces múltiples .............................................................................................. Métodos para determinar la multiplicidad ...........................................................
217 218 220 221
B. Sistemas de ecuaciones ................................................................................................................... 4.8. Sistema lineal (no homogéneo)........................................................................................ Método de Gauss con pivote ............................................................................................... Estimación del error ................................................................................................................... 4.9. Sistema no lineal ............................................................................................................................ Método de Newton-Raphson .............................................................................................. Método del gradiente .................................................................................................................
223 223 225 227 228 228 229
Bibliografía ...................................................................................................................................................... 231 Problemas teóricos y numéricos.................................................................................................. 232
II INTRODUCCIÓN A LA TEORÍA Y APLICACIONES DE LA ESTADÍSTICA Capítulo 5. DISTRIBUCIONES DE PROBABILIDAD ................................................................ 257 5.1. Probabilidad, Estadística y Química........................................................................... El concepto de probabilidad ............................................................................................... Breve presentación axiomática de la probabilidad ....................................... Otras observaciones y las aplicaciones en la Química ............................... 5.2. Variables aleatorias, población y muestra ............................................................. 5.3. Funciones de distribución de probabilidades .................................................... Variables monodimensionales (discretas y continuas) ............................. Variables monodimensionales derivadas................................................................ 5.4. Caracterización de una distribución de probabilidad ................................ Valor medio y desviación típica (estándar)........................................................... Momentos de una distribución......................................................................................... Medidas de asimetría y de exceso .................................................................................. Otros parámetros ........................................................................................................................... 5.5. Ejemplos de distribuciones discretas ......................................................................... La distribución binomial ........................................................................................................ La distribución de Poisson ...................................................................................................
14
258 258 261 267 270 274 274 281 284 284 286 288 289 291 291 294
ÍNDICE
La distribución multinomial ............................................................................................... 5.6. Ejemplos de distribuciones continuas....................................................................... La distribución uniforme ....................................................................................................... La distribución Gaussiana (normal) ........................................................................... La distribución logarítmico-normal (log-normal).......................................... 5.7. Composición de variables aleatorias........................................................................... Valores medios y varianzas de funciones aleatorias .................................... Suma y producto de variables aleatorias ................................................................ Distribuciones de probabilidad en n dimensiones.........................................
296 298 298 300 305 307 307 310 315
Bibliografía ...................................................................................................................................................... 321 Problemas teóricos y numéricos.................................................................................................. 322 Capítulo 6. MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA ............................. 341 6.1. Muestreo de poblaciones ........................................................................................................ Métodos generales de muestreo....................................................................................... Observaciones adicionales .................................................................................................... 6.2. Distribuciones muestrales ..................................................................................................... Media y varianza ............................................................................................................................ Proporciones ...................................................................................................................................... Sumas y diferencias..................................................................................................................... Mediana .................................................................................................................................................. 6.3. Inferencia estadística (I) ......................................................................................................... Estimación por un punto ....................................................................................................... Estimación por intervalos de confianza .................................................................. 6.4. Inferencia estadística (II): formulación y verificación de hipótesis estadísticas ........................................................................................................................................... Cinco pasos a dar en hipótesis estadísticas .......................................................... Observaciones adicionales .................................................................................................... Principios de admisión y rechazo de hipótesis ................................................. 6.5. Función de potencia y curva OC ..................................................................................... 6.6. Gráficos de control (Shewhart) y aleatoriedad ................................................. 6.7. Comparación de muestras: medias y proporciones...................................... 6.8. Teoría de pequeñas muestras............................................................................................. Distribución t de Student ....................................................................................................... Distribución chi-cuadrado .................................................................................................... Distribución F de Fisher..........................................................................................................
342 343 345 347 347 351 351 353 354 355 356 360 360 363 365 366 368 371 374 375 379 382
15
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Bibliografía ...................................................................................................................................................... 387 Problemas teóricos y numéricos.................................................................................................. 388 Capítulo 7. CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA .... 407 7.1. Experimentos con más de una variable aleatoria, correlación y regresión ............................................................................................................................................ 7.2. Ecuaciones empíricas típicas en dos variables y su reducción a forma lineal..................................................................................................................................... Tipos básicos con dos parámetros................................................................................. Tipos con tres y cuatro parámetros.............................................................................. 7.3. El coeficiente de correlación en dos variables ................................................... Correlación de poblaciones .................................................................................................. Correlación lineal en muestras bivariantes........................................................... El coeficiente r como estimador estadístico ........................................................ 7.4. Aspectos prácticos de la regresión lineal por mínimos cuadrados 7.5. Desestimación de puntos en el análisis de datos ............................................. Test de cuartiles con extensión «(box-and-whisker plot)»...................... Test de distancias ........................................................................................................................... 7.6. Correlación lineal múltiple ................................................................................................... 7.7. Estadística no paramétrica .................................................................................................. Test de signos .................................................................................................................................... Correlación por rangos de Spearman ........................................................................
408 411 412 413 418 418 420 425 430 434 435 436 437 440 441 443
Bibliografía ...................................................................................................................................................... 447 Problemas teóricos y numéricos.................................................................................................. 448
III. ANÁLISIS Y PROPAGACIÓN DE LOS ERRORES EXPERIMENTALES Capítulo 8. EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES...... 475 8.1. 8.2. 8.3. 8.4.
16
Introducción ....................................................................................................................................... Los errores en la medición experimental ............................................................... Propagación del error de escala del aparato ....................................................... Propagación de los errores sistemáticos .................................................................
476 478 480 482
ÍNDICE
8.5. Propagación de los errores accidentales ................................................................. Variables independientes ....................................................................................................... Variables dependientes............................................................................................................. La inducción de errores sistemáticos ......................................................................... 8.6. Un caso de estudio: cálculo del error total de un índice de refracción.......................................................................................................................................
485 485 488 489 491
Bibliografía ...................................................................................................................................................... 494 Problemas teóricos y numéricos.................................................................................................. 495
IV SIMULACIÓN DE PROCESOS Y VALIDACION DE MÉTODOS Capítulo 9. MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA .............................................................................................................................
511
A. La aproximación trigonométrica........................................................................................... 9.1. Polinomios trigonométricos ................................................................................................ Cambios de variable .................................................................................................................... Ortogonalidad en el caso de número impar de puntos ............................. Ortogonalidad en el caso de un número par de puntos ............................ Relaciones útiles ............................................................................................................................. Cálculo de los coeficientes .................................................................................................... Expresiones finales.......................................................................................................................
513 513 514 515 516 516 517 519
B. Simulación numérica de procesos deterministas ................................................... 9.2. Ecuaciones diferenciales: generalidades ................................................................. 9.3. Ecuaciones diferenciales ordinarias............................................................................ Casos de estudio.............................................................................................................................. Existencia y unicidad de la solución ........................................................................... 9.4. Ecuación diferencial de primer orden y primer grado (valor inicial)....................................................................................................................................................... Método de Euler ............................................................................................................................. Estabilidad y error ........................................................................................................................ Predictor-corrector de Euler ............................................................................................... Métodos de Runge-Kutta........................................................................................................ 9.5. Ecuación diferencial de segundo orden (valores iniciales) ................... Método de Runge-Kutta (IV) ..............................................................................................
519 519 522 522 523 524 524 525 526 527 531 531
17
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Método predictor-corrector de Adams ...................................................................... 532 9.6. Problemas de valores de frontera ................................................................................... 532 C. Diagonalización numérica de matrices reales y simétricas ........................... 9.7. Conceptos generales.................................................................................................................... Teorema básico para matrices reales y simétricas ........................................ Multiplicidad de raíces y degeneración .................................................................... Observaciones prácticas .......................................................................................................... 9.8. Método del polinomio característico: cálculo de autovectores.......... Caso no degenerado .................................................................................................................... Caso degenerado ............................................................................................................................. 9.9. Método de Jacobi ........................................................................................................................... La transformación ortogonal ............................................................................................. La construcción de la matriz ortogonal O ............................................................. Observaciones prácticas .......................................................................................................... 9.10. Tests de diagonalización y técnicas complementarias ........................... Bibliografía ......................................................................................................................................................
533 533 534 535 536 537 537 537 542 542 543 547 548 551
Problemas teóricos y numéricos.................................................................................................. 552 Capítulo 10. MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN ............. 589 A. Integración numérica multidimensional ....................................................................... 10.1. Integración Monte Carlo ..................................................................................................... Aspectos numéricos: familias multiplicativas congruentes ............... Aspectos estadísticos: el error de integración .................................................
590 590 591 595
B. Aplicaciones de los procesos de minimización ......................................................... 10.2. Promedios con pesos muestrales................................................................................. 10.3. Ajuste lineal chi-cuadrado de datos .......................................................................... Aspectos numéricos ................................................................................................................. Aspectos estadísticos............................................................................................................... Observaciones adicionales ............................................................................................... 10.4. Ajuste de datos a distribuciones de probabilidad ........................................ Caso continuo: ajuste Gaussiano ................................................................................ Caso discreto: ajuste binomial ....................................................................................... 10.5. Estadística robusta: ajuste de una línea recta.................................................
596 596 600 601 603 604 606 606 609 611
C. Análisis de la varianza .................................................................................................................... 615
18
PRESENTACIÓN
10.6. Homogeneidad de un conjunto de varianzas muestrales .................... 10.7. Homogeneidad de un conjunto de medias (ANOVA-1) ......................... Estimación entre muestras ............................................................................................... Estimación dentro de la muestra ................................................................................ Observaciones adicionales................................................................................................. 10.8. Análisis de la varianza con dos factores de variación independientes (ANOVA-2) .................................................................................................................. Caso de dos efectos fijos ...................................................................................................... Caso de dos efectos aleatorios ....................................................................................... 10.9. Análisis de la varianza en ajustes de regresión ..............................................
616 617 618 619 619 621 623 624 625
Bibliografía ...................................................................................................................................................... 626 Problemas teóricos y numéricos.................................................................................................. 627 Apéndice I: Tratamiento de datos experimentales mediante computación (Modelos de Prácticas en Centros Asociados)........................................... 647 Apéndice II: La base ortogonal de Fourier.......................................................................... 651 Apéndice III: Tablas estadísticas .................................................................................................. 665 Bibliografía general .................................................................................................................................... 669 Glosario de términos ................................................................................................................................ 679 Índice alfabético de materias ............................................................................................................. 703
19
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
20
PRESENTACIÓN
El presente texto desarrolla los contenidos de la asignatura Cálculo Numérico y Estadística Aplicada, perteneciente al 2.o curso de los Estudios de Grado en Química (EEES) por la Universidad Nacional de Educación a Distancia (UNED), de carácter obligatorio y con una carga de 5 créditos ECTS. Esta asignatura tiene que ver con la aplicación práctica de técnicas matemáticas aproximadas a la resolución de problemas de interés en Química. Con independencia de opiniones y de gustos particulares, el lenguaje matemático es la herramienta para comprender los procesos naturales tanto cuantitativa como cualitativamente, es decir, tanto obteniendo los resultados numéricos concretos, como aplicando ideas abstractas que revelan características muy profundas de dichos procesos. La famosa cita de E. P. Wigner sobre la «irrazonable efectividad de las Matemáticas» sirve espléndidamente para subrayar que el conocimiento matemático forma parte del consenso sobre las materias básicas a conocer que los científicos han alcanzado hace ya muchos años. No obstante, la experiencia docente universitaria viene constatando, desde hace ya bastantes años, que los conocimientos previos de matemáticas con los que los estudiantes se acercan a las carreras de Ciencias son, en término medio, cada vez más escasos. La proyección de esta circunstancia sobre la formación de los estudiantes de estas carreras se ve agravada con los planteamientos globales de los actuales Planes de Estudio del Grado, en concreto de Química, en los que la disminución en asignaturas, contenidos, y dedicación esperada, ligados al estudio de Matemáticas es patente, como pone de manifiesto el hecho de que con respecto a Planes de Estudio anteriores (varios entre 1970 y 2010) la disminución es prácticamente del 50%. Es en este complicado contexto donde se enmarca la presente asignatura. Dentro de esta posición de principio, si se tiene en cuenta, por otra parte, que el número de problemas en las ciencias naturales que son resolubles matemáticamente de forma analítica en principio exacta es muy reducido, incluso para los problemas que admiten formulaciones en principio exactas (la ecuación de Schrödinger para átomos poli-electrónicos, por ejemplo), el
21
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
aprendizaje de los métodos numéricos de aproximación para resolverlos es crucial. Añadido a lo anterior y en la misma línea está el carácter experimental de la Química, del que se deriva la necesidad de aprender cómo extraer información significativa de colecciones de datos (experimentales o procedentes de cálculos extensos), faceta ésta que implica el manejo de herramientas estadísticas. Por consiguiente, es muy importante que el estudiante de Química conozca, no sólo los principios matemáticos analíticos exactos que se imparten en las asignaturas generales de Matemáticas del Grado, sino también cómo realizar en la práctica operaciones matemáticas aproximadas y cómo analizar estadísticamente tales colecciones de datos. Para satisfacer estas necesidades se tratarán en esta asignatura cuestiones pertenecientes a dos disciplinas distintas pero conexas. Por una parte, el Cálculo Numérico, que se ocupa de reducir la resolución de complicadas evaluaciones matemáticas a combinaciones de operaciones elementales. Por la otra, la Estadística Aplicada, que se centra en los aspectos derivados del tratamiento de colecciones de datos. Como aplicación inmediata de estos contenidos, resulta claro que el trabajo de laboratorio que realizará el estudiante en las diversas asignaturas de prácticas se verá sustancialmente mejorado. Así, muchas cuestiones prácticas que se presentan en las diferentes ramas de la Química (Analítica, Bioquímica, Física, Industrial, Inorgánica, Orgánica) podrán dotarse de un carácter cuantitativo preciso vía el uso del análisis de los resultados experimentales obtenidos en todas ellas. Además, estos mismos conocimientos resultarán muy útiles para proseguir estudios de mayor nivel en todas esas ramas. Todo este aprendizaje redundará en beneficio de la autonomía del estudiante, tanto en una mejor formación integral, como en el aumento de su capacidad para abordar los problemas que tendrá que afrontar en el ejercicio de su futura actividad profesional. Aunque es cierto que el nivel de profundidad y la cantidad de conocimientos a impartir tendrían que ser siempre los máximos posibles, no es menos cierto que la limitación de tiempo a un «semestre» impone severas restricciones a este deseo. Por consiguiente, en esta asignatura se presenta una selección de ideas fundamentales sobre determinados temas matemáticos útiles, acordes con las directrices del Libro Blanco para los Estudios del Grado en Química (2008). Estos conocimientos se resumen en los siguientes descriptores generales: (I) Métodos Numéricos; (II) Introducción a la Teoría y Aplicaciones de la Estadística; (III) Análisis y Propagación de Errores de Datos Experimentales; (IV) Simulación
22
PRESENTACIÓN
y Validación de Métodos; (V) Tratamiento de Datos Experimentales Mediante Computación. En el primer gran apartado (I) se estudian las cuestiones del ajuste de funciones mediante desarrollos en bases polinómicas (convencional y ortogonales –mínimos cuadrados-) y sus aplicaciones, abordándose las operaciones numéricas básicas como interpolación, derivación, integración y los errores asociados, para concluir con la resolución de sistemas lineales y problemas no lineales típicos (ecuaciones y sistemas). El segundo gran apartado (II) se concentra en la introducción del lenguaje estadístico (funciones de distribución de probabilidades y sus parámetros), en los aspectos prácticos del análisis de muestras (estimaciones, errores, verificación de hipótesis y teoría de pequeñas muestras), y se considera el aspecto estadístico de los ajustes de regresión por mínimos cuadrados, completando lo visto en la primera parte (I) sobre este último tema. En el tercer apartado (III) se trata la propagación de errores a través de ecuaciones matemáticas que dan las mediciones indirectas de propiedades, estudiando la propagación asociada a cada tipo de error (escala, sistemático, accidental). El cuarto gran apartado (IV) completa con cuestiones avanzadas aspectos de interés en el cálculo numérico y en el tratamiento de datos, estudiándose así: los polinomios trigonométricos, la resolución de ecuaciones diferenciales ordinarias, la diagonalización de matrices, la integración Monte Carlo, algunas aplicaciones de los procesos de minimización, y el análisis de la varianza. En cuanto al quinto apartado (V) dedicado a la computación, merece una consideración más detenida que se va a hacer a continuación. De especial importancia en toda la asignatura es la realización de cálculos concretos, aunque, por razones obvias de tiempo, en este curso de introducción el nivel de sofisticación no pasará, en general y con las excepciones que se discutirán más adelante, de lo que se pueda lograr con una calculadora de mano o de escritorio. Sin embargo, en los descriptores ya señalados aparecen dos conceptos: Tratamiento de Datos Experimentales Mediante Computación, y Simulación y Validación de Métodos. En ambos casos la computación es necesaria y, aunque la presencia de ordenadores personales en los hogares es amplia, ni todos ellos van a estar preparados con las herramientas de software adecuadas, ni todos los estudiantes dispondrán de los conocimientos previos necesarios, como para que puedan ser abordadas sin más estas tareas computacionales. Hay que señalar, de paso, que no se contempla una asignatura específica de Computación, dedicada al aprendizaje de lenguajes de programación científica, en los Estudios de Grado en Química y esto añade unas graves dificultades al planteamiento general. Se supone así, dentro de dicho
23
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
planteamiento, que para impartir la presente asignatura los Centros Universitarios estarán dotados tanto de los medios materiales («hardware», PCs, «software» correspondiente, etc.), como del personal que instruya en lenguajes de programación y supervise estas actividades. Por lo que respecta a la UNED y en cuanto a los medios materiales, pueden éstos darse por satisfechos a efectos prácticos en los Centros Asociados, ya que prácticamente todos poseen una infraestructura informática razonablemente adaptada a esta demanda. La otra cuestión relativa a los lenguajes de programación y al personal asociado plantea ya muchos problemas por la diversidad de lenguajes y la escasez de personas preparadas en cálculo científico y/o en disposición de enseñarlo (el lenguaje utilizado en este área sigue siendo por excelencia el Fortran, aunque cualquier otra opción que sirva a los mismos fines es igualmente válida). Item más, en este punto hay que recordar la experiencia bien contrastada de que solamente después de saber cómo se resuelve un problema «a mano» es uno capaz de, disponiendo de los conocimientos de programación adecuados, abordar el diseño de programas o códigos para resolver con el computador los cálculos de interés. Hay que notar que la posibilidad de realizar el aprendizaje de un lenguaje de programación como parte de la tarea asociada con los créditos Prácticos (1,5) en esta asignatura constituiría sin duda un ejercicio de voluntarismo con resultados altamente inciertos. Un lenguaje de programación es justamente eso, un lenguaje, y su aprendizaje eficaz es demasiado lento para el escaso tiempo disponible. Una alternativa a esta situación es la realización de Prácticas con la utilización de paquetes informáticos comerciales (las populares hojas de cálculo) que pueden permitir tratar algunas cuestiones de interés en la asignatura, y ello siempre con todos los inconvenientes que plantea un uso indiscriminado de «cajas negras» sin una preparación adecuada. Es evidente que, aunque ciertos tratamientos de datos experimentales pueden realizarse así, otras cuestiones como las de simulación y validación, no podrían llevarse a cabo de esta manera. Se dejan a un lado los usos de herramientas más sofisticadas (software del tipo de los «laboratorios» matemáticos integrados), pues a este nivel de un segundo curso están aún más alejadas de los objetivos que se persiguen. Por otra parte, desde el punto de vista del personal necesario para supervisar determinados tipos sencillos de Prácticas con los paquetes estándar mencionados antes en los Centros Asociados de UNED, los problemas son ciertamente menores, pues en definitiva, esto no es ya computación, sino que se trata de una Ofimática avanzada. Así, y
24
PRESENTACIÓN
optando por el menor de dos males, entre la ignorancia absoluta y el (des) «conocimiento» parcial, esta alternativa puede resultarle útil al estudiante, abriéndole perspectivas desconocidas y motivándole al estudio en profundidad de estos temas con posterioridad. En este sentido, se incluye un Apéndice de orientación con una selección de posibles prácticas para que sirvan como modelo de actividades en este contexto a estudiantes y Tutores. Para cursar esta asignatura con el máximo aprovechamiento se recomienda haber cursado las asignaturas de Matemáticas I y II previas en estos estudios de Grado. En particular sería conveniente para el estudiante refrescar sus conocimientos, algunos posiblemente adquiridos durante su enseñanza secundaria, en los temas que se especifican a continuación. Análisis Matemático: Funciones reales de una variable real (continuidad, diferenciación, integración), funciones de varias variables (derivación parcial, integración multidimensional), sucesiones, series numéricas y funcionales (Fourier) y ecuaciones diferenciales ordinarias. Álgebra Lineal: Espacios vectoriales, matrices y determinantes. También le será útil recordar conocimientos adquiridos en estudios anteriores a los universitarios de Probabilidad y Estadística: Histogramas de frecuencias, probabilidad, valores medios y dispersiones, distribuciones binomial y Gaussiana. Estos pre-requisitos lo son para el conjunto de la materia y no resulta posible individualizarlos pormenorizadamente por capítulos más allá de la separación hecha por bloques temáticos y de algunas indicaciones muy concretas, ya que de una u otra forma todos resultan necesarios para el estudio que aquí se propone. Las Matemáticas son así. Los matemáticos encontrarán este libro ciertamente incompleto, pero valga en descargo de esta modesta obra que se ha escrito con la esperanza de prestar un servicio a la comunidad universitaria implicada en la enseñanza de la Química en estos tiempos de cambio. Cada uno de los cuatro grandes apartados teóricos del programa está estructurado en capítulos. Cada capítulo comienza mostrando un sumario con los contenidos principales (los objetivos generales de conocimiento) y una breve descripción de ellos. Se continúa con el desarrollo en detalle de los conceptos y las técnicas, incluyendo ejercicios intercalados para ilustrar unos u otras, y se ofrece en una sección independiente una serie representativa de problemas teóricos y numéricos. Los problemas marcados con ** son de una mayor dificultad y pueden ser obviados en una primera lectura. Cada capítulo concluye con una selección bibliográfica de consulta y ampliación. El texto contiene TRES apéndices, uno para orientación de prácticas, otro con un repaso de las
25
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
series de Fourier (Apéndice II) por su importante relación con el Cap. 2 y parte del Cap. 9, y un tercero que contiene unas breves tablas estadísticas por completitud del texto. Finalmente se presentan una bibliografía general comentada, un amplio glosario de términos, y un índice alfabético de materias para facilitar la localización de conceptos. Como cuestión adicional se relacionan en la sección de Bibliografía General algunas lecturas avanzadas para que el estudiante interesado pueda considerar los conceptos vertidos en el texto desde otras perspectivas complementarias. Se ha optado por esta posibilidad, en vez de recomendar estas actividades por capítulo concreto, para no distraer con trabajo extra al estudiante medio. El texto está ilustrado con más de medio centenar de figuras diseñadas en color para facilitar la comprensión y comparación de conceptos. El lector encontrará un total de 200 ejercicios y problemas completamente resueltos y preparados con la intención de ayudarle con efectividad en el estudio personal, faceta que en el caso de asignaturas de los primeros cursos, como la presente, cobra una importancia de primera magnitud en lo que debe ser el trabajo del estudiante en ellas. Sólo así podrá éste, alcanzada una buena formación, colaborar con eficacia en trabajos de equipo en un futuro. Como aplicación de estas ideas, el momento más adecuado para los estudiantes de poner los conocimientos adquiridos en común y trabajar en grupo será durante la realización de las Prácticas. Existen disciplinas en las que puede resultar fácil (y hasta provechoso en algunos casos) señalar los aspectos más relevantes para orientar el estudio. No este el caso de la presente, pues al ser una materia de formación matemática «básica» todos los conceptos que aquí se discuten son igualmente necesarios y están de una u otra forma relacionados, no siendo así aconsejable centrar la atención en alguno en particular como preponderante, so pena de cometer un error de juicio importante. Puede, no obstante, resultar de utilidad indicar el siguiente esquema de influencias entre los diversos capítulos del texto 1 Æ 2, 3, 7, 9 2 Æ 3, 7,9 3 Æ 9, 10 4 Æ 7, 9, 10 5 Æ 6, 7, 8, 10 6 Æ 7, 8, 10 7 Æ 1, 10
26
PRESENTACIÓN
Para no enmarañar innecesariamente este texto, todas las cuestiones relativas a objetivos generales y específicos, competencias y habilidades a adquirir, planificación del estudio y demás sutilezas pedagógicas, se dejan para las herramientas complementarias adecuadas, como son las Guías Didácticas del estudiante y del Tutor, que se incluirán en el Curso Virtual de esta asignatura a encontrar en la plataforma educativa ALF (http://www.uned.es). El autor ha intentado eliminar al máximo erratas y errores, pero como es sabido este proceso «no converge bien« y cabe la posibilidad de que algunos de estos indeseables elementos se hayan deslizado en el material que se presenta. Cualquier indicación que ayude a eliminarlos será muy bien recibida. La escritura de un libro de texto siempre implica una buena cantidad de renuncias a otros proyectos y actividades por parte del autor, pero también por parte de los miembros de su familia. En el caso presente darles sólo las gracias por su comprensión y ánimo se antoja poco, pero al autor ya se le ocurrirá algo al respecto. Madrid, abril de 2011 Luis M. Sesé
27
I MÉTODOS NUMÉRICOS
1. Ajuste de funciones con polinomios: técnicas de colocación y de mínimos cuadrados 2. Ajuste de funciones con polinomios ortogonales 3. Aplicaciones numéricas básicas 4. Resolución numérica de ecuaciones y sistemas
CAPÍTULO 1 AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
1.1. Introducción A. Polinomios de colocación 1.2. Ajustes con polinomios de colocación 1.3. La tabla de diferencias y los polinomios de Newton 1.4. El polinomio de Lagrange 1.5. Otras técnicas B. Mínimos cuadrados 1.6. Concepto y aplicación al caso lineal 1.7. Ajustes de mínimos cuadrados de orden superior Bibliografía Problemas teóricos y numéricos
Se presenta una introducción operativa de la aproximación de funciones reales de variable real. Primero se trata el problema de aproximar mediante polinomios de colocación funciones definidas no mediante una expresión analítica sino mediante una tabla numérica (xi, yi), normalmente asociada a un conjunto de resultados experimentales, discutiendo de forma general el problema del error cometido. Con ello se pone de manifiesto que las operaciones matemáticas aproximadas a realizar quedan reducidas a las meramente aritméticas (suma, resta, multiplicación y división), lo que redunda en la facilidad de cálculo (manual y con máquina). Por otra parte, el uso de polinomios se ve beneficiado por el hecho de que las diferenciaciones e integraciones son inmediatas y producen también polinomios. Además sus raíces son fácilmente calculables y una alteración del origen de coordenadas no altera su forma global, ya que sólo cambian sus coeficientes. Se introduce el concepto de tabla de diferencias, muy útil por otra parte en el análisis de datos (búsqueda de errores de entrada), y se aplica a la obtención de dos tipos de polinomios de colocación clásicos para datos igualmente espaciados: avance y retroceso de Newton. Seguidamente, se
31
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
estudia el polinomio de Lagrange, indicado para representar datos no igualmente espaciados. Se continúa con la presentación del problema general de la aproximación de mínimos cuadrados en la base polinómica convencional como una alternativa con propiedades de suavidad a los ajustes polinómicos anteriores. Las cuestiones tratadas aquí se completarán con detalle en capítulos siguientes, tanto desde el punto de vista numérico como del estadístico. Colocación
Mínimos cuadrados
Argumentos Igualmente espaciados
Argumentos Desigualmente espaciados
Argumentos Igual/Desigualmente espaciados
Tablas de diferencias Pol. Newton (Pol. Lagrange)
Pol. Lagrange
Casos: Lineal (Error RMS) Orden superior
Caps. 3, 9 Caps. 2, 7
1.1. Introducción Supóngase un fenómeno físico o químico que se describe con dos variables (x, y(x)) como, por ejemplo, una cinética química con valores de la concentración c(t) de un reactivo (o de un producto) en función del tiempo t, (t, c(t)) la posición x(t) de un móvil unidimensional en función del tiempo t, o la energía de interacción u(r) de dos átomos en función de la distancia entre ambos, (r, u(r)). La ecuación exacta del fenómeno en cuestión, en general y = y(x), pudiera ser conocida o desconocida. Si la función es conocida y suficientemente simple, trabajar con ella directamente puede resultar adecuado. Pero si la función es conocida pero complicada y hay que evaluarla muchas veces, o si la función es desconocida y sólo viene dada por una tabla finita de datos (xi, yi), i = 1, 2, 3, …, N, entonces la utilización de «ajustes» de datos numéricos particulares de tales funciones utilizando funciones simples conocidas resultan bien muy ventajosos en el caso de la función conocida, bien la forma más razonable de tratar matemáticamente con la función desconocida. Tales ajustes deben claramente seguir criterios definidos que garanticen la fiabilidad de las manipulaciones que se hagan con los datos.
32
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
Hay una gran variedad de criterios y de funciones simples a utilizar en este contexto y, dependiendo del problema, algunos son más adecuados que otros. Todos ellos y sus diversas aplicaciones forman la disciplina del Cálculo Numérico, de la cuál se dice que es tanto una ciencia como un arte, como puede deducirse fácilmente del comentario anterior. El uso de cálculo con computador está fuertemente ligado a las aplicaciones de esta rama de las matemáticas, máxime teniendo en cuenta que la mayor parte de los problemas de interés en química y en física no pueden ser resueltos de una manera analítica exacta. El estudioso de estos temas se ve así en la necesidad de elaborar estrategias aproximadas para obtener respuestas a los problemas. Estas estrategias se basan en el diseño de los programas de cálculo en lenguajes como fortran, C, pascal, y otros. Aprender estas técnicas de programación es un asunto que requiere cursos especializados y no se van a tratar aquí. La comprensión de la naturaleza de los métodos numéricos puede, no obstante, lograrse con aplicaciones que no van a mucho más allá de aquéllas que pueden realizarse con calculadoras de escritorio o con el uso de recursos sencillos en ordenador personal. Esta comprensión es muy importante, pues capacita al que la posee para analizar los resultados obtenidos y para poder diseñar esas estrategias de cálculo adecuadas cuando se trata de resolver un problema nuevo. Como se dice en el argot: «Sólo cuando se sabe resolver un problema a mano, se puede empezar a diseñar bien un programa de cálculo». Tal es el objetivo general de este texto: aprender, comprender, y aplicar estos métodos en casos suficientemente simples pero a la vez suficientemente ilustrativos. De entre los métodos utilizados en este campo van a presentarse en este capítulo dos que son básicos para tratar con funciones dadas por tablas numéricas: los polinomios de colocación y las aproximaciones de mínimos cuadrados. Los polinomios de colocación ajustan exactamente los puntos tabulares y forman la base del cálculo numérico clásico (interpolación, diferenciación, integración, etc.). Las aproximaciones de mínimos cuadrados realizan una «suavización» de los puntos tabulares, pero como nota distintiva están relacionados con conceptos fundamentales para el estudio de sistemas atómicos y moleculares, como son los desarrollos en serie de funciones ortogonales. Por otra parte, no hay que desdeñar nunca el uso de representaciones gráficas de los datos (xi, yi) que orienten en la decisión del tipo de ajuste a realizar.
33
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
A. POLINOMIOS DE COLOCACIÓN 1.2. Ajustes con polinomios de colocación El uso de polinomios p(n) (x) para aproximar funciones (conocidas o no) tiene una gran cantidad de ventajas, ya que la aproximación y( x) ≈ p( n) ( x) = a0 + a1 x + a2 x2 + ... + an xn
(1.2.1)
involucra sólo potencias xj con j entero positivo, lo que resulta muy conveniente tanto desde el punto de vista del cálculo manual como con máquina de calcular. Además, tanto la derivación como la integración de p(n) (x) son operaciones inmediatas que producen de nuevo polinomios, y las n raíces de p(n) (x) pueden calcularse con un esfuerzo razonable. Además, un mero cambio del origen de coordenadas no afecta a la forma general de la aproximación, sino sólo a los coeficientes aj. Por brevedad en la notación, en adelante y cuando convenga se utilizará [x1, x2] ⬅ x1 ≤ x ≤ x2 para denotar un intervalo cerrado y (x1, x2) = x1 < x < x2 para denotar un intervalo abierto. Todo esto está relacionado con el hecho de que la base de los polinomios {xn}n=0,⬁ = {1, x, x2, x3,...} es completa sobre cualquier intervalo cerrado [x1, x2], lo que forma la esencia del conocido teorema de Weierstrass que establece que cualquier función continua arbitraria y(x) puede expresarse con tanta precisión como se desee mediante un polinomio y( x) ≈ p( n) ( x) = a0 + a1 x + a2 x2 + ... + an xn ; x1 ≤ x ≤ x2
(1.2.2)
sin más que ir añadiendo términos aj xj al desarrollo. Esto implica la acotación siguiene para la diferencia entre la función y la aproximación en el intervalo: y( x) − p( n) ( x) < ε
(1.2.3)
en donde e es una cota prefijada y el orden n a alcanzar depende de tal cota n = n(e). El anterior es sencillamente el criterio de convergencia uniforme (tiene lugar en todo el intervalo a la vez) y la demostración debida a Bernstein (1912) involucra un tipo especial de polinomios que no son muy adecuados en la práctica para el cálculo. No obstante, se pone con todo ello de mani-
34
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
fiesto el carácter completo de la base polinómica como base del espacio vectorial de las funciones continuas en un intervalo finito (la dimensión de este espacio vectorial es infinita). El uso de un criterio de convergencia diferente, como el de convergencia en media que se verá más adelante, lleva naturalmente al concepto de ajuste por mínimos cuadrados. El problema a resolver en ambos casos es el de la determinación de los coeficientes aj.
Opciones de ajuste polinómico Dentro de los ajustes polinómicos hay un buen número de opciones, colocación, osculación, splines, etc., pero hay que indicar primero que en la práctica es preferible utilizar varios polinomios de grado pequeño para representar secciones de la función y(x) en vez de utilizar un único polinomio de grado elevado que represente a la función en su conjunto. Esto resulta especialmente importante para minimizar el efecto de las fuertes oscilaciones de los polinomios en los extremos del intervalo de ajuste, que son tanto más pronunciadas cuanto mayor es el grado, y pueden destruir la calidad de una operación numérica (derivada, integral, etc.). En esencia la aproximación por polinomios de grado pequeño (entre 1 y 5) está relacionada con el familiar desarrollo de Taylor en torno a un punto x = x0, y truncado a un cierto orden, para una función («de buen comportamiento») continua con derivadas continuas y finitas: dy 1 d2 y 1 dn y y( x) ≈ y( x0 ) + ( x − x0 ) + 2 ( x − x0 )2 + .... + n ( x − x0 )n (1.2.4) 2! dx n! dx dx 0 0 0 del que se sabe que, cuanto más cercanos sean x y x0 un grado bajo en el truncamiento ya realiza una buena aproximación. En este caso de los polinomios de Taylor la magnitud del error cometido al truncar a un cierto orden n es, en principio, conocida. Se trata del resto de Lagrange: Rn+1 ( x) =
y( n+1 (ξ ) ( x − x0 )n +1 ( n + 1)!
(1.2.5)
en donde x es un punto indeterminado dentro del intervalo abierto definido por x y x0 y que depende de x, x = x(x), y se denota con y(n+1 a la derivada
35
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
(n + 1) – ésima de y(x). Esta expresión, conocida y(x), permite acotar en los casos adecuados el valor absoluto del error Rn+1(x), una operación siempre necesaria, pero que en el caso de la aproximación polinómica general no va a ser siempre posible de ser llevada a cabo con la misma exactitud que la de Taylor.
El criterio de colocación: casos simples Si sólo se conocen dos datos o puntos (x1, y1) y (x2, y2), con x1 < x2 el grado de la aproximación a y(x) será como máximo del tipo lineal, es decir una línea recta de la forma y( x) ≈ p(1) ( x); y − y1 ≈
y2 − y1 ( x − x1 ) x2 − x1
(1.2.6)
una representación que claramente «coloca» la función en los puntos tabulares y(x1) = y1, y(x2) = y2. Se representa así linealmente lo que sucedería con y(x) para cualquier x1 ≤ x ≤ x2, algo que se conoce como interpolación, pero también representa linealmente todo lo que sucedería con y(x) para cualquier x exterior al intervalo de definición conocido (extrapolación). La interpolación tiene sentido, pero la extrapolación ya no lo tiene y como se verá más adelante da, salvo casos muy especiales, estimaciones completamente erróneas del comportamiento de la función. Para simplificar la notación, y sabiendo que el polinomio es siempre una aproximación a la función exacta desconocida, en adelante se escribirán convencionalmente con el signo igual p(1) ( x) = y ; y − y1 =
y2 − y1 ( x − x1 ) x2 − x1
(1.2.7)
Si hubiera que hacer distinciones entre los valores reales exactos y los estimados con la aproximación, se denotarán oportunamente. El caso siguiente es el de conocer tres datos o puntos, (x1, y1), (x2, y2), y (x3, y3) con x1 < x2 < x3 lo que va dar una aproximación de colocación como máximo cuadrática:
p ( 2) ( x ) = y = a0 + a1 x + a2 x 2 ; x1 ≤ x ≤ x3
36
(1.2.8)
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
debiendo estudiarse la compatibilidad del sistema de ecuaciones lineales resultante para obtener los coeficientes aj y1 = a0 + a1 x1 + a2 x12 y2 = a0 + a1 x2 + a2 x22
(1.2.9)
y3 = a0 + a1 x3 + a2 x32 De nuevo se plantea la cuestión de lo que sucede para diferentes valores de x y la discusión es mutatis mutandi la misma que antes relativa a (1.2.6) en cuanto a la interpolación e extrapolación. EJERCICIO 1.2.1 Discutir la existencia y unicidad de un polinomio p(2)(x) = a0 + a2x2 que ajuste una tabla de dos puntos (x1, y1), (x2, y2). La parábola que se plantea como función de ajuste es de eje vertical y con sólo dos incógnitas a0 y a2, lo que dados dos puntos tiene, en principio, sentido. El sistema a resolver es pues y1 = a0 + a2 x12 y2 = a0 + a2 x22 y para que sea compatible determinado el rango de la matriz de los coeficientes A debe necesariamente ser r(A) = 2 = número de incógnitas. Esto implica el determinante no nulo 1 x12 1 x22
= x22 − x12 ≠ 0
lo que lleva a que el ajuste tiene sentido si se verifican las condiciones x1 ≠ ±x2. Si las dos abscisas son iguales, x1 = x2, no hay parábola definida con eje vertical que pase por tales puntos, y si las dos abscisas son de signo contrario, x1 = –x2, entonces puede haber infinitas parábolas que pasen por ellos (Fig. 1T.1). De manera que para que exista una única parábola deben satisfacerse las condiciones indicadas por la no anulación del determinante.
37
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Figura 1T.1. Ejemplos de la no unicidad en un polinomio de ajuste al no haber condiciones suficientes. Existen infinitos polinomios de segundo grado p(2)(x) = a0 + a2x2 que pasan por los puntos (–1, 2) y (+1, 2).
Podría pensarse que el problema ha quedado resuelto, pero queda por analizar un detalle más relacionado con la naturaleza de la solución obtenida. Nótese que no se ha hecho ninguna referencia a los valores yk pues no van a afectar a la existencia de solución en tanto se cumplan las condiciones señaladas arriba. Sin embargo, si y1 = y2 entonces p(2 ) ( x) = a0 + a2 x2 = { a2 = 0} = a0 ; x1 ≠ ± x2 y la solución final no mantendría la forma cuadrática inicial. Desde el punto de vista de la utilidad de la aproximación en aplicaciones concretas esta circunstancia puede perfectamente representar un problema no deseado. El calculista numérico debe, por consiguiente, estar precavido contra una gran variedad de efectos que, no siendo erróneos matemáticamente, sí pueden resultar inconvenientes en las aplicaciones.
Observaciones de interés En general con N + 1 datos, {(xi, yi)}i=1,N+1, con los valores xi en orden creciente, puede ensayarse en principio un polinomio grado N, p(N)(x) = y = a0 +
38
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
a1x + a2x2 +...+ aNxN, del que habrá que estudiar su compatibilidad y las cuestiones sobre su validez en puntos x arbitrarios. En ausencia de más información sobre la función exacta y(x) el criterio de colocación suele dar buenas aproximaciones para el comportamiento global de dicha función siempre que: i) se utilicen grados polinómicos no muy elevados, lo que implica una segmentación de la tabla original; y ii) se restrinja su uso a la región conocida x1 ≤ x ≤ xN+1 (interpolación). La predicción de lo que puede suceder fuera de esta región (extrapolación) suele ser errónea en la mayor parte de los casos. Hay que notar que la resolución de un sistema de ecuaciones, del tipo (1.2.9), para determinar los coeficientes de un polinomio de grado N, resulta poco eficiente. Es preferible utilizar técnicas un tanto más sofisticadas como: iii) los polinomios de Newton (avance, retroceso), Everett u otras versiones cuando los datos están igualmente espaciados (xk+1 – xk = h = constante >0; o iv) el polinomio de Lagrange cuando los datos están desigualmente espaciados.
1.3. La tabla de diferencias y los polinomios de Newton Para una función tabular definida por una tabla de datos {(xk, yk)}k=0,N con los argumentos xk igualmente espaciados xk+1 – xk = h = constante > 0 una forma eficiente para poder determinar su polinomio de colocación viene dada por la construcción que se muestra en la Tabla 1.1. Esta construcción se continúa por la derecha y hacia abajo hasta agotar todas las posibilidades de efectuar diferencias entre valores yk y sus magnitudes Dnyk asociadas. Estas Dnyk se denominan diferencias de avance (de Newton) y su forma general es claramente Dnyk = Dn–1yk+1 – Dn–1yk. El orden máximo n con columna no nula que puede alcanzarse en este tipo de tabla es, para N + 1 puntos, justamente N. Puede suceder, sin embargo, que aparezca constancia en una determinada columna n < N, Dnyk = constante, lo que directamente indica que las diferencias de orden n + 1 van a ser todas nulas. En este caso la función admite una representación polinómica de grado n mediante el polinomio de avance de Newton. Si la función tabular es en realidad un polinomio, éste será el resultado obtenido con el de avance recién mencionado, siempre que el número de datos utilizado así lo garantice, y la representación será exacta. Si la función no es polinómica, entonces la representación obtenida será de utilidad para trabajar en la región de definición de la tabla.
39
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Tabla 1.1. Tabla de diferencias de avance para datos igualmente espaciados: xk+1 – xk = h = constante k
xk
yk
0
x0
y0
D2yk
Dyk
D3yk
Dy0 = y1 – y0 1
x1
D2y0 = Dy1 – Dy0
y1
D3y0 = D2y1 – D2y0
Dy1 = y2 – y1 2
x2
2
y2
D y1 = Dy2 – Dy1 D3y1 = D2y2 – D2y1
Dy2 = y3 – y2 3
x3
D2y2 = Dy3 – Dy2
y3
D3y2 = D2y3 – D2y2
Dy3 = y4 – y3 4
x4
D2y3 = Dy4 – Dy3
y4 Dy4 = y5 – y4
…
…
…
… …
… …
…
…
… …
El polinomio de avance de Newton Para una tabla igualmente espaciada el polinomio de avance de Newton está dado por 1 1 k( k − 1) ∆2 y0 + k( k − 1)( k − 2)∆ 3 y0 + ... + 2! 3! 1 +... + k( k − 1)...( k − n + 1)∆ n y0 + ... n!
pk = y0 + k∆y0 +
(1.3.1)
en donde por comodidad se ha utilizado la variable de ordenación auxiliar k k=
xk − x0 ; xk +1 − xk = h = constante >0; 0 ≤ k ≤ N h
y que está definida incluso para puntos no tabulares pero comprendidos dentro del rango delimitado por los argumentos xk. Así los valores k no son necesariamente enteros, por ejemplo para x0 < x < x1 los valores de esta variable de orden estarían entre 0 < k < 1 para x1 < x < x2 los valores de esta variable de orden estarían entre 1 < k < 2, y así sucesivamente. La expresión
40
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
general para el error del ajuste por colocación recuerda a la del resto de Lagrange (1.2.5) y para un polinomio de grado n es y( x) − p( n) ( x) =
( x − x0 )( x − x1 )...( x − xn ) ( n+1 y (ξ ) ( n + 1)!
(1.3.2)
en donde x es un punto indeterminado que está dentro del intervalo abierto definido por x0 y xn pero no puede coincidir con ninguno de los puntos tabulares. Más adelante, en el Cap. 3 se tratará con esta expresión en detalle para las aplicaciones. EJERCICIO 1.3.1 Obtener la tabla de diferencias para la función y(x) = 3x2 + x – 1, en el intervalo [–1, 1] utilizando un espaciado h = 0,25. Cualquier otro espaciado h y utilizando un intervalo de tabulación diferente presentaría un resultado análogo con constancia en las diferencias segundas, pero no necesariamente con el mismo valor constante. Tabla 1.2. Ejercicio 1.3.1 Tabla de diferencias de avance para y(x) = 3x2 + x – 1; h = 0,25 k
xk
yk
0
–1
1
1
–0,75
–0,0625
2
–0,5
–0,75
Dyk
D2yk
D3yk
–1,0625 0,375 –0,6875
0 0,375
–0,3125 3
–0,25
–1,0625
0 0,375
0,0625 4
0
–1
0 0,375
0,4375 5
0,25
–0,5625
0 0,375
0,8125 6
0,5
0,25
0 0,375
1,1875 7
0,75
1,4375
0 0,375
1,5625 8
1
3
41
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
EJERCICIO 1.3.2 Obtener los polinomios de avance de Newton para una tabla de diferencias en la que se tienen los comportamientos: a) D2yk = 0; b) D3yk = 0. a) El polinomio en este caso será de grado n = 1 y es sencillamente la ecuación de una línea recta: pk = y0 + k∆y0 = y0 +
x − x0 ∆y0 = y0 + m( x − x0 ) h
b) El polinomio será ahora de grado n = 2 y es la parábola: 1 k( k − 1)∆ 2 y0 = 2! x − x0 1 ( x − x0 )( x − x0 − h) 2 ∆y0 + y0 + ∆ y0 = a + bx + cx2 2 2! h h pk = y0 + k∆y0 +
El polinomio de retroceso de Newton La numeración de los datos en una tabla igualmente espaciada no tiene porqué empezar necesariamente en k = 0 y puede hacerse esta operación tomando como origen cualquier punto de la tabla. La elección anterior es la natural cuando se va a calcular un polinomio de avance de Newton, pero un polinomio de diferencias reversivas o de retroceso tomaría la numeración k = 0 partiendo del dato N y asignando al resto de los datos índices negativos correlativos. La situación se resume en la Tabla 1.3, en la que como antes se tienen valores xk crecientes al ir hacia abajo. Como puede comprobarse la tabla es idéntica a la anterior de avance, los resultados para las diferencias se obtienen de la misma forma, solamente la notación de cada elemento difiere. Con esta nueva construcción se puede determinar el polinomio de retroceso de Newton: 1 1 k( k + 1)∇2 y0 + k( k + 1)( k + 2)∇3 y0 + ... + 2! 3! 1 +... + k( k + 1)...( k + n − 1)∇ n y0 + ... n!
pk = y0 + k∇y0 +
42
(1.3.3)
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
Tabla 1.3. Tabla de diferencias de retroceso para datos igualmente espaciados: xk+1 – xk = h = constante >0 k
xk
yk
—yk
—2yk
—3yk
…
…
…
…
…
…
…
…
…
—y–3 = y–3 – y–4
…
…
–3
x–3
y–3
—2y–2 = —y–2 – —y–3 —3y–1 = —2y–1 – —2y–2
—y–2 = y–2 – y–3 –2
x–2
—2y–1 = —y–1 – —y–2
y–2
—3y0 = —2y0 – —2y–1
—y–1 = y–1 – y–2 –1
x–1
—2y0 = —y0 – —y–1
y–1 —y0 = y0 – y–1
0
x0
y0
con la definición de la variable auxiliar k idéntica a la de antes, pero cuyos valores son ahora k ≤ 0 al estar el origen en el argumento x máximo de la x − x0 tabla k = ; x0 ≥ x. h Observaciones prácticas Hay que tener en cuenta que una tabla finita con N + 1 datos igualmente espaciados puede representarse igualmente tanto con el polinomio de avance como con el de retroceso. Si se efectúan y utilizan todas las diferencias hasta el orden n máximo posible, ambas representaciones son idénticas, ya que el polinomio que ajusta una tabla finita es único (Fig. 1T.2). El utilizar una u otra versión, avance o retroceso, depende de la aplicación que vaya a hacerse. Para una precisión en el cálculo prefijada, si la zona de interés está en la parte superior, puede ser suficiente utilizar una aproximación de avance con grado j < n que ya suministre resultados aceptables y evite engorrosas operaciones que no los mejorarían sustancialmente. Lo mismo sucede con el polinomio de retroceso si el interés se concentra en la zona inferior de la tabla.
43
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Figura 1T.2. (a) Polinomio de colocación de 5º grado a una serie de datos. (b) Ajustes parciales a los datos anteriores utilizando polinomios de 2º grado consecutivos.
En línea con la discusión precedente, conviene señalar que existen otros polinomios de colocación para tablas igualmente espaciadas y que están adaptados para situaciones en las que el interés está en zonas apartadas de los extremos (Gauss, Everett, etc.). Estas versiones utilizan un origen situado en un punto interior de la tabla y numeran los datos como positivos o negativos según sean de mayor o menor argumento xk que el del origen seleccionado x0. Más adelante, en el Cap. 3 y al estudiar las aplicaciones, se considerará con más detalle este tipo de ajuste «central». En todos los casos de polinomios de ajuste por colocación se utilizan determinados operadores de diferencia, como los de avance D o de retroceso — presentados arriba para los polinomios de Newton, o los denominados operadores de diferencia central utilizados en los polinomios de Gauss, Everett, etc. Estos operadores permiten una formulación compacta de las expresiones de estos polinomios y utilizan todos la misma tabla de diferencias, pero seleccionando puntos de ella adecuados a cada caso. También conviene insistir de nuevo en que resulta siempre más ventajoso utilizar polinomios de grado pequeño que representen segmentos de la tabla, en vez de utilizar representaciones polinómicas de alto grado que incluyan la tabla completa. 1.4. El polinomio de Lagrange Cuando la tabla de datos {(xi, yi)}i=1,N+1 no está igualmente espaciada las técnicas anteriores no son utilizables y hay que recurrir a otros métodos. El más sencillo, siguiendo el criterio de colocación de puntos tabulares, es el lla-
44
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
mado polinomio de Lagrange. Si se desea ajustar la tabla completa, esto se logra con el algoritmo: N +1
p( N ) ( x) =
∑ i =1
( x − xj ) ∏ y( xi ); j ≠ i ⇒ j = 1, 2,.., i − 1, i + 1,..., N , N + 1 j ≠ i ( xi − xj )
(1.4.1)
en donde los casos i = 1 e i = N + 1, son simples de interpretar. Esta expresión se puede reducir utilizando menos puntos para representar segmentos de esa tabla. La suma incluye tantos sumandos como puntos se utilicen, siendo cada sumando un producto de N factores, y con j recorriendo los números entre 1 y N + 1 evitando siempre el caso j = i. Es fácil comprobar que el algoritmo anterior reproduce (coloca) la tabla o su segmento ajustado. La aplicación de este algoritmo puede parecer un tanto complicada y se va a ilustrar con un ejemplo numérico concreto en el siguiente Ejercicio. EJERCICIO 1.4.1 Se conocen las tres parejas de datos temperatura-presión siguientes pertenecientes a la curva de fusión del helio-4: T(K) P(kg/cm2)
10 604,2506
13 917,7237
20 1810,5190
Encontrar una representación polinómica para esta tabla. Va a tomarse la temperatura como variable independiente y como hay tres datos el polinomio será en principio de grado 2: P(2)(T) = a + bT + cT2. Para determinar los coeficientes podría efectuarse la resolución del sistema de ecuaciones (1.2.9) derivado de sustituir los datos. Esto sería esencialmente correcto, pero en general resulta siempre más eficiente calcular el polinomio de Lagrange, que en este caso viene dado por P ( 2 ) (T ) =
(T − 10 )(T − 13) (T − 13)(T − 20) (T − 10 )(T − 20) P2 + P1 + P = (13 − 10 )(13 − 20) (20 − 10 )(20 − 13) 3 (10 − 13)(10 − 20 )
(T − 13)(T − 20) (T − 10 )(T − 20) (T − 10)(T − 13) 604, 2506 + 1810, 5190 917, 7237 + (10 − 13)(10 − 20 ) (20 − 10)(20 − 13) (13 − 10 )(13 − 20) Esta es una expresión muy cómoda para evaluar valores de P en temperaturas comprendidas en el intervalo de definición (interpolación).
45
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
1.5. Otras técnicas Todas las estrategias de ajuste anteriores van a considerarse con más detalle en el Cap. 3 en conexión con sus aplicaciones. Hay que señalar que no son las únicas y que existe una gran variedad de técnicas de colocación por polinomios aparte de ellas y conviene mencionar algunas: i) el método de Aitken, que utiliza polinomios de colocación con grados crecientes que van ajustando subconjuntos de los puntos tabulares; ii) la técnica de las diferencias divididas, que generalizan las diferencias vistas antes construyendo cocientes de éstas entre diferencias de argumentos; iii) los polinomios osculadores, que no sólo colocan datos tabulares de la función, sino también valores de las derivadas de ésta en esos puntos; y iv) los ajustes por splines cúbicos, que utilizan los valores de la función y estimaciones de su derivada segunda para construir aproximaciones cúbicas entre cada dos puntos tabulares consecutivos. En este último caso el polinomio de «splines» toma entre (xi, yi) y (xi+1, yi+1) la forma p( 3 ) ( x) = Ayi + Byi +1 + Cyi′′ + Dyi′′+1
(1.5.1)
en donde xi+1 − x xi+1 − xi
;
B=
x − xi xi+1 − xi
(1.5.2a )
1 3 ( A − A)( xi+1 − xi )2 6
;
D=
1 3 ( B − B)( xi+1 − xi )2 6
(1.5.2 b))
A= C=
Se trata de un ajuste aplicable a cualquier tipo de tabla. Una elección común es y1¢¢ = yN¢¢ = 0 en los extremos de la tabla («splin» cúbico natural).
B. MÍNIMOS CUADRADOS 1.6. Concepto y aplicación al caso lineal Una técnica de aproximación de funciones definidas por una tabla numérica con N + 1 puntos, {(xi, yi)}i=0,N que no tiene que estar necesariamente igualmente espaciada, y que es diferente de la de colocación, es la de mínimos cuadrados. Aquí el criterio director es el de hacer mínima la suma de los cuadrados de las diferencias entre cada valor de entrada yi y su valor correspondiente y%i obtenido
46
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
a través de la expresión que se postula como aproximación. Para el caso de una expresión polinómica de grado n esta estimación vendría dada por n
y% i = y% ( xi ) =
∑a
xm m i
= a0 + a1 xi + a2 xi2 + ... + an xin
(1.6.1)
m= 0
Para ajustar el conjunto completo de puntos se exige que los coeficientes am sean tales que N
S=
∑ [ y( x ) − y% ( x )]
2
i
i
= mínimo ≥ 0
(1.6.2)
i= 0
Nótese que en mínimos cuadrados la única relación existente entre el grado del polinomio n y el número de puntos a ajustar N + 1 es que n < N, es decir que lo habitual es tener un número de puntos bastante mayor que el grado del polinomio de ajuste. Si n = N, entonces S = 0 y se tendría con (1.6.1) el polinomio de colocación a la tabla. La función S depende de los coeficientes am como variables y su minimización se lleva a cabo de la manera habitual: derivando parcialmente con respecto a los am, igualando a cero cada una de estas n ecuaciones lineales y resolviendo el sistema resultante. La demostración general de que este sistema tiene solución única y que efectivamente da un mínimo requiere recursos matriciales fuera del alcance de este curso. Sin embargo, para entender cómo se procede y, además por la importancia práctica que presenta, es muy ilustrativo estudiar con detalle el caso del ajuste lineal.
Estudio del caso lineal: determinación de los coeficientes La estimación lineal y%i = y%(xi) = a0 + a1xi lleva a la minimización de la función N
S=
∑ [ y( x ) − a − a x ] i
0
2
1 i
(1.6.3)
i= 0
a través de las condiciones necesarias N ∂S = − yi − 2 ∂a 0a i= 0
N
N
∑ ∑ ∑
1
a0 −
i= 0
i= 0
a1 xi = 0
(1.6.4a)
47
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
N ∂S xi yi − 2 = − ∂a 1a i = 0
∑
N
∑
N
a0 xi −
i=0
0
∑ i=0
a1 xi2 = 0
(1.6.4b)
que se reducen finalmente al sistema de dos ecuaciones (normales) con dos incógnitas a0 y a1 siguiente N
∑ i= 0
N
∑ i= 0
yi = ( N + 1) a0 + xi yi =
N
∑ i= 0
N
∑ x a ; i
1
b0 = s0 a0 + s1 a1
(1.6.5a)
b1 = s1a0 + s2 a1
(1.6.5b)
i= 0
xi a0 +
N
∑ i= 0
xi2 a1 ;
en donde las definiciones de los parámetros, b y s, son inmediatas. Las soluciones de este sistema son
s2 b0 − s1b1 s b −sb ; a1 = 0 1 1 20 2 s0 s2 − s1 s0 s2 − s1
a0 =
(1.6.6)
Con ello el conjunto inicial de puntos {(xi, yi)}i=0,N se representa mediante la denominada recta de mínimos cuadrados dada por y ≈ y% = a0 + a1 x ; x0 ≤ x ≤ xN Ahora hay que analizar la naturaleza de esta solución.
Unicidad de la solución La solución anterior es única, pues el determinante de la matriz de los coeficientes s es distinto de, y mayor que, 0: D=
48
s0
s1
s1
s2
= s0 s2 − s12 > 0
(1.6.7)
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
Esto puede probarse del modo siguiente: N
∑
D = ( N + 1)
xi2
i=0
N
N
−
N
∑ i=0
N
2
N xi = ( N + 1) xi2 − i=0
∑
N
∑ x − ∑∑ x x − ∑ x 2 i
( N + 1)
i= 0
2 i
i k
i=0 k ≠i
i=0
N
N
∑∑ x x
i k
=
i=0 k=0
(1.6.8)
N
=N
∑ x − 2∑ x x ; i, k = 0,1, 2,..., N 2 i
i k
i=0
i< k
en donde la doble suma completa sobre i y k se ha desdoblado en dos contribuciones i = k e i ≠ k. Nótese la abreviatura utilizada para la suma (doble) restringida i < k
∑xx
i k
= x0 x1 + x0 x2 + x0 x3 + ... + x0 xN +
i< k
x1 x2 + x1 x3 + ... + x1 xN + ............................ + xN −1 xN El paso final es notar que D puede escribirse como una suma de términos positivos D=
∑ i< k
N
( xi − xk )2 = N
∑ x − 2∑ x x 2 i
i= 0
i k
>0
i< k
Se concluye así la compatibilidad del sistema y la solución única para éste (rango = 2 = número de incógnitas). El carácter de mínimo La siguiente cuestión es la de la naturaleza como mínimo de la solución. Sobre bases intuitivas la cuestión parece clara: una suma de cuadrados tiene como valor mínimo absoluto posible S = 0, y la búsqueda del «punto» (a0, a1) que lleve a la situación estacionaria dada por las ecuaciones (1.6.4) parece que garantiza ya la del mínimo. Además, S no parece ser un problema de máximos, pues por mera construcción una suma de cuadrados no está, en principio, acotada superiormente. Es ilustrativo, sin embargo, probar que la solución encontrada conduce verdaderamente al mínimo para S consistente con la tabla de datos. Para ello
49
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
hay que demostrar que el Hessiano H es positivo (existe extremo local para la función S)
H=
∂2 S ∂a02
∂2 S ∂a0 ∂a1
∂2 S ∂a1 ∂a0
∂2 S ∂a12
>0
(1.6.9)
y que sus elementos diagonales también lo son (el extremo es un mínimo) ∂2 S ∂2 S > >0 0 ; ∂a02 ∂a12
(1.6.10)
Todo esto equivale a la condición de que la forma cuadrática S(a0, a1) sea definida positiva. De aquí en adelante, y por simplicidad de notación, se omitirán cuando no sean necesarias las variables constantes en las derivaciones parciales. Se tienen así las desigualdades ∂2 S ∂ ∂S = = 2( N + 1) = 2 s0 > 0 2 ∂a0 ∂a0 ∂a0 N
∂2 S ∂ ∂S = xi2 = 2 s2 > 0 =2 2 ∂a1 ∂a1 ∂a1 i= 0
∑
(1.6.11a)
(1.6.11b)
Por otra parte, las derivadas cruzadas son N
∂2S ∂2 S = =2 xi = 2 s1 ∂a0 ∂a1 ∂a1∂a0 i= 0
∑
(1.6.12)
y el Hessiano resulta H=
2 s0
2 s1
2 s1
2 s2
= 4( s0 s2 − s12 ) = 4 D > 0
(1.6.13)
quedando así demostrada la cuestión. La «bondad» del ajuste El último punto es de la bondad o adecuación de la expresión lineal propuesta y%i = y% (xi) = a0 + a1xi para representar a la tabla de datos. Primero
50
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
nótese que la función lineal no pasa, en principio, necesariamente por los puntos que pretende ajustar y, en general, las desviaciones son yi – y%i ≠ 0. Se ha obtenido que la suma de los cuadrados de estas desviaciones, S(n = 1), es un mínimo, pero deben hacerse dos consideraciones: a) ¿se obtendría una representación mejor con un polinomio de mínimos cuadrados de orden mayor n ≥ 2 en el sentido de obtener un valor para S aún menor, S(n ≥ 2) < S(n = 1)?; b) ¿tiene sentido realizar tal ajuste ampliado? Estas dos consideraciones pueden estar incluso relacionadas, ya que si por argumentaciones teóricas se supiera que la relación esperada debe ser lineal, entonces carecería de sentido realizar ajustes con n ≥ 2. Este tipo de operación caso de ser exitosa podría indicarnos un fallo en el modelo teórico, aunque esto no suele ser habitual, o bien un problema sistemático en la toma de datos tabulares. Si por el contrario, no hay información a priori sobre la fórmula a ajustar, entonces la búsqueda con n ≥ 2 puede resultar de gran interés para mejorar al máximo la descripción empírica del fenómeno mediante una fórmula matemática manejable, como es la de mínimos cuadrados, y que además suaviza los posibles errores en los datos de entrada. Hay que tener presente que la metodología de mínimos cuadrados puede ser analizada desde dos puntos de vista complementarios: el del mero cálculo numérico tratado anteriormente, y el de los aspectos estadísticos que se estudiará posteriormente en este texto (Caps. 5, 7, 10). Todo ello está relacionado con las posibles medidas del error del ajuste y de la significación estadística asociada, temas sobre los que se hablará más adelante en conexión con el error RMS, el coeficiente de correlación, y el análisis de la varianza. Finalmente, debe señalarse que la técnica de mínimos cuadrados es una muy poderosa técnica general dentro del campo de la optimización de funciones, estando además en la raíz de las aplicaciones de representación de funciones con convergencia en media (desarrollos en serie de funciones ortogonales) que se estudiarán más adelante (Caps. 2 y 9).
La utilidad extendida del caso lineal El caso lineal es particularmente interesante por su simplicidad y por las posibilidades de reducir dependencias funcionales complicadas y = f(x) a relaciones lineales mediante cambios adecuados de variables. Así, por ejemplo, relaciones empíricas típicas reducibles a forma lineal son las siguientes:
51
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
i) Doble logarítmica: y = axm Æ ln y = ln a + m ln x, que se puede expresar como Y = ln a + mX ;
Y = ln y ; X = ln x ; A = ln a → Y = A + mX
(1.6.14)
con la condición de que los valores de las variables y y del parámetro a sean todos mayores que cero y > 0, x > 0, a > 0. ii) Semilogarítmica: y = amx Æ ln y = ln a + x ln m, que se puede expresar como Y = ln a + X ln m ; Y = ln y; X = x; A = ln a ; M = ln m → Y = A + MX (1.6.15) con la condición de que los valores de la variable y y de los dos parámetros sean todos mayores que cero y > 0, m > 0, a > 0. iii) Hay otros cambios de variable admisibles (deben ser monótonos en el dominio de variación de la variable) que incluso pueden hacer uso de puntos tabulares para simplificar el problema. Por ejemplo, pueden mencionarse → Y = aX + b; ( y ≠ 0 ) y
(1.6.16)
X = x − x0 y = ax + bx + c ; y − y0 → Y = aX + d Y = x − x 0
(1.6.17a)
y=
1 ; ax + b
X = x Y = 1 /
2
En (1.6.17) se ha utilizado un punto tabular, (x0, y0), para hacer lineal la función cuadrática, perdiendo uno de los puntos de entrada y debiendo realizar el ajuste lineal con N puntos {(xi, yi)}i=1,N y las nuevas variables transformadas X e Y. En estos casos conviene ensayar con varias elecciones del punto a utilizar para ver la consistencia de los resultados, y una solución final razonable (hay otras) suele ser la de tomar los valores medios de los parámetros a y d resultantes de estos ensayos. No hay que olvidar transformar a las variables originales del problema, que suelen tener asociado un sentido físico-químico, y que en el caso (1.6.17a) puede calcularse con d = b + 2 ax0 ; c = y0 − bx0 − ax02
52
(1.6.17b)
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
Una buena comprobación de que el ajuste tiene sentido y no se han cometido errores de «bulto» viene dada por la comparación entre los valores yi de la tabla de entrada y aquéllos que se pueden estimar con la relación postulada y%i = yi,est.. iv) El uso de representaciones gráficas simples de las funciones más comunes (lineal, doble logarítmica y semilogarítmica) en diferentes tipos de papel gráfico estándar (milimetrado, doble logarítmico y semilogarítmico) no debe desdeñarse, y es siempre una gran ayuda en este asunto. De una manera rápida se puede tener una idea de cuál es la forma funcional que esconden los datos y proceder así a su ajuste numérico final por mínimos cuadrados con un conocimiento fundado. Relaciones empíricas más generales para el ajuste de datos que pueden ser mejoradas mediante la técnica de los mínimos cuadrados se presentarán en el Cap. 7. v) Por el momento una expresión útil del error de ajuste de mínimos cuadrados es el denominado error RMS («root-mean square») que para N + 1 datos se construye como N
RMS =
∑ ( yi − yi,est. )2
i= 0
N +1
=
Smín N +1
(1.6.18)
que contiene al valor mínimo Smin resultante para S. Esta expresión general puede utilizarse también para los ajustes de mínimos cuadrados de orden superior n ≥ 2. Muchos de los detalles anteriores pueden verse ilustrados en el siguiente Ejercicio en el que se presentan someramente algunas ideas básicas sobre el error en los cálculos. EJERCICIO 1.6.1 Para los elementos químicos comprendidos entre Z = 20 (Ca) y Z = 30 (Zn) y utilizando un equipo de baja precisión se han obtenido los siguientes valores de las frecuencias de las líneas Ka de sus espectros característicos de Rayos-X Z
υα ( cm−1/ 2 )
20
23
25
28
30
5450
6310
6890
7754
8338
Utilizando la técnica de mínimos cuadrados estimar el valor de la constante de apantallamiento s para estos elementos sabiendo que la relación teórica
53
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
aproximada que deben seguir los datos anteriores (Ley de Moseley, 1913) es
υα = A( Z − σ ). Comparar con el valor de Moseley s = 1,13. Se trata de un simple ajuste lineal en el que haciendo y = υα , x = Z, a0 = –As, y a1 = A, se tiene la recta (Fig. 1T.3) y% = a0 + a1x Siguiendo la técnica expuesta antes se plantea el sistema N
∑ i= 0 N
∑ i= 0
yi = ( N + 1) a0 + xi yi =
N
∑ i= 0
N
∑ i= 0
xi a0 +
xi a1 ; N
∑ i= 0
xi2 a1 ;
b0 = s0 a0 + s1a1 b1 = s1 a0 + s2 a1
Figura 1T.3. Ley de Moseley para los elementos químicos entre el Ca (Z = 20) y el Zn (Z = 30) con datos del ejercicio 1.6.1. Las diferencias entre la recta dibujada con los datos tabulares y el ajuste de mínimos cuadrados son inapreciables a la escala del gráfico. No obstante, el ajuste de mínimos cuadrados da mejores resultados cuantitativos al suavizar los «errores de entrada».
Para calcular conviene ordenar los datos en la forma siguiente i 0 1 2 3 4
S 54
xi 20 23 25 28 30 = 126
x2i
yi
xi yi
400 529 625 784 900 3238
5450 6310 6890 7754 8338 34742
109000 145130 172250 217112 250140 893632
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
en donde la última fila da los resultados de sumar las columnas correspondientes. El sistema a resolver es 5 a0 + 126 a1 = 34742 126 a0 + 3238 a1 = 893632 y las soluciones son a0 = –As = –328,1401274, a1 = A = 288,7515924, con lo que la constante de apantallamiento es
s ª +1,1364 Redondeando por exceso a dos decimales se tiene s ª +1,14. Finalmente para no recargar la notación este resultado redondeado se escribe con la convención de signo igual
s = 1,14 Este resultado es muy próximo al obtenido por Moseley s = 1,13 ( A = 0, 76 R , R = 109677,6 cm–1). Un paso más en la comparación es comprobar la proximidad entre los datos estimados para las frecuencias y los datos de entrada. La tabla siguiente reúne ambos junto con los que pueden determinarse con la ley de Moseley exacta υα en unidades de cm–1/2). i
xi = Z
yi = υα
yi,est. = υα ,i = A( Z − σ )
υα ,i (Moseley)
0
20
5450
5446,892
5448,007
1
23
6310
6313,146
6314,145
2
25
6890
6890,650
6891,570
3
28
7754
7756,904
7757,708
4
30
8338
8334,408
8335,133
La evaluación de las sumas de cuadrados de desviaciones con respecto a los resultados de referencia, más precisos, de Moseley indica 4
Stabla =
∑(y − i
i =0
υα ,i
Moseley
)2 ≈ 45, 6
(datos de entrada)
4
Smín. cuad. =
∑( i= 0
υα ,i − υα ,i
Moseley
)2 ≈ 4, 3
(datos de suavizados)
55
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
y se ve que, al comparar con los resultados de referencia, el valor de la función a minimizar S es un orden de magnitud menor en los cálculos de mínimos cuadrados que el mostrado por la tabla de entrada. Esto es una muestra del proceso de «suavización» de los errores de entrada en una tabla de datos que, en general, lleva a cabo un ajuste de mínimos cuadrados. Existen medidas del error en mínimos cuadrados mucho más elaboradas (Cap. 7), si bien no es erróneo realizar comparaciones de proximidad entre los valores tabulares y los estimados en la forma 4
4
S=
∑
( yi − yi,est. )2 =
i= 0
∑(y − i
i= 0
υα ,i
mín. cuad.
)2 ≈ 41, 3
que sirven para construir los estimadores RMS.
Nota adicional sobre el error En los cálculos intermedios del Ejercicio anterior se ha mantenido el mayor número de decimales posibles para evitar redondeos que pueden desvirtuar la solución final. Sin embargo, en los cálculos de magnitudes obtenidas a partir de datos experimentales, como es el presente, no tiene ningún sentido dar todos los decimales obtenidos en la respuesta final, ya que se trata de dar un resultado física o químicamente significativo. Aquí se han tomado finalmente dos decimales para dar la solución a efectos de comparación con el dato de Moseley. El asunto del error en los cálculos aproximados es complejo y sucesivamente a lo largo del texto se irán tratando diversas cuestiones relativas al error y las cifras significativas en los resultados de operaciones.
1.7. Ajustes de mínimos cuadrados de orden superior El problema que se presenta a continuación es el de los ajustes de mínimos cuadrados en la base polinómica convencional y con órdenes crecientes. Si la representación lineal no es suficientemente precisa, o si resulta completamente inadecuada, la aproximación natural dentro de este contexto es la de aumentar el grado del polinomio de ajuste.
56
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
El caso cuadrático La primera extensión es la cuadrática (n = 2) en la que la tabla de datos de entrada {(xi, yi)}i=0,N se representa como y% i = a0 + a1 xi + a2 xi2 ; i = 0,1, 2,..., N
(1.7.1)
y las condiciones de optimización para calcular los parámetros vendrían dadas por la igualación a cero de las derivadas parciales con respecto a los coeficientes am de la función S adecuada para este caso. Se tienen así N
S=
∑(y − a − a x − a x ) i
0
2 2 2 i
1 i
= mínimo >0
(1.7.2)
i= 0
∂S = 0 ; m = 0,1, 2 ∂am
(1.7.3)
Las ecuaciones normales (1.7.3) desarrolladas explícitamente son ∂S = 0 → s0 a0 + s1a1 + s2 a2 = b0 ∂a0 ∂S = 0 → s1a0 + s2 a1 + s3 a2 = b1 ∂a1
(1.7.4)
∂S = 0 → s2 a0 + s3 a1 + s4 a2 = b2 ∂a2 en donde los símbolos s y b son generalizaciones de los ya vistos en el caso lineal N
s0 = N + 1; s1 =
∑x ; i
N
s2 =
i= 0
∑y ; i
i= 0
; s3 =
i= 0
N
b0 =
∑
N
xi2
∑
∑x y ; i i
i= 0
; s4 =
i= 0
N
b1 =
N
xi3
∑x
4 i
(1.7.5a)
i= 0
N
b2 =
∑x y
2 i i
(1.7.5b)
i= 0
Este proceso para n = 2 lleva a una solución única {a0, a1, a2} y su naturaleza es la de ser un mínimo para la función S. Se omiten las demostraciones y se remite al lector a las observaciones hechas en el caso lineal.
57
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
El caso general Los ensayos siguientes n ≥ 3 siguen la misma pauta y, en general, para un grado n arbitrario se tiene que el conjunto de ecuaciones normales que surgen de minimizar N
S=
∑ (y − a − a x − a x i
1 i
0
2 2 i
− ... − an xin )2
i= 0
puede escribirse generalizando la expresión (1.7.4) como ∂S = 0 → s0 a0 + s1 a1 + s2 a2 + ... + sn an = b0 ∂a0 ∂S = 0 → s1 a0 + s2 a1 + s3 a2 + ... + sn+1 an = b1 ∂a1
(1.7.6)
................................................................................... ∂S = 0 → sn a0 + sn+1 a1 + sn+ 2 a2 + ... + s2 n an = bn ∂an con las definiciones de los términos s y b N
sm =
∑
N
xim ;
bm =
i= 0
∑x
m yi ; i
m = 0,1, 2,..., 2 n
(1.7.7)
i =0
En forma matricial el sistema anterior se escribe como s0 s1 s 2 ... sn
s1
s2
...
s2
s3
...
s3
s4
...
... sn+1
... ... sn+2 ...
sn a0 b0 sn+1 a1 b1 sn+ 2 a2 = b2 → ... ... ... s2 n an bn
∑A= B
(1.7.8)
con A y B siendo los vectores columna que contienen las soluciones y los términos independientes, respectivamente. Desde un punto de vista algebraico formal el sistema puede demostrarse que tiene solución única {a0, a1, ..., an} y que su carácter es de mínimo.
58
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
Podría pues pensarse en una resolución numérica basada en el cálculo de la inversa de la matriz cuadrada S, A = S–1B. Sin embargo, este sería un procedimiento poco útil a medida que n crece. Técnicamente la cuestión está en que S es proporcional a lo que se denomina una matriz de Hilbert, que es un tipo de matriz mal condicionada. Por completitud, se muestra la forma de la matriz de Hilbert de orden n + 1 que es 1 1 2 1 3 ... 1 n +1
1 2 1 3 1 4 ... 1 n+ 2
1 3 1 4 1 5 ... 1 n+ 3
... ... ... ... ...
1 n +1 1 n+ 2 1 n+ 3 ... 1 2n + 1
(1.7.9)
El término mal condicionada se utiliza para denotar matrices cuyas inversas poseen elementos muy grandes, por ejemplo de órdenes >1012 para n = 9, de manera que al operar con ellas las amplificaciones de los errores de redondeo, obligados por la necesidad de usar un número finito de cifras en el cálculo, producirían resultados altamente inestables (pequeñas variaciones en los datos de entrada llevarían a resultados muy diferentes) y, por tanto, los valores obtenidos para las soluciones am no serían significativos para el problema estudiado.
Observaciones prácticas No deja de ser una paradoja sorprendente el hecho de que el problema general de mínimos cuadrados sea superdeterminado (hay más datos que incógnitas) y que tenga solución única en términos teóricos, y que, no obstante, la resolución numérica sea en la práctica para n elevados un problema asociado a una matriz casi singular que da al traste con este tipo de solución directa. A pesar de estas observaciones negativas para el método hay que señalar que para valores bajos, n < 7, el método directo basado en la resolución del sistema (eliminación, sustitución o matricial A = S–1B) da resultados significativos y funciona bien en la mayoría de los problemas. Por otra par-
59
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
te, para órdenes n ≥ 7 también es posible mantener una forma matricial de resolver el problema de los mínimos cuadrados, pero debe recurrirse a algoritmos numéricos especiales como la descomposición QR o la descomposición de valor singular (SVD). Aparentemente no parece que la mayoría de los ajustes de mínimos cuadrados habituales vayan a necesitar grados n ≥ 7 y, además, la posibilidad de ajustar segmentos de la tabla de datos con polinomios de mínimos cuadrados de grado bajo (n = 2 ó 3) pudiera ser muy recomendable en muchos casos. De manera que la discusión anterior sobre la estabilidad podría tomarse como una mera curiosidad matemática sin grandes repercusiones prácticas. Esto no es así, pues existe una gran variedad de problemas en la modelización de datos que puede requerir del uso de n elevados y hay que estar precavido de los problemas que pueden surgir. Incluso en el caso de ajustes abordables con la técnica matricial normal para n ≤ 6 la situación dista de ser eficiente. Nótese que dada una serie de datos {(xi, yi)}i=0,N y una vez obtenida una representación polinómica {a0, a1, ..., an} de mínimos cuadrados con un cierto grado n, en principio ninguno de los coeficientes calculados am servirá para construir la representación siguiente con grado n + 1. Es decir, al añadir una nueva función de base xn+1 nada de lo hecho anteriormente sirve para este nuevo ensayo, ya que hay que resolver el nuevo sistema normal de n + 2 ecuaciones desde el principio. Se obtiene entonces una solución {a* 0, a* 1, ..., a* n, a* n+1} en la que generalmente am ≠ a* m. La ineficiencia del proceso discutido lleva a considerar una alternativa muy poderosa como es la de los polinomios ortogonales, técnica que adopta una buena variedad de formas particulares, pero en la que como base del desarrollo se utiliza un conjunto de polinomios especiales {fn(x)}n=0,⬁ en lugar de la base polinómica convencional que se ha venido tratando {xn}n=0,⬁. Esta nueva base ortogonal de desarrollo {fn(x)} transforma el sistema normal de ecuaciones en un sistema diagonal de resolución trivial: los elementos de la matriz S son todos nulos salvo los que se encuentran en su diagonal principal. Como ventaja evidente está el que ahora se pueden mantener los coeficientes am del desarrollo al ir aumentando el grado (el número de funciones de base) del desarrollo. Por otra parte, los polinomios ortogonales sirven para introducir conceptos de gran calado en la mayoría de las cuestiones que surgen en la Física y la Química Teóricas. Al concepto de funciones ortogonales y de sus desarrollos para representar funciones, de los cuales los polinomios ortogonales son un caso representativo, va a dedicarse el capítulo siguiente.
60
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
BIBLIOGRAFÍA 1. SCHEID, F., Análisis Numérico, McGraw-Hill (serie Schaum), 1972. (Caps. 1, 2, 3, 4, 6, 8, 21). Se mantienen los mismos capítulos numerados de consulta en la obra Numerical Analysis (1988). 2. SESÉ, L. M., Métodos Teóricos de la Química-Física (Vol. 1), UNED, Madrid, 1994. (Temas 1, 8). 3. PRESS, W. H.; FLANNERY, B. P.; TEUKOLSKY, S. A. y VETTERLING, W. T., Numerical Recipes, Cambridge University Press, Cambridge, 1986. (Caps. 3, 14). 4. RICE, J. R., Numerical Methods, Software and Analysis, McGraw-Hill, Nueva York, 1983. (Caps. 4, 11). 5. RALSTON, A. y RABINOWITZ, P., A First Course in Numerical Analysis, Dover, Nueva York, 2001. (Caps. 2, 6). 6. DEMIDOWITSCH, B. P.; MARON, I. A. y SCHUWALOWA, E. S., Métodos Numéricos de Análisis, Paraninfo, Madrid, 1980. (Cap. 2).
61
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
PROBLEMAS TEÓRICOS Y NUMÉRICOS
Problemas teóricos 1.1) Calcular el efecto del operador diferencia de avance D sobre las funciones tabulares {(xk , yk)} construidas combinando otras dos funciones auxiliares {(xk , uk)} y {(xk , vk)} en las formas: a) yk = c1uk + c2vk (c1, c2 = constantes); b) yk = ukvk; c) yk = uk/vk. Comprobar las analogías entre los operadores D y d/dx al aplicarlos a funciones reales de variable real. 1.2) Calcular el efecto del operador diferencia de avance D sobre las funciones tabulares: a) {(k, sen k)}; b) {(k, cos k)}; c) {(xk, ln xk)}. Observar las diferencias con el resultado de aplicar el operador derivada d/dk. 1.3) Demostrar la relación general para las diferencias de una tabla igualmente espaciada n
n
∆ y0 =
n
∑ (−1) i y i
n− i
;
i =0
n n! i = i ! ( n − i)!
1.4) Responder a las siguientes cuestiones de aplicación de las diferencias de avance: a) Calcular las diferencias de una función tabular {(k, yk)}k=0,1,2... dada por la relación yk = 3k4 + 2k – 1. b) Encontrar las funciones yk que satisfacen Dyk = 4yk (k = 0,1,2,...). c) Idem para D2yk = 4yk (k = 0,1,2,...). 1.5) Se tiene una tabla de datos {(xi , yi, zi)}i=0,N y se desea ajustar un plano de mínimos cuadrados de la forma z = a + bx + cy. Obtener las ecuaciones normales que definen a los coeficientes del ajuste.
62
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
Problemas numéricos 1.6) Los datos siguientes dan resultados de presiones frente a volúmenes para un gas de van der Waals en la forma P% = f(V% ) en donde a P% = P + 2 ; V% = (V − b) V V% (l.)
5,5
8,25
15
20,3
44,5
62
P%(atm.)
61
35,7
14,7
11
4
2,6
Discriminar utilizando simplemente representaciones en distintos tipos de papel gráfico (milimetrado, doble logarítmico y semilogarítmico) si los datos representan: a) La ecuación de una isoterma P% V% = A. b) La ecuación de una adiabática P% V% h = B. c) La relación P% = C log10 V% + D. Notas: las magnitudes A, B, C, D y h, son constantes; 1 atm ª 1,013 bar = 1,013 · 105 Pascales. 1.7) La siguiente tabla contiene valores del factor de compresión z = PV/RT de un fluido cuántico en función de la densidad reducida r*N (magnitud adimensional) a una cierta temperatura T
r*N
0,1
0,2
0,3
0,4
0,5
z = PV/RT
1,354
1,786
2,404
3,283
4,565
Determinar el polinomio de Newton que coloca esta tabla y dar la expresión para el error del ajuste. 1.8) Las energías libres de Gibbs G de un fluido cuántico en unidades de RT para la isocora (línea de densidad constante) r*N = 0,4 vienen dadas en función de la longitud de onda de de Broglie reducida l*B por la siguiente tabla
l*B G/RT
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
–1,853 0,028 1,643 3,154 4,593 5,983 7,270 8,411
63
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Encontrar la mejor aproximación de mínimos cuadrados para esta tabla entre las siguientes opciones: a) G/RT = a0 + a1l*B b) G/RT = a0 + a1l*B + a2lB*2 c) exp[G/RT] = clB*m Utilizar como criterios las evaluaciones de la S mínima alcanzada y del error RMS. 1.9) A partir de una serie de experimentos se han tabulado los siguientes valores del potencial de interacción (energía en unidades de grado absoluto —Kelvin—) entre dos moléculas de metano en función de la distancia (en unidades de Å) entre sus centros de masa r/Å
3
3,5
V(r)/K
6250,5
440,4
4
4,5
5
5,5
6
–128,6 –132,0 –82,3 –55,7 –34,1
Utilizando el criterio de mínimos cuadrados decidir la mejor función que representa estos datos entre las siguientes σ 12 σ 6 a) V ( r ) = 4ε − r r σ 10 σ 5 b) V ( r ) = 4ε − r r Estimar también los parámetros del potencial e y s en cada caso (1 Å = 10–10 m; 1 K = 1,380658 · 10–23 J). SOLUCIONES Problema 1.1 a) Se trata de la propiedad lineal del operador D yk = c1uk + c2 vk → ∆yk = ∆( c1uk + c2 vk ) = ( c1uk+1 + c2 vk+1 ) − ( c1uk + c2 vk ) = ( c1uk+1 − c1uk ) + ( c2 vk+1 − c2 vk ) = c1∆uk + c2 ∆vk
64
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
b) Diferencia de un producto yk = uk vk → ∆yk = ∆(uk vk ) = uk+1vk+1 − uk vk = uk +1 vk+1 − uk+1vk + uk +1 vk − uk vk = uk+1 ( vk+1 − vk ) + (uk +1 − uk )v vk = uk+1∆vk + vk ∆uk = uk+1 vk+1 − uk vk+1 + uk vk +1 − uk vk = uk ∆vk + vk+1∆uk c) Diferencia de un cociente yk =
uk u u u v − uk vk+1 uk+1vk − uk vk + uk vk − uk vk+1 → ∆yk = k+1 − k = k+1 k = = vk vk+1 vk vk vk+1 vk vk +1 =
vk ∆uk − uk ∆vk vk vk+1
Estos tres resultados recuerdan las reglas de derivación de funciones, aunque como consecuencia de la no continuidad de la tabla (datos discretos) presentan algunas sutiles diferencias en los casos b) y c), como pueden observarse en las faltas de simetría en los índices (k y k + 1 en vez de k + 1 y k + 1, por ejemplo) al compararlos con: a)
d d d c1u( x) + c2 v( x) = c1 u( x) + c2 v( x) ( dx dx dx
b)
d d d u( x) v( x) = u( x) v( x) + v( x) u( x) ( dx dx dx
c)
d u( x) v( x) ( du / dx) − u( x) ( dv / dx) = dx v( x) v2 ( x)
)
)
Ambos operadores D y d/dx son lineales (propiedad a)).
Problema 1.2 Se procede como en el ejercicio anterior y se utilizan algunas relaciones trigonométricas en los casos a) y b) para simplificar las expresiones resultantes. a) ∆(sen k) = sen ( k + 1) − sen k = 2 cos
k + 1+ k k + 1− k sen = 2 2
2 cos( k + 1 / 2) sen(1/2)
65
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
b) ∆(cos k ) = cos ( k + 1) − cos k = −2 sen
k + 1+ k k +1− k = sen 2 2
−2 sen( k + 1 / 2) sen(1/2) Es importante señalar en conexión con a) y b) que los argumentos de las funciones trígonométricas son adimensionales y que en computación por defecto siempre se expresan en radianes. En los cálculos con calculadora de escritorio hay que cerciorarse de que se utiliza el modo adecuado para no cometer errores introduciendo radianes cuando el modo está en grados sexagesimales o viceversa. c) ∆ ln xk = ln xk+1 − ln xk = ln
xk+1 x +h = ln k = ln 1 + h / xk ; xk > 0 xk xk
)
(
en donde se ha supuesto la tabla igualmente espaciada.
Problema 1.3 Se demostrará por inducción: supuesta cierta la relación para un orden dado n, hay que comprobar que también es cierta para el orden siguiente n + 1 es decir que n
n
∆ y0 =
∑ i =0
n +1
n ( −1) yn− i → ∆ n+1 y0 = ∆ n y1 − ∆ n y0 = i
∑
i
i= 0
n + 1 (−1)i y i n+1− i
Hay que dar forma a Dny1 lo que puede hacerse utilizando la expresión para Dny0 con un sencillo cambio en los índices. Se tienen así n
n
∆ y0 =
n
∑ (−1) i y i
n− i
i =0
n
n
∆ y1 =
n
∑ (−1) i y i
n n n = yn − yn−1 + yn− 2 + ... + (−1)n y0 n 1 2
n +1− i
i= 0
n n = yn+1 + ( −1 yn + (−1)2 yn−1 + ... 1 2
)
Con ello se puede escribir la diferencia de orden n + 1 n
∆ n+1 y0 =
∑ i= 0
66
n (−1)i yn+1− i − i
n
n
∑ (−1) i y i
n− i
i= 0
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
Para poder incluir todo dentro de la misma sumatoria hay que transformar ligeramente los subíndices de la primera del modo siguiente: a) Extrayendo yn+1 (i = 0) n
n
∆ y1 =
∑ i= 0
n (−1) yn+1− i = yn+1 + i i
n
n
∑ (−1) i y i
n+1− i
i=1
b) Renumerando los índices i = 1,2,3,...n Æ j = i – 1 = 0,1,2,...,n – 1 y se llega a n−1
n
∆ y1 = yn+1 +
∑ (−1)
j +1
n j + 1 yn− j
j =0
c) Como los índices de sumación son «mudos», es decir elementos para llevar el orden en el conteo, puede escribirse n
∆ n y0 =
∑ j= 0
n (−1) j yn− j = j
n −1
n
∑ (−1) j y j
n− j
j =0
n + (−1)n y0 n
con lo que se obtiene n−1
∆
n+1
n
n
y0 = ∆ y1 − ∆ y0 = yn+1 +
∑ (−1)
j +1
j= 0
n−1
yn+1 −
n n
∑ (−1) j + 1 + j y j
n− j
j=0 n
yn+1 −
∑ (−1) i =1
n j + 1 yn− j −
n−1
n
∑ (−1) j y j
n− j
j=0
n − (−1) n y0 = n
n n n + 1 n − (−1)n y0 = i = j + 1 , = + = n j + 1 j j + 1
{
}
n
i−1 n + 1
n
i yn− i+1 − ( −1) y0 = yn+1 + n+1
n + 1 yn− i+1 + (−1)n+1 y0 = i
∑ (−1) i
i =1
n + 1 y i n+1− i
∑ (−1) i
i =0
que era la relación buscada. Este tipo de manipulaciones matemáticas formales son muy útiles en un buen número de cuestiones dentro de la Química-Física (Mecánica y Química Cuánticas) y conviene estar familiarizado con ellas.
67
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Problema 1.4 a) La función yk = 3k4 + 2k – 1 es un polinomio de grado 4 y por tanto D yk = cte, Dnyk = 0, n > 4. Las primeras diferencias vienen dadas por 4
∆yk = yk+1 − yk = 3( k + 1)4 − 3 k 4 + 2( k + 1) − 2 k − 1 + 1 = 12 k3 + 18 k2 + 12 k + 5 Las segundas diferencias se construyen a partir de las anteriores como ∆ 2 yk = ∆yk+1 − ∆yk = 12( k + 1)3 − 12 k3 + 18( k + 1)2 − 18 k2 + 12( k + 1) − −12 k + 5 − 5 = 36 k2 + 72 k + 42 Análogamente se obtienen las diferencias terceras y cuartas ∆ 3 yk = ∆ 2 yk+1 − ∆ 2 yk = 36( k + 1)2 − 36 k 2 + 72( k + 1) − 72 k + 42 − 42 = 72 k + 108 ∆ 4 yk = ∆ 3 yk+1 − ∆ 3 yk = 72( k + 1) − 72 k + 108 − 108 = 72 b) Dyk = 4yk es una ecuación en diferencias de primer orden. Su resolución tendrá pues un parámetro libre, al igual que sucede en las ecuaciones diferenciales de primer orden con la constante de integración. La solución puede encontrarse mediante la recurrencia siguiente ∆yk = 4 yk = yk +1 − yk → 5 yk = yk+1 De manera que si se toma para k = 0 el valor arbitrario y0, se tiene y1 = 5 y0 y2 = 5 y1 = 52 y0 y3 = 5 y2 = 53 y0 ............................... yk = 5 yk−1 = 5k y0 El valor y0 concreto en una aplicación vendrá dado por las condiciones que deba satisfacer ese problema y todos los yk se expresan en función de tal valor. c) Para D2yk = 4yk se tendrán dos parámetros libres, es decir dos constantes de «integración» finita. El proceso es similar al anterior pero un poco más complicado
∆ 2 yk = yk + 2 − 2 yk +1 + yk = 4 yk → yk + 2 = 2 yk +1 + 3 yk
68
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
Si se toman y0 e y1 como valores iniciales, se encuentran las relaciones y2 = 2 y1 + 3 y0 y3 = 2 y2 + 3 y1 = 7 y1 + 6 y0 y4 = 2 y3 + 3 y2 = 20 y1 + 21y0 y5 = 2 y4 + 3 y3 = 61y1 + 60 y0 ................................................. Las soluciones a estos problemas son, en general, esquemas recursivos que desde el punto de vista de la programación de cálculos en computador resultan muy cómodos, incluso sin que sea necesario conocer la ley general que puedan seguir. Estas leyes generales pudieran ser muy complicadas de obtener o no existir fórmulas cerradas para ellas.
Problema 1.5 Procediendo como de costumbre, minimizando con respecto a los parámetros a, b, y c, la función N
S=
∑ (z − a − bx − cy )
2
i
i
i
i= 0
se obtiene el sistema normal siguiente N
∑
N
∑
zi = a( N + 1) + b
i =0
N
∑y
xi + c
i= 0
N
N
N
∑ z x = a∑ x + b∑ i i
i
i =0
i= 0
i= 0
N
N
N
i
i =0
N
xi2
∑xy
+c
i i
i= 0
N
∑ z y = a∑ y + b∑ x y + c∑ y i i
i =0
i
i= 0
2 i
i i
i =0
i= 0
Puede verse fácilmente que es similar al sistema de la parábola de mínimos cuadrados (1.7.4) en la que se sustituyen: y Æ z, x2 Æ y.
69
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Problema 1.6 Este es un problema que ilustra cómo unas simples y rápidas representaciones gráficas buscando líneas rectas pueden ayudar a decidir el comportamiento de una serie de datos experimentales obtenidos en el laboratorio. En casos favorables las gráficas indican el tipo de relación matemática que puede ser después refinada mediante un ajuste de mínimos cuadrados. a) En el caso de la isoterma la relación a probar
% % = A → P% = A = x = 1 = A x PV V% V% es una sencilla línea recta representando P% frente a inversos de V% en papel milimetrado. Hay que calcular los inversos de V% y la gráfica se muestra en la Fig. 1EP.1 (a), en la que se han utilizado diferentes escalas en cada eje: las presiones tienen una escala en la que 1 cm ⬅ 4 atm.; en tanto que los inversos de los volúmenes se han multiplicado por 100, para poder representarlos
Figura 1EP.1 (a) Representaciones gráficas para los datos del problema 6 utilizando: a) papel milimetrado; b) papel doble logarítmico; c) papel semi-logarítmico. Las rectas dibujadas en los casos a) y c) no son significativas y sólo sirven para realzar las respectivas faltas de alineación de los datos.
70
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
con comodidad, y aquí 1 cm ⬅ 0,01l–1. Esta representación muestra una recta tentativa que podría razonablemente representar a los puntos, pero la dispersión de éstos alrededor de tal línea hace sospechar que esta relación no va a ser la que describe a los datos de la tabla. b) En el caso de la adiabática la relación responde a una representación doble-logarítmica, en la que tomando logaritmos en base 10 se encuentra una dependencia lineal entre log10 P% y log10 V% : % % η = B → log P% = −η log V% + log B PV 10 10 10 Utilizando papel doble logarítmico se obtiene la Fig. 1EP.1 (b). Este papel muestra en ambos ejes escalas logarítmicas en las que aparecen marcados los valores de las variables P% y V% con las separaciones respectivas en forma logarítmica. Así, aquí no hay que calcular los logaritmos de las variables que intervienen: sencillamente se llevan los datos de la tabla sobre los valores
Figura 1EP.1 (b) Representaciones gráficas para los datos del problema 6 utilizando: a) papel milimetrado; b) papel doble logarítmico; c) papel semi-logarítmico. Las rectas dibujadas en los casos a) y c) no son significativas y sólo sirven para realzar las respectivas faltas de alineación de los datos.
71
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
correspondientes en los ejes coordenados y se dibujan los puntos. La figura muestra una alineación prácticamente perfecta entre los logaritmos de ambas variables y todo indica que esta va a ser la relación que siguen los puntos de la tabla. Además también muestra cómo uno de los puntos (V% = 15, P% = 14,7) se separa un tanto de la recta definida por los demás. Esto indica que este dato posiblemente no ha sido bien evaluado y que conviene repetir su medición experimental (el resto de los datos ya sugiere su valor corregido, que puede leerse de la gráfica P% ⯝ 16,5 atm.). c) La tercera relación se correspondería con una representación semilogarítmica, en la que hay una dependencia lineal entre P% y log10 V% : P% = C log10 V% + D Este es un caso intermedio entre los dos anteriores y tampoco hay que realizar ninguna evaluación extra. Claramente, hay que decidir la construcción del eje de las P% y en la Fig. 1EP.1 (c) se ha tomado como escala 1 cm ⬅ 5 atm. Des-
Figura 1EP.1 (c) Representaciones gráficas para los datos del problema 6 utilizando: a) papel milimetrado; b) papel doble logarítmico; c) papel semi-logarítmico. Las rectas dibujadas en los casos a) y c) no son significativas y sólo sirven para realzar las respectivas faltas de alineación de los datos.
72
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
pués sencillamente se llevan los valores de los datos sobre los ejes y se dibujan los puntos. La gráfica muestra de nuevo una recta tentativa para poner de manifiesto la falta de alineación de los puntos experimentales. En resumen: la relación que satisfacen los datos experimentales es la de una adiabática de gas de van der Waals, caso (b), y hay un dato que debe de corregirse. El tratamiento por mínimos cuadrados con la relación (b), midiendo primero de nuevo el dato que se escapa de la recta ó eliminándolo del ajuste, daría la recta óptima. No obstante, y de modo aproximado, los parámetros de esta recta doble logarítmica se pueden determinar del modo siguiente. La pendiente es negativa y su valor es justamente –h. De modo que al no haber hecho en este caso ningún cambio de escala en las variables, ya que se han llevado los datos tal cuáles son sobre los ejes del papel doble logarítmico, la pendiente buscada es sencillamente el cociente entre las distancias en centímetros (medidas con una regla) definidas entre dos puntos cualquiera de la recta de ajuste a lo largo del eje «y» (log10 P%) y a lo largo del eje «x» (log10 V% ). En la figura, tomando ya h positivo, se encuentra con los puntos 2 y 4 de la tabla la estimación gráfica y la estimación numérica
η≈
log10 35, 7 − log10 11 log10 P%2 − log10 P%4 4, 2 = 1, 29 ; η ≈ = = 1, 31 % % 3, 25 log10 V4 − log10 V2 log10 20, 3 − log10 8, 25
que dentro de la imprecisión propia del método seguido muestran una muy buena concordancia. Una estimación aproximada de la constante de la adiabática (ordenada en el origen log10 B) puede hacerse con alguno de estos datos anteriores y uno de los puntos de la recta (pueden probarse varios y calibrar el efecto), por ejemplo el segundo, y se obtiene B ≈ P%2V%2η = 35, 7 ⋅ 8, 251,29 = 543,12 Hay que insistir en que la determinación gráfica anterior de h con distancias en cm sólo puede hacerse como se ha indicado si los datos no se han transformado, por comodidad de visualización, al volcarlos en el papel (análogo a lo realizado en el apartado a)). En estos casos hay que utilizar los módulos de las escalas para poder realizar esta operación, pero por razones de espacio no se va a tratar aquí este asunto. En cualquier caso, la segunda determinación de h utilizando los valores reales de las coordenadas de los puntos, medidos sobre la recta de ajuste (o tomados de la tabla si la dispersión es muy pequeña), será siempre conceptualmente correcta y es la recomendada.
73
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Es cierto que todas estas manipulaciones gráficas son muy imprecisas, pero tienen la ventaja de ser muy sencillas y de dar una orientación muy rápida de las características del fenómeno que se estudia. Problema 1.7 El primer paso es construir la tabla de diferencias Tabla. Problema 1.7 k
r*N
zk
0
0,1
1,354
1
0,2
1,786
2
0,3
2,404
Dzk
D2zk
D3zk
D4zk
0,432 0,186 0,618
0,075 0,261
0,879 3
0,4
3,283
0,067 0,142
0,403 1,282
4
0,5
4,565
ρ * − 0,1 el polinomio de avance de 0,1 grado 4 se construye con los datos subrayados en la tabla Utilizando la variable auxiliar k =
p( 4 ) ( k ) = 1, 354 + 0, 432 k + +
0,186 0, 075 k( k − 1) + k( k − 1)( k − 2) + 2! 3!
0, 067 k( k − 1)( k − 2)( k − 3) 4!
La expresión del error de ajuste viene dada por z − p( 4 ) =
( ρ * − ρ0* )( ρ * − ρ1* )( ρ * − ρ2* )( ρ * − ρ3* )( ρ * − ρ4* ) (5 z (ξ ) = 5! k( k − 1)( k − 2)( k − 3)( k − 4) (0,1)5 z(5 (ξ ) 5!
en donde x es un punto indeterminado que no coincide con los r* de la tabla pero que está dentro del intervalo que éstos definen.
74
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
Problema 1.8 Analizando caso por caso se tienen los siguientes resultados a) G/ RT = a0 + a1λ B* → y = G/RT , x = λ B* N
∑ i =0 N
∑ i =0
yi = ( N + 1) a0 + xi yi =
N
∑ i= 0
N
∑ x a ; i
b0 = s0 a0 + s1a1
1
i= 0
xi a0 +
N
∑ i= 0
xi2 a1 ;
b1 = s1a0 + s2 a1
s0 = 8 ; s1 = 4, 4 ; s2 = 2, 84 b0 = 29, 229 ; b1 = 22, 2018 a0 = −4, 36832 ; a1 = 14, 58536 ; Smín = 0, 43180 ; RMS ≈ 0, 232 Una comparación de datos de entrada frente a estimados con la relación de mínimos cuadrados, redondeados a tres decimales, que es con la precisión que vienen dados los datos de entrada, está en la siguiente tabla Tabla (a). Problema 1.8 l*B
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
G/RT – estim.
–1,451
0,007
1,466
2,924
4,383
5,841
7,300
8,758
G/RT – tabla.
–1,853
0,028
1,643
3,154
4,593
5,983
7,270
8,411
b) G/ RT = a0 + a1λ B* + a2 λ B*2 → y = G/ RT , x = λ B* Aquí se tiene la parábola de mínimos cuadrados y hay que resolver el sistema normal (1.7.4) s0 a0 + s1a1 + s2 a2 = b0 s1 a0 + s2 a1 + s3 a2 = b1 s2 a0 + s3 a1 + s4 a2 = b2 y se obtienen los resultados siguientes s0 = 8 ; s1 = 4, 4 ; s2 = 2, 84 ; s3 = 2, 024 ; s4 = 1, 5332 b0 = 29, 229 ; b1 = 22, 2018 ; b2 = 17, 03064 a0 = −5, 61966 ; a1 = 20, 09125 ; a2 = −5, 00536 ; Smín = 0, 01090 ; RMS ≈ 0, 037 75
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Una comparación de datos de entrada frente a estimados con la relación de mínimos cuadrados, redondeados a tres decimales, está en la siguiente tabla Tabla (b). Problema 1.8 l*B
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
G/RT – estim.
–1,802
–0,043
1,616
3,175
4,633
5,992
7,250
8,408
G/RT – tabla.
–1,853
0,028
1,643
3,154
4,593
5,983
7,270
8,411
c) exp(G/ RT ) = cλ B* m . Haciendo los cambios y = G/RT. ln c = a0, m = a1, x = ln l B* se tiene entonces una recta de mínimos cuadrados del tipo habitual y = a0 + a1x y la resolución del sistema normal lleva a los siguientes resultados s0 = 8 ; s1 = −5, 61885 ; s2 = 5, 80894 ; b0 = 29, 229 ; b1 = −7, 73172 a0 = ln c = 8, 47961 ; a1 = m = 6, 87113 ; Smín = 1, 84653 ; RMS ≈ 0, 480 En este caso la ecuación de ajuste es exp(G/RT ) = cλ *Bm = exp(8, 47961)λ *B6 ,87113 , en donde no todos los dígitos son significativos, pero se incluyen para evitar efectos no deseados derivados del redondeo en los resultados calculados con la expresión. Una comparación de datos de entrada frente a estimados con la relación de mínimos cuadrados, redondeados a tres decimales, está en la siguiente tabla Tabla (c). Problema 1.8 l*B
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
G/RT – estim.
–2,579
0,207
2,184
3,717
4,970
6,029
6,946
7,756
G/RT – tabla.
–1,853
0,028
1,643
3,154
4,593
5,983
7,270
8,411
La conclusión de este ejercicio es que el mejor ajuste de mínimos cuadrados es el de la parábola b), ya que presenta errores de ajuste (RMS) mucho menores que los de las otras dos opciones. Nótese que a efectos de comparación no es necesario dar muchos decimales en los errores RMS.
76
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
Problema 1.9 a) El problema puede reducirse en los dos casos a un ajuste lineal de mínimos cuadrados sin más que hacer unos cambios de variable. En el primer caso σ 12 σ 6 V ( r ) = 4ε − r r 1 se empieza haciendo el cambio de variable x = 6 y la ecuación resultante r es V ( r ) = 4εσ 12 x2 − 4εσ 6 x Si ahora se divide por x, que no toma valores nulos en los datos de entrada, y se define la variable y como el cociente y = V ( r )/ x, se tiene la ecuación de una línea recta y = Ax + B ; A = 4εσ 12 ; B = − 4εσ 6 El sistema normal a resolver es (N + 1 = 7) N
∑ i= 0 N
∑ i= 0
yi = ( N + 1) B + xi yi =
N
∑ i= 0
N
∑ x A; i
b0 = s0 B + s1A
i= 0
xi B +
N
∑ i= 0
xi2 A;
b1 = s1 B + s2 A
Manteniendo un gran número de cifras para evitar redondeos en las operaciones finales que podrían desvirtuar el cálculo final, se encuentra s0 = 7 ; s1 = 2, 40186 ·10−3 ; s2 = 2, 25757 ·10−6 ; b0 = − 675374, 76406 ; b1 = 6258, 2 A = 4527535642,15205 ; B = −1 1649983, 62734375 Smín = 81,1084 ; RMS ≈ 3, 40
77
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Los valores de los parámetros en este modelo del potencial son
σ6 = −
A A ;ε= B 4σ 12
que redondeados a un número de decimales típico en estos cálculos fisicoquímicos resultan ser s ª 3,742 Å (redondeo a tres decimales); e ª 150,3 K (redondeo a un decimal) o alternativamente con la convención que ya tiene en cuenta que el dato está redondeado
σ = 3, 742 Å = 3, 742 ·10 −10 m ; ε = 150, 3 K = 150, 3 × 1, 380658 ·10 −23 J Una comparación de datos calculados redondeados a un decimal frente a entradas se muestra en la tabla siguiente Tabla (a). Problema 1.9 r/Å
3
3,5
4
4,5
5
5,5
6
V-entrada (K)
6250,5
440,4
–128,6
–132,0
–82,3
–55,7
–34,1
V-estim. (K)
6256,0
442,2
–133,0
–133,0
–87,1
–53,7
–33,3
En esta tabla es de notar que los datos definen un mínimo de potencial de forma concordante en ambos conjuntos. b) Procediendo como antes con la ecuación σ 10 σ 5 V ( r ) = 4ε − r r 1 se empieza haciendo el cambio de variable x = 5 y la ecuación resultante r es V ( r ) = 4εσ 10 x2 − 4εσ 5 x Si ahora se divide por x, que no toma valores nulos en los datos de entrada, y se define la variable y como el cociente y = V ( r )/ x, se tiene la ecuación de la una línea recta y = Ax + B ; A = 4εσ 10 ; B = − 4εσ 5
78
AJUSTE DE FUNCIONES CON POLINOMIOS: TÉCNICAS DE COLOCACIÓN Y DE MÍNIMOS CUADRADOS
El sistema normal a resolver es formalmente como el anterior y los resultados son s0 = 7 ; s1 = 8,184976 ·10−3 ; s2 = 2,196596 ·10 −5 ; b0 = 572235, 8156 ; b1 = 6258, 2 A = 450900377, 3202 ; B = −445481, 84232 Smín = 336622, 381 ; RMS ≈ 219, 29 Los valores de los parámetros en este modelo del potencial son
σ5 = −
A A ;ε= B 4σ 10
en donde con las convenciones dichas en el cálculo anterior se escribirá
σ = 3, 991 Å = 3, 991·10 −10 m ; ε = 110, 0 K = 110, 0 × 1, 380658 ·10 −23 J (El último cero del resultado e es significativo con el redondeo utilizado y tiene sentido escribirlo). Una comparación de datos de entrada frente a los calculados redondeando a un decimal se muestra en la tabla siguiente Tabla (b). Problema 1.9 r/Å
3
3,5
4
4,5
5
5,5
6
V-entrada (K)
6250,5
440,4
–128,6
–132,0
–82,3
–55,7
–34,1
V-estim. (K)
5802,8
786,4
–5,0
–109,0
–96,4
–70,7
–49,8
Aquí las definiciones del mínimo potencial no son concordantes en ambos conjuntos de datos. Los resultados muestran inequívocamente que la mejor opción es la a). Se trata del conocido como potencial Lennard-Jones (12,6) y tiene una forma general que se aplica muy bien para estudiar gases, líquidos y sólidos, monoatómicos o compuestos de moléculas poliatómicas apolares con simetría esférica.
79
CAPÍTULO 2 AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
2.1. 2.2. 2.3. 2.4. 2.5. 2.6.
Introducción El caso discreto: polinomios de Gram-Tschebyscheff El caso continuo: producto escalar y distancia entre funciones Caso continuo: polinomios de Legendre Caso continuo: polinomios de Tschebyscheff Caso continuo: polinomios de Hermite y de Laguerre
Bibliografía Problemas teóricos y numéricos
Se profundiza aquí sobre la técnica de los mínimos cuadrados desde las perspectivas numérica y analítica. Siguen considerándose funciones reales de una variable real y continuas en un intervalo por sus potenciales aplicaciones en los ajustes de datos experimentales y en los desarrollos con conjuntos ortonormales tan comunes en las aplicaciones de la Mecánica Cuántica. La deducción del sistema normal de ecuaciones en un caso de orden arbitrario, con datos sin errores de entrada, lleva a la consideración de los problemas asociados con este planteamiento directo (orden de la aproximación y eficiencia en los cálculos, inestabilidad) y a la solución vía polinomios ortogonales. Se aborda primero el caso discreto con los polinomios de Gram-Tschebyscheff. Por su interés general se consideran después cuestiones generales del caso continuo, introduciendo los conceptos básicos de función de peso, producto escalar y distancia entre funciones. Se particulariza a los polinomios de Legendre y los polinomios de Tschebyscheff (propiedades de «error igual») y se incide en sus propiedades como bases para expresar de forma exacta (desarrollar) y aproximar funciones en intervalos finitos. La misma discusión pero para funciones en intervalos infinitos se realiza también con los polinomios ortogonales de Hermite (relacionados con la vibración molecular) y de Laguerre (relacionados con los orbitales atómicos del átomo de hidrógeno). Esta línea de procedimiento se completará posteriormente con las sumas trigonométricas de Fourier (Cap. 9). Los conceptos que se discuten aquí son complejos, pero resultan fundamentales y de aplicación
81
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
imprescindible cuando se desea obtener el «mejor» ajuste a una serie de datos, o la «mejor» aproximación a una función complicada, o incluso calcular una integración numérica con gran precisión y muy bajo costo en número de operaciones. Mínimos cuadrados
Aproximación en media
Caso discreto
Caso continuo
Pol. Gram-Tschebyscheff Ortogonalidad
Producto Escalar Bases Completas Ortogonalidad, etc. Pol. Legendre Pol. Tschebyscheff Pol. Hermite Pol. Laguerre
Cap. 9
Caps. 3, 7
2.1. Introducción Vistos los problemas que presenta la técnica de mínimos cuadrados en la base convencional {xn}n=0,⬁ se considera a continuación la alternativa basada en los polinomios ortogonales, ya que resulta muy práctica cuando se necesitan órdenes de aproximación creciente. La función continua, y = f(x), a representar en un intervalo a x ≤ b puede venir definida por una tabla numérica o por una función analítica, pudiendo además en este último caso ser muy complicada para manejarla directamente, o incluso desconocida a priori (la solución de una ecuación diferencial, por ejemplo). La idea general es sustituir el desarrollo de f(x) en la base {xn}n=0,⬁ por otro en una base polinómica equivalente {fn(x)}n=0,⬁ f ( x) ≈ a0 + a1x + a2 x2 + ... + an x n → f ( x) ≈ c0φ0 ( x) + c1φ1 ( x) + c2φ2 ( x) + ... + cnφ n ( x) (2.1.1)
de manera que el sistema normal asociado se transforme del modo siguiente s0 a0 + s1a1 + s2 a2 + ... + sn an
= b0
s1 a0 + s2 a1 + s3 a2 + ... + sn+1 an
= b1 →
................................................................. sn a0 + sn+1a1 + sn+ 2 a2 + ... + s2 n an = bn
82
= Ω0
e0 c0 e1c1
= Ω1
................................... en cn = Ω n
(2.1.2)
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
de donde cada coeficiente ci se despeja sin dificultad, ci = Wi/ei. El adjetivo ortogonal utilizado para designar las posibles familias {fn(x)}n=0,⬁ no es una casualidad y responde a la familiar imagen de perpendicularidad (ortogonalidad) entre vectores de un espacio vectorial. Conviene tener en cuenta que las familias de funciones ortogonales están compuestas de funciones que son linealmente independientes, lo que está conectado con su capacidad para efectuar operaciones de aproximación como la (2.1.1). Así, todo el lenguaje habitual de los espacios vectoriales finito-dimensionales convencionales, como son los {⺢k, ⺢} de vectores k-dimensionales (k-tuplas) sobre el cuerpo de los números reales, se utiliza sin modificaciones dentro de este contexto de funciones y, aunque requiere matizaciones importantes, conserva un mismo significado general. La idea directriz, en definitiva, es la misma que la que inspira los desarrollos continuos en serie de Fourier utilizando la base de funciones seno y coseno (el lector puede repasar esta cuestión en el Ap. II). Se comenzará analizando el caso discreto con los polinomios ortogonales de Gram-Tschebycheff para representar una tabla de datos. A continuación, dada una función continua f(x) definida en un intervalo (finito o infinito) van a buscarse aproximaciones a ella utilizando conjuntos de funciones de base ortogonales de tipo polinómico, pero que van a ser por tanto diferentes de la base convencional {xn}n=0,⬁. Se tratarán primero los casos de las funciones continuas dentro de un intervalo cerrado finito [a, b] = a ≤ x ≤ b, analizando las aproximaciones con los polinomios de Legendre y de Tschebyscheff. Estas dos familias de polinomios están definidas de forma estándar en el intervalo [–1, +1] pero un sencillo cambio lineal de variable x ´ u permite transformar el intervalo arbitrario a ≤ x ≤ b en el intervalo –1 ≤ u ≤ +1 (Fig. 2T.1) y viceversa u = 1+
2 ( x − b) b− a
(2.1.3)
Esta transformación no es más que la ecuación de la recta que pasa por los puntos (a, –1) y (b, +1) en el plano xu. Utilizando (2.1.3) la función original puede así expresarse f(x) = f(x(u)) = g(u)
(2.1.4)
y cualquier operación va a poder realizarse en el intervalo –1 ≤ u ≤ +1, siendo la recuperación de la información en términos de la variable x siempre posible sin más que deshacer el cambio de variable anterior.
83
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Figura 2T.1. Cambio lineal de variable para transformar el intervalo –1 u 1 en el intervalo –1 x 4.
Finalmente, se estudiarán dos familias de polinomios ortogonales definidas en intervalos infinitos: Hermite definida en –⬁ < x < ⬁, y Laguerre definida en 0 ≤ x < ⬁. Es muy importante recalcar que en todos los casos mencionados existe la denominada «función de peso» v (x), con respecto a la cuál se formula el concepto de ortogonalidad. Los polinomios de Tschebyscheff son especialmente útiles en el cálculo numérico en general por sus propiedades de error de «oscilación igual», en tanto que las otras tres familias de polinomios, aparte de su valor intrínseco en el cálculo como tal (especialmente en integración numérica Gaussiana), presentan aplicación en muchas cuestiones de la Mecánica y Química Cuánticas de átomos y moléculas. Más adelante, en el Cap. 9, se completará todo este asunto considerando el tema relacionado de los ajustes trigonométricos (sumas de Fourier) vistos desde la perspectiva de conjuntos de funciones ortogonales.
2.2. El caso discreto: polinomios de Gram-Tschebyscheff Dada una tabla de N + 1 valores {(xk, yk)}k=0,N igualmente espaciados en la variable x, por simplicidad del tratamiento, y de los que se supone que los yk no vienen afectados de error, se desea representarla mediante una
84
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
aproximación en la forma de combinación lineal de polinomios Gn,N(k) (cuyo grado = n) como m
y( k) ≈ p( m) ( k) = c0G0,N ( k) + c1G1,N ( k) + c2G2,N ( k) + ... + cm Gm,N ( k) =
∑c G j
j , N ( k)
(2.2.1)
j =0
en donde m es el grado de la aproximación y se utiliza la variable auxiliar «número de orden» k de las tablas igualmente espaciadas, que en realidad denota aquí una variable continua k = (x – x0)/h ≥ 0. Si se sigue la técnica de los mínimos cuadrados habrá que minimizar la función N
∑( y
S=
k
− c0 G0, N ( k) − c1G1, N ( k ) − c2 G2 , N ( k) − ... − cmGm, N ( k )
)
2
(2.2.2)
k=0
lo que se lleva a cabo calculando las derivadas parciales ∂S/∂cj e igualándolas a cero y resolviendo el sistema normal de ecuaciones para calcular los coeficientes del desarrollo cj.
El sistema normal de ecuaciones La forma de las ecuaciones de este sistema es N
)
∂S = −2 yk − c0G0 , N ( k) − c1G1, N ( k) − c2G2, N ( k) − .... − cmGm , N ( k) G j , N ( k) = 0 (2.2.3) ∂c j k =0
∑(
y las expresiones de los polinomios Gj,N(k) van a deducirse de manera constructiva. Para ello el sistema se plantea como N
N
j = 0 → c0
∑
G0,N ( k )G0,N ( k ) +c1
k =0
k= 0
N
j = 1 → c0
∑
0,N
( k)G1,N ( k) +c1
k =0
∑G
1,N
... N
∑G
0, N ( k)Gm ,N ( k) +c1
k =0
( k)G1,N ( k) + ... + cm
m, N
∑G
∑y G
k 1,N
( k)
... N
∑G
m ,N ( k)Gm, N ( k) =
k =0
(2.2.4)
k= 0
...
1,N ( k)Gm, N ( k) + ... + cm
k =0
( k)G1,N ( k) =
k= 0
...
k 0, N ( k )
N
∑G
N
∑y G k =0
N
k= 0
...
∑
N
Gm,N ( k)G0,N ( k ) =
k =0
N
∑G
j = m → c0
N
G1,N ( k)G0 ,N ( k) + ... + cm
... N
∑y G
k m, N ( k )
k= 0
85
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
y los polinomios {Gj,N(k)}j=0,m van a ser tales que los elementos no diagonales del sistema (2.2.4) se anulen N
∑G
i , N ( k )Gj , N ( k )
= 0; i ≠ j (ortogonalidad)
(2.2.5)
k =0
Con ello la resolución del sistema es directa N
∑y G k
cj =
j,N
( k)
k=0
; j = 0,1, 2,..., m
N
∑G
j,N
(2.2.6)
( k )Gj , N ( k )
k= 0
El sistema normal se ha reducido a forma diagonal y la magnitud S toma el valor mínimo y2k + Smín. = k =0 N
∑
m
∑
m
c2j Gj , N ( k)2
j =0
y2k + k =0
∑ m
∑ +∑ ∑ G k =0
c2j
j =0
m
c2j Gj ,N ( k)2
j =0
N
m
2
j,N
∑c ∑ y G
( k) − 2
k =0
∑
−2
j =0
N
yk2
∑
m
∑
cj ciGj , N ( k)Gi,N ( k) = j m
87
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
2.3. El caso continuo: Producto escalar y distancia entre funciones Se considera ahora la aproximación de una función continua y = f(x) en un intervalo cerrado [a, b] = a ≤ x ≤ b. La clave aquí es que el conjunto de todas las funciones continuas {f(x)} en [a, b] es un espacio vectorial sobre el cuerpo de los números reales ⺢. En esencia esto significa que ese conjunto de funciones es cerrado con respecto a la suma algebraica y también con respecto al producto de una función por un número real (escalar) l, es decir que el resultado de estas operaciones y sus combinaciones es de nuevo una función continua en [a, b]. Una definición más rigurosa contiene el hecho de que el conjunto {f(x)} debe ser un grupo conmutativo con respecto a la suma y que, además, al considerar el producto por escalares, deben satisfacerse leyes distributivas (de productos sobre sumas), una ley asociativa en el producto de dos escalares y una función, y una ley identidad 1.f(x) = f(x). Se recomienda al lector que revise estos conceptos y otros conexos (combinaciones lineales, base de un espacio vectorial, etc.) en un texto de álgebra. Las funciones {f(x)} con soporte en [a, b] se comportan entonces como vectores de un espacio vectorial de dimensión infinita y una base de este espacio es la de los monomios {xn}n=0,⬁ que se ha estado utilizando anteriormente. Estos monomios son funciones linealmente independientes y el ya mencionado teorema de Weierstrass pone de manifiesto su carácter de base como conjunto mínimo de funciones que pueden generar cualquier función del espacio considerado. El concepto de independencia lineal de funciones es análogo al de vectores, pero con la particularidad de que si el espacio que expanden es infinito hay que precisar un poco más el concepto. Así, un conjunto {fn(x)}n=0,⬁ = {f0(x), f1(x), f2(x), f3(x),...} es linealmente independiente (l.i.) cuando cualquier combinación lineal de sus elementos que sea idénticamente nula presenta necesariamente nulos todos sus coeficientes (números reales) {φn ( x)} n= 0,` Ä esÄ l.i.Ä si: c0φ0 ( x) + c1φ1 ( x) + c2φ2 ( x) + ... + cmφm ( x) =
(2.3.1)
0 ⇒ c0 = c1 = ... = cm = 0 en donde hay que reparar que el término combinación lineal lleva aparejado el de un número finito de términos en ella. Esta precisión es innecesaria en espacios finitos, pero conviene hacerla en espacios infinitos para evitar confusiones con los desarrollos en serie infinitos habituales en ellos. Si en alguna combinación lineal del tipo (2.3.1) no se cumpliera la anulación simultá-
88
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
nea indicada, entonces el conjunto de funciones {fn(x)}n=0,⬁ sería linealmente dependiente. Un criterio útil para identificar la independencia lineal de un conjunto de funciones es el del Wronskiano. Para un conjunto finito {jn(x)}n=1,j de funciones, derivables hasta orden j – 1 inclusive y definido en un intervalo abierto a < x < b, el Wronskiano es el determinante siguiente formado por las derivadas sucesivas de cada función
W ( x) =
ϕ1 ( x)
ϕ 2 ( x)
...
ϕ j ( x)
ϕ1′( x)
ϕ 2′ ( x)
...
ϕ j′ ( x)
...
...
...
...
; a< x< b
(2.3.2)
ϕ1( j −1 ( x) ϕ 2( j −1 ( x) ... ϕ (j j −1 ( x) y se tiene que a) Si W(x) ≠ 0 (en al menos un valor x), entonces el conjunto {jn(x)}n=1,j es linealmente independiente. b) Si W(x) = 0 para todo a < x < b, entonces el conjunto {jn(x)}n=1,j es linealmente dependiente en el intervalo de definición mencionado, pero siempre que las funciones tengan derivadas continuas y que al menos uno de los menores de la fila j no se anule en a ≤ x ≤ b. c) En consecuencia, es interesante resaltar que W(x) = 0 en todo a < x < b, es una condición necesaria pero no suficiente para tener dependencia lineal. Igualmente, si W(x) = 0 en valores aislados x = xi no necesariamente se tiene dependencia lineal en {jn(x)}n=1,j.
Producto escalar de funciones El paso siguiente es dotar de un producto escalar al espacio vectorial de las funciones continuas, sobre el cuerpo ⺢ y definidas en [a, b], lo que se hace generalizando el concepto habitual utilizado para vectores de {⺢n, ⺢}. Este último producto escalar para una pareja de estos vectores viene dado por la expresión familiar de suma de productos de componentes n
v1 · v 2 = ( v11 , v12 ,..., v1n ) · ( v21 , v22 ,..., v2 n ) =
∑v
1k
· v2 k
(2.3.3)
k= 0
89
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
El producto escalar anterior tiene como resultado un número real y cumple una serie de propiedades i)Ä Ä Å v1 · v 2 = v 2 · v1
(2.3.4a)
ii)Ä Å ( v1 + v 2 ) · v 3 = v1 · v 3 + v 2 · v 3
(2.3.4b)
iii)Å (λ v1 ) · v 2 = λ ( v1 · v 2 )
(2.3.4c)
iv)Å v1 · v1 ≥ 0; (= 0 Ä cuandoÄ v1 = 0)
(2.3.4d)
Figura 2T.2. Representación gráfica del producto escalar. Dadas dos funciones continuas f y g en el intervalo [1, 2] y con función de peso v(x) = 1, el producto escalar de ambas es el área total encerrada entre la función producto y el eje x. Nótese que aparecen dos contribuciones de diferente signo a este área y que deben sumarse algebraicamente (con sus signos respectivos) para obtener el valor del producto escalar.
Para dos de las funciones continuas que se están considerando aquí el producto escalar se define como la integral (una suma infinita) siguiente (Fig. 2T.2) f,g =
∫
b
`
f ( x) g( x) dx = lim
∆xl → 0
a
∑ f ( x ) g( x )∆x ; l
l
l
x1 = a, x` = b
(2.3.5)
l =1
y se recomienda al lector que verifique para esta definición las propiedades i) a iv) listadas arriba. En particular, la magnitud ·f, fÒ es un número no negativo y sirve para definir la norma o «longitud» Nf del vector f(x) en una forma análoga a la de los vectores convencionales N f = f ( x) =
90
∫
1/ 2
f ( x) dx ( a b
)
2
=
( f,f )
1/ 2
< +`
(2.3.6)
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
de manera que f¯(x) = Nf–1f(x) es una función con norma unidad y se dice que está normalizada (vector unitario, Fig. 2T.3). Dos funciones f(x) y g(x) se dice que son ortogonales (perpendiculares) en [a, b] si su producto escalar es nulo f,g =
∫
b
f ( x) g( x) dx = 0 ; f ≠ g
(2.3.7)
a
lo que no es más que la contrapartida continua al caso de ortogonalidad entre vectores en {⺢n, ⺢}, v1 · v2 = 0 (Fig. 2T.4). En este contexto conviene notar que: i) las funciones linealmente independientes pueden transformarse para formar funciones que sean ortogonales entre sí; ii) las funciones ortogonales son ya automáticamente independientes. Antes de seguir adelante conviene enunciar algunas propiedades básicas de una norma: i)Ä Ä Å f ( x) ≥ 0, con f ( x) = 0 si y sólo si f ( x) = 0
(2.3.8a)
ii)Ä Å λ f ( x) = λ ⋅ f ( x)
(2.3.8b)
iii)Å
f ( x) g( x) ≤ f ( x) ⋅ g( x) Ä Ä (desigualdadÄ deÄ Schwarz)
iv)Å f ( x) + g( x) ≤ f ( x) + g( x) Ä Ä (desigualdadÄ deÄ Minkowski)
(2.3.8c) (2.3.8d)
–– Figura 2T.3. Significado gráfico de la normalización de una función. La función f(x) = +兹 2x definida en el intervalor [0, 1] y con función de peso v(x) = 1, está normalizada ya que su cuadrado [f(x)]2 = 2x encierra con el eje de las x un área unidad.
91
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Figura 2T.4. Significado gráfico de la ortogonalidad de funciones. Las funciones x2 y x5, definidas en el intervalo simétrico respecto del origen [–1, 1] y con la función de peso v(x) = 1, son ortoganales: el área encerrada por su producto, la función x7, y el eje de las x es nula. Incidentalmente, nótese también que la función x5 es ortogonal a la función f(x) = 1.
Todas las definiciones anteriores se pueden generalizar al caso de funciones de peso w (x) ≥ 0, definidas en [a, b], no triviales. Así la definición básica de producto escalar entre funciones quedaría en la forma f,g =
∫
b
f ( x) g( x) ϖ ( x) dx
(2.3.9)
a
y es con respecto a v (x) que se define la ortonormalidad de las funciones en una forma similar a lo hecho anteriormente. En lo que sigue se mantendrá la función de peso trivial utilizada arriba v (x) = 1 por simplicidad de notación, y más adelante al tratar con las familias de polinomios ortogonales de Tschebyscheff, Hermite y Laguerre, se considerará el papel de cada v (x) explícitamente. El conjunto de funciones continuas en [a, b] es un espacio vectorial infinito-dimensional sobre el cuerpo de los números reales. Tal conjunto dotado del producto escalar (2.3.5), que induce la norma (2.3.6), es un espacio denominado de pre-Hilbert, el cuál mediante un proceso adecuado se transforma en la estructura completa denominada espacio de Hilbert, en el que toda sucesión fundamental o de Cauchy debe necesariamente ser convergente. Los espacios de Hilbert juegan un papel fundamental en la Teoría Cuántica (Mecánica y Química) de átomos, moléculas, y de sistemas mucho más complejos, como son aquéllos compuestos de muchas partículas.
92
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
Criterios de aproximación entre funciones Todavía se puede dotar al espacio vectorial de las funciones continuas en [a, b] con una métrica o distancia entre funciones, si bien hay más de una posibilidad de realizar esto. Las más habituales en el cálculo numérico son las dos siguientes. La primera es la distancia definida como el valor absoluto de la diferencia entre dos funciones (sup = máximo). d1 ( f , g ) = sup f ( x) − g( x) ; a ≤ x ≤ b
(2.3.10)
y la segunda se define a través de la norma de la diferencia entre las dos funciones d2 ( f , g ) = f ( x) − g( x) =
∫
1/ 2
f ( x) − g( x) dx ( a b
)
2
≥ 0; a ≤ x ≤ b
(2.3.11)
Ambas definiciones cumplen las propiedades exigibles a una distancia, que esencialmente son: ser no negativa, simétrica, y verificar la desigualdad triangular. Aquí se debe estar precavido de que en la segunda definición d2(f, g) = 0 no implica necesariamente que f(x) = g(x) en todos los puntos a ≤ x ≤ b, sino que f(x) = g(x) «en casi todos los puntos del intervalo». Se excluyen así a los posibles conjuntos de puntos aislados que tengan medida (en este caso longitud) nula, y la definición de d2 se admite como una distancia de pleno derecho. Todo ello encuentra una formulación general satisfactoria en la denominada teoría matemática de la medida en la que la llamada integral de Lebesgue juega un papel fundamental, pero aquí por razones obvias no van a tratarse estos aspectos avanzados. Es inmediato ver que ambas distancias proporcionan los dos criterios de aproximación de funciones con los que ya se ha tratado en el capítulo 1: a) d1 = sup Áf – gÁ se utiliza en la aproximación de convergencia uniforme, b) d2 = ÁÁf – g ÁÁ se utiliza en la aproximación de convergencia en media (mínimos cuadrados). Desarrollos en serie de una base completa Como el espacio de funciones es de dimensión infinita y la base polinómica {xn}n=0,⬁ se sabe que es completa en el intervalo [a, b], esto significa que
93
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
se puede desarrollar en serie cualquier función continua en ese intervalo en la forma f ( x) = lim p( m ) ( x) = lim [ a0 + a1 x + a2 x2 + ... + am xm ]; a ≤ x ≤ b m→ `
m→ `
(2.3.12)
Nótese que el símbolo de aproximación ª utilizado en (2.1.1) se ha sustituido por el igual = aquí, y su significado está relacionado con las propiedades de convergencia presentes. Por otra parte, como la base de un espacio vectorial no es única, sino que existen infinitas bases equivalentes, {xn}n=0,⬁ ⬅ {fn(x)}n=0,⬁ ⬅ {yn(x)}n=0,⬁ ⬅ ..., que mantienen la propiedad de completitud, se puede escribir en general f ( x) = lim Φ m ( x) = lim [ c0φ0 ( x) + c1φ1 ( x) + c2φ2 ( x) + ... + cmφ m ( x)]; m→`
m→`
(2.3.13)
a≤ x≤b y se dice que la sucesión de funciones {Fm} converge hacia f(x) si, prefijada una cantidad positiva y arbitrariamente pequeña e > 0, siempre se puede encontrar un valor del índice m, que depende de e, m(e), o en definitiva una Fm, tal que a) f ( x) − Φ m ( x) < ε ; a ≤ x ≤ b (convergencia uniforme)
(2.3.14)
b) f ( x) − Φ m ( x) < ε ; a ≤ x ≤ b (convergencia en media)
(2.3.15)
Hay que precisar que el criterio uniforme garantiza la convergencia en cada punto del intervalo, con la misma cota de error para todos ellos, y también garantiza la convergencia en media con una medida del error global sobre [a, b] siempre que cada Fm sea integrable. Sin embargo, la convergencia en media no garantiza necesariamente la convergencia en cada punto del intervalo, ya que «suaviza» los detalles.
El cálculo de los coeficientes del desarrollo Es interesante reseñar que la definición de los coeficientes ci resulta de multiplicar en ambos miembros de la aproximación funcional (serie) por la función cuyo coeficiente quiere determinarse e integrar seguidamente. En muchos casos conviene utilizar una base de desarrollo ortonormal, es decir
94
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
que cumpla para cada posible pareja de funciones del conjunto las dos condiciones siguientes que se formulan con la delta de Kronecker dij {φi ( x)} i=0 ,` esÄ ortonormal Ä siÄ yÄ sóloÄ si:Ä
∫
1 siÄ i = j φi ( x)φ j ( x) dx = δ ij = a 0 siÄ i ≠ j b
(2.3.16)
Por ejemplo, utilizando una base ortonormal el cálculo de un coeficiente cj cualquiera de (2.3.13) se realizaría así `
f ( x) =
`
∑ c φ ( x) → f ( x) φ ( x) = ∑ c φ ( x)φ (x) i
i
j
i
i=0
∫
b a
i
j
i= 0
`
f ( x) φ j ( x) dx =
∑∫ i= 0
b a
(2.3.17)
`
ci φi ( x)φ j ( x) dx =
∑c δ i
ij
= cj
i= 0
En resumen, si la base es ortonormal, se tiene cj =
∫
b a
f ( x) φ j ( x) dx
(2.3.18a)
y si la base sólo es ortogonal, entonces la expresión anterior hay que modificarla como (recuérdese que v (x)=1)
∫ c = ∫ j
b a b a
∫ = φ ( x) φ ( x)ϖ ( x) dx ∫ f ( x) φ j ( x)ϖ ( x) dx j
j
b a b a
f ( x) φ j ( x) dx
(2.3.18b)
φ j ( x) φ j ( x) dx
Las operaciones de conmutación anteriores de sumas infinitas con integraciones son lícitas cuando se trabaja con bases completas en estos espacios. En particular hay que reseñar que la completitud de una base de desarrollo equivale a decir `
f ( x) =
∑ c φ ( x) ⇔ f ( x) = ∫ 2
i i
i= 0
b a
( f ( x))
2
`
dx =
∑c
2 i
i= 0
(2.3.19)
(identidadÄ deÄ Parseval) (la implicación es doble, va en los dos sentidos). Es decir un conjunto de funciones es completo si y sólo sí se verifica la identidad de Parseval para toda
95
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
f(x) de tal conjunto. Esto no es más que una generalización del teorema de Pitágoras a un espacio de dimensión infinita: la suma de los cuadrados de las coordenadas de un vector (en una base ortonormal) es justamente el cuadrado de su módulo.
Observaciones de interés Es interesante señalar que en el caso de una serie de funciones que converge uniformemente a f(x) la integración término a término es también siempre posible. Esto exige que tanto f(x) como su derivada f ¢(x) sean al menos continuas a trozos en el intervalo de definición. Lo mismo se exige, generalmente, para la diferenciación término a término de este tipo de series. Con la convergencia en media de funciones continuas sucede lo mismo, pero hay que observar el comportamiento de la serie ortogonal en los extremos del intervalo de representación: si en ellos hay discontinuidad, entonces el valor de la serie (compuesta de funciones continuas) no va a coincidir obviamente con el de la función. El análisis de lo que sucede en los extremos del intervalo es siempre algo recomendado en todo tipo de problemas que implican desarrollos en serie. Nótese que a efectos prácticos el desarrollo en serie va generalmente a truncarse en un cierto orden m que sirva para obtener una representación aproximada de la función (esta aproximación de orden finito es ya una combinación lineal). Incluso en este caso los coeficientes del desarrollo se calculan como ya se ha expresado en (2.3.18) m
f ( x) ≈
∑
ciφi ( x); ci =
i =0
∫
b a
f ( x)φi ( x) dx
(2.3.20)
Esto puede visualizarse muy bien desde la perspectiva de mínimos cuadrados a partir de la aproximación finita a f(x) y la minimización de una función S similar a la ya vista anteriormente S=
96
∫
b a
f ( x) −
m
∑ i= 0
2
ciφi ( x) = mínimo
(2.3.21)
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
El cálculo de las derivadas parciales de S con respecto a los coeficientes del desarrollo ci lleva a un sistema lineal de ecuaciones y, tras aplicar las relaciones de ortogonalidad, se obtienen los coeficientes en la forma indicada (aquí se utiliza normalización de la base también). En los siguientes parágrafos se estudiarán ejemplos concretos de este procedimiento. Finalmente, la cuestión del error en el ajuste por truncamiento de la serie, medido por la consabida magnitud cuadrática S, puede formularse como sigue
∫
Smín =
b a
2
b 2 f ( x) − ciφi ( x) = f ( x) dx − ( a i =0 (desigualdadÄ deÄ Bessel) m
∑
∫
)
m
∑c
2 i
≥0
i =0
(2.3.22)
resultado que se obtiene aplicando la relación de Parseval (2.3.19) y las relaciones de ortonormalidad de las funciones de base (2.3.16). EJERCICIO 2.3.1 Un ejemplo familiar de conjunto completo es la base trigonométrica de Fourier definida en el periodo 0 < x < 2p y que está formada por las funciones {1, cos nx, sen nx}n=1,⬁ = 1, cos x, sen x, cos 2x, sen 2x,... (todas admiten un periodo 2p). a) Obtener las relaciones de ortogonalidad para estas funciones (la función de peso es v (x) = 1). b) Obtener las expresiones generales para calcular los coeficientes del desarrollo infinito (serie de Fourier). c) Desarrollar en serie de Fourier la función periódica f(x) = x, –1 < x < +1. a) Las relaciones de ortogonalidad (2.3.7) son en este caso las siguientes πδ ; sen kx· sen jx dx = kj 0 0 ; 2π πδ kj ; cos kx ·cos jx dx = 0 2π ;
∫
2π
∫ ∫
2π
k≠0 k=0 ó j=0 k≠0 k= j=0
sen kx· cos jx dx = 0; paraÄ todoÄ k, j , enteros
0
Convencionalmente estas funciones de base no se utilizan de partida en forma normalizada:
97
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
f ( x) =
a0 ` + ∑ ( a cos nx + bn senÄ nx) 2 n=1 n
b) Los coeficientes se obtienen aplicando (2.3.18b) y resultan ser a0 1 2π = f ( x) dx ; j=0 2 2π 0 1 2π aj = f ( x) cos jx dx ; j = 1, 2, 3,... π 0 1 2π bj = f ( x) sen jx dx ; j = 1, 2, 3,... π 0
∫
∫ ∫
c) Para la función f(x) = x; –1 < x < +1 definida con periodo 2 hay primero que transformarla a periodo 2p. Podría hacerse la transformación –1 < x < +1 Æ 0 < z < 2p, pero va a resultar más ventajoso el cambio de variable que transforma –1 < x < +1 Æ –p < z < p, que también mantiene periodo 2p y permite utilizar la simetría en las integrales con lo que se ahorran cálculos. Las series (desarrollos infinitos) obtenidas en 0 < z < 2p y en –p < z < p son completamente equivalentes en el sentido de que ambas convergen a la función f(x) = x, y hay que indicar que son iguales término a término. El cambio de variable que aprovecha la simetría es x = z/p, y la función a desarrollar resulta ser impar sobre un intervalo simétrico en torno al origen f(x) = f(x(z)) = g(z) = z/p ;
–p < z < +p
de manera que en su desarrollo de Fourier sólo habrá funciones impares (seno) g ( z) =
a0 + 2
`
∑
`
( an cos nz + bn sen nz) =
n =1
∑b
n
sen nz
n=1
pues todos los coeficientes aj van a ser nulos por la simetría de las integrales. Se tiene entonces π
bn =
∫−π g( z) sen nz dz = 1 π g( z) sen nz dz = 1 π z sen nz dz = ∫− π ∫ π 2 π 2 −π ∫−π sen nz dz π π
=
98
1 sen nz z cos nz 2(−1)n+1 = − n πn π 2 n2 −π
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
Nótese que las fórmulas anteriores para el cálculo, ortogonalidad y coeficientes, sólo requieren cambiar los límites de integración para poderlas aplicar en el intervalo simétrico –p < z < p. El conjunto {1, cos nz, sen nz}n=1,⬁ es igualmente una base de desarrollo en este intervalo. El desarrollo es pues g ( z) =
z = π
`
∑ π n (−1)
n+1
senÄ nz; − π < z < π
n=1 `
f ( x) = x =
2
∑ π n (−1) 2
n +1
senÄ nπ x; − 1 < x < 1
n =1
Figura 2T.5. Gráficos de la serie Fourier truncada a dos y cinco términos para la función (impar) del Ejercicio 2.3.1.
En la Fig. 2T.5 pueden verse las aproximaciones del desarrollo truncadas a 2 y 5 términos. Nótese que para x = ±1(z = ±p) la serie toma el valor 0, que es el valor promedio de la función original en esas discontinuidades: la función se repite periódicamente de modo que, por ejemplo, en x = –1 la función f toma por la izquierda el valor +1 y por la derecha el valor –1. No se incluyen así los extremos del intervalo en el desarrollo en este caso.
99
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
2.4. Caso continuo: polinomios de Legendre Ya se ha discutido que la aproximación con el criterio de mínimos cuadrados de una función y = g(u) en términos de la base polinómica convencional {f n(u)}n=0,⬁ = {un}n=0,⬁ y = g(u) ª a0 + a1u + a2u2 +...+ anun;
–1 ≤ u ≤ +1
(2.4.1)
lleva a una buena serie de problemas ligados con la determinación de los coeficientes ai. Sin embargo, como tal base está naturalmente compuesta de elementos linealmente independientes, éstos pueden ortonormalizarse siguiendo un método constructivo denominado de Gram-Schmidt y utilizando la función de peso trivial v (u) =1 definida en el intervalo –1 ≤ u ≤ +1. Nótese que esto equivale a definir u = cos q en el dominio 0 ≤ q ≤ p, un cambio de variable que se utiliza mucho en las aplicaciones de estos polinomios.
Ortogonalización constructiva de Gram-Schmidt El proceso comienza fijando como primer vector el vector f0(u) = 1 de la base polinómica convencional: Q0(u) = f 0(u) = 1. Su normalización se hace de acuerdo con el producto escalar de funciones (2.3.7) en el intervalo –1 ≤ u ≤ +1 N0 = Q0 , Q0
1/ 2
= Q0 (u) = 1 =
∫
1/ 2
1·1 du −1 +1
= 2
(2.4.2)
con lo que esta función normalizada es P0 ( u) = N0−1Q0 (u) =
1 2
(2.4.3)
que representa al vector unitario en la «dirección» n = 0. El siguiente paso es ortonormalizar la segunda función de {un}n=0,⬁, – f1(u) = u, con respecto a P 0(u) restándole primero lo que le sobra (la proyección sobre la dirección n = 0).
100
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
Q1 (u) = φ1 ( u) −
Q0 (u) , φ1 (u) Q0 (u), Q0 (u)
1 φ1 ( u) − P0 (u), φ1 (u) P0 (u) = u − 2
∫
Q0 (u) = (2.4.4 ) 1 =u u · du −1 2 +1
y normalizando después N1 = Q1 , Q1
1/ 2
= Q1 (u) = u =
∫
P1 (u) = N1−1Q1 ( u) =
1/ 2
u· udx −1 +1
=
2 3
(2.4.5)
3 u 2
(2.4.6)
Este es el vector unitario en la «dirección» n = 1. A continuación se ortonormaliza f2(u) = u2 a los dos polinomios anterio– – res P 0 y P 1 Q2 (u) = φ2 ( u) −
Q0 ( u), φ2 ( u)
Q0 (u) −
Q0 (u), Q0 (u)
Q1 (u), φ2 (u) Q1 (u), Q1 (u)
Q1 ( u) =
φ2 ( u) − P0 (u), φ2 (u) P0 (u) − P1 (u), φ2 (u) P1 ( u) = 1 u2 − 2
1 − u2 du −1 2
∫
+1
∫
+1
−1
(2.4.7)
3 3 1 u· u2 du u = u2 − 2 3 2
La normalización lleva a
N2 = Q2 , Q2
1/ 2
1 = Q2 (u) = u − = 3 2
P2 (u) = N2−1Q2 (u) =
1/ 2
( u − 2u / 3 + 1/ 9 ) dx = −1
∫
+1
4
2
8 45
(2.4.8)
1 5 (3u2 − 1) 2 2
que es el vector unitario en la «dirección» n = 2.
101
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Los cálculos siguen de la misma manera con el resto de las funciones. Así para f3(u) = u3 se tiene 2
Q3 (u) = φ3 (u) −
∑ P (u), φ (u) P (u) = u − 5 u 3
3
m
m
3
(2.4.9)
m= 0
que normalizado es N3 = Q3 , Q3
1/ 2
= Q3 (u) =
8 1 7 ; P3 (u) = N3−1Q3 (u) = (5u3 − 3u) 175 2 2
(2.4.10)
y representa al vector unitario en la «dirección» n = 3. El proceso puede verse que se generaliza sin dificultad. Conocidos los polinomios ortogonales Q hasta un cierto orden n, el siguiente polinomio Qn+1 se determina restando a fn+1 las proyecciones sobre cada «eje» Qm ya determinado n
Qn+1 (u) = φn+1 ( u) −
∑ P (u), φ m
n +1
(u) Pm (u)
(2.4.11)
m =0
y su normalización se formula como Nn+1 = Qn+1 , Qn+1
1/ 2
= Qn+1 (u) =
Pn+1 (u) =
+1
∫ (Q −1
n +1 ( u)
)
2
du;
(2.4.12)
Nn−+11Qn+1 ( u)
Forma de los polinomios normalizados de Legendre – Estos polinomios P m(u) son los denominados polinomios ortonormalizados de Legendre, relativos a la función de peso unidad v (x) = 1, y son alternativamente funciones pares o impares según va marcando su grado m
102
m = 0, 2, 4, 6, .... ⇒ Pm ( u) = Pm (− u), par
(2.4.13)
m = 1, 3, 5, 7, .... ⇒ Pm ( u) = − Pm ( − u), impar
(2.4.14 )
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
Por construcción verifican la relación de ortonormalidad 1 si m = n Pm (u) Pn ( u) du = δ mn = −1 0 si m ≠ n
∫
+1
(2.4.15)
y son un conjunto completo en –1 ≤ u ≤ +1 que sirve para desarrollar en serie, convergente en media, cualquier función continua g(u) definida en ese intervalo en la forma `
y = g ( u) =
∑c
m Pm (u);
− 1 ≤ u ≤ +1
(2.4.16)
m= 0
con los coeficientes dados por cm =
∫
+1 −1
Pm ( u) g(u) du
(2.4.17)
En la forma dicha anteriormente se pueden expresar aproximaciones a g(u), usando sólo un número n finito de términos, como la combinación lineal y = g( u) ≈ gn ( u) = c0 P0 ( u) + c1P1 (u) + c2 P2 (u) + ... + cn Pn (u)
(2.4.18)
y los coeficientes están dados por (2.4.17). La aproximación anterior suministra la mejor aproximación de orden n, en el sentido de los mínimos cuadrados, como puede comprobarse minimizando la correspondiente función S que viene dada por
(
S = d2 ( g, gn )
)
2
=
1/ 2 2
+1
∫ ( g(u) − g (u)) −1
n
(2.4.19)
La precisión de la aproximación (2.4.18) puede aumentarse añadiendo más términos al desarrollo utilizando polinomios de grado progresivamente creciente (n + 1, n + 2,...) y con sus coeficientes dados por (2.4.17). El error del ajuste viene dado por el valor (mínimo) que tome la función S. EJERCICIO 2.4.1 Comprobar que la minimización de (2.4.19) con respecto a los coeficientes cj de (2.4.18) lleva a las definiciones (2.4.17).
103
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
El sistema normal de ecuaciones asociado a la minimización es m=0→
∂S = 0 → c0 ∂c0
m = 1→
∂S = 0 → c0 ∂c1
... m = n→
...
∫
∫
+1 −1
+1 −1
P0 P0 du + c1
P1P0 du + c1
...
∂S = 0 → c0 ∂cn
∫
∫
∫
+1 −1
+1 −1
P0 P1du + ... + cn
P1P1du + ... + cn
... +1
−1
Pn P0 du + c1
...
∫
+1 −1
∫
∫
+1 −1
+1 −1
P0 Pn du =
P1Pn du =
...
Pn P1du + ... + cn
∫
∫
∫
+1 −1
P0 g du
+1 −1
P1 g du
... +1 −1
Pn Pn du =
(2.4.20)
...
∫
+1 −1
Pn g du
–– y su solución es trivial por ser todas las integrales de productos P iP j, salvo las diagonales, nulas por ortogonalidad +1
cm =
∫−1 Pm ( u) g(u) du = +1 P (u) g(u) du ∫−1 m +1 ∫−1 Pm (u) Pm (u) du
Forma habitual de los polinomios de Legendre Los polinomios de Legendre, también llamados funciones esféricas, han sido ampliamente estudiados y poseen un buen número de relaciones matemáticas útiles que los relacionan. Sus expresiones normalizadas son las – dadas arriba para los P m(u), pero convencionalmente se utilizan sus formas no normalizadas Pm(u) que no coinciden exactamente con las de las funciones Qm(u) que surgen del proceso de Gram-Schmidt mostrado (hay otras muchas opciones, obviamente), sino que son proporcionales a ellas. La rela– ción estándar que liga P m(u) con Pm(u) es Pm (u) =
2m + 1 Pm ( u) 2
(2.4.21)
con lo que la fórmula de normalización habitual en la bibliografía es
∫
+1
−1
2 2 Pm (u) du = 2m + 1
(2.4.22a )
o de forma compacta suele expresarse la ortonormalidad, relativa a v (x) =1, como
∫
+1
−1
104
Pm (u) Pn (u) du =
2 δ 2m + 1 mn
(2.4.22b)
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
Además, los Pm(u) se pueden obtener directamente de la fórmula de Rodrigues Pm (u) =
(
)
m 1 dm 2 u − 1 ; m = 0,1, 2,... 2 m m! dum
(2.4.23)
Los primeros de estos polinomios Pm(u) son (Fig. 2T.6) P0 (u) = 1
P1 (u) = u
P2 ( u) =
1 (3u2 − 1) 2
1 (5u3 − 3u) 2
(2.4.24a )
1 (35u4 − 30 u2 + 3) 8
(2.4.24 b )
P3 (u) =
P4 (u) =
P5 (u) =
1 (63u5 − 70u3 + 15u) 8
(2.4.24c)
Figura 2T.6. Gráficos de los cuatro primeros polinomios de Legendre Pm(x).
Propiedades adicionales Las siguientes son algunas propiedades de estas funciones no normalizadas que merecen destacarse.
105
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
i) Los Pm(u) son soluciones de la ecuación diferencial de segundo orden (Legendre) d2 d 2 − 2u + m( m + 1) Pm (u) = 0; − 1 ≤ u ≤ +1 1− u 2 du du
)
(
(2.4.25)
y cualquiera de ellos tiene todas sus m raíces reales todas simples y contenidas en [–1, +1], valores éstos de las raíces que juegan un papel fundamental en la integración numérica de funciones. Como detalle interesante: entre dos raíces consecutivas de Pm(u) hay una, y sólo una, raíz de Pm–1(u), lo que es una propiedad general para todas las familias de polinomios ortogonales. ii) Una recurrencia especialmente útil es la relación siguiente ( m + 1)Pm+1 (u) = (2m + 1)uPm (u) − mPm−1 (u); m ≥ 1
(2.4.26)
pues lleva a generarlos todos a partir de los dos primeros y, además, permite calcular Pm+1(u) numéricamente en –1 ≤ u ≤ +1 sin una pérdida sustancial de cifras significativas. iii) Los Pm(u) en [–1, +1], toman valores entre +1 y –1 con las propiedades Pm(1) = +1, Pm(–1) = (–1)m. iv) Estos polinomios están muy estrechamente relacionados con los cálculos en los que interviene el inverso de la distancia entre dos partículas (potencial de interacción culombiano, por ejemplo), lo que está contenido en su función generatriz 1 1 + t − 2t cos θ 2
`
= {u = cos θ } =
∑ P (u)t ; − 1 ≤ u ≤ +1; n
n
t 0.
La economización de polinomios Una propiedad que merece consideración aparte es que, para funciones continuas y de variación acotada en [–1, +1] el desarrollo en serie (2.5.14) converge no sólo en media, sino también uniformemente (sobre todo el intervalo a la vez con la misma «velocidad» en todos los puntos). Este doble carácter convergente confiere a los polinomios {Tn(u)} una gran versatilidad de uso. Nótese que en una aproximación del tipo (2.5.15) el error cometido a partir de un orden m adecuado está esencialmente dominado por el siguiente término no incluido m
f ( u) −
∑ c T (u) ~ c n n
m+1Tm+1 ( u)
≤ cm+1 ; − 1 ≤ u ≤ +1
(2.5.16)
n= 0
expresión en la que el símbolo ~ indica que la contribución m + 1 es del mismo orden que la diferencia de la izquierda. Este error es así tal que muestra una muy razonable uniformidad sobre todo el intervalo, como consecuencia de la propiedad de «oscilación igual» ya mencionada. Esto no es naturalmente la convergencia uniforme, sino sólo una consecuencia útil de tal hecho particular en este caso. Obtener tal convergencia es en la práctica un asunto generalmente fuera de alcance y se sustituye por una técnica de aproximación más avanzada denominada mini-max. En esta técnica se hace mínimo el valor máximo de la diferencia absoluta entre f(u) y su aproximante, el cuál toma la forma de una función racional como cociente de dos polinomios (pueden ser éstos del tipo Tn(u), entre otras opciones). Este es un asunto muy especializado que no va a tratarse aquí. Sin embargo, la propiedad anterior de acotación del error al trabajar con los {Tn(u)} puede explotarse para generar aproximaciones «económicas» a una función. Esta es la conocida como operación de «economización»de polinomios y va describirse a continuación.
111
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Supóngase que para una función conocida y de difícil evaluación f(u) se ha generado una aproximación de Taylor de orden m con potencias un en torno a u = 0 f(u) ª a0 + a1u + a2u2 + ... + amum;
–1 ≤ u ≤ +1
(2.5.17)
Es sabido que esta aproximación funcionará muy bien en las cercanías del origen del desarrollo, pero que presentará error creciente a medida que ÁuÁ Æ 1. Para corregir este efecto habría que incluir más términos, n > m, en el desarrollo de Taylor y esto pudiera no ser una buena opción por resultar «anti-económica». La alternativa que brindan los polinomios de Tschebyscheff es la de sustituir los monomios un por sus representaciones en términos de {Tn(u)}n=0,⬁ j
j
u =
∑ c T (u);
j = 0,1, 2,..., m
jn n
(2.5.18)
n= 0
con lo que m
2
f ( u) ≈ a0 + a1T1 (u) + a2
∑c
T ( u) + ... + am
2n n
n= 0
∑c
m
T (u) =
mn n
n= 0
∑ b T (u); n n
n= 0
(2.5.19 )
−1 ≤ u ≤ +1 Aunque evidentemente las aproximaciones (2.5.17) y (2.5.19) son idénticas, la forma (2.5.19) permite despreciar, generalmente, el último término de orden m manteniendo un error de aproximación similar al que se obtendría con el desarrollo original m−1
m
f ( u) ≈
∑ n =0
anun ≈
∑ b T (u); n n
− 1 ≤ u ≤ +1
(2.5.20 0)
n= 0
Así, la aproximación de Tschebyscheff de orden (m – 1) mantiene un error máximo del orden de ÁbnÁ y uniformemente distribuido sobre el intervalo, eliminándose las fuertes discrepancias en los extremos al precio de empeorar ligeramente las estimaciones en las cercanías de u = 0. El resultado de orden (m – 1) con los polinomios {Tn(u)}n=0,m–1 es un polinomio muy cercano (pero no idéntico generalmente) al de mínimos cuadrados de ese mismo orden (m – 1).
112
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
Observaciones de interés Los polinomios {Tn(u)}n=0,⬁ aquí tratados son los denominados Tschebyscheff de tipo I (hay varios tipos de polinomios de Tschebyscheff). Su utilidad puede ser extendida a intervalos generales [a, b]x sin más que hacer uso del pertinente cambio de variable, como ya se ha señalado. Este cambio funciona en los dos sentidos: a) se transforma [a, b]x Æ [–1, +1]u con f(x) Æ f(x(u)) = g(u) y se trabaja con los polinomios {Tn(u)}; ó b) se transforma [–1, +1]u Æ [a, b]x con Tn(u) Æ T*n(x) y se trabaja con los últimos para directamente ajustar f(x). En este caso b) las relaciones que se verifican para los {Tn(u)} cambian al pasar a los {T *n(x)} y pudiera resultar poco útil esta posibilidad. En ambos casos, a) y b), se recomienda extremar el cuidado al efectuar estimaciones numéricas para evitar que el delicado balance que muestran los {Tn(u)} en [–1, +1]u se deteriore al pasar a [a, b]x. Finalmente los desarrollos en la base {Tn(u)} para [–1, +1] están estrechamente relacionados con las series de Fourier (AP. II) y las aproximaciones trigonométricas a tablas de datos que van a considerarse más adelante (Cap. 9). Convencionalmente se escribe f ( u) =
1 c + 2 0
`
∑ c T (u); n n
u = cos θ ; − 1 ≤ u ≤ +1
(2.5.21)
n=1
f (u) = f (cos θ ) = g(θ ) =
1 c + 2 0
`
∑ c cos nθ n
(2.5.22)
n=1
que es la forma de una serie de Fourier en cosenos para una función par y periódica. Los polinomios Tn(u) verifican relaciones de ortogonalidad discretas utilizando como argumentos las n raíces uk de uno de ellos. Así para las n raíces del polinomio Tn(u), dos polinomios cualesquiera Ti(u) y Tj(u), con i, j < n, cumplen 0 si i ≠ j Ti (uk ) Tj (uk ) = n / 2 si i = j ≠ 0 k=0 si i = j = 0 n n –1
∑
(2.5.23)
una relación que puede probarse notando que las n raíces están repartidas simétricamente en [–1, +1]. Esta interesante propiedad permite generar aproximaciones de mínimos cuadrados para datos tabulares {(ul, yl)}l=0,N, si
113
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
bien obliga a describirlos utilizando las abcisas raíz uk y no los valores ul de la tabla. Esto fuerza a estimar de algún modo (colocación u otro) los correspondientes valores yk asociados. El resultado suele ser muy útil ya que produce la suavización propia de los mínimos cuadrados. EJERCICIO 2.5.1 Evaluar las dos integrales siguientes con polinomios de Tschebyscheff
a) b)
∫
+1
∫
+1
−1
−1
T1 ( x) T2 ( x) dx P3 ( x) T4 ( x) 1 − x2
dx; P3 ( x) = polinomioÄ deÄ Legendre
En ninguno de los dos casos es necesario calcular explícitamente las integrales pedidas. En el caso a) se tiene un producto de dos polinomios de Tschebyscheff, uno impar T1 y otro par T2 resultando simetría impar en el integrando. Como el intervalo de integración es finito y simétrico con respecto al origen: la integral a) es idénticamente nula por simetría. Esto no es la ortogonalidad de T1 y T2, sino simplemente un resultado de simetría. En el caso b) el polinomio de Legendre P3(x) se puede expresar como una combinación de las potencias de x: x, x3. A su vez estas potencias de x se pueden expresar como combinaciones de los polinomios de Tschebyscheff T1 y T3, de manera que al ser cada uno de ellos ortogonal a T4(x), la integral b) es idénticamente nula. El lector puede desarrollar las expresiones oportunas y verificar ambos resultados.
2.6. Caso continuo: polinomios de Hermite y de Laguerre Las dos familias de polinomios ortogonales que se presentan a continuación se definen sobre intervalos de integración infinitos: i) Gauss-Hermite, v (x) = exp(–x2), –⬁ < x < ⬁; y ii) Gauss-Laguerre, v (x) = exp(–x), 0 ≤ x < ⬁. En ambos casos son necesarias las funciones de peso para forzar la convergencia de las integrales y algunas de sus conexiones con la Mecánica Cuántica están en el estudio de la vibración molecular (Hermite {Hn(x)}n=0,⬁) o en
114
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
el estudio de las funciones de onda del átomo de hidrógeno (Laguerre {Ln(x)}n=0,⬁). Por otra parte, las dos familias juegan un papel central en muchos problemas de integración numérica. Los polinomios ortogonales respectivos pueden generarse a partir de sus fórmulas de Rodrigues (n = 0, 1, 2, ...) dn Hn ( x) = ( −1)n exp ( x2 ) n exp (− x2 ) dx Ln ( x) =
exp ( x) d n n n x exp ( − x) n! dx
)
(
(2.6.1)
(Hermitte)
(Laguerrre)
(2.6.2)
o de las fórmulas de recurrencia correspondientes H0(x) = 1;
H1(x) = 2x
Hn(x) = 2xHn–1(x) – 2(n – 1)Hn–2(x); L0(x) = 1;
(2.6.3a) n≥2
L1(x) = 1 – x
(n + 1)Ln+1(x) = (2n + 1 – x)Ln(x) – nLn–1(x);
(2.6.3b) (2.6.4a)
n≥1
(2.6.4b)
Las relaciones de ortonormalidad que verifican son las siguientes
∫
`
−`
exp (− x2 )Hn ( x)Hm ( x) dx = 2n n! πδ nm
∫
`
0
exp (− x) Ln ( x) Lm ( x) dx = δ nm
(2.6.5) (2.6.6)
EJERCICIO 2.6.1 Aplicando las recurrencias (2.6.3b) y (2.6.4b) escribir los cinco primeros polinomios de Hermite y de Laguerre. Comparar sus características de simetría y discutir cómo afectaría, una vez obtenidos, un cambio de signo en uno de ellos a su normalización y a sus relaciones de ortogonalidad con el resto. Las expresiones son fáciles de determinar y se llega a H0(x) = 1
L0(x) = 1
H1(x) = 2x
L1(x) = –x + 1 1 L2(x) = (x2 – 4x + 2) 2
H2(x) = 4x2 – 2
115
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
1 (–x3 + 9x2 – 18x + 6) 6 1 4 H4(x) = 16x4 – 48x2 + 12 L4(x) = (x – 16x3 + 72x2 – 96x + 24) 24 1 H5(x) = 32x5 – 160x3 + 120x L5(x) = (–x5 + 25x4 – 200x3 + 600x2 – 600x + 120) 120 Como puede observarse los polinomios de Hermite presentan simetrías respecto del origen x = 0: los de índice n = par = 2m son funciones pares H2m(x) = H2m(–x); los de índice n = impar = 2m + 1 son funciones impares H2m+1(x) = –H2m+1(–x). Los polinomios de Laguerre no presentan ninguna simetría con respecto al origen, pues no están definidos para valores x < 0. No obstante, se observa la alternancia de signos en sus expresiones siendo positivo si el término es de grado par (n = 0 incluido), o siendo negativo si el término es de grado impar. H3(x) = 8x3 – 12x
L3(x) =
Claramente a la vista de (2.6.5) y de (2.6.6) el cambio de signo en uno cualquiera de ellos no afecta para nada a sus propiedades de normalización o de ortogonalidad con cualquiera de los demás. Este resultado se extiende a la familia completa de los polinomios correspondientes, y lo mismo para un número arbitrario de funciones que cambien de signo. Esta es una propiedad muy importante para las aplicaciones de la Mecánica Cuántica en las que las funciones ortogonales intervienen construyendo funciones de onda, pues el sentido físico habitual relacionado con una probabilidad no se coloca en la función como tal, sino en el cuadrado (del módulo) de tal función con lo que un cambio de signo resulta irrelevante. EJERCICIO 2.6.2 En la teoría cuántica de perturbaciones del estado fundamental del oscilador armónico aparecen integrales sobre polinomios de Hermite de la forma
∫
`
−`
exp ( − x2 )Hn ( x) x3 H0 ( x) dx; n = 0,1, 2, 3,...
Discutir bajo qué condiciones de simetría se anulan estas integrales. Todo depende de la paridad del integrando: H0 es par, x3 es impar y exp(–x2) también es par. El producto de estos tres factores es por tanto impar. Así, las integrales nulas por simetría son todas aquéllas en las que Hn(x) ó n sea par: n = 0, 2, 4, 6, ... Aunque el intervalo es infinito, la convergencia está garantizada por la exponencial.
116
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
BIBLIOGRAFÍA 1. SCHEID, F., Análisis Numérico, McGraw-Hill (serie Schaum), 1972. (Cap. 21). Se mantiene el mismo capítulo numerado de consulta en la obra Numerical Analysis (1988). 2. SESÉ, L. M., Métodos Teóricos de la Química-Física (Vol. 1), UNED, Madrid, 1994. (Tema 4). 3. PRESS, W. H.; FLANNERY, B. P.; TEUKOLSKY, S. A. y VETTERLING, W. T., Numerical Recipes, Cambridge University Press, Cambridge, 1986. (Cap. 5). 4. RICE, J. R., Numerical Methods, Software and Analysis, McGraw-Hill, Nueva York, 1983. (Cap. 11). 5. RALSTON, A. y RABINOWITZ, P., A First Course in Numerical Analysis, Dover, Nueva York, 2001. (Caps. 2, 6, 7).
117
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
PROBLEMAS TEÓRICOS Y NUMÉRICOS
Problemas teóricos 2.1) Desarrollar en la base de los polinomios de Legendre {P n(z)} n=0,⬁, –1 ≤ z ≤ +1, la función f(x) = sen x definida en el intervalo [–p, p]. Utilizar un desarrollo hasta orden n = 3 y comparar numéricamente con el desarrollo de Taylor hasta mismo orden, realizado en torno a x0 = 0, tomados ambos en x = p/2. 2.2) La función de onda de una partícula en una caja de potencial de longitud 2L se prepara para que sea de la forma x2 2 + x; 0 ≤ x ≤ 2 L − f ( x) = L2 L 0 enÄ otroÄ caso a) Desarrollar esta función en serie de Fourier utilizando la base convencional de senos y cosenos. b) Haciendo uso de que el conjunto de funciones φn ( x) = sen
nπ x , n = 1,, 2L
, 2, 3,…,`, forma un conjunto completo en 0 ≤ x ≤ 2L, desarrollar f(x) en esta base y comparar con el resultado anterior. `
c) Sumar la serie
( −1) n
∑ (2n + 1) . 3
n= 0
2.3)** Se define la «función» d de Dirac mediante su actuación sobre funciones f(x) con buen comportamiento (continuas y con derivada continua, por ejemplo). Estas condiciones se expresan y visualizan con
∫
` −`
δ ( x − a) f ( x) dx = f ( a);
∫
0 si x ≠ a δ ( x − a) dx = 1; δ ( x − a) = −` ` si x = a `
Desarrollar d (x) en serie de los polinomios de Legendre en (–1, +1).
118
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
Problemas numéricos 2.4) Encontrar el ajuste de mínimos cuadrados de grado 2 con los polinomios de Gram-Tschebyscheff para la tabla dada en el Problema 1.7. 2.5) Determinar el orden de un desarrollo de Taylor en torno a x 0 = 0 para garantizar 9, 5, 3, y 2 cifras decimales correctas en el resultado de sen x para valores –1 ≤ x ≤ +1. 2.6) Expresar sen x mediante la serie de Taylor en torno a x0 = 0 y con la economización de Tschebyscheff (–1 ≤ x ≤ +1) obteniendo al menos dos cifras π correctas. Comparar los valores de ambas aproximaciones en x = . 4 2.7) Estudiar gráficamente la función generatriz de los polinomios de Legendre evaluada en t = 0,6 f ( u) =
m
1 2
1 + t − 2tu
≈
∑ P (u)t
n
n
= P0 (u) + tP1 (u) + t 2 P2 (u) + ... + t m Pm ( u)
n= 0
llegando hasta los grados m = 2, 5, en el desarrollo.
SOLUCIONES Problema 2.1 El cambio de variables que pasa de [–p, p]x Æ [–1, +1]z es z = x/p. Con ello la función se expresa f(x) = f(x(z)) = g(z) = sen p z y el desarrollo en serie de polinomios de Legendre no normalizados es +1
`
g( z) = senÄ π z =
∑ c P (z); n n
n= 0
cn =
∫−1 Pn ( z) sen π z dz = 2n + 1 ∫−1 ( Pn ( z) ) +1
2
dz
2
+1
∫−1 Pn ( z) sen π z dz
119
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
En este desarrollo el carácter impar de g(z) en el intervalo –1 ≤ z ≤ +1 va a anular, por simetría, todas las integrales con índice par n = 0, 2, 4, 6, ... (se incluye el 0), pues el polinomio correspondiente va a ser una función par. Esta condición de paridad no se va a cumplir para los coeficientes con n = 1, 3, 5, 7, ... y sus valores van a ser no nulos. En este caso se necesitan los coeficientes c1 y c3 cuyos valores son 3 c1 = 2 c3 =
7 4
∫
+1 −1
+1
3 sen π z z cos π z 3 = − z sen π z dz = 2 2 π π −1 −1 π
∫
+1
(5z3 − 3z )sen π z dz = +1
6 z z3 sen π z z cos π z 15 1 14 3z2 6 5 cos π z − + − 5 2 − 4 sen π z − 3 = 7 − 3 + 2 3 4 π π π π π π π π 0
Se tiene entonces que la aproximación de tercer orden, con los polinomios de Legendre y la serie de Taylor, son Legendre: senÄ π z = gL ( z) ≈
105 7 1 3 z + − 3 + 5z3 − 3z π π 2 π
Taylor: sen π z = gT ( z) ≈ π z −
(
)
π 3 z3 3!
Para x = p/2 Æ z =1/2 y los valores de estas aproximaciones junto con el valor exacto de la función seno en este punto redondeados a 6 decimales (se omiten los símbolos ª en lo que sigue) son gL(1/2) = 0,984196 gT(1/2) = 0,924832 gexacto(1/2) = sen (p/2) = 1 y puede comprobarse como, a igualdad de grado, la aproximación de Legendre es mucho más precisa que la obtenida con el polinomio de Taylor.
120
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
Problema 2.2 a) El desarrollo de Fourier de esta función es formalmente idéntico al del Apéndice II, Ejercicio A.II.-2 (b). El cambio de variable ahora es x = Lz/p y se tiene entonces aquí x x 2 4 2 − = f ( x) = − 2 L L 3 π
`
∑n
1 2
cos
n=1
nπ x; 0 ≤ x ≤ 2L L
b) Utilizando el conjunto completo de funciones sinusoidales
φn ( x) = sen
nπ x el desarrollo se expresa 2L `
f ( x) =
∑
`
bn sen
n =1
nπ x nπ = cn = b sen cn x = 2L 2 L n =1 n
∑
en donde se ha introducido la definición de constantes cn por brevedad en la notación. Haciendo igualmente A = –1/L2 y B = 2/L, se tiene que los coeficientes del desarrollo son 2L
bn =
∫0
( Ax
2
2L
∫0
)
+ Bx sen cn x dx sen 2 cn x dx
=
)
(
1 2L Ax2 + Bx sen cn x dx L ∫0
El cálculo de la integral lleva a 2L
∫0
(
2L
sen c x 2 x2 n + Ax + Bx sen cn x dx = A 2 x + − cos c x n 2 3 cn 0 cn cn 2
)
2L
sen c x x cos c x 1 16 L3 8 L3 n n n n = 1 − − 1 ( ) + (− − 1 ) +B − − 2 cn nπ L2 n3π 3 cn 0 0 si n = par 16 L 2 4 L2 n n − · (−1) = 3 3 1 − (−1) = 32 L L nπ nπ 3 3 si n = impar n π
(
(
)
)
El desarrollo es pues
121
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
`
x x 1 nπ x 32 sen 2 − = f ( x) = 3 ; 0 ≤ x ≤ 2L 3 L L 2L π n =1,3 ,5,7,... n
∑
Ambos desarrollos a) y b) son equivalentes en el límite n Æ ⬁, y las diferencias se aprecian si se truncan las series en algún orden n finito. c) Haciendo x = L en el desarrollo b) se obtiene 32 32 1 1 1 1 = 3 1 − 3 + 3 − 3 + ... = 3 π π 3 5 7
`
( −1) n
∑ (2n + 1)
3
n= 0
y la suma de la serie es p 3/32.
Problema 2.3** El desarrollo formal de la d de Dirac es +1
`
δ ( x) =
∑ c P ( x); −1 ≤ x ≤ +1; c n n
n
n= 0
=
∫−1 δ ( x) Pn ( x) dx = 2n + 1 P (0) ∫−1 ( Pn ( x)) +1
2
dx
2
n
lo que indica que sólo sobreviven los coeficientes con n par, pues para n impar Pn(0) = 0. Con esta restricción la serie puede escribirse renumerando los índices como m = 0, 1, 2, 3, ..., n = 2m, y se tiene `
δ ( x) =
∑c
P ( x);
2m 2m
− 1 ≤ x ≤ +1
m= 0
Los valores que van tomando estos coeficientes dependen de los de los polinomios en x = 0, pues se tiene la recurrencia (2.4.26) Pn+1 (0) = − y se encuentran los resultados
122
n P (0); n ≥ 1 n + 1 n −1
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
1 3 5 m = 3 → P2 m = P6 (0 ) = − · · 2 4 6 1 3 5 7 m = 4 → P2 m = P8 (0 ) = · · · 2 4 6 8
m = 0 → P2 m = P0 (0) = 1 m = 1 → P2 m = P2 (0) = −1 / 2 1 3 m = 2 → P2 m = P4 (0) = · 2 4
La fórmula general para los grados pares, exceptuando el grado nulo, es
)
P2 m (0 ) = ( −1
m
m (2 m − 1)!! 1.3.5.7....(2m − 1) = ( −1 ; m ≥1 (2 m)!! 2.4.6.8....2 m
)
en donde se ha introducido la notación doble factorial !!. Con ello los coeficientes del desarrollo en polinomios pares resultan c0 =
1 2
)
c2 m = ( −1
m
4 m + 1 (2m − 1)!! ; m ≥1 (2m)!! 2
Un punto muy delicado en este tipo de problemas, y en general en las soluciones en serie a diversos problemas, es el de la validez del desarrollo en los extremos del intervalo. Lo hecho anteriormente es válido en –1 < x < +1 y ahora habría que cerciorarse de que la serie numérica resultante en x = ±1 tiene sentido para la «función» que se ha desarrollado, es decir si la serie tiene que tomar los mismos valores que la función en esos extremos. La demostración de estos hechos requiere recursos fuera del alcance de este curso y no se presentará aquí
Problema 2.4 La tabla es Tabla (a). Problema 2.4 r*N
0,1
0,2
0,3
0,4
0,5
z = PV/RT
1,354
1,786
2,404
3,283
4,565
123
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
y se trata de realizar un ajuste con los polinomios de Gram-Tschebyscheff llegando hasta orden 2 con los N + 1 = 5 puntos. Los tres primeros polinomios de este tipo son G0 , N ( k) = 1 2k N 6 k 6 k( k − 1) G2, N ( k ) = 1 − + N N ( N −1) G1, N ( k) = 1 −
en donde N = 4. La aproximación a la tabla toma la forma p(2)(k) = c0G0,N(k) + c1G1,N(k) + c2G2,N(k) La función a minimizar S es en este caso N
S=
∑ {z
k
}
− c0 G0 , N ( k ) − c1G1, N ( k) − c2G2 , N ( k)
2
k=0
y los coeficientes cj se calculan como 4
cj =
∑ zk Gj ,4 ( k)
k=0 4
∑ ( Gj , 4 ( k ))
2
; j = 0,1, 2
k=0
Los resultados redondeados a cuatro decimales (se omiten los símbolos ª en lo que sigue) son c0 = 2,6784; c1 = –1,5838; c2 = 0,2801 y el error dado por la Smín alcanzada es 4,77 ¥ 10–3. Una comparación de los resultados estimados, redondeados a tres decimales, con los tabulares está en la tabla siguiente Tabla (b). Problema 2.4
124
k r*N
0
1
2
3
4
0,1
0,2
0,3
0,4
0,5
z = PV/RT tabular
1,354
1,786
2,404
3,283
4,565
z = PV/RT estim.
1,375
1,746
2,398
3,330
4,542
AJUSTE DE FUNCIONES CON POLINOMIOS ORTOGONALES
Problema 2.5 El desarrollo de Taylor en torno a x0 = 0 para la función del problema es y = f ( x) = sen x = x −
x3 x5 x7 + − + ...; − ` < x < ` 3 ! 5! 7 !
Esta función es continua y todas sus derivadas, de cualquier orden, son finitas y continuas para cualquier valor real. El resto de Lagrange da el error cometido al truncar la serie a un cierto orden n y utilizar un polinomio pT(n). y − pT( n) =
f ( n +1 (ξ ) x − x0 ( n + 1)!
(
)
n +1
=
xn +1 d n +1sen x ( n + 1)! dxn +1 x = ξ
con x siendo un punto interior del intervalo abierto definido por x0 y el valor concreto x que se esté considerando. Tanto la función seno como sus derivadas están siempre acotadas en valor absoluto como ≤ +1, y utilizando una tolerancia e se puede escribir la acotación siguiente y − pT( n) ≤
xn +1 5 ¥ 10–4, es decir, e 0 es mayor que media unidad sobre la última cifra escrita (5) para Q0. Tal cifra es ya «no exacta» y puede considerarse como «no significativa», pero es un asunto de elección conservarla o no al escribir el resultado. Con relación a esta última convención el lector debe tener en cuenta la siguiente observación. Hay que indicar que en la literatura científica una notación muy utilizada al dar el valor de una magnitud o constante es la de dar un número, del que la primera cifra se escribe por delante de la coma decimal, multiplicado por una potencia de 10, expresando el error con el añadido, al final de las cifras escritas, de normalmente dos números entre paréntesis que denotan el error absoluto (o la desviación estándar) como la incertidumbre en las dos últimas cifras de la cantidad. Por ejemplo, el número de Avogadro suele encontrarse dado como N0 = 6, 0221367(36) · 1023 → N0 = 6, 0221367 · 10 23 ± 0, 0000036 · 10 23 lo que señala la incertidumbre en las dos últimas cifras 67 como 36. A efectos de cálculo con N0 el valor a utilizar es el dado por todas las cifras escritas tras la coma N0 = 6,0221367 · 1023.
Consideraciones adicionales Los tres tipos de error básicos en cálculo numérico, truncamiento, entrada, y redondeo, están fuertemente entremezclados y la tarea es siempre dar estimaciones de ellos que permitan establecer márgenes de fiabilidad para los resultados finales. El análisis de estos errores presenta además aspectos estadísticos y es un asunto ciertamente complejo. Por otra parte, con los medios de computación actuales, que permiten trabajar con un gran número de dígitos (incluso en calculadoras), los problemas de redondeo en muchas aplicaciones prácticas no son determinantes. Hay, no obstante, que mencionar algunas excepciones notables a esta expectativa tan favorable, ya que en ellas los errores de redondeo son críticos pudiendo originar comportamientos anómalos o inestables (matrices de Hilbert, ecuaciones diferenciales inestables, cálculo de raíces de polinomios de grado muy elevado, etc.). Con ocasión del estudio de los errores experimentales y su tratamiento que se verá más adelante el tema general del error volverá a ser considerado
137
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
y completado desde una perspectiva estadística (Caps. 6 y 8). Por el momento, y para las aplicaciones puramente numéricas de esta primera parte, la atención va a centrarse en el tratamiento de los errores de entrada y de algoritmo. EJERCICIO 3.1.1 Obtener las expresiones operativas de los errores absolutos y relativos de las cuatro operaciones aritméticas elementales: a) Q = q1 + q2; b) Q = q1 – q2; c) Q = q1q2; d) Q = q1/q2. Las magnitudes q1 y q1 se consideran independientes y vienen afectadas de errores absolutos e1 y e2 (>0) respectivamente. Utilizando (3.1.3) con dos variables para proceder con las derivaciones parciales es inmediato establecer a) Q = q1 + q2 → ε (Q ) = ε1 + ε 2 > 0 ; δ (Q ) =
ε (Q ) ε1 + ε 2 = >0 Q q1 + q2
b) Q = q1 − q2 → ε (Q ) = ε1 + ε 2 > 0 ; δ (Q ) =
ε (Q ) ε1 + ε 2 >0 = Q q1 − q2
c) Q = q1q2 → ε ( Q) = q2 ε1 + q1 ε 2 > 0 ; δ (Q) =
d) Q = q1 q2 → ε (Q ) =
ε1 q2
+
q1 ε 2 q2
2
> 0 ; δ (Q ) =
ε ( Q) q2 ε1 + q1 ε 2 = δ1 + δ 2 > 0 = q1q2 Q
ε ( Q) = Q
q ε ε1 + 1 22 q2 q2 q1 q2
= δ1 + δ 2 > 0
en donde los errores relativos correspondientes se definen positivos como en (3.1.1): di = ei /ÁqiÁ. Es interesante observar que: i) los errores procedentes de variables independientes siempre se suman; ii) la forma de d (Q) en b) indica claramente los problemas esperados cuando se restan dos números aproximados muy cercanos en valor; iii) la forma de d (Q) en d), que indica la amplificación de errores en la división por un número q2 muy pequeño. Estas expresiones se generalizan sin dificultad a un número arbitrario de términos o factores.
138
APLICACIONES NUMÉRICAS BÁSICAS
EJERCICIO 3.1.2 Estimar los errores absoluto y relativo de la cantidad Q = ln N! ⬇ N ln N – N (aproximación simple de Stirling) en donde N es el número de partículas de un sistema macroscópico, para el caso en el que N sea el número de Avogadro N0 = 6,0221367(36) · 1023. Utilizando (3.1.3) para una sola variable se tiene d dQ ε ( Q0 ) ≈ ε ( N0 ) = ( N ln N − N ) ε ( N0 ) = ln N0 · ε ( N0 ) dN N =N dN N = N 0
0
y sustituyendo valores Q0 ≈ 323, 7193517 · 1023
ε (Q0 ) ≈ 1, 9711764 · 1019 ε ( Q0 ) ≈ 6 · 10−7 δ0 = Q0 Se tiene por tanto para Q0 el resultado Q0 ≈ 3, 2371935(20 ) · 10 25 ; ε ( Q0 ) ≈ 0, 0000020 · 1025 ; δ 0 ≈ 6 · 10 −7 = 0, 6 ppm Nótese que la variable número de partículas N varía de uno en uno y no continuamente, pudiéndose cuestionar la validez de las operaciones realizadas. Sin embargo, el rango de valores de N en estas aplicaciones es tan grande que para muchos efectos prácticos N se comporta como una variable continua, como revela el hecho de que DN/N0 = 1/N0 ~ 10–24. De ahí que se haya utilizado la regla normal de derivación en la aplicación anterior. El lector puede comprobar cómo definiendo el salto de la función Q de N a N + 1 y operando con incrementos la diferencia con el resultado anterior es despreciable para grandes valores de N y no altera la conclusión alcanzada. 3.2. Interpolación y extrapolación Una vez calculada la aproximación p(x) a una función y = f(x) dada en forma de tabla con N + 1 datos {xk, yk}k=0,N, ordenada con argumentos xk crecientes, hay dos tipos de operaciones que pueden realizarse de forma inmediata: la interpolación, que es la estimación del valor de la función en
139
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
puntos no tabulares determinados xi y dentro del intervalo de definición x0 < xi < xN, y la extrapolación, que es la predicción de valores de la función para puntos xe fuera de los límites de tal intervalo. Una interpolación extensiva para la función, utilizando un espaciado mucho más fino que el de la tabla original, para determinar muchos puntos interiores al intervalo de definición, es un caso especial que se suele denominar subtabulación, pero es claro que no requiere una consideración aparte. En todos estos casos la sustitución de xi o de xe en la aproximación dará la estimación buscada, p(xi) o p(xe). En lo que sigue se considerará siempre que la interpolación tiene sentido, no ya desde un punto de vista matemático, sino por encima de todo desde un punto de vista físico-químico. Una cuestión principal es la del error cometido en estas estimaciones. Supuesto que la función original f(x) toma valores razonables en x0 < x < xN es decir se comporta de manera continua y suave (sin divergencias, ni saltos, ni variaciones excesivamente bruscas), los errores de interpolación puede esperarse que permanezcan controlados. No sucede lo mismo con la extrapolación, que es una operación siempre afectada de gran incertidumbre, salvo en el caso en el que haya coincidencia p(x) ⬅ f(x), una circunstancia que debe venir garantizada por argumentos fisico-químicos y por tanto ajenos al cálculo numérico como tal. En general, la extrapolación es una operación muy poco recomendable, salvo en el caso señalado antes, y su utilidad queda restringida como mucho a indicar tendencias de la función original en las regiones exteriores muy próximas a los extremos del intervalo de ajuste x0 y xN. Su error no puede pues evaluarse con certeza (Fig 3T.1).
Figura 3T.1. Conceptos de interpolación directa e inversa y de extrapolación. La extrapolación es una operación que carece de sentido en la mayor parte de los casos.
140
APLICACIONES NUMÉRICAS BÁSICAS
Observaciones prácticas en interpolación i) Elección de grado Si la función tabular a interpolar {xk, yk}k=0,N, está igualmente espaciada, h = xk+1 – xk = cte > 0, y se elige un polinomio de colocación para representarla, suele ser conveniente utilizar únicamente los datos próximos al valor a interpolar xi en lugar de emplear la tabla completa. Esto, como ya se señaló en el Cap. 1, es representar la función mediante segmentos de curva. Así, aproximaciones lineales (dos datos), cuadráticas (tres datos) o cúbicas (cuatro datos), que ahorquillen el valor xi pueden dar ya muy buenas estimaciones yi al valor buscado, siendo tanto mejores cuanto más pequeño sea el espaciado h con el que viene definida la tabla de entrada. Espaciados h muy pequeños en los datos de entrada permiten realizar interpolaciones lineales suficientemente precisas para muchas aplicaciones. Por otra parte, para valores xi alejados de los extremos de la tabla x0 y xN puede mejorarse la precisión en la estimación aumentando el grado de la aproximación. Para estimaciones cercanas a tales extremos ya se ha comentado que este aumento de grado no es adecuado (oscilaciones de los polinomios) y lo razonable aquí es mantener el grado razonablemente bajo. En este sentido, observar cómo varía el resultado yi al ir aumentando el grado n del polinomio puede ser una gran ayuda, pues se espera que las correcciones sucesivas que experimenta yi con n deban ir decreciendo, pero si esto no es así, entonces todo indicará que los cálculos y las hipótesis hechas presentan algún problema que no ha sido considerado. Todas estas ideas hay que tomarlas como guías útiles a la hora de realizar interpolaciones, pero siempre puede existir algún caso en el que no sean suficientes y es tarea del analista numérico identificarlo para encontrar la mejor estrategia de interpolación. Aquí es interesante señalar que las aproximaciones de interpolación conseguidas con grados cada vez mayores en el polinomio de colocación, en tablas de determinadas funciones analíticas con número de puntos tendiendo a infinito, presentan lo que se denomina una convergencia asintótica, en la que se observa inicialmente como las diferencias de orden creciente van disminuyendo siguiendo una aparente convergencia, para a partir de un cierto orden mostrarse divergentes. ii) Selección de puntos de la tabla y tipo de polinomio Una vez elegido el grado n del polinomio a utilizar se seleccionan los puntos de la tabla con los que se va a calcular de manera que xi ocupe un
141
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
lugar aproximadamente central. Por ejemplo, si se deseara utilizar un polinomio de avance de Newton de grado n = 3 la situación puede esquematizarse así ... < xm−1 < xm < xi < xm+1 < xm+ 2 ... → ... < x% 0 < x%1 < xi < x%2 < x% 3 ...
(3.2.1)
en donde se han tomado dos argumentos a la izquierda y dos a la derecha del de interpolación y se han renumerado por comodidad. Utilizando el polinomio de avance de grado 3 en términos de la variable auxiliar k% referida a x%0 se llega a la expresión de interpolación 1 1 p( 3 ) ( ki ) = y0 + k%i ∆y0 + k%i ( k%i − 1)∆ 2 y0 + k%i ( k%i − 1)( k%i − 2)∆ 3 y0 ; 3! 2! x − x%0 k%i = i >0 h
(3.2.2)
El proceso es fácilmente generalizable a grados más elevados utilizando más argumentos, o al caso de un polinomio de retroceso sin más que tener en cuenta que x%0 sería entonces el valor más alto de entre las x seleccionadas y que k%i < 0. El ejemplo anterior es ilustrativo de la manera de proceder y resulta muy adecuado para interpolar en argumentos situados cerca de los extremos de la tabla x0 ó xN. En estos casos, x0 < xi < x1 ó x–1 < xi < x0 lo habitual es utilizar polinomios de Newton y tomar los tres puntos con argumentos x0, x1 y x2 (ó x0, x–1 y x–2), y como recomendación general no más de cuatro puntos. Sin embargo, cuando el argumento implicado está situado lejos de los extremos, aunque el proceso descrito es formalmente correcto manteniendo diferencias de orden elevado, resulta mucho más conveniente utilizar polinomios de colocación de diferencias centrales utilizando así menos diferencias y logrando precisiones adecuadas. Ya se ha considerado someramente esta cuestión en el Cap. 1 y ahora van a darse algunos detalles prácticos conectados con la interpolación. Los polinomios de colocación basados en diferencias centrales (Stirling, Gauss, Everett, etc.) sitúan el origen de la tabla k% = 0 en uno de los argumentos xm originales de la tabla contiguo al punto de interpolación xi y asignan índices k% positivos hacia argumentos crecientes y negativos hacia los decrecientes. Así en el caso del origen tomado en el argumento inmediatamente inferior al de interpolación (3.2.1) se reformula como
142
APLICACIONES NUMÉRICAS BÁSICAS
... < xm− 2 < xm−1 < xm < xi < xm+1 < xm +2 ... → ... ... < x% −2 < x% −1 < x% 0 < xi < x%1 < x% 2 ...; x% 0 = xm
(3.2.3)
y análogamente para el caso del argumento inmediatamente superior. Por razones de espacio y por las de utilizaciones posteriores van a tratarse únicamente los casos de los polinomios de Stirling (grado par) y de Everett (grado impar). En el caso de polinomio de Stirling la colocación se realiza sobre un intervalo de la tabla original simétrico en torno al origen seleccionado. Para una elección como (3.2.3) esto es x% − n/ 2 < ... < x% −2 < x% −1 < x% 0 < xi < x%1 < x%2 < ... < x% n/2 ; x% 0 = xm
(3.2.4 )
lo que indica que el polinomio es de grado par n (= 2j) y son necesarios n + 1 puntos, un número impar (2j + 1) datos de la tabla de entrada. La formulación compacta de este polinomio se realiza utilizando operadores de diferencia central que no van a considerarse aquí, pero pueden escribirse expresiones equivalentes utilizando el ya conocido operador de diferencia de avance D. Para orden n = 4 (–2 ≤ k% ≤ 2) el polinomio de Stirling se escribe como ( ∆y0 + ∆y−1 ) % ∆ 2 y−1 % 2 (4 ) pStirling ( k% ) = y0 + k+ k + 2 2 ( ∆ 3 y−1 + ∆ 3 y−2 ) ( k% + 1) k%( k% − 1) ∆ 4 y−2 k% 2 ( k% 2 − 1) + 3! 2 3! 4
(3.2.5)
y la interpolación en xi se realiza sustituyendo k% por k%i = (xi – x%0)/h. En el caso del polinomio de Everett la colocación se realiza sobre un intervalo de la tabla original asimétrico en torno al origen seleccionado. De nuevo, para una elección como (3.2.3) esto es x% − j < ... < x% −2 < x% −1 < x% 0 < xi < x%1 < x%2 < ... < x% j < x% j+1 ; x% 0 = xm
(3.2.6 )
lo que indica que el polinomio es de grado impar n (= 2j + 1), y son necesarios n + 1 puntos, un número par (2j + 2), de la tabla de entrada. La formulación compacta de este polinomio también se realiza utilizando operadores de diferencia central, pero pueden escribirse expresiones equivalentes utili-
143
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
zando D. Para orden 2j + 1 = 5 el polinomio de Everett (–2 ≤ k% ≤ 3) incluye solamente diferencias de orden par y se escribe como % %2 % % % ( 5) % − ( k% − 1) y + k( k − 1) ∆ 2 y − k( k − 1)( k − 2) ∆ 2 y + pEverett ( k% ) = ky 1 0 0 −1 3! 3! k% ( k% 2 − 1)( k% − 2)( k% − 3) 4 k% ( k% 2 − 1)( k% 2 − 4) 4 ∆ y−1 − ∆ y−2 5! 5!
(3.2.7)
Al igual que antes la interpolación en xi se realiza sustituyendo k% por k%i = (xi – x%0)/h. Las dos expresiones anteriores pueden utilizarse para definir los polinomios de grado inferior, pero prestando atención al número de puntos de la tabla necesarios para construirlos. Estos tipos de polinomios «centrales» describen en principio de mejor manera el hábito o comportamiento de las funciones alrededor del punto de interés xi, y también permiten obtener la misma precisión en una interpolación utilizando menos términos que los que deberían usarse con los polinomios de Newton (se recuerda la necesidad de situar el origen de forma contigua a xi), iii) Tabla desigualmente espaciada Cuando la interpolación debe hacerse con una tabla {xk, yk}k=0,N no igualmente espaciada, xk+1 – xk ≠ cte, una herramienta de colocación a utilizar es la del polinomio de Lagrange. La estrategia es similar a la anterior en cuanto a la elección de grado de polinomio y región de la tabla a emplear, pero se pierde la facilidad de poder mejorar el resultado previo añadiendo un grado más simplemente con la suma del término de diferencia D siguiente, no teniéndose así la rapidez de verificación de la convergencia observando las aproximaciones sucesivas. En el caso del polinomio de Lagrange una vez construido el polinomio, con grado n y por tanto con n + 1 puntos, la interpolación en xi se realiza por sustitución de este valor en la expresión y se tiene n ( x − x% ) i j y ( xi ) = % m − x% j ) m ( x m= 0 j ≠ m n
( n)
p
∑∏
(3.2.8)
y es fácil ver que una ampliación del grado implica recalcular de nuevo los factores que acompañan a las ym. Un algoritmo alternativo al de Lagrange que permite observar la convergencia con adiciones de puntos sucesivos es el de Aitken (interpolación iterada), pero no se va a tratar aquí.
144
APLICACIONES NUMÉRICAS BÁSICAS
EJERCICIO 3.2.1 Expresar la ecuación (3.2.8) para un ajuste lineal, n = 1 y para un ajuste cuadrático n = 2. n = 1 → p(1) ( xi ) = n = 2 → p(2 ) ( xi ) =
( xi − x%1 ) ( x − x%0 ) y0 + i y ( x%0 − x%1 ) ( x%1 − x%0 ) 1
( xi − x%1 )( xi − x%2 ) ( x − x%0 )( xi − x%2 ) y0 + i y + ( x% 0 − x%1 )( x% 0 − x% 2 ) ( x%1 − x%0 )( x%1 − x%2 ) 1 ( xi − x% 0 )( xi − x%1 ) y ( x% 2 − x% 0 )( x%2 − x%1 ) 2
(3.2.9 )
(3.2.10 )
Notas complementarias Conviene insistir en que el polinomio de colocación a una serie de datos es único. Por tanto, si ante un problema de interpolación en una tabla extensa igualmente espaciada se fija la atención sólo en una región concreta km ≤ k ≤ kn, para con todos sus datos (agotando todas las diferencias accesibles) utilizar en ella un polinomio de diferencias centrales, sus resultados serían los mismos que los de la utilización de un polinomio de Newton para interpolar en ese mismo intervalo situando su origen k = 0 en km. Por otra parte, los polinomios de diferencias centrales son más útiles que los de Newton en aplicaciones como la diferenciación numérica y otras y tal vez sea esta la principal razón para su estudio. Hay pues equivalencia algebraica entre ambas opciones. Más adelante al considerar el problema del error de interpolación se considerarán algunos detalles más sobre este asunto. Para tablas igualmente espaciadas el polinomio de Lagrange coincide con cualquier otra versión de colocación sobre el intervalo elegido (de nuevo: el polinomio que ajusta una serie completa de datos es único). Por otra parte, el polinomio de Lagrange puede utilizarse para utilizar interpolaciones inversas, es decir, conocido el valor de la función yi en un punto no tabular determinar el valor del argumento xi que le corresponde. Esto se realiza sencillamente intercambiando los papeles de x e y en (3.2.8) así como en el proceso descrito antes (Fig. 3T.1). Si el ajuste a la tabla no es de colocación sino de mínimos cuadrados en cualquiera de sus versiones (base polinómica convencional, base ortogo-
145
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
nal, etc.), el proceso de interpolación suavizada sigue las pautas anteriores sustituyendo el valor del argumento a interpolar en la expresión obtenida para el ajuste. El error de interpolación En el polinomio de colocación el error de algoritmo viene dado en valor absoluto por la expresión ya conocida y( x) − p( n) ( x) =
( x − x0 )( x − x1 )...( x − xn ) ( n+1 y (ξ ) ( n + 1)!
(3.2.11)
en donde x0 < x < xn, x ≠ xi (i = 0, 1, 2, ,,,. n). y(x) se considera que es continua y con sus n primeras derivadas también continuas, y el punto x está dentro del intervalo de definición x0 ≤ x ≤ xn. Esta fórmula se obtiene por aplicación reiterada del teorema de Rolle y permanece válida para puntos x fuera de este intervalo de definición, indicando un comportamiento desmesurado para el error de extrapolación. El valor de x es desconocido en general y la determinación precisa de los errores de interpolación no es posible en la mayor parte de los casos. De hecho, desde un punto de vista práctico, al emplear tablas de diferencias por ejemplo, se procede añadiendo sucesivamente términos con diferencias sucesivas hasta observar cómo el resultado se estabiliza a la precisión que se exija en el cálculo. No obstante, la fórmula anterior es muy útil para producir acotaciones de valor en muchos problemas, pues puede permitir utilizar las propiedades del producto de monomios (x – xi) para controlar el error. Como el espaciado h viene ya dado normalmente, este producto es muchas veces el único elemento de control disponible y uno de sus usos se ilustra en el siguiente Ejercicio para una tabla igualmente espaciada. EJERCICIO 3.2.2 Acotar el error de interpolación lineal de un polinomio de Newton para el que se han utilizado dos puntos de una tabla con argumentos x0 y x1. Siguiendo la ecuación (3.2.11) el error absoluto de este ajuste lineal es y( x) − p(1) ( x) =
146
( x − x0 )( x − x1 ) ( 2 k( k − 1) 2 ( 2 y (ξ ) = h y (ξ ) 2! 2!
APLICACIONES NUMÉRICAS BÁSICAS
Esta expresión puede acotarse notando que el polinomio k(k – 1) toma, en 0 ≤ k ≤ 1, en valor absoluto su máximo en k = 1/2 (el mínimo) que es Ákmín(kmín – 1)Á = 1/4. Con ello el error de interpolación está acotado como y( x) − p(1) ( x) =
k( k − 1) 2 (2 h2 (2 h y (ξ ) ≤ y (ξ ) ; 0 ≤ k ≤ 1; x0 ≤ x ≤ x1 2! 8
(3.2.12)
Si la función y(x) es conocida a priori, como sería el caso de la tabulación de una función complicada de manejar y que debe utilizarse muchas veces, la acotación de la derivada segunda y(2(x) es en principio siempre posible y, por tanto, el error de algoritmo quedará bien caracterizado. Si la función no es conocida, entonces esto no es posible y las estimaciones que pueden hacerse de la acotación de y(2(x) y por tanto del error serán siempre dudosas. Hay que resaltar algunos detalles en este asunto del error de interpolación con colocación de datos. El primero es notar que el error en los puntos tabulares es nulo, obviamente. El segundo es que, una vez fijado el nivel de aproximación (el grado n), el error de truncamiento disminuye si se puede hacer disminuir el espaciado h de la tabla. El tercero es que dependiendo del polinomio de colocación equiespaciado elegido la expresión del error (3.2.11), aunque básicamente la misma (se trata de una traslación del origen), conviene transformarla. Por ejemplo, para un polinomio de Everett de grado n = 2j + 1 = 3, el error viene dado por la expresión (compárese con (3.2.7)) y acotación siguientes k% ( k% 2 − 1)( k% − 2) 4 ( 4 (3 ) y( x) − pEverett ( k% ) = h y (ξ ); − 1 ≤ k% ≤ 2; x−1 ≤ x ≤ x2 (3.2.13a ) 4! 3 4 (4 (3 ) y( x) − pEverett ( k% ) ≤ h y (ξ ); 0 < k% < 1; x0 ≤ x ≤ x1 128
(3.2.13b )
como puede comprobarse fácilmente repitiendo el análisis del Ejercicio 3.2.2 en este caso. La acotación restringida (3.2.13b) ya apunta la utilidad de este polinomio de diferencia central en interpolación. Por último, si se ha utilizado un algoritmo de mínimos cuadrados para generar una aproximación que permita interpolar con «suavidad» en una tabla, ya se han discutido en el capítulo anterior las medidas de error globales, Smín y RMS, que dan idea de la bondad del ajuste y siempre pueden estimarse los errores cometidos individualmente en cada punto, aunque esto suele ser de menor valor.
147
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
EJERCICIO 3.2.3 Comparar gráficamente el comportamiento del producto de monomios en (3.2.11) expresado en la variable auxiliar k si se utiliza un polinomio de Newton de grado 7 con origen en k = 0 y un polinomio de Stirling de grado 4 con origen centrado en k = 5(k% = 0). El polinomio de colocación de Newton va a utilizar 8 datos de la tabla correspondiente 0 ≤ k ≤ 7, en tanto que el de Stirling va a utilizar sólo 5 datos En sus errores de ajuste respectivos la magnitud a analizar con vistas al comportamiento del error pedido en (3.2.11) es el polinomio o en definitiva la forma asociada en la correspondiente variable –2 ≤ k% ≤ 2(3 ≤ k ≤ 7). En cada caso esta función toma las formas siguientes Newton ( n = 7) : k( k − 1)( k − 2)( k − 3)( k − 4)( k − 5)( k − 6))( k − 7) Stirling ( n = 4 ) : ( k% − 2)( k% − 1) k% ( k% + 1)( k% + 2) Las representaciones gráficas de estas funciones se muestran en las Figs 3T.2a y 3T.2b. En la Fig 3T.2a se comprueba cómo el comportamiento de Stirling en las cercanías del punto de interés k% = 0(k = 5) es despreciable comparado con el de Newton, el cual oscila fuertemente en los extremos del intervalo 0 ≤ k ≤ 7. En la Fig 3T.2b puede verse en una escala apropiada la magnitud del error de Stirling, un polinomio cuyo uso está recomendado
Figura 3T.2a. Comparación de las contribuciones del factor polinómico al error de interpolación (3.2.11), en las cercanías de k = 5, utilizando: un polinomio de Newton de séptimo grado con origen en k = 0, y un polinomio de Stirling de cuarto grado con origen en k = 5.
148
APLICACIONES NUMÉRICAS BÁSICAS
Figura 3T.2b. Detalle del error del polinomio de Stirling de Fig. 3T.2a.
para el rango de valores –0,25 ≤ k% ≤ 0,25. Incidentalmente, obsérvese como también el polinomio de Stirling oscila fuertemente en los extremos de su intervalo de colocación, en comparación con su hábito en el resto de tal intervalo. Todo ello pone de manifiesto la importancia de poder manipular el polinomio que aparece en la expresión del error de interpolación y, también, el tremendo peligro asociado con las extrapolaciones en las que la continuación del polinomio fuera del intervalo indica cómo el error se dispara grandemente. Hay que señalar que un análisis completo de estas situaciones requeriría del estudio anterior combinado con los comportamientos de hn e y(n(x) aunque lo último no va a resultar siempre posible por el desconocimiento de la verdadera y(x).
3.3. Propagación de los errores en los datos de entrada Hasta aquí se ha considerado que los datos tabulares {xk, yk}k=0,N estaban libres de error en los valores de la función yk. Va a tratarse ahora con el caso en el que la tabla venga dada con tales errores de entrada {xk, yk ± ek}k=0,N y en donde los argumentos xk están libres de error. El asunto es de nuevo complicado y hay que distinguir al menos dos circunstancias importantes. Primero, la propagación de errores casuales en una tabla, su identificación y corrección, y segundo la evaluación global del efecto de los ek, ahora inherentes a los datos, sobre un resultado obtenido a partir de la tabla.
149
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Alternancias de signo en una tabla de diferencias El primer caso lo originan generalmente los típicos errores de transcripción o copiado de datos, o los redondeos excesivos y poco cuidadosos. Así, una tabla que de haber estado construida con datos correctos mostraría un comportamiento razonable (por ejemplo, diferencias constantes a partir de un cierto orden n que indicarían una función polinómica), al contener alguno de estos errores fortuitos muestra un comportamiento errático, con alternancias de signo que llevan a una mala definición de la aproximación p(n)(x). El caso de un único dato erróneo ilustra muy bien esta situación como se muestra en la Tabla 3.1, en donde sólo se representan los errores con y4 como el dato erróneo afectado del error +e. Se observa como la propagación del error se produce siguiendo un esquema de coeficientes binómicos y con Tabla 3.1. Propagación de un error en una tabla de diferencias k
yk
0
0
Dyk
D2yk
D3yk
D4yk
0 1
0
0 0
2
0
0
+e
0 3
+e
0 +e
4
+e
–2e
+e
0
0
0
150
0
+e
0 0 0 0
8
–4e –e
0 7
+6e +3e
0 6
–4e –3e
–e 5
+e
0
APLICACIONES NUMÉRICAS BÁSICAS
alternancias de signo. Cuando en una tabla de diferencias se observan patrones de alternancias de signo en las columnas Dnyk puede sospecharse que sean debidas a un problema (o problemas) de error en la entrada de datos. Hay que advertir, no obstante, que: i) No todas las alternancias de signo que aparecen en una tabla deben están necesariamente ligadas a errores de entrada, ya que pueden ser genuinas de la función en sí (funciones oscilantes). ii) Los esquemas de alternancia pueden ser muy complicados y no tan claros como en el ejemplo mostrado, como es el caso de varios datos erróneos. A la hora de abordar uno de estos problemas hay mucho espacio para la creatividad en la búsqueda de soluciones. Debe pues identificarse correctamente la situación, ensayando diversas posibilidades y asegurándose de que el problema de la existencia de datos erróneos es real. Esta tarea brinda de nuevo muchas opciones que pueden explotarse, como por ejemplo: a) estudiar por separado el comportamiento de los datos pares y de los datos impares, buscando regularidades en ellos; y b) comparar el esquema de signos obtenido con los mapas de comportamiento hipotéticos si hubiese uno, dos, tres o más errores en la tabla. Una vez identificados los datos erróneos hay que dar marcha a tras en los cálculos y regenerar los datos correctos que den sentido a la tabla. En funciones polinómicas, con grado conocido y suficientes datos de entrada, el proceso descrito lleva prácticamente siempre a solucionar estos problemas. No obstante en otros tipos de función, que suele ser desconocida, no puede garantizarse con certeza el resultado de estas operaciones y el análisis requiere esfuerzos desde varios frentes diferentes (revisión cuidadosa, ensayos de significación, etc.).
Errores de entrada En cuanto al segundo caso, la evaluación global del efecto de errores inherentes a los datos de entrada, normalmente procedentes de mediciones experimentales, la cuestión es más directa y puede tratarse siguiendo la línea del desarrollo de Taylor ya mencionada. Para un ajuste polinómico conviene reescribir p(n)(x)en la forma de Lagrange (3.2.8), que es la que uti-
151
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
liza directamente los valores yk y que puede visualizarse como una suma «ponderada» de estos valores n n ( x − x% ) i j y = d y ; x%0 ≤ x ≤ x% n ( xi ) = ( x% m − x% j ) m m= 0 m m m =0 j ≠ m n
( n)
p
∑∏
∑
(3.3.1)
Los coeficientes dm están libres de error y a efectos de evaluar el error cometido en la estimación la diferencia entre el valor real P y p(n)(x) se estima, en general, mediante el primer término del desarrollo de Taylor (el único en este caso) tomando en valor absoluto cada una de las contribuciones, y se encuentra n
P − p( n) ( xi ; y0 , y1 ,..., yn ) ≤
∑
m=0
n
∂ (d y ) · εm = dm ε m ∂ym m m m= 0
∑
(3.3.2)
La cota de error así obtenida es ciertamente conservadora, pero permite proceder con seguridad, aplicando de nuevo la conocida regla básica de que «el error de la suma algebraica está dado por la suma de los valores absolutos de los errores de cada sumando». Todavía puede darse una cota superior al error previo si se conoce que todos los em son tales que están acotados superiormente ÁemÁ ≤ e y se determina un valor D que acote la suma de todos los «pesos» dm, S dm ≤ D, obteniendo P − p( n) ( xi ; y0 , y1 ,..., yn ) ≤ ε D
(3.3.3)
En determinados cálculos concretos los errores em podrían cancelarse parcialmente unos con otros, en cuyo caso las cotas de error anteriores serían excesivamente conservadoras, o por el contrario, los errores em podrían reforzarse mutuamente unos con otros y las cotas de error obtenidas serían más próximas a lo que sucede en realidad. En cualquier caso, en estos asuntos siempre conviene ir sobre seguro y, si no se sabe con certeza lo que está pasando, la postura conservadora es siempre preferible.
3.4. Diferenciación Numérica El cálculo del valor numérico de las derivadas de una función y(x) con expresión analítica conocida no plantea, en principio, grandes problemas. La
152
APLICACIONES NUMÉRICAS BÁSICAS
particularización del valor xi en el que se desea calcular tal valor dentro de la derivada buscada, y¢(xi), yn(xi), etc., dará este resultado. En algún caso pudieran aparecer dificultades en las cercanías de puntos singulares, pero estos puntos de divergencia se pueden conocer a la vista de las ecuaciones de las derivadas y siempre se pueden tomar medidas para tratar esta información (las singularidades puede ser del tipo evitable, los errores de redondeo pueden minimizarse, etc.). Sin embargo, el cálculo de las derivadas numéricas de una función dada por una tabla {xk, yk}k=0,N es un asunto que presenta bastantes incertidumbres. Quizá sea este uno de los problemas más críticos del cálculo numérico y no es difícil entender las causas. La cuestión está en la necesidad de aproximar la función tabular mediante una expresión analítica prefijada (un polinomio, una expresión trigonométrica, etc,) y, aunque el error de este ajuste puede ser hecho muy pequeño, no sucede lo mismo en general con el error entre las derivadas correspondientes, que son las pendientes de las funciones que se derivan. Así, por ejemplo, se puede aproximar y(x) = exp(x) mediante p(x) = 1 + x dentro de un cierto intervalo muy pequeño –a < x < a en torno a x = 0, pero esa proximidad y(x) ª p(x) se destruye al considerar las derivadas pues y¢(x) = y¢¢(x) = y¢¢¢(x) = ... = exp(x), en tanto que p¢(x) = 1, p¢¢(x) = p¢¢¢(x) = ... = 0. Podría pensarse que se mejoraría la situación aumentando el grado de la aproximación polinómica, pero hay que recordar los problemas de oscilación en los extremos del intervalo con las aproximaciones polinómicas de grado finito creciente, de modo que esta acción no tiene que mejorar necesariamente la calidad del resultado (nótese que exp(x) viene dado por una serie infinita). Por lo tanto, en una derivación numérica las tres fuentes de error habituales, entrada, algoritmo y redondeo, pueden visualizarse a través de la incertidumbre que generan en el comportamiento de la pendiente. En la discusión siguiente van a considerarse tablas igualmente espaciadas lo que resulta muy conveniente en diferenciación por la simetría en el conocimiento de la función alrededor de cada argumento . Se asumirá que las y(n existen.
Fórmulas de Newton La aproximación directa al cálculo numérico de una derivada la da cualquiera de los polinomios de colocación. Por ejemplo, con el polinomio de avance de Newton expresado en términos de la variable k = (x – x0)/h visua-
153
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
lizada como continua, para las dos primeras derivadas resultan las expresiones dp( k ) 1 3k2 − 6 k + 2 3 ∆ y0 + ... = ∆y0 + k − ∆ 2 y0 + dk 2 6
(3.4.1)
d 2 p( k ) 6 k2 − 18 k + 11 4 2 3 = + − ∆ y k 1 ∆ y + ∆ y0 + ... ( 0 0 12 dk2
(3.4.2)
p′ ( k ) =
p′′( k ) =
)
o en términos de la variable original x p ′( x ) =
p′′( x) =
dp dp dk 1 = = p ′( k ) dx dk dx h
d2 p dx2
=
d dp 1 = p ′′( k) dx dx h2
(3.4.3)
(3.4.4))
Estas son las expresiones de derivación apropiadas para argumentos cercanos al origen x0 de la tabla. Las generalizaciones a órdenes de diferenciación superiores y para argumentos cercanos al extremo final de la tabla xN (polinomio de retroceso) son sencillas de obtener. Un detalle importante a observar aquí es que cualquier error de entrada en los datos yk ± ek se va a ver fuertemente amplificado por el espaciado h de la tabla. Es lógico pensar que las evaluaciones de las derivadas numéricas serán tanto mejores cuanto menor sea este espaciado h, pues las derivadas son límites cuando h Æ 0. Por una parte, esto obliga a disponer de tablas estrechamente espaciadas, 0 < h < 1, pero por otra las divisiones por factores hm < 1 darán números elevados con el consiguiente aumento en el error de la operación, que va a ser tanto mayor cuanto mayor sea m. Además, con respecto a los errores de redondeo cabe decir lo siguiente. En el cálculo manual están fuertemente relacionados con los errores de entrada y se debe estar precavido contra sus efectos negativos en el resultado. En el cálculo automático con computador, y dependiendo del problema, conviene utilizar tantos dígitos como sea posible en los cálculos intermedios para minimizar tales efectos no deseados.
154
APLICACIONES NUMÉRICAS BÁSICAS
EJERCICIO 3.4.1 a) Estudiar el error de algoritmo en la primera derivada calculada con un polinomio de avance de Newton de primer orden; b) observar y discutir el papel del espaciado en este cálculo; c) comparar con el resultado que se obtendría con un polinomio de retroceso; y d) tomando como origen k = 0 en un punto interior de la tabla de datos, comparar los resultados de la derivación al aplicarla en k = 0 utilizando los puntos: k = 1(y1 avance) y k = –1(y–1 retroceso). a) En este caso el error viene dado por y '( x) − ( dp(1) ( x)/ dx) =
2 k − 1 (2 k2 − k 2 dy(2 (ξ ) hy (ξ ) + h 2 2 dx
que suponiendo continuidad en la segunda derivada y tomando k = 0 resulta
(
y′( x) − dp(1) ( x) / dx
)
k= 0
=
h (2 y (ξ0 ) 2
(3.4.5)
b) Es interesante observar aquí que los errores de algoritmo pueden reducirse disminuyendo h, lo que obliga a construir una tabla más estrechamente espaciada. Este comportamiento es general para órdenes de derivación mayores y resulta contrario al de los errores de entrada. Así una elección adecuada de h puede minimizar los errores de este tipo de cálculos c) El mismo resultado general se obtendría con un polinomio de retroceso en el intervalo –1 ≤ k ≤ 0 como cabe esperar de la simetría del problema. Las diferencias están en el factor desconocido que depende de x0. d) Para el mismo punto k = 0 las derivadas de avance y de retroceso van a ser en general muy diferentes, pues una es la pendiente de la recta que pasa por los puntos en k = 0 y en k = 1, y otra la pendiente de la recta que pasa por los puntos en k = –1 y k = 0.
Fórmulas de Stirling A la vista de lo discutido en el Ejemplo anterior, apartado d), una opción simétrica para calcular derivadas en puntos interiores de la tabla debe ser más próxima a lo que ocurre en realidad en el comportamiento de la función. Una buena estrategia es utilizar en estos casos el polinomio de Stirling. Para las dos primeras derivadas, reteniendo los dos primeros términos (poli-
155
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
nomio de segundo grado) y particularizando en el punto de interés para el cálculo que se sitúa en k = 0, se encuentra dp(2 ) y1 − y−1 dy Stirl. ; ≈ = dx 2h dx x x0
(3.4.6a )
0
d d y 2 ≈ dx x dx 0 2
2
(2) pStirl. 2
x
=
y1 − 2 y0 + y−1 h2
(Stirling 2º grado)
(3.4.6b)
0
El error de truncamiento para la primera derivada es
(
)
k k2 − 1 3 k2 − 1 2 ( 3 dy( 3 (ξ*) y′( x) − dp ( x) / dx = h y (ξ*) + h3 6 6 dx
(
(2 )
)
(3.4.7)
que para k = 0 con continuidad en la tercera derivada se reduce a
(
y′( x0 ) − dp( 2 ) ( x)/dx
)
x0
=
h2 ( 3 * y (ξ0 ) 6
(3.4.8)
Comparando con la expresión (3.4.5) del ajuste lineal anterior se observa que el factor h2 va a contribuir en la disminución del error, pues h2 < h < 1. Para valores h suficientemente pequeños se espera que las derivadas y(2 (x0) e y(3 (x*0) no dominen el comportamiento del error. También, si las funciones son razonablemente suaves, la pendiente de la secante simétrica (Stirling) que pasa por los puntos k = –1 y k = +1 se espera que sea más próxima a la pendiente de la tangente en el punto k = 0 que las de las secantes no simétricas (Newton) que pasan por k = –1 y k = 0 y por k = 0 y k = +1. Esto hace que las fórmulas de Stirling anteriores sean muy útiles en los cálculos de derivadas numéricas (Fig. 3T.3). Hay todavía más oportunidades para la mejora de la derivación numérica. La reducción en el espaciado h puede ser de ayuda en este empeño, pero pueden encontrarse complicaciones derivadas de los redondeos, de la magnificación de los errores de entrada, y de la proximidad de los puntos que van a intervenir en el cálculo. Por ejemplo, la primera derivada (3.4.6a) se resume en un cociente de dos números que pueden ser, para h pequeños, muy pequeños, de manera que los redondeos pueden entonces jugar un papel muy negativo. Sin embargo, se puede sacar un gran partido jugando con el espaciado con el que se construye la tabla y utilizando la conocida como extra-
156
APLICACIONES NUMÉRICAS BÁSICAS
Figura 3T.3. Comparación de las aproximaciones a la derivación numérica (primera derivada) en el punto k% = kS = 0 utilizando solamente dos puntos para el cálculo: la fórmula simétrica (3.4.6a) de Stirling basada en un polinomio de segundo grado, y la fórmula asimétrica (3.4.1) de Newton basada en un polinomio lineal. Como puede verse la secante simétrica de Stirling da una mejor aproximación a la pendiente de la tangente en kS = 0. También es interesante darse cuenta de que al evaluar la derivada numérica en kS = –2 hay que proceder con mucho más cuidado, ya que hay en la función un cambio de curvatura cercano, y se deberían utilizar puntos simétricos con respecto a aquel mucho más próximos que los mostrados. Esto podría implicar la determinación adicional de tales puntos (vía numéricamente o vía experimentalmente) si no se dispusiera de ellos en la tabulación.
polación de Richardson. A continuación se discutirá el caso de la primera derivada utilizando el esquema más sencillo que considera únicamente dos espaciados, h1 y h2 menores que la unidad y tales que h1 = ah2 (a < 1).
Extrapolación de Richardson En general, el desarrollo de Taylor en torno al punto central x0 en el que se quiere calcular la derivada se comporta a derecha e izquierda de ese punto como y( x0 + h) = y( x0 ) + hy ′( x0 ) +
h2 h3 y′′( x0 ) + y ′′′( x0 ) + ... 2! 3!
(3.4.9 )
y( x0 − h) = y( x0 ) − hy ′( x0 ) +
h2 h3 y′′( x0 ) − y ′′′( x0 ) + ... 2! 3!
(3.4.10 )
157
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
de donde es inmediato establecer y( x0 + h) − y( x0 − h) y′( x0 ) = + 2h
`
∑ i=1
y(2 i+1 ( x0 ) 2 i h (2i + 1)!
(3.4.11)
El primer término de (3.4.11) es justamente la aproximación de Stirling a la primera derivada, en tanto que el segundo término puede considerarse como el error cometido al aceptar como derivada el primer término. De hecho para h Æ 0 es un error asintótico y su primera contribución es proporcional a h2. Por comodidad de notación la ecuación anterior se escribirá `
D = Di +
∑a h
γj j i
; γ j = 2j
(3.4.12)
j =1
en donde D es el valor real de la derivada en x0, Di es la aproximación a D con el espaciado hi y los números aj no dependen de hi. Para el caso de dos espaciados se tiene el sistema de dos ecuaciones `
D = D1 +
a1 h12
∑a h
+
γj j 1
(3.4.13)
j =2 `
D = D2 + a1 h22 +
∑a h
γj j 2
(3.4.14)
j =2
Al haberse obtenido la estimación D1 con un espaciado menor, se espera que sea mejor que la estimación D2. Eliminando el coeficiente a1 se encuentra D=
D1 − α 2 D2 1− α 2
`
+
∑ j =2
γ
α j −α2 γ aj h2 j ; α < 1, γ j = 2 j 2 1− α
(3.4.15)
Esta expresión (3.4.15) muestra ya en su primer término una mejor aproximación aún a la verdadera derivada D = y¢(x0) combinando información obtenida con los dos espaciados h1 y h2, ya que el término de error comienza con h2g 2 = h42. La primera derivada se aproximará así mediante la fórmula y ′( x0 ) = D ≈
158
D1 − α 2 D2 1− α 2
; α < 1, h1 = α h2
(3.4.16)
APLICACIONES NUMÉRICAS BÁSICAS
en donde cada aproximación a la derivada viene dada por D1 =
y( x0 + h1 ) − y( x0 − h1 ) y( x0 + h2 ) − y( x0 − h2 ) ; D2 = 2 h2 2 h1
(3.4.17)
El proceso anterior puede iterarse para eliminar sucesivamente los coeficientes aj, para lo que es necesario disponer de información con espaciados h aún menores h < h1. Igualmente puede procederse con las derivadas de orden superior mejorando la precisión en sus cálculos. Hay que notar además que convenientemente adaptada esta técnica de extrapolación puede aplicarse a otro tipo de evaluaciones (integraciones y funcionales en general). Finalmente, si los datos de entrada vienen afectados de fuertes errores suele ser ventajoso encontrar un ajuste suavizador de mínimos cuadrados (con polinomios convencionales o trigonométricos) y obtener las derivadas numéricas a partir de tal ajuste.
3.5. Integración numérica El siguiente tema a tratar es el de la evaluación numérica de integrales definidas. Existe una gran variedad de técnicas en este contexto que son de aplicación tanto a funciones definidas por una tabla {xk, yk}k=0,N como a funciones definidas por expresiones analíticas en un intervalo a ≤ x ≤ b pero que pudieran resultar bien imposibles de integrar (por no poseer primitiva), bien de integración difícil y/o costosa. Como las operaciones anteriormente tratadas, en la integración numérica se presentan los tres tipos habituales de errores: entrada, algoritmo y redondeo. Sin embargo, en general, sus efectos son menos severos que en derivación. Por lo que respecta a los errores de redondeo, se mantienen las mismas observaciones generales ya dadas en otros lugares de este texto. A continuación se presentan las técnicas básicas y se consideran algunos problemas que requieren tratamientos especiales. Siempre se considerá convergencia en la integral a calcular.
Regla del trapecio Dada una función y = y(x) definida en un intervalo x0 = a ≤ x ≤ b = xN mediante una tabla de valores igualmente espaciados (si la función es analí-
159
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
tica, se elige un espaciado h y se discretiza calculando N + 1 puntos), el cálculo de su integral definida entre a y b puede aproximarse mediante una función lineal entre cada dos puntos consecutivos definiendo una línea poligonal que puede integrarse con sencillez. Estos segmentos de recta, construidos entre los puntos k = 0 Æ k = 1, k = 1 Æ k = 2, …, k = N –1 Æ k = N, son los que dan el nombre a este algoritmo: la regla del trapecio. La evaluación de la integral (un área) queda así reducida a sumar las áreas parciales de N trapecios consecutivos con la misma altura (horizontal) h = xk+1 – xk = cte > 0. El área del primer trapecio viene dada por (Fig. 3T.4)
∫
x1
p1(1) ( x) dx =
x0
∫
x1
y0 + x0
x − x0 h ∆y0 dx = ( y0 + y1 ) h 2
(3.5.1)
El área del segundo trapecio se obtiene de forma análoga
∫
x2 x1
p2(1) ( x) dx =
∫
x2 x1
x − x1 h y1 + h ∆y1 dx = 2 ( y1 + y2 )
(3.5.2)
y así sucesivamente. Sumando todas las contribuciones se tiene la aproximación
∫ ∫
b a
b= xN xN −1
y( x) dx ≈
∫
x1 a = x0
pN(1) ( x) dx =
p1(1) ( x) dx +
∫
x2 x1
p2(1) ( x) dx + ... +
h ( y + 2 y1 + 2 y2 + ... + 2 yN −1 + yN ) 2 0
(3.5.3)
Figura 3T.4. Esquema gráfico de la aplicación de la regla del trapecio para integrar la función f(x) con un espaciado h = 0,5 entre 0,5 ≤ x ≤ 3,5.
160
APLICACIONES NUMÉRICAS BÁSICAS
El error de truncamiento de este algoritmo está dado por la suma de los errores de las N contribuciones a la integral. Para la primera contribución se tiene
∫ ( x1
x0
)
y( x) − p1(1) ( x) dx =
∫
1
0
h3 (2 h2 y (ξ ); k( k − 1) y(2 (ξ1 ) hdk = − 2 12
(3.5.4 )
x0 < ξ < x1 en donde se ha supuesto un comportamiento continuo de la derivada segunda y(2 en el intervalo y se ha aplicado un teorema de valor medio, dado que k(k – 1) no cambia de signo en dicho intervalo. Extendiendo este resultado a todo el intervalo (cerrado) de integración, con y(2 continua y acotada, y por tanto verificando Áy(2(x)Á ≤ M, entonces puede escribirse para el error total la expresión
∫
b= xN a = x0
)
( y( x) − p
trap. ( x) dx = −
h3 ( b − a) 2 ( 2 Ny(2 (ξ ) = − h y (ξ ); 12 12
(3.5.5)
x0 < ξ < xN que por simplicidad de notación no se escribe como valor absoluto. Hay que notar que este algoritmo puede utilizarse perfectamente eligiendo diferentes espaciados para representar a la función en diferentes regiones del intervalo de integración (la tabla pudiera no estar igualmente espaciada), pero esto obliga a modificar adecuadamente la fórmula de integración (3.5.3) superponiendo y sumando las contribuciones con diferentes valores de h. En cuanto a los errores de entrada yk ± ek al contrario que en derivación, este algoritmo no los amplifica si se utilizan diferentes espaciados y el efecto que alcanzan sobre el resultado permanece siempre acotado e igual, independientemente del valor h, teniéndose
)
ε entrada ≤ ( x0 − xN E = ( b − a) E;
ε k ≤ E, k = 0,1, 2,..., N
(3.5.6 )
como puede comprobarse con facilidad. Otra particularidad especial de este algoritmo es que al hacer tender h Æ 0 se obtiene justamente la definición de integral definida (Riemann) y el error de truncamiento Æ 0 en tanto y(2 se mantenga acotada como se indicó antes. En la integración de funciones analíticas complicadas, que no presentan errores de entrada, esta característica hace de la regla del trapecio un
161
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
método muy apreciado y robusto en computación, pues: es sencillo de programar, el esfuerzo de cálculo lo realiza el computador, y permite obtener estimaciones muy precisas (se observa como se repiten y mantienen cifras significativas en el resultado) con la disminución de h y que tienden al valor exacto. Por otra parte, existen modificaciones de esta sencilla regla que presentan menores errores de truncamiento, pero que pueden involucrar: valores no contenidos en el intervalo de integración (trapecio-Bessel), el conocimiento de las derivadas de orden impar en los extremos del intervalo de integración (Euler-McLaurin), etc.
Regla de Simpson El siguiente algoritmo de integración es la popular regla de Simpson y está basada en ajustes polinómicos con parábolas cada tres puntos consecutivos de la tabla de datos igualmente espaciados. Así se tienen las ternas k = 0 Æ k = 1 Æ k = 2, k = 2 Æ k = 3 Æ k = 4, …, k = N – 2 Æ k = N – 1 Æ k = N. Esto impone una restricción al número de puntos a utilizar en las aplicaciones de esta regla: N + 1 debe necesariamente ser impar. La discusión de esta regla es similar a la del trapecio, pero considerando aquí polinomios parciales de segundo grado. Cualquier resultado parcial es análogo al de la primera terna de puntos que resulta ser
∫
x2
y( x) dx ≈
x0
∫
x2 x0
p1( 2 ) ( x) dx =
h ( y + 4 y1 + y2 ) 3 0
(3..5.7)
con lo que el resultado global para una tabla igualmente espaciada es
∫
b= xN a = x0
h ( y + 4 y1 + 2 y2 + 4 y3 + 2 y4 + ... + 2 yN − 2 + 4 yN −1 + yN ) 3 0
y( x) dx ≈
(3.5.8)
El error de truncamiento es en este caso b= xN
∫ ( y( x) − p a= x0
Simpson ( x)
− a) h y ) dx = − (b180
4 (4
(ξ ); a = x0 < ξ < b = xN
(3.5.9)
Los errores de entrada tampoco se ven amplificados con este algoritmo por la elección del espaciado h y la expresión de la acotación de este error es idéntica a la del trapecio (3.5.6) en condiciones análogas.
162
APLICACIONES NUMÉRICAS BÁSICAS
Los dos algoritmos, trapecios y Simpson, son convergentes, es decir llevan al resultado exacto al hacer h Æ 0 en tanto las derivadas correspondientes y(2 (x) e y(4 (x) se mantengan acotadas. Como nota de atención, h muy pequeños implican un elevado número de operaciones y habría que vigilar el problema de los redondeos. Ambos algoritmos pertenecen a los denominados esquemas de Newton-Cotes en versión cerrada. Existen sus paralelos en versión abierta, en la que los extremos del intervalo de integración no forman parte del cálculo. No obstante, estas últimas, salvo en algunas circunstancias especiales en integración (singularidades en los extremos, ecuaciones diferenciales ordinarias), no presentan grandes ventajas frente a los esquemas cerrados y no van a tratarse aquí. La integración con polinomios de grado superior a los presentados arriba no siempre es ventajosa. En particular, utilizando ajustes cúbicos especiales a «trozos» (splines cúbicos) los resultados son generalmente bastante buenos (aparece una regla del trapecio con correcciones). Con grados de polinomio crecientes los ya mencionados problemas en los bordes del intervalo de integración (problema de Runge) pueden echar a perder la estimación de la integral y su uso no está recomendado.
Técnicas Gaussianas Aunque las reglas anteriores pueden aplicarse siempre, dependiendo de las circunstancias puede resultar conveniente seleccionar puntos de la función a integrar adaptados a las particularidades del problema. El objetivo es conseguir una elevada exactitud en el resultado utilizando un número reducido de puntos y una función de peso v (x) dentro de la integral. Esta es la idea directora de la integración Gaussiana, en la que tanto los coeficientes ci de la suma discretizada como los argumentos xi se fijan utilizando información de los polinomios ortogonales adecuados al intervalo de integración considerado. Por su importancia en las aplicaciones van a tratarse aquí los tres tipos de integración Gaussiana siguientes: a) Gauss-Legendre, v (x) = 1, –1 ≤ x ≤ +1; b) Gauss-Hermite, v (x) = exp(–x2), –⬁ < x < ⬁; c) Gauss-Laguerre, v (x) = exp(–x), 0 ≤ x < ⬁. En los tres casos la integración numérica se plantea como una suma discreta sobre N puntos de la forma:
∫
b a
N
y( x) ϖ ( x) dx =
∑ i =1
N
ϖ i y( xi ) =
∑ c y( x ) i
i
(3.5..10 )
i =1
163
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
expresión en la que deben determinarse tanto los coeficientes ci (o pesos v i) como las abcisas xi para lo que puede seguirse el denominado método de los coeficientes indeterminados y que consiste en exigir que la aproximación (3.5.10) sea exacta para los polinomios 1, x, x2, ..., obteniéndose un sistema de ecuaciones del que se pueden calcular aquéllas incógnitas. En el caso Gauss-Legendre se ilustrará explícitamente esta manera de proceder. También existe la posibilidad de realizar integración numérica Gaussiana con los polinomios de Tschebyscheff, algo que se deja para un problema. Como antes, en estas integraciones la convergencia a la precisión deseada se consigue con el aumento del número de puntos N en (3.5.10) y observando el número de cifras estables que permanecen en el resultado. Como advertencia necesaria en este contexto, hay que cerciorarse de que la aplicación del algoritmo se comporta adecuadamente, lo que va a depender de la función a integrar. Si la función a integrar y(x) no tiene cambios de signo en el intervalo de integración, entonces la aplicación directa de estos algoritmos no presenta problemas. Sin embargo, si estos cambios de signo existen, el tratamiento de la integral es más complejo, pues el efecto de cancelación de áreas pudiera no ser tenido en cuenta completamente con una o varias selecciones de argumentos fijos, y esto podría afectar negativamente a la precisión del resultado. Debe pues prestarse atención a esta posible circunstancia para diseñar una estrategia de evaluación correcta, estudiando el problema por intervalos y/o aumentando el número de puntos de integración, o a veces cambiar de idea y utilizar una regla sencilla como la del trapecio con espaciados más y más finos (aquí sería necesaria computación) u otras técnicas (ver más adelante el caso de funciones oscilantes). i) Gauss-Legendre En este caso los polinomios involucrados son los de Legendre no normalizados {Pm(x)}m=0,∞ definidos con ϖ(x) = 1, –1 ≤ x ≤ +1, lo que significa que el intervalo de integración original y su variable deben transformarse al intervalo natural de estos polinomios. En lo que sigue se supone que esta transformación ha sido realizada y hay que evaluar
IN =
∫
+1
−1
N
y( x) ϖ ( x) dx ≈
∑ c y( x ) P i
P i
(Gauss-Legeendre ;P )
(3.5.11)
i =1
en donde deben determinarse las incógnitas ciP y xiP, i = 1, 2, ..., N. El criterio a seguir se denomina de coeficientes indeterminados y requiere exactitud
164
APLICACIONES NUMÉRICAS BÁSICAS
para las funciones y(x) = 1, x, x2, ... Así para N puntos hacen falta 2N ecuaciones y, por tanto, hay que llegar hasta y(x) = x2N–1 en las condiciones anteriores, lo que significa que la fórmula (3.5.11) va a ser exacta para funciones polinómicas de grado 2N – 1. Para N = 2, por ejemplo, hacen falta cuatro ecuaciones y hay que llegar hasta y(x) = x3, obteniéndose el sistema y( x) = 1 → 2 = c1P + c2P y( x) = x → 0 = c1P x1P + c2P x2P 2 = c1P ( x1P )2 + c2P ( x2P )2 3 y( x) = x3 → 0 = c1P ( x1P )3 + c2P ( x2P )3
y( x) = x2 →
que resuelto da los valores c1P = c2P = 1, x1P = − x2P = +
1 . 3
EJERCICIO 3.5.1 Determinar los coeficientes y argumentos de una integración Gauss-Legendre con tres puntos N = 3. En este caso hacen falta seis ecuaciones y debe llegarse hasta y(x) = x5 obteniéndose el sistema y( x) = 1 → 2 = c1P + c2P + c3P y( x) = x → 0 = c1P x1P + c2P x2P + c3P x3P 2 = c1P ( x1P )2 + c2P ( x2P )2 + c3P ( x3P )2 3 y( x) = x3 → 0 = c1P ( x1P )3 + c2P ( x2P )3 + c3P ( x3P )3 y( x) = x2 →
2 = c1P ( x1P )4 + c2P ( x2P )4 + c3P ( x3P )4 5 5 y( x) = x → 0 = c1P ( x1P )5 + c2P ( x2P )5 + c3P ( x3P )5 y( x) = x4 →
que resuelto da los valores c1P = c3P =
5 P 8 P 3 P , c2 = , x1 = − x3P = + , x = 0. 9 9 5 2
Este proceso para obtener coeficientes y argumentos puede continuarse para valores N crecientes, pero resulta tedioso y complicado. En este caso exis-
165
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
te un camino más sofisticado y compacto que utiliza directamente los polinomios de Legendre y determina los coeficientes y los argumentos para la integración. Por razones de espacio no va a darse esta formulación más avanzada aquí. El resultado fundamental de todas estas operaciones es que los puntos de integración xiP son justamente las raíces de los polinomios {Pm(x)}m=0,⬁. Así, en los ejemplos desarrollados arriba los valores x1P = − x2P = + 1 / 3 son las raíces (o ceros) de P2(x) y los valores x1P = − x3P = + 3 / 5 , x 2P = 0, son las raíces de P3(x). En general para N puntos de integración se tiene que los coeficientes y los argumentos son PN ( xiP ) = 0; ciP =
(
2 1 − ( xiP )2
)
N PN −1 ( xiP ) 2
2
; i = 1, 2, 3,..., N
(3.5.12)
Existen tabulaciones de estos datos {xiP, ciP}i=1,N para valores del parámetro N, por lo que el cálculo de integrales siguiendo este esquema sólo requiere la evaluación de la función a integrar en los puntos xiP y calcular la suma (3.5.11). Una selección de estos datos útiles para integración Gauss-Legendre, calculados a través de las raíces de los polinomios correspondientes, se muestra en los Complementos de este capítulo. A observar la simetría en los datos con respecto al origen. La comparación con resultados sucesivos obtenidos aumentando N ya da una idea de la precisión que se está alcanzando en la evaluación, pues se observa como el número de cifras obtenidas que se conservan en el resultado va aumentando con N. El error de truncamiento en este caso viene dado por la expresión
εtrunc. (P ) =
y( 2 N (ξ ) (2 N )!
∫
+1 −1
(π
)
2
N
( x) dx =
22 N +1 ( N !)4 3
(2 N + 1) (2N )!
y( 2 N (ξ ); − 1 < ξ < +1 (3.5.13)
en donde x es un valor indeterminado dentro del intervalo de integración y N
π N ( x) = ∏ ( x − xi ). Una estimación razonable del error en este caso para i =1
funciones suaves, que utiliza el valor calculado para la integral IN (3.5.11), viene dada por la fórmula de Lanczos 1 ε Lanczos ( P ) = y( +1) + y(−1) − IN − 2N + 1
166
N
∑ i=1
ciP xiP y ′( xiP )
(3.5.14 )
APLICACIONES NUMÉRICAS BÁSICAS
ii) Gauss-Hermite y Gauss-Laguerre La integración de funciones sobre intervalos infinitos puede llevarse a cabo utilizando reglas sencillas como la del trapecio o Simpson, pero esto implica determinar los límites prácticos para la integración, bien acotando, o bien añadiendo más y más puntos a la regla de integración hasta obtener la precisión deseada. Normalmente recurrir al cálculo con computador es la manera de realizar esto. Las dos técnicas que se presentan a continuación tratan con intervalos de integración infinitos y, utilizando un pequeño número de puntos, suelen evitar tales servidumbres. Ambas utilizan familias de polinomios ortogonales ya conocidas: 1) Gauss-Hermite, v (x) = exp(–x2), –⬁ < x < ⬁; y 2) Gauss-Laguerre, v (x) = exp(–x), 0 ≤ x < ⬁. Las funciones de peso son aquí necesarias para forzar la convergencia de las integrales. El método constructivo visto en la integración de Legendre para generar las aproximaciones con N puntos a las integrales a evaluar sigue siendo válido, si bien resulta aquí mucho más complicado de llevar a cabo. Al igual que antes, es mejor obtener estos algoritmos mediante un razonamiento que involucra a las familias ortogonales mencionadas, pero por brevedad se van a dar únicamente los resultados principales. Las aproximaciones al cálculo de integrales son similares a (3.5.11) IN =
∫
IN =
N
` −`
∫
exp(− x2 ) y( x) dx ≈
`
∑c
H y( xiH ) i
(Gauss-H Hermite ;H )
(3.5.15)
i =1
N
exp(− x) y( x) dx ≈
0
∑ c y( x ) L i
L i
(Gauss-Lag guerre ; L)
(3.5.16)
i =1
Los errores de truncamiento respectivos se obtienen de la fórmula general
ε trunc. =
y(2 N (ξ ) (2 N )!
∫
` B
(π
N
)
2
( x) ϖ ( x) dx; B = − ` ( H ), B = 0( L); B < ξ < `
(3.5.17)
que se reduce a las expresiones
ε trunc. ( H ) =
N! π 2 N (2 N )!
y(2 N (ξ ); ε trunc. ( L) =
( N !)2 ( 2 N y (ξ ) (2 N )!
(3.5.18)
en donde y(2N denota la derivada 2N – sima. Para las integraciones Gaussianas correspondientes los valores de los argumentos xiH y xiL son de nuevo las
167
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
raíces de los polinomios empleados, y los coeficientes de integración se calculan en las formas ciH =
2 N +1 N ! π
( dH /dx )
2
N
( N !)2
; ciL =
x=( xiH )
xiL
( dL /dx ) N
(3.5.19)
2
x=( xiL )
Todos estos valores están tabulados para poder efectuar las integraciones numéricas con un número N creciente de puntos. Estas dos aplicaciones (3.5.15) y (3.5.16) pueden ser artificialmente extendidas a la integración numérica de funciones y(x) arbitrarias (con las observaciones de comportamiento adecuado mencionadas arriba), sin más que utilizar las variaciones siguientes IN =
∫
` −`
y( x) dx =
∫
N
`
2
−`
2
exp(− x ) y( x) exp( x ) dx ≈
∑c
H y( xiH ) exp i
(( x ) ) H 2 i
i=1
(Gauss-Hermite ⬅ H) IN =
∫
`
0
y( x) dx =
∫
`
N
exp(− x) y( x) exp( x) dx ≈
0
∑ c y( x ) exp( x ) L i
L i
L i
i =1
(Gauss-Laguerre ⬅ L) Una selección de datos útiles para las integraciones Gauss-Hermite y Gauss-Laguerre, calculados a través de las raíces de los polinomios correspondientes, se muestra también en los Complementos de este capítulo. A observar la simetría en los datos Gauss-Hermite con respecto al origen.
Tratamiento de integrales singulares Un caso importante en las aplicaciones de integración numérica es el de la integración de funciones analíticas conocidas que presentan singularidades. Estas son puntos xS del intervalo de integración en los que la función, o sus derivadas, divergen. Como ya se ha visto en todas las fórmulas anteriores de evaluación del error, éste muestra una dependencia de las derivadas de la función a integrar. Esto hace que en ciertos casos las singularidades de tales derivadas ocasionen problemas que una aproximación polinómica no
168
APLICACIONES NUMÉRICAS BÁSICAS
puede controlar. De ahí su inclusión anterior como causa de problemas. Por otra parte, el hecho de que una función contenga singularidades no significa que su integración deba necesariamente ser divergente. Por ejemplo, la x entre 0 y 1 presenta una singularidad en integral (impropia) de f(x) = +1/冪苴 xS = 0, f(xS) Æ ⬁, pero su valor puede obtenerse analíticamente, mediante el conocido paso al límite, resultando ser 2. En lo que sigue se tratará con integrales singulares convergentes y se discutirán algunos métodos generales para abordarlas desde la perspectiva numérica. Tipos de singularidades importantes en integración son las siguientes: i) x±1/2 en xS = 0, ii) (1 – x2)±1/2 en xS = ±1, y iii) [x/(1 – x)]1/2 en xS = 1. Alguna de ellas ya ha aparecido en el contexto de los polinomios de Tschebyscheff Tn(x), pero como se verá a continuación puede tratarse adecuadamente sin hacer referencia explícita a ella. Si hubiera varias singularidades en el integrando conviene irlas resolviendo separadamente aislándolas en intervalos y expresando la integral como la suma de las contribuciones resultantes. 1) Un primer método es el de ignorar la singularidad. Para singularidades del tipo i) x±1/2 en xS = 0 una estrategia en esta línea que lleva a resultados convergentes consiste en plantear algoritmos de trapecios o de Simpson con espaciados h cada vez más pequeños, incluyendo más y más puntos xi ≠ xS del intervalo sobre el que integrar. 2) Un segundo método es el cambio de variable en la integral. Si puede encontrarse un cambio aceptable, x = x(t), que haga desaparecer la singularidad inicial de la integral sobre f(x(t)), entonces el problema queda resuelto. Esto es lo que sucedía en el caso de los polinomios Tn(x) en los que la singularidad es del tipo ii) y se resuelve con x = cos q (0 ≤ q ≤ p). Una situación aparte, pero relacionada con este método general, es la de integrales sobre intervalos x infinitos, en las que cambios de variable adecuados (que transformen el intervalo en uno finito) pueden en ciertos casos aliviar el problema de tratar la singularidad. Conviene recordar que un cambio de variable aceptable en integración, x = x(t) con a ≤ x ≤ b, se consigue si x(t) es continua y estrictamente monótona (creciente o decreciente, con derivada continua) en el intervalo transformado t1 ≤ t ≤ t2. 3) Un tercer método consiste en utilizar desarrollos en serie (generalmente de Taylor) de todo o parte del integrando de modo que la singularidad desaparezca o pueda ser tratada convenientemente (la regla de L’Hôpital, simplificación, etc.), para después integrar término a término. Aquí hay que prestar atención a la convergencia de la serie integrada y sus cuestiones
169
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
conexas. Una condición suficiente para poder realizar esta operación es la de la convergencia uniforme de la serie final obtenida y que va a ser integrada así. Una medida de la convergencia numérica del resultado la van dando los resultados parciales que van incluyendo cada vez más términos de la serie. 4) Un cuarto método es el fraccionamiento de la integral original en dos partes, de modo que una de ellas contenga la singularidad pero pueda integrarse exactamente, en tanto que la otra parte esté libre de singularidades en la función y se pueda evaluar numéricamente. Esto pudiera ocasionar que la segunda parte todavía contuviera singularidades en la(s) derivada(s) de su integrando y, en ese caso, puede resultar ventajoso transformarla a su vez desplazando las singularidades a derivadas de orden superior. Cómo hacer esto depende de cada caso particular y, a veces, sumar y restar cantidades adecuadas constantes en el numerador de la función a integrar puede efectuar esta operación. 5) Otras variantes de ataque a este problema incluyen algún tipo de fórmula abierta de Newton-Cotes (regla del punto medio para singularidades en los extremos del intervalo), las series asintóticas, o la diferenciación con respecto a parámetros. Tratamiento de integrales oscilantes Este tipo de integrales definidas contiene en su integrando un factor oscilante del tipo sen nx o cos nx Requieren un tratamiento especial y están relacionadas con las operaciones de transformación de Fourier de gran trascendencia en la teoría y práctica de la difracción de radiación y del análisis de señales, pero que no se van a considerar aquí. La presentación siguiente va a limitarse a ilustrar los rudimentos de este asunto utilizando de nuevo la técnica de coeficientes indeterminados en un par de casos que se discuten como ejemplos desarrollados. EJERCICIO 3.5.2 Determinar los tres coeficientes F de la aproximación para evaluar la integral oscilante
∫
2π
0
170
y( x) sen nx dx ≈ F0 y(0) + F1 y(π ) + F2 y(2π )
(3.5.20 )
APLICACIONES NUMÉRICAS BÁSICAS
Para ello se exigirá que la aproximación sea exacta para y(x) = 1, x, x2, disponiendo así de tres ecuaciones para poder determinar los coeficientes F0, F1, y F2. Esto no es más que una nueva aplicación del método general de los coeficientes indeterminados. El sistema de ecuaciones en este caso resulta ser 2π
∫ y( x) = x → I = ∫ y( x) = 1 → I0 =
0
sen nx dx = 0 = F0 + F1 + F2
2π = 0 · F0 + π · F1 + 2π · F2 n 0 2π 4π 2 x2 sen nx dx = − = 0 · F0 + π 2 · F1 + 4π 2 · F2 y( x) = x2 → I2 = n 0 2π
1
x sen nx dx = −
∫
y una vez resuelto da los resultados F0 = 1/n; F1 = 0; F2 = −1/n con lo que la fórmula de tres puntos (3.5.20) queda reducida a
∫
2π
y( x) sen nx dx ≈
0
1 [ y(0 ) − y(2π )] n
(3.5.21)
Nótese que la parte oscilante ha sido integrada y no interviene directamente en la expresión del algoritmo que sólo tiene en cuenta a dos valores de y(x). EJERCICIO 3.5.3 Proponer una expresión de tres puntos para evaluar la integral oscilante
∫
2π
y( x) cos nx dx ≈ F0 y(0 ) + F1 y(π ) + F2 y(2π )
0
(3.5.22)
Exigiendo que la aproximación sea exacta para y(x) = 1, x, x2, el sistema de ecuaciones para F0, F1 y F2 es
∫ y( x) = x → I = ∫ y( x) = 1 → I0 = 1
y( x) = x2 → I2 =
2π
0 2π
0
∫
cos nx dx = 0 = F0 + F1 + F2 x cos nx dx = 0 = 0 · F0 + π · F1 + 2π · F2
2π
0
x2 cos nx dx =
4π 2
n
= 0 · F0 + π 2 · F1 + 4π 2 · F2
171
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
y la fórmula de tres puntos queda reducida a
∫
2π
y( x) cos nx dx ≈
0
2
π n2
[ y(0 ) − 2 y(π ) + y(2π )]
(3.5.23)
Las fórmulas (3.5.21) y (3.5.23) son versiones simples de las denominadas fórmulas de Filon que se pueden generalizar a los casos teóricos muy importantes en las aplicaciones con intervalos de integración semi-infinitos
∫
`
0
y( x) sen nx dx;
∫
`
y( x) cos nx dx
0
Cuando al tender x Æ ⬁ se tiene el comportamiento y(x) Æ 0 muy rápidamente, entonces se puede sustituir el límite superior por un valor finito x Æ xC < ⬁. Las fórmulas generales del error en estos casos son bastante complicadas y no van a considerarse aquí. Como indicación de este error siempre está la que puede extraerse de la utilización de más y más puntos en la evaluación numérica. Este tipo de enfoque permite alcanzar resultados significativos incluyendo un número mucho más pequeño de puntos que los que serían necesarios utilizando reglas simples como las del trapecio o de Simpson.
172
APLICACIONES NUMÉRICAS BÁSICAS
COMPLEMENTOS Tablas para integración Gaussiana (hasta N = 8) Gauss-Legendre (P): v (x) =1, –1 ≤ x ≤ +1 (Datos redondeados a siete decimales) N
xPi
vi
xPi
vi
0,5773503
1,0000000
0,9491079
0,1294850
–0,5773503
1,0000000
0,7415312
0,2797054
0,7745967
0,5555556
0,4058452
0,3818301
0
0,8888889
0
0,4179592
–0,7745967
0,5555556
–0,4058452
0,3818301
0,8611363
0,3478548
–0,7415312
0,2797054
0,3399810
0,6521452
–0,9491079
0,1294850
–0,3399810
0,6521452
0,9602899
0,1012285
–0,8611363
0,3478548
0,7966665
0,2223810
0,9061798
0,2369269
0,5255324
0,3137066
0,5384693
0,4786287
0,1834346
0,3626838
N
2
3
7
4
8 5
0
0,5688889
–0,1834346
0,3626838
–0,5384693
0,4786287
–0,5255324
0,3137066
–0,9061798
0,2369269
–0,7966665
0,2223810
0,9324695
0,1713245
–0,9602899
0,1012285
0,6612094
0,3607616
0,2386192
0,4679139
–0,2386192
0,4679139
–0,6612094
0,3607616
–0,9324695
0,1713245
6
173
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Gauss-Hermite (H): v (x) =exp(–x2), –⬁ < x < ⬁ (Datos redondeados a siete decimales) N
xHi
vi
xHi
vi
0,7071068
0,8862269
2,6519614
0,0009718
–0,7071068
0,8862269
1,6735516
0,0545156
1,2247449
0,2954090
0,8162879
0,4256073
0
1,1816359
0
0,8102646
–1,2247449
0,2954090
–0,8162879
0,4256073
1,6506801
0,0813128
–1,6735516
0,0545156
0,5246476
0,8049141
–2,6519614
0,0009718
–0,5246476
0,8049141
2,9306374
0,0001996
–1,6506801
0,0813128
1,9816568
0,0170780
2,0201829
0,0199532
1,1571937
0,2078023
0,9585725
0,3936193
0,3811870
0,6611470
N
2
3
7
4
8 5
0
0,9453087
–0,3811870
0,6611470
–0,9585725
0,3936193
–1,1571937
0,2078023
–2,0201829
0,0199532
–1,9816568
0,0170780
2.3506050
0,0045300
–2,9306374
0,0001996
1.3358491
0,1570673
0,4360774
0,7246296
–0,4360774
0,7246296
–1.3358491
0,1570673
–2.3506050
0,0045300
6
174
APLICACIONES NUMÉRICAS BÁSICAS
Gauss-Laguerre (L): v (x) =exp(–x), 0 ≤ x ≤ ⬁ (Datos redondeados a siete decimales) N
xLi
vi
xLi
vi
3,4142136
0,1464466
19,3957279
0,0000000
0,5857864
0,8535534
12,7341803
0,0000159
6,2899451
0,0103893
8,1821534
0,0010740
2,2942804
0,2785177
4,9003531
0,0206335
0,4157746
0,7110930
2,5678767
0,1471263
9,3950709
0,0005393
1,0266649
0,4218313
4,5366203
0,0388879
0,1930437
0,4093190
1,7457611
0,3574187
22.8631317
0,0000000
0,3225477
0,6031541
15,7406786
0,0000008
12,6408008
0,0000234
10,7585160
0,0000908
7,0858100
0,0036118
7,0459054
0,0027945
N
2
3
7
4
8 5
3,5964258
0,0759424
4,2667002
0,0333435
1,4134031
0,3986668
2,2510866
0,1757950
0,2635603
0,5217556
0,9037018
0,4187868
15,9828740
0,0000009
0,1702796
0,3691886
9,8374674
0,0002610
5,7751436
0,0103992
2,9927363
0,1133734
1,1889321
0,4170008
0,2228466
0,4589647
6
175
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
BIBLIOGRAFÍA 1. SCHEID, F., Análisis Numérico, McGraw-Hill (serie Schaum), 1972. (Caps. 3, 12, 13, 14, 15, 16). Se mantienen los mismos capítulos numerados de consulta en la obra Numerical Analysis (1988). 2. SESÉ, L. M., Métodos Teóricos de la Química-Física (Vol. 1), UNED, Madrid, 1994. (Tema 2). 3. PRESS, W. H.; FLANNERY, B. P.; TEUKOLSKY, S. A. y VETTERLING, W. T., Numerical Recipes, Cambridge University Press, Cambridge, 1986. (Caps. 3, 4). 4. RICE, J. R., Numerical Methods, Software and Analysis, McGraw-Hill, Nueva York, 1983. (Caps. 3, 5, 7). 5. RALSTON, A. y RABINOWITZ, P., A First Course in Numerical Analysis, Dover, Nueva York, 2001. (Caps. 1, 3, 4).
176
APLICACIONES NUMÉRICAS BÁSICAS
PROBLEMAS TEÓRICOS Y NUMÉRICOS
Problemas teóricos 3.1) Aplicar el método de los coeficientes indeterminados para obtener las fórmulas de Gauss-Tschebyscheff con las que evaluar la integral:
∫
+1
−1
n
y( x) 2
+ 1− x
dx ≈
∑ c y( x ) T i
T i
i =1
para valores n = 2, 3. 3.2) Aplicar el método de los coeficientes indeterminados para aproximar la integral siguiente en la forma que se indica
∫
1
0
y( x) dx ≈ c1 y(0 ) + c2 y(1) + c3 y′(0 ) + c4 y′(1)
en donde se utilizan los valores de la función y de su primera derivada en ambos extremos del intervalo de integración. 3.3) Eliminar las singularidades de la siguiente integral utilizando cambios de variable
∫
2
0
exp(−3 x 2 ) dx (2 − x )1/ 2
Problemas numéricos 3.4) La constante conocida como «masa de Planck» está dada por la expresión mP =
c G
en donde las constantes físicas fundamentales que intervienen en su formulación son los siguientes valores que incluyen su error como
177
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
números entre paréntesis al final de las cifras escritas (c está libre de error) = constante de Planck - Dirac = 1, 05457266(63)·10−27 erg · s G = constante de gravitación universal = 6, 67259(85)·10 −11 m3 · kg −1 · s−2 c = velocidad de la luz = 299792, 458 Km · s−1 Determinar el valor de mP y sus errores absoluto y relativo (1 erg = 10–7 J). 3.5) La siguiente tabla contiene valores de las energías rotacionales EJ de la molécula 14N16O en función del número cuántico J J
0
1
2
3
4
5
EJ(cm–1)
0
3,414
10,242
20,484
34,140
51,210
J
6
7
8
9
10
EJ(cm–1)
73,694
94,592
122,004 153,630 187,770
Tres de los valores EJ son erróneos. Localizarlos, corregirlos y calcular el polinomio cuadrático en J que ajusta la tabla correcta. (1 cm–1 = 1,98645 · 10–23 Julios). 3.6) El calor específico a volumen constante Cv de un fluido cuántico a una densidad reducida r*N = 0,3 y en función de la longitud de onda de de Broglie reducida l*B toma los siguientes valores
l*B
0,116
0,2
0,3
Cv /R
1,526
1,544
1,566
0,4
0,5
0,6
1,588 1,610
1,632
0,7 1,654
a) Interpolar el valor de Cv en l*B = 0,15 y l*B = 0,45. b) Calcular por integración numérica la variación de entropía a volumen constante entre los estados definidos por l*B = 0,116 y l*B = 0,7. Dar los resultados en unidades de R (constante de los gases). Datos:
λ B* =
a T 1/ 2
;
a = constante, T = temperatura absoluta.
178
APLICACIONES NUMÉRICAS BÁSICAS
Cv dT ; T v = volumen (constante). dS =
3.7) Para una cinética de isomerización cis-trans A B se conocen los siguientes datos de concentración del isómero trans B, como porcentajes en la mezcla A + B, en función del tiempo t(s)
135
c(%)
25,505
180 31,740
225 37,101
270 41,709
315 45,670
Estimar numéricamente la velocidad de esta reacción v = dc/dt en el instante t = 225s y compararlo con el resultado exacto 0,110341%/s. 3.8) La tabla que se da a continuación reúne datos de las energías electrónicas U de la molécula de fluoruro de hidrógeno en su estado fundamental en función de la separación internuclear R(Å)
0,8768
0,8868
0,8968
0,9068
U(cm–1) 425,404907 233,968368 101,681613 24,859130 R(Å)
0,9268
U(cm–1)
23,779348
0,9368
0,9468
0,9168 0
0,9568
93,040164 204,785500 356,171012
en donde se ha tomado el origen de energías en la distancia de equilibrio R0(Å) = 0,9168. Utilizando dos espaciados h1 = 0,01 y h2 = 0,02 utilizar la extrapolación de Richardson para a) Estimar la fuerza F del enlace en los puntos tabulares en los que sea dU . posible esta determinación sabiendo que F = − dR b) A partir de los datos de estas fuerzas estimar la constante de fuerza del 2 enlace que viene dada por k0 = d U en el punto de equilibrio. 2 dR 0 Dar este resultado redondeado a cuatro cifras significativas (1 cm–1 = 1,98645 · 10–23 Julios; 1 Å = 10–10 m).
179
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
3.9) La teoría de Debye para el calor específico a volumen constante de sólidos a baja temperatura da la expresión (por mol) siguiente Cv =
9R u3D
∫
u4 exp( u)
uD
0
( exp(u) − 1))
2
du
en donde uD = qD /T con T = temperatura absoluta, qD la temperatura de Debye (parámetro característico del sólido), y R la constante de los gases = 8,3145 J/(mol · K). Utilizando para el germanio sólido el valor qD = 360 K calcular el Cv molar a la temperatura T = 3 K. 3.10) Tratar la siguiente integral con singularidad utilizando el método del deπ 1 − cos x dx sarrollo en serie 0 x5/ 2 Calcular el valor de la integral garantizando al menos 2 decimales exactos.
∫
SOLUCIONES Problema 3.1 La aplicación del método de los coeficientes indeterminados a
∫
+1
−1
n
y( x) + 1− x
2
dx ≈
∑ c y( x ) T i
T i
i =1
consiste en hacer la aproximación anterior exacta para y(x) = 1, x, ..., x2n–1. De esta manera se tiene un sistema de ecuaciones del que despejar los coeficientes cTi y las abcisas xTi . Como es de esperar por la presencia de la función de peso de los polinomios ortogonales de Tschebyscheff, los resultados van a ser similares a los discutidos en el capítulo para las otras familias de polinomios ortogonales. Para el caso n = 2 el sistema de ecuaciones resultante es y( x) = 1 → π = c1T + c2T y( x) = x → 0 = c1T x1T + c2T x2T
π = c1T ( x1T )2 + c2T ( x2T )2 2 y( x) = x3 → 0 = c1T ( x1T )3 + c2T ( x2T )3
y( x) = x2 →
180
APLICACIONES NUMÉRICAS BÁSICAS
en donde se han tenido en cuenta los resultados de las integraciones analíticas exactas
∫
+1 −1
dx 1− x
2
= π;
∫
+1
−1
x 1− x
2
dx =
∫
+1
−1
x3 1− x
2
dx = 0;
∫
+1
x2
−1
1− x
2
dx =
π 2
Las integrales de las funciones potencia impar de x son idénticamente nulas por simetría impar en el intervalo simétrico alrededor de x = 0, en tanto que las otras dos integrales se evalúan con facilidad utilizando el consabido cambio de variable (que elimina las singularidades) que se detalla a continuación x = cos u, dx = − sen u du, x = −1 → u = π , x = 1 → u = 0 La solución del sistema da los resultados c1T = c2T =
π 2 ; − x1T = x2T = 2 2
en donde los valores de las abcisas de integración son justamente los ceros del polinomio de Tschebyscheff T2(x) = 2x2 – 1. Del mismo modo se trata el caso n = 3 obteniendo el sistema de ecuaciones y( x) = 1 → π = c1T + c2T + c3T y( x) = x → 0 = c1T x1T + c2T x2T + c2T x3T
π = c1T ( x1T )2 + c2T ( x2T )2 + c3T ( x3T )2 2 y( x) = x3 → 0 = c1T ( x1T )3 + c2T ( x2T )3 + c3T ( x3T )3
y( x) = x2 →
3π = c1T ( x1T )4 + c2T ( x2T )4 + c3T ( x3T )4 8 5 y( x) = x → 0 = c1T ( x1T )5 + c2T ( x2T )5 + c3T ( x3T )5
y( x) = x4 →
Ahora se encuentran los resultados c1T = c2T = c2T =
π 3 ; − x1T = x3T = ; x2T = 0 3 2
siendo las abcisas las raíces del polinomio T3(x) = 4x3 – 3x.
181
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
El resultado general para una fórmula de este tipo con n puntos es fácil de imaginar c1T = c2T = c3T = ... = cnT =
2i − 1 π π , i = 1, 2, 3,..., n ; xiT = cos n 2n
Como información útil adicional, el error de truncamiento para esta nueva fórmula Gaussiana viene dado por error =
2π y( 2 n (θ ) 2n
2 (2 n)!
; − 1 < θ < 1; θ = arc cos x = coss −1 x
Problema 3.2 Esta aplicación ilustra la versatilidad del método de los coeficientes indeterminados para proponer algoritmos de integración. Se procede como ya se ha indicado en otros lugares, haciendo que el algoritmo sea exacto para y(x) =1, x, x2, x3, con lo que se obtendrán cuatro ecuaciones de las que poder determinar los cuatro coeficientes incógnita. Así partiendo de
∫
1
0
y( x) dx ≈ c1 y(0) + c2 y(1) + c3 y′(0 ) + c4 y′(1)
se plantean las ecuaciones y( x) = 1, y′ ( x) = 0
→ 1 = c1 + c2
y( x) = x, y′( x) = 1
→
y( x) = x2 , y′( x) = 2 x x) = 3 x2 y( x) = x3 , y ′(x
1 = 2 1 → = 3 1 → = 4
c2 + c3 + c4 c2 +
2 c4
c2 +
3 c4
La solución es un algoritmo que contiene a la regla del trapecio más un término correctivo c1 = c2 =
182
1 1 ; c3 = − c4 = 2 12
APLICACIONES NUMÉRICAS BÁSICAS
∫
1
y( x) dx ≈
0
1 1 y(0) + y(1) + ( y ′(0) − y′(1) ( 2 12
)
)
y se trata de la versión más simple del algoritmo de integración de EulerMcLaurin. Para la expresión del error en estos casos se remite al lector a las referencias especializadas.
Problema 3.3 Esta integral I=
∫
2
exp(−3 x2 ) (2 − x)1/2
0
dx
tiene una singularidad en x = 2 y la situación va a resolverse a través de dos cambios de variable. El primer cambio de variable propuesto es t = x/2 → dt = dx/2; x = 0 → t = 0, x = 2 → t = 1 y la integral se expresa 1
I=
2
∫
1
0
exp( −12t 2 ) 2 dt (1 − t )1/ 2
con lo que de nuevo aparece una singularidad, ahora en t = 1. Un segundo cambio de variable que elimine esta singularidad es el siguiente t = sen 2 θ → dt = 2 sen θ cos θ d θ ; t = 0 → θ = 0, t = 1 → θ = π / 2 y la integral pasa a escribirse como I=2 2
∫
π /2
exp[ −12 sen 4θ ] sen θ d θ
0
que ya no contiene singularidades en el integrando y puede ser evaluada numéricamente.
183
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Problema 3.4 El primer paso a dar es reducir todas las constantes al mismo sistema de unidades (MKS). Sólo es necesario hacerlo con h y c y se consigue multiplicándolas por los factores adimensionales correspondientes J = 1, 05457266(63)·10 −34 J · s erg m c = 299792, 458 km· s−1 = 299792, 458 km · s−1 × 1000 = 299792458 m · s−1 km G = 6, 67259(85)·10 −11 m3 · kg −1 · s−2 = 1, 05457266(63)·10 −27 erg · s × 10 −7
Nótese que estas multiplicaciones son esencialmente ⬅multiplicaciones por la unidad. Por ejemplo, 1 J = 107 erg → 1 = 107
erg J
ó 1 = 10 −7
J erg
Esto es muy útil para realizar cambios de unidades en general sin cometer errores. Se tienen entonces los datos de entrada para el cálculo = 1, 05457266(63)·10 −34 J · s ; ε () = 0, 00000063 ·10−34 J · s G = 6, 67259(85)·10 −11 m3 · kg −1 · s−2 ; ε (G) = 0, 00085 ·10 −11 m3 · kg −1 · s−2 c = 299792458 m · s−1 ; ε ( c) = 0 m · s−1 Un primer tanteo para el valor de la masa de Planck da ahora mP =
1, 05457266 ·10 −34 × 299792458 = 2,176714074 ·10 −8 kg 6, 67259 ·10 −11
Evidentemente todas las cifras escritas no se van a mantener como significativas una vez que se evalúe el error. Este error absoluto viene dado por la aplicación de (3.1.3)
ε ( mP ) ≈
184
∂mP ∂mP ∂mP ∂mP ∂mP ε ( ) + ε (G ) + ε ( c) = ε ( ) + ε (G ) ∂ 0 ∂G 0 ∂ 0 ∂G 0 ∂c 0
APLICACIONES NUMÉRICAS BÁSICAS
con los valores absolutos de las derivadas parciales calculados con los datos de entrada que se han utilizado ya en la primera estimación de mP. Las derivadas parciales necesarias llevan a 1 c ∂mP 22 ∂ = 2 G = 10320, 36083 ·10 0 0 1 c ∂mP = −163,1086335 = − ∂G 3 2 G 0 0 Tomando valores absolutos multiplicados por sus errores correspondientes y sumando las dos contribuciones se obtiene mP = 2,176714074 ·10 −8 ± 0, 00013929252 ·10 −8 El error relativo es por tanto
δ=
ε ( mP ) = 0, 000064 ; 64 ppm mP
y así, finalmente, eliminando decimales superfluos se determina la estimación buscada como mP = 2,17671·10−8 ± 0, 00014 ·10 −8 = 2,17671(14 )·10 −8 kg
Problema 3.5 Se disponen los datos en forma de tabla (Tabla (a)) y se calculan las diferencias. Se observa alternancia de signos a partir de las terceras diferencias y también se observa que empiezan a aparecer diferencias constantes en los primeros resultados de las diferencias segundas. De todo ello se puede inferir que los posibles datos erróneos son los subrayados 6, 7, y 8. No obstante esto no es siempre un asunto claro y hay que proceder formulando hipótesis y comprobándolas. A continuación se presentan posibles modos de ataque a este problema.
185
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Tabla (a). Problema 3.5 J
EJ
0
0
DEJ = EJ+1 – EJ
D2EJ
D3EJ
D4EJ
3,414 1
3,414
3,414 6,828
2
0
10,242
3,414 10,242
3
0
20,484
3,414 13,656
4
34,140
3,414
51,210
5,414
73,694
–1,586
94,592
6,514
–10,4 –2,3
122,004
4,214 31,626
9
15,1 8,1
27,412 8
–9 –7
20,898 7
2 2
22,484 6
0 0
17,070 5
0
0,6 –1,7
153,630
2,514 34,140
10
187,770
a) Hipótesis D2 = 3,414 = constante. Si la hipótesis es correcta, entonces los datos son correctos hasta E(J = 5), DE(J = 5). Dando marcha atrás en los cálculos se encuentran para J ≥ 6 los resultados que se detallan a continuación
186
J = 6:
∆E( J = 5) = ∆E( J = 4) + ∆ 2 = 17, 070 + 3, 414 = 20, 484 E( J = 6) = E( J = 5) + ∆E( J = 5) = 51, 210 + 20, 484 = 71, 694
J = 7:
∆E( J = 6 ) = ∆E( J = 5) + ∆ 2 = 20, 484 + 3, 414 = 23, 898 E(( J = 7) = E( J = 6 ) + ∆E( J = 6) = 71, 694 + 23, 898 = 95, 592
J = 8:
∆E( J = 7) = ∆E( J = 6) + ∆ 2 = 23, 898 + 3, 414 = 27, 312 E(( J = 8) = E( J = 7) + ∆E( J = 7) = 95, 592 + 27, 312 = 122, 904
J = 9:
∆E( J = 8) = ∆E( J = 7) + ∆ 2 = 27, 312 + 3, 414 = 30, 726 E( J = 9) = E( J = 8) + ∆E( J = 8) = 122, 904 + 30, 726 = 153, 630 2
J = 6:
∆E( J = 5) = ∆E( J = 4) + ∆ 2 = 17, 070 + 3, 414 = 20, 484 E( J = 6) = E( J = 5) + ∆E( J = 5) = 51, 210 + 20, 484 = 71, 694
J = 7:
23, 898 NUMÉRICAS BÁSICAS ∆E( J = 6) = ∆E( J = 5) + ∆ 2 = 20, 484 + 3, 414A=PLICACIONES E(( J = 7) = E( J = 6 ) + ∆E( J = 6 ) = 71, 694 + 23, 898 = 95, 592
J = 8:
∆E( J = 7) = ∆E( J = 6) + ∆ 2 = 23, 898 + 3, 414 = 27, 312 E(( J = 8) = E( J = 7) + ∆E( J = 7) = 95, 592 + 27, 312 = 122, 904
J = 9:
∆E( J = 8) = ∆E( J = 7) + ∆ 2 = 27, 312 + 3, 414 = 30, 726 E( J = 9) = E( J = 8) + ∆E( J = 8) = 122, 904 + 30, 726 = 153, 630
J = 10 : ∆E( J = 9) = ∆E( J = 8) + ∆ 2 = 30, 726 + 3, 414 = 34,140 E( J = 10) = E( J = 9 ) + ∆E( J = 9 ) = 153, 630 + 34,140 = 187, 770 Los valores calculados para J = 9 y 10 coinciden con los originales de la tabla. Recalculando la tabla de diferencias con estos nuevos valores se observa que aparecen segundas diferencias constantes D2 = 3,414. Hay pues tres datos erróneos que corregidos son E( J = 6 ) = 71, 694; E( J = 7) = 95, 592; E( J = 8) = 122, 904 El polinomio que ajusta exactamente toda la tabla es de segundo grado y puede expresarse con la fórmula de avance de Newton EJ = a + bJ + cJ 2 = E0 + J∆E0 +
E0 = 0 1 J ( J − 1)∆ 2 E0 = = 2 2 ∆E0 = ∆ E0 = 3, 414
1 3, 414 J ( J + 1) 2 De esta información, que se puede medir experimentalmente con espectroscopia de microondas, se puede obtener el parámetro rotacional B de la molécula de NO por comparación con la expresión del modelo cuántico del rotor rígido E = BJ(J + 1) y con B calculado con el valor del momento de inercia molecular I (d = distancia internuclear entre los átomos de N y de O). B=
h 8π Ic 2
=
mN mO 2 3, 414 ( cm−1 ); I = µ d 2 = d 2 mN + mO
b) Alternativas de procedimiento para casos más complicados. Una alternativa útil en muchos casos, cuando hay suficientes datos en la tabla, es la de estudiar separadamente conjuntos de datos, por ejemplo los datos pares por un lado y los datos impares por el otro. Cuando se sabe con certeza que la función es polinómica, si en uno de los dos casos aparece constancia de signo en las diferencias de algún orden (no cercano en valor al
187
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
del número de puntos de la tabla, por seguridad de identificación), ese valor y en ese mismo orden debe ser el que debería mostrar la otra secuencia de datos, ya que el polinomio de ajuste es único. En este caso se puede ya determinar el polinomio que ajusta toda la tabla. Utilizando el valor obtenido de diferencias constantes y dando marcha atrás en los cálculos en la sub-tabla con errores pueden corregirse los errores. Si estos errores fueran muchos y no se pudiera garantizar ninguno de los valores de entrada como exacto para poder hacer la operación descrita, entonces el problema se reduce a utilizar el polinomio anterior que ajusta la otra sub-tabla libre de errores e interpolar en él los valores de la tabla errónea. Otra alternativa es la comparación del patrón de signos en la tabla de diferencias (la global o las parciales recién descritas) con patrones modelo, y a partir de ahí proceder a la identificación y corrección de valores erróneos. Por ejemplo, dividiendo los datos del problema en pares e impares la tabla de impares es Tabla (b). Problema 3.5 J
EJ
1
3,414
DEJ = EJ+1 – EJ
D2EJ
D3EJ
D4EJ
17,070 3
20,484
13,656 30,726
5
51,210
–1 12,656
43,382 7
94,592
+4 +3
15,656 59,038
9
153,630
Como patrones de propagación de errores, considerando sólo un dato erróneo, pueden proponerse tantos como entradas y con posibilidad doble, según que el error sea por exceso e > 0 o por defecto e < 0. Dos posibles patrones son los que se muestran abajo, el primero con error e > 0 en el dato de entrada J = 1, y el segundo con error e > 0 en el dato J = 7. El resto de los patrones se dejan al lector para su confección.
188
APLICACIONES NUMÉRICAS BÁSICAS
Tabla (c). Problema 3.5 J
error
1
e
D
D2
D3
D4
–e 3
0
e –e
0 5
0
0 0
7
0
e 0
0 0
9
0
Tabla (d). Problema 3.5 J
error
1
0
D
D2
D3
D4
0 3
0
0 0
5
0
e –3e
e 7
–4e
e –2e
e –e
9
0
La comparación con la propagación de error en la tabla real de datos impares indica que el error está en el dato J = 7 con un patrón de signos opuesto al de la Tabla (d), y que el resto de los datos son correctos. Ahora hay que proceder por tanteo sabiendo que el error es por defecto. Esto quiere decir que E(J = 7) > 94,592 lo que implica que D2(J = 3) > 12,656. Como primera hipótesis se formula que D2 = 13,656 pues el resto de los resultados están contaminados por el error y, además, esto está de acuerdo con la observación previa. Sustituido este valor se llega a la conclusión de que efectivamente E(J = 7) > 94,592 y la nueva tabla de datos impares es completamente consistente.
189
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Si ahora en la tabla parcial de los datos pares se toma también D = 13,656 (lo que corrobora su primera diferencia de segundo orden) se pueden corregir los datos erróneos y resultan los valores correctos ya conocidos E(J = 6) = 71,694 y E(J = 8) = 122,904. 2
Hay que insistir en que la aparición de una alternancia de signos en una tabla no necesariamente implica que en ésta haya errores de entrada. Se sabe con certeza que sí los hay si por argumentos teóricos, como es en este caso, la tabla tiene una función polinómica que la representa. Una última cuestión es la de la interpolación/extrapolación: en este problema de rotor rígido sólo tienen sentido valores J enteros J ≥ 0. No ha lugar la interpolación en valores J intermedios, pues esta operación carece de sentido físico-químico. Por otra parte, éste es uno de esos casos en los que la extrapolación a valores J > 10 enteros puede realizarse con toda fiabilidad, una vez que se disponga del polinomio correcto que representa la tabla. La ley que describe es completamente general y válida para todo J ≥ 0.
Problema 3.6 a) La interpolación en l*B = 0,15 puede efectuarse bien con interpolación lineal o con el polinomio de Lagrange de segundo grado. La interpolación lineal en el intervalo [0,116, 0,2] es sencillamente la regla de tres con partes proporcionales y redondeando a tres decimales que son los que traen los datos de entrada, se encuentra Cv / R = 1, 526 +
0, 034 · 0, 018 = 1, 533 0, 084
(como ha venido haciéndose no se utiliza el símbolo ª). La interpolación de Lagrange de segundo grado en l*B = 0,15 viene impuesta por el hecho de que los datos al principio de la tabla no están equiespaciados y se tiene Cv / R =
190
(0,15 − 0, 2)(0,15 − 0, 3) (0,15 − 0,116)(0,15 − 0, 3) 1, 526 + 1, 544 (0,116 − 0, 2)(0,116 − 0, 3) (0, 2 − 0,116)(0, 2 − 0, 3) (0,15 − 0,116 )(0,15 − 0, 2) + 1, 566 = 1, 533 (0, 3 − 0,116 )(0, 3 − 0, 2)
APLICACIONES NUMÉRICAS BÁSICAS
Una vez redondeados a los tres decimales que se muestran los dos resultados son idénticos, lo que sugiere que la tabla representa con toda probabilidad una dependencia funcional lineal. Esto queda más claro estudiando la tabla de diferencias para datos l*B ≥ 0,2 en la que se aprecia constancia en las diferencias primeras Tabla. Problema 3.6 l*B
Cv /R
0,2
1,544
D
0,022 0,3
1,566 0,022
0,4
1,588 0,022
0,5
1,610 0,022
0,6
1,632 0,022
0,7
1,654
Aunque queda la incertidumbre de lo que puede ocurrir para valores l*B < 0,2 ó l*B > 0,7, en el sentido de pequeñas variaciones que pudieran dar sentido a dependencias de grado superior a la unidad, todo indica que la dependencia funcional va a ser lineal, y la desviación en l*B = 0,116 se atribuye a efectos de redondeo en el dato. Consecuentemente, la interpolación del valor central en l*B = 0,45 no va a ser necesario hacerla con polinomios centrales (Stirling, Everett, etc.) y puede realizarse con un polinomio de Newton de primer orden (o una regla de tres como antes en el intervalo [0,4, 0,5] ya que la representación va a ser exacta con los datos conocidos. Se tiene así Cv /R = 1, 544 +
0, 45 − 0, 2 0, 022 = 1, 599 0,1
en donde se ha tomado como origen el punto en l*B = 0,2.
191
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
b) El cálculo de la variación de entropía va a requerir alguna elaboración previa de la integral para expresarla en términos de la variable l*B. Se tiene así Cv (T ) λ* a dT = λ B* = aT −1/ 2 → dλ B* = − 3/ 2 dT = − B dT = 2T T T T1 2T λ *B ( 2 ) 2C (λ * ) 0 ,7 C ( λ * ) Cv(λ B* ) v B v B * * * dλ B = −2 dλ B = f ( λ B ) = − = −2 λ *B (1) 0 ,116 λ B* λ B* λ B*
∆S =
∫
∫
T2
∫
∫
0 ,7 0 ,116
f (λ B* ) dλ B*
Hay que realizar una tabulación de la nueva función a integrar f(l*B) y la integración puede plantearse con la regla del trapecio dividiéndola en dos partes: [0,116, 0,2] y [0,2, 0,7]. Numerando desde 0,116 con índices k = 0 Æ 6 se encuentran entonces
∫
0 ,2
0 ,116
f ( λ B* ) dλ B* = R
0, 2 − 0,116 [ f0 + f1 ] = 0, 87676 R; 2
f0 = f (λ B* = 0,116 ), f1 = f (λ B* = 0, 2)
∫
0 ,7
0 ,2
f (λ B* ) dλ B* = R
0,1 [ f + 2 f2 + 2 f3 + 2 f4 + 2 f5 + f6 ] = 2, 01714 R 2 1
y el resultado final es redondeando a tres decimales DS = –5,788 R resultado que indica una disminución de entropía consistente con el hecho de que se pasa de l*B = 0,116 Æ l*B = 0,7, es decir de un estado con temperatura más alta y más desordenado (mayor S) a otro estado con temperatura menor y que está por tanto más ordenado (menor S). Otras opciones de integración se dejan como ejercicio para el lector.
Problema 3.7 Los datos equiespaciados con h1 = 45 s se renumeran como t−2 = 135, t−1 = 180, t0 = 225, t1 = 270, t2 = 315
192
APLICACIONES NUMÉRICAS BÁSICAS
La primera estimación de la derivada pedida viene dada por los puntos contiguos c −c dc 41, 709 − 31, 740 = 0,110767%/s c1′(t0 = 225) = ≈ 1 −1 = 2 · 45 2 h1 dt 0 Para mejorar esta estimación se utiliza la extrapolación de Richardson. Hay que calcular primero la estimación con el espaciado doble h2 = 90 s, con lo que h1 = ah2 Æ a = 0,5. c −c dc 45, 670 − 25, 505 = 0,112028%/ s c2′ ( t0 = 225) = ≈ 2 −2 = 2 · 90 dt 2 h 0 2 Combinando ambos resultados en el algoritmo de Richardson c ′ − α 2 c2′ 0,110767 − 0, 52 · 0,112028 dc = 0,110346%/s c ′(t0 = 225) = ≈ 1 = dt 0 1 − 0, 52 1− α 2 Este resultado se compara muy bien con el exacto redondeado a seis decimales 0,110341, la discrepancia es de unas 5 partes en 106 (5 ppm) frente a unas 420 partes en 106 (420 ppm) que da la derivada tomada con el espaciado más pequeño. Nótese que se han mantenido 6 decimales en los resultados a efectos de comparación de las potencias relativas de las técnicas de derivación.
Problema 3.8. Hay que notar que la tabla está igualmente espaciada y que el cálculo de las derivadas dU/dR y d2U/dR2 puede hacerse con respecto a la variable auxiliar x = R – R0 = R – 0,9168. Así se tienen dU dU = ; dR dx
d 2U dR2
=
d 2U dx2
Conviene dar índices de orden a los puntos de entrada
193
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Tabla. Problema 3.8 i
–4
–3
–2
–1
0
R(Å)
0,8768
0,8868
0,8968
0,9068
0,9168
U(cm–1)
425,404907
233,968368
101,681613
24,859130
0
i
1
2
3
4
0,9268
0,9368
0,9468
0,9568
23,779348
93,040164
204,785500
356,171012
R(Å) –1
U(cm )
a) Con el espaciado h1 = 0,01 se estiman las fuerzas en todos los puntos salvo en los extremos utilizando la fórmula F1( i ) ≈ −
Ui+1 − Ui−1 ; −3≤ i≤3 2 h1
Análogamente para el espaciado más grande h2 = 0,02 y, por tanto con menos evaluaciones posibles, se calculan F2( i ) ≈ −
Ui+ 2 − Ui− 2 ; −2 ≤ i ≤2 2 h2
Con estos datos, y teniendo en cuenta que h1 = a h2 Æ a = 0,5, los valores finales de las fuerzas se estiman con F
(i )
≈
F1( i ) − α 2 F2( i ) 1− α 2
; −2≤ i≤2
Los resultados en unidades de cm–1/Å se resumen en la tabla siguiente Tabla (a). Problema 3.8
194
i
F1(h1 = 0,01)
F2(h2 = 0,02)
F – Richardson
–3
16186,164657
–2
10455,461913
10635,122665
10395,574996
–1
5084,080673
5254,725504
5027,199063
0
53,989094
216,036239
–0,026620
+1
–4652,008195
–4498,159255
–4703,291176
+2
–9050,307604
–8904,275307
–9098,985036
+3
–13156,542419
APLICACIONES NUMÉRICAS BÁSICAS
Se observa en esta tabla cómo las fuerzas intramoleculares son positivas cuando los átomos se acercan por debajo de la distancia de equilibrio, y negativas cuando se alejan por encima de la distancia de equilibrio. El valor exacto de la fuerza en x = 0, la distancia de equilibrio, debe ser F(0) = 0, y puede comprobarse como con sólo una aplicación de la extrapolación de Richardson ya se obtiene una mejora apreciable en la estimación sobre las obtenidas con los espaciados utilizados, que están bastante alejadas del valor esperado. El proceso puede continuarse para mejorar aún más la calidad del cálculo de F(0), pero no se va a considerar aquí. b) Con los resultados anteriores de F la tabla de segundas derivadas de U para –1 ≤ i ≤ 1 puede construirse de manera similar utilizando h1 = 0,01 y h2 = 0,02. Se tienen así las ecuaciones (a = 0,5) siguientes d 2U d 2U dF dF = =− =− 2 2 dR dx dR dx (i )
d1( i)
d 2U F ( i+1) − F ( i−1) ≈ − = ; −1 ≤ i ≤ 1 2 h1 dR2 h 1
(i )
d2( i)
d 2U F ( i+ 2 ) − F ( i − 2 ) ≈ − = ; i=0 2 h2 dR2 h 2
Tabla (b). Problema 3.8 d1 = (d2U/dR2)h
i
dU/dR = –F
–2
–10395,574996
–1
–5027,199063
519780,080831
0
0,026620
486524,511913
+1
4703,291176
454947,920782
+2
9098,985036
1
d2 = (d2U/dR2)h
2
487364,000807
que para el valor i = 0 llevan a d 2U k0 = dR2
(0)
≈
d1( 0 ) − α 2 d2( 0 ) 1− α
2
= 486244, 682282 cm −1/ Å 2
195
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Transformando este resultado se obtiene el valor redondeado con cuatro cifras significativas k0 = 9, 659 ·10 −3 dinas/Å = 9, 659 ·10 −8 Newtons/Å = 9, 659 ·10 +2 Newtons/m Hay que notar que las estimaciones de la segunda derivada podrían haberse obtenido también por extensión del método de Richardson utilizando directamente y( x0 + h) − 2 y( x0 ) + y( x0 − h)
y′′( x0 ) ≈
h2
variando el espaciado h y utilizando la expresión general del algoritmo, en el que ahora en la expresión (3.4.16) del texto hay que tomar D = y¢¢. Esto se deja como ejercicio al lector. Problema 3.9 Van a darse tres vías de solución a este cálculo: a) Utilizando la expresión original se realizará integración Gauss-Legendre; b) a través de una integración intermedia se simplificará la integración numérica y se realizará con b1) Gauss-Legendre y b2) trapecios. La integral no tiene singularidad en u = 0. a) Hay que transformar primero el intervalo [0, uD]u Æ [–1, +1]v, lo que se logra con el cambio de variable u Æ v v +1=
u u 2 (u − 0 ) → u = D ( v + 1) → du = D dv uD 2 2
Con ello la integral para este caso a) se reformula como Cv (a ) = 9R 2 A 23
∫
9R uD3 +1
−1
∫
uD
0
u4 exp(u)
( exp(u) − 1))
2
u du = A = D = 2
(1 + v)4 dv = exp ( A + Av + exp ( −( A + Av) − 2
)
)
9 R (1 + v)4 2 ≈ 3 A f ( v) = + − + − 2 + exp A Av exp ( A Av ) 2 ( (
)
)
N
∑ c f (v ) P i
P i
i =1
Los resultados se resumen en la tabla que se da más adelante.
196
APLICACIONES NUMÉRICAS BÁSICAS
b) La integración analítica intermedia implica una integración por partes
Cv =
9R uD3
∫
uD
0
4
u exp(u)
( exp(u) − 1))
2
u% = u4 exp(u) du du = % dv = ( exp(u) − 1)
uD4 9R 36 R + 3 3 uD (1 − exp(uD ) uD
)
∫
)
2
du% = 4u3 du 1 = v% = 1 − exp( u)
u3 du exp p(u) − 1
uD
0
Para la integración Gauss-Legendre hay que cambiar la variable de manera similar a lo hecho arriba. La expresión final resultante para el cálculo b1) es Cv ( b1) =
uD4 9R 36 R + 3 3 uD (1 − exp( uD ) uD
∫
)
9 RuD 36 R + 3 1 − exp(uD ) uD 9 RuD 9 RuD + 1 − exp(uD ) 4
∫
+1
−1
∫
uD
0
uD
0
u3 du = exp( u) − 1
u3 du = exp( u) − 1
(1 + v)3 dv = uD exp ( v + 1) − 1 2
9 RuD 9 RuD + 1 − exp(uD ) 4
N
∑ c f%( v ) P i
P i
i =1
Para la integración b2) la expresión a utilizar es Cv ( b2) =
9 RuD 36 R + 3 1 − exp(uD ) uD
∫
uD
0
u3 du exp( u) − 1
y se aplicará la regla del trapecio a la integral indicada.
197
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Los resultados se resumen en la tabla siguiente Tabla. Problema 3.9. Gauss-Legendre
Trapecios
N
Cv(a) J/(mol · K)
Cv(b1) J/(mol · K)
2
1,04219 · 10 –8
1,64390 · 10 –9
1000
1,13528 · 10 –3
4
1,04903 · 10 –3
5,03507 · 10 –4
3000
1,12834 · 10 –3
6
2,16127 · 10 –3
2,09634 · 10 –3
5000
1,12695 · 10 –3
8
1,01447 · 10 –3
1,46841 · 10 –3
10000
1,12591 · 10 –3
10
8,56580 · 10 –4
9,53740 · 10 –4
20000
1,12539 · 10 –3
12
1,12290 · 10 –3
1,00627 · 10 –3
100000
1,12498 · 10 –3
14
1,16693 · 10 –3
1,11645 · 10 –3
10000000
1,12487 · 10 –3
N
Cv(b2) J/(mol · K)
Se observa la lenta convergencia del método de los trapecios (cálculos realizados en computador), que, sin embargo, se sabe que va a converger al resultado exacto, y las buenas aproximaciones que se pueden obtener con las integraciones Gaussianas utilizando comparativamente muy pocos puntos. También se observa como un poco de trabajo analítico, realizando integración por partes, puede ayudar a acelerar la precisión del cálculo final. Problema 3.10 La integral I=
π
1 − cos x
0
x5/ 2
∫
dx
presenta singularidad en x = 0 pues aplicando el desarrollo de Taylor del coseno en torno a x = 0 (siempre convergente para cualquier valor de x) 1 − cos x =
x2 x4 x6 x8 − + − + ... ; − ` < x < +` 2! 4 ! 6 ! 8!
se tiene lim+
x →0
198
1 − cos x x2 lim ∼ =` 5/ 2 x → 0+ 2 ! x x5 / 2
APLICACIONES NUMÉRICAS BÁSICAS
y la integral se expresa I=
∫
π
0
x2 x4 x6 x8 x−5/ 2 − + − + ... dx = 2 ! 4 ! 6 ! 8!
∫
π
0
x−1/ 2 x3 / 2 x7 / 2 x11/ 2 2 ! − 4 ! + 6 ! − 8 ! + ... dx
Ahora hay que notar algunos detalles. i) El primero es que la serie a integrar puede escribirse en la forma 1 x2 x4 x6 x8 x−1/ 2 x3 / 2 x7/ 2 x11/ 2 x15/ 2 x19/ 2 x−1/ 2 − ... − + − + − + ... = − x 3/ 2 − + − + 2! 4! 6! 8! 10 ! 12! 2! 4 ! 6 ! 8! 10 ! 12! ii) El segundo es que, aunque el primer término presenta singularidad en x = 0, se puede integrar analíticamente dando como resultado p1/2. iii) Y el tercero es que la serie entre corchetes, para poderla integrar término a término en el intervalo marcado, debe ser uniformemente convergente (existe continuidad de esa función en el intervalo). Esto lo cumple, ya que se puede encontrar una serie numérica convergente mayorante (en valor absoluto) de la serie de potencias. Este es el criterio M de Weierstrass y en este caso tal serie es
π 2( n−1) x2( n−1) ≥ ; n = 1, 2, 3,...; 0 ≤ x ≤ π (2 n + 2)! (2 n + 2)! La integración puede por tanto hacerse término a término y lleva a π
1 2 5 /2 1 2 9 /2 1 2 13 / 2 I = x1/ 2 − x + x − x + ... 4! 5 6! 9 8 ! 13 0 El resultado con dos decimales exactos, sin redondear, es I ª 1,52. El valor numérico obtenido con cuatro términos, y redondeado a cuatro decimales es I ª 1,5277, y una estimación razonable del error puede obtenerse con el valor del quinto término que se ha despreciado en el cálculo anterior y que es 5,45245 · 10–4 ª 5,5 · 10–4. Nótese que la integración pedida es una operación exacta y el número de cifras a dar para I en el resultado dependerá de los fines a los que este se destine. Si I va a ser utilizado en una pequeña cadena de cálculos con resultado final de precisión prefijada, entonces pueden estimarse cuantas cifras de I van a ser necesarias para lograr tal precisión. Si I va a ser reutilizado en una larga cadena de cálculos sucesivos,
199
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
entonces habrá que conservar todas las cifras decimales posibles, lo que no es un problema en cálculos con computador. Si I es el final del cálculo, la precisión la da la aplicación de la que forma parte; así, si bastaran cuatro decimales la solución con los datos presentados se escribiría, utilizando una cota razonable de error, como I ≈ 1,5277 (0,0005)
200
CAPÍTULO 4 RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
4.1. Conceptos preliminares A. Ecuaciones no lineales 4.2. Separación de raíces reales y estimación del error 4.3. Método de bisección 4.4. Metodo de la falsa posición (regula falsi) 4.5. Método de Newton-Raphson 4.6. Método iterativo de punto fijo 4.7. El caso de las raíces múltiples B. Sistemas de ecuaciones 4.8. Sistema lineal (no homogéneo) 4.9. Sistema no lineal Bibliografía Problemas teóricos y numéricos Se presentan los fundamentos de la resolución numérica de ecuaciones no lineales y de los sistemas de ecuaciones (lineales no homogéneos y no lineales). Estos son problemas que normalmente se asocian con la determinación de las energias de orbitales moleculares o de las frecuencias de las vibraciones moleculares, pero también aparecen en otros contextos como son los de la minimización (u optimización) de funciones en general, y una buena cantidad de problemas particulares conexos (la determinación del punto crítico, momentos principales inercia moleculares, etc.). Se analiza primero cómo separar las raíces en intervalos, para luego aplicar con garantías métodos iterativos que conduzcan a las correspondientes soluciones. Se estudia el cálculo de raíces simples aplicando los métodos de: bisección, la regula falsi, Newton, y la iteración de punto fijo. El siguiente asunto es el tratamiento de las raíces múltiples asociadas con la degeneración en los problemas de diagonalización, tema que se considerará en detalle más adelante (Cap. 9). Se concluye con el estudio de los sistemas de ecuaciones considerando el caso de ecuaciones lineales (método de Gauss con selección de pivotes para controlar los errores numéricos) y el caso de ecuaciones no lineales en dos variables (métodos de Newton y del gradiente).
201
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Ecuaciones no lineales
Sistemas
Raíces simples
Raíces múltiples
Lineal (no homog.)
No lineal
Separación Bisección Regula-falsi Newton-Raphson Newton-Secante Punto fijo
Identificación Algoritmos modificados
Gauss (con pivote)
Newton-Raphson Gradientes
Caps. 7, 9, 10
4.1. Conceptos preliminares En este capítulo van a abordarse los problemas numéricos asociados con la resolución de ecuaciones no lineales, sistemas de ecuaciones lineales y sistemas de ecuaciones no lineales. Estos temas presentan puntos de contacto con la denominada diagonalización de matrices y con los problemas generales de minimización (optimización) de funciones en una o en varias variables. Todos ellos resultan centrales en muchas aplicaciones de las Mecánica y Química Cuánticas para el estudio de átomos y moléculas, por ejemplo en el cálculo de energías y orbitales moleculares, en el de los momentos de inercia que definen los estados rotacionales y son parte de la interpretación de los espectros de microondas, etc. Estas aplicaciones van a desarrollarse aquí con valores reales, omitiendo las cuestiones relacionadas con la aritmética compleja. El teorema que permite diseñar estrategias básicas de cálculo para determinar las raíces reales de una ecuación no lineal, como x3 = a sen x, ó x3 – x2 = 1, es el teorema de Bolzano. Para una función real de variable real f(x), continua en un intervalo cerrado [a, b] y con f(a)f(b) < 0, es decir que cambia de signo en el intervalo, está garantizada la existencia al menos de un punto (raíz) x, a < x < b, en el que f(x) = 0. Si, además, existe la derivada y¢ = f¢(x) en a < x < b y ésta mantiene signo constante en tal intervalo, entonces la raíz (también llamada cero) x de la función es única. Todo ello indica la posibilidad de aco-
202
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
tar (o separar) las raíces reales de f(x) = 0 en diferentes intervalos en los que f(x) sea continua. La casuística es, sin embargo, bastante más complicada de lo que pudiera parecer a primera vista: las ecuaciones pueden estar mal condicionadas (anómalas), pueden aparecer raíces complejas, pueden aparecer raíces múltiples, etc. De manera que antes de entrar en el estudio de estas cuestiones es conveniente hacer una serie de observaciones e introducir la nomenclatura habitual.
Raíces (ceros) de ecuaciones no lineales i) Las ecuaciones no lineales del tipo trascendente contienen funciones que pueden desarrollarse en serie infinita y pudieran tener infinitas soluciones (por ejemplo, x = tan x). Normalmente, por razones de tipo físico-químico, el interés pudiera estar centrado sólo en algunas de ellas y sería preciso hacer el correspondiente análisis para identificarlas. ii) Para ecuaciones no lineales de tipo polinómico con coeficientes ci reales, p(n)(x) = c0 + c1x + c2x2 + ... + cnxn = 0, el grado n del polinomio indica el número total de raíces (teorema fundamental del Álgebra). Ahora bien, estas raíces pueden ser: a) todas reales; b) todas complejas; y c) reales y complejas. En este sentido, si hay raíces complejas, éstas aparecen como pares — conjugados, z = a ± bi (i = √–1) lo que indica que en el caso b), todas complejas, debe suceder que n = 2m, es decir el grado debe ser par. El interés se centrará en este curso en el caso de raíces todas reales. Hay que señalar también que, al igual que las ecuaciones cuadráticas, las ecuaciones polinómicas cúbicas y cuárticas pueden resolverse por radicales, pero este tipo de solución no es posible para la función polinómica general p(n)(x) = c0 + c1x + c2x2 + ... + cnxn = 0 de grado n ≥ 5 (se excluyen los casos particulares como p(n)(x) = c0 + cnxn = 0 por ejemplo, en los que evidentemente la solución por radicales pudiera resultar posible). iii) En las ecuaciones polinómicas anteriores un punto especialmente importante es el de la multiplicidad de una raíz xR. Una raíz es simple (multiplicidad j = 1) si aparece como un factor (x – xR) en la descomposición factorial del polinomio p(n)(x) = (x – xR)p(n–1)(x). Una raíz con multiplicidad j ≠ 1 aparece como p(n)(x) = (x – xR)jp(n–j)(x). Así en la ecuación p(4)(x) = (x + 1)(x – 7)3 = 0, la raíz xR = –1 tiene multiplicidad j = 1 y la raíz xR = 7 tiene multiplicidad j = 3. La existencia de raíces múltiples en problemas atómico-molecu-
203
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
lares está asociada con los fenómenos de degeneración de estados, siendo la identificación de esta circunstancia un asunto fundamental. iv) Las soluciones de las ecuaciones no lineales se obtienen numéricamente de forma iterativa. Así, partiendo de un valor inicial adecuado xR(0) se generará mediante un método de búsqueda (bisección, Newton-Raphson, etc.) una sucesión de aproximaciones sucesivas xR(1), xR(2), ..., xR(m), hasta alcanzar convergencia en el resultado, es decir hasta alcanzar un cierto número de cifras significativas que van a permanecer invariables en el proceso al aumentar m. Alcanzada la precisión fijada el último valor se identificará como la raíz buscada xR1. El método utilizado, complementado con la información que pudiera extraerse de la derivada f¢(x), puede aplicarse de nuevo para determinar el resto de las raíces de la ecuación xR2, xR3, ... En el caso de que la función sea un polinomio, una vez encontrada una raíz xR con multiplicidad j, lo anterior puede aplicarse a la ecuación cociente p(n)(x)/(x – xR)j = 0, operación que se denomina deflación (o supresión), y así sucesivamente para localizar el resto de las raíces reales. Aquí habría que estar precavido del posible efecto negativo que los errores de redondeo pudieran tener sobre la deflación y el consiguiente deterioro en la estimación de las raíces. v) Es muy importante indicar que la elección de una buena aproximación inicial xR(0) debe hacerse cuidadosamente al objeto de poder garantizar la convergencia significativa del proceso, ya que éste pudiera bien ser divergente, bien conducir a una raíz diferente de la realmente significativa para el problema buscada en ese intento. Esto, más la nota anterior sobre los redondeos, trae a colación dos problemas: a) el estudio de la convergencia de los cálculos y el error cometido con la estimación encontrada; y b) la eficiencia o rapidez del método seleccionado. Ambos son asuntos muy complejos y su tratamiento detallado desborda los límites de este curso de introducción, por lo que se darán sólo algunas ideas básicas. vi) En cuanto a la convergencia, una vez acotados los intervalos en los que se encuentran las raíces, cada método a aplicar presenta sus propias particularidades relativas a su velocidad y a la elección de xR(0). A veces puede resultar conveniente iniciar el cálculo con un método y completarlo con otro más rápido que ahorre iteraciones. Por lo que respecta al asunto del error, una medida útil en la práctica cuando hay convergencia está relacionada con el valor absoluto de la diferencia entre dos valores sucesivos ÔxR(n+1) – xR(n)Ô, a la que se exige normalmente que sea menor que una cierta cota de tolerancia e.
204
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
Esta condición, ÔxR(n+1) – xR(n)Ô < e, una vez alcanzada da un conjunto de cifras estables en la solución identificándose entonces la raíz con xR= xR(n+1). De nuevo hay que insistir en el papel negativo de los errores de redondeo sobre el proceso iterativo: truncar de forma poco cuidadosa los decimales de xR(m) para obtener xR(m+1) es una muy mala práctica. Por otra parte, siempre puede existir el caso de una ecuación no lineal anómala, o mal condicionada, en la que incluso los inevitables redondeos, debidos a la precisión interna propia de la máquina de cálculo, pueden llegar a destruir la verdadera naturaleza de las «raíces» calculadas. Esto sucede en determinadas ecuaciones polinómicas de grado elevado, en las que las estimaciones para raíces que se sabe son reales pueden aparecer en el cálculo como números complejos. Para combatir estos efectos hay que ampliar la precisión (programación en computador con doble precisión, cuádruple precisión, etc.) y utilizar recursos de cálculo más potentes.
Sistemas de ecuaciones y diagonalización Por lo que respecta a los sistemas de ecuaciones hay que distinguir entre los no lineales y los lineales. A su vez para los lineales en el caso compatible hay que diferenciar los sistemas homogéneos y los no homogéneos. vii) La resolución de sistemas no lineales puede llevarse a cabo generalizando alguno de los métodos para ecuaciones no lineales (Newton-Raphson, por ejemplo) o proponiendo nuevas alternativas como son las minimizaciones por gradientes. Aquí la selección del punto de partida de los cálculos iterativos es en muchos casos crucial para obtener la solución significativa para el problema. En el caso de una ecuación no lineal en una variable la búsqueda de la raíz se realiza en un espacio de dimensión unidad (la recta real), pero en sistemas de ecuaciones la dimensión del espacio de búsqueda, igual al número de variables, aumenta pudiendo presentarse más de una región compatible en principio con las condiciones del problema y es fundamental saber si la solución obtenida es la significativa para el problema físico-químico estudiado. viii) La resolución de sistemas lineales presenta también algunas particularidades dignas de consideración. Para sistemas compatibles determinados (no homogéneos) la solución basada en el cálculo de determinantes (la
205
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
conocida regla de Cramer), a pesar de su elegancia formal, no resulta adecuada desde el punto de vista de la eficiencia pues requiere muchas más operaciones de las que hay que realizar con otros métodos menos costosos (Gauss con selección de pivotes, por ejemplo). ix) Los sistemas lineales homogéneos compatibles (con soluciones diferentes de la trivial) están directamente relacionados con los problemas de valores y vectores propios de una matriz (diagonalización). Este es un tema que posee una importancia capital en muchas cuestiones de interés físicoquímico (estructura atómico-molecular, espectroscopia, etc.) y está estrechamente emparentado con el de los valores y funciones propias de una ecuación diferencial (Cap. 9).
A. ECUACIONES NO LINEALES 4.2. Separación de raíces reales y estimación del error Esta es la primera operación a realizar para poder hacer una búsqueda ordenada de las soluciones. Las ideas esenciales van a presentarse analizando un caso de ejemplo. Sea la ecuación polinómica p(3)(x) = x3 – 6x2 + 3x + 10 = 0 que tiene tres raíces. En principio, si las tres son reales, hay que determinar tres intervalos a < x < b en los que la función cambie de signo f(a)f(b) < 0. Hay que tantear dando valores a x y observar el signo de p(3)(x) y una posible tabla que reúne esta información es la siguiente x sgn p(3)(x)
– –
–6 –3
0
3
6
–
+
–
+
+
–
(4.2.1)
Los cambios de signo indican que las raíces deben estar en –3 < x1 < 0, 0 < x2 < 3, y 3 < x3 < 6. Quedan descartadas así las dos posibles raíces complejas que pudiera tener un polinomio de tercer grado y, además, queda claro que las tres raíces son simples. La tabla anterior puede afinarse analizando la primera derivada dp(3)(x)/dx = 3x2 – 12x + 3, ya que es continua y tiene sus – ceros localizados en x = 2 ± √3. Estos últimos valores marcan posiciones de máximo y mínimo de p(3)(x) los cuales junto con los signos en (4.2.1) producen
206
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
x sgn p(3)(x)
–
–3
0
– 2 – √3
3
– 2 + √3
6
–
–
+
+
–
–
+
+
(4.2.2)
Los cambios de signo están ahora definidos con mayor precisión y las raí– – ces están en –3 < x1 < 0, 2 – √3 < x2 < 3, y 2 + √3 < x2 < 6, en los que hay que notar la constancia de signo de la derivada dentro de cada subintervalo (raíz única). Todo esto puede verse gráficamente en la Fig. 4T.1.
Figura 4T.1. Ceros xR de una función polinómica f(x) y representaciones gráficas de esta función y de sus dos primeras derivadas.
Este es un ejercicio muy simple que sirve para ilustrar la manera general de proceder. No obstante, se pueden anticipar las soluciones sin mucho esfuerzo, ya que al ser entero el término independiente (+10) las posibles raíces reales enteras pueden buscarse entre sus divisores enteros, y en este caso tan favorable resultan ser xR1 = –1, xR2 = 2, y xR3 = 5. También hay que señalar que existen sistemáticas mucho más poderosas para separar las raíces de una ecuación no lineal, como son las sucesiones de Sturm, pero no se van a tratar aquí. Por otra parte, si hay posibilidad de realizar con computación una tabulación extensa de la función, con búsqueda automática de cambios de signo y de situaciones especiales, como por ejemplo las de tangencia de la función con el eje x (raíces de multiplicidad par), la tarea queda muy bien preparada para la búsqueda precisa final con cualquiera de los métodos que se discutirán después. Igualmente, ayudarse de un sencillo gráfico de la función cuando es posible realizarlo, también sirve al mismo propósito.
207
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Una cota general del error cometido al aproximar una raíz de una ecuación no lineal f(x) = 0 puede darse siempre que la primera derivada exista y esté acotada inferiormente en valor absoluto dentro del intervalo de separación ` > f ′( x) ≥ d1 > 0 ; a ≤ x ≤ b
(4.2.3)
Por el teorema del valor medio puede escribirse para la raíz xR y su aproximación xR(n), ambas en a < x < b, la relación
) (
) (
)
)
f ( xR − f xR( n) = xR − xR( n ) f ′ (ξ ;
xR < ξ < xR( n ) ó xR( n ) < ξ < xR
(4.2.4)
Como f(xR) = 0, se tiene entonces para el error la acotación xR −
xR( n )
=
( )
f xR( n ) f ′ (ξ
)
≤
( )
f xR( n )
(4.2.5)
d1
En la presentación que sigue sobre los métodos de cálculo de raíces xR se considerará primero la determinación de raíces simples y se completará después con el estudio de raíces múltiples.
4.3. Método de bisección Este es un método conceptualmente simple, pero muy robusto, para localizar una raíz real de f(x) = 0 separada en un intervalo a0 = a < x < b = b0. Consiste en explotar la propiedad del cambio de signo de f(x) en sucesivas subdivisiones del intervalo original [a0, b0]. Así, el primer paso consiste en dividir en dos partes iguales este intervalo, obteniendo [a0, (a0 + b0)/2] y [(a0 + b0)/2, b0]. Entonces, si f((a0 + b0)/2) = 0, la raíz es xR = (a0 + b0)/2 y se ha resuelto el problema. Si como es de esperar f((a0 + b0)/2) ≠ 0 se localiza el subintervalo en el que f(x) cambia de signo, sea para concretar el primero [a0, (a0 + b0)/2] = [a1, b1], f(a1)f(b1) < 0, y se repite el proceso de subdivisión a partir de él. Se obtienen así [a1, (a1 + b1)/2] y [(a1 + b1)/2, b1] repitiéndose el proceso anterior, y así sucesivamente. De esta manera, y en el supuesto general de no localización de la raíz en un punto intermedio de subdivisión, se va construyendo la siguiente sucesión de intervalos cerrados encajados (⊃ = inclusión)
208
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
a0 , b0 ' a1 , b1 ' a2 , b2 ' ... ' an , bn ' ... ; f ( aj ) f (bj ) < 0 , j = 0,1, 2, 3... (4.3.1) que van a tener un punto común en el límite n Æ (Bolzano-Weierstrass) y que va a ser justamente la raíz buscada. La comprobación de este resultado es sencilla: se han generado dos sucesiones de números reales {an} y {bn}, la primera monótona creciente aj ≤ aj+1 y acotada superiormente, y la segunda monótona decreciente bj ≤ bj+1 y acotada inferiormente. Ambas poseen por tanto límite cuando n Æ , {an} Æ a y {bn} Æ b, siendo a = b ya que bn − an =
)
1 ( b − a) → lim bn − an = β − α = 0 → α = β n→ ` 2n
(
(4.3.2)
Como f(x) es continua en [a, b] es inmediato establecer
)(
(
)
2
lim f ( an ) f ( bn ) = f lim an . f lim bn = f (α ) ≤ 0 → f (α ) = 0 → xR = α n→ ` n→ ` n→ `
(4.3.3)
Normalmente el método de bisección es un método de convergencia lenta a la raíz xR, pero tal convergencia está garantizada (robustez del método). Es simple de aplicar y de programar en un computador y una estimación del error cometido al dar la raíz xR en un número finito de pasos mediante xR(n) viene dada por la longitud del intervalo en el que se encuentra 0 ≤ xR − xR( n )
0, en dos partes iguales [4,5] y [5,6]. De ellas es en la segunda [5,6] en la que se verifica el cambio de signo, f(r* = 5) · f(r* = 6) < 0, por lo que se divide en dos [5, 5,5] y [5,5 ,6] para continuar la búsqueda, y así sucesivamente. El algoritmo construye la cadena de intervalos encajados, cada uno dentro del anterior, siguiente [4(–), 6(+)] Æ [5,(–), 6(+)] Æ [5(–), 5,5(+)] Æ [5(–), 5,25(+)] Æ [5,125(–), 5,25(+)] Æ [5,1875(–), 5,25(+)] Æ ... en donde se han indicado los signos de la función en cada extremo. A cinco pasos la estimación de la raíz puede ponerse como el punto medio del quinto intervalo r* ≈ 5,21875, y su error vendrá dado por la mitad de la longitud del último intervalo fijado en el que se encuentra e = 0,03125. El resultado exacto, redondeado a 6 decimales, es r* = 5,236068 y puede comprobarse como efectivamente el método de bisección es de convergencia lenta: a cinco pasos produce sólo la primera cifra decimal exacta.
4.4. Método de la falsa posición (regula falsi) Se trata de un método sencillo de aplicar y que siempre converge para cualquier función f(x) continua al buscar una raíz real xR de f(x) = 0 adecuadamente separada en un intervalo [a, b]. El proceso comienza constru-
210
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
yendo la secante a f(x) que pasa por (a, f(a)) y (b, f(b)), determinándose seguidamente el corte de esta secante con el eje x y obteniéndose así una primera aproximación a la raíz xR(1). Es fácil ver que esto es un proceso de interpolación inversa, el valor x que hace y = f(x) = 0, y puede continuarse sin más que aplicar la propiedad del cambio de signo de f(x) en los subintervalos que se van definiendo. La sistematización no es complicada. Partiendo del intervalo de separación inicial [a0, b0] y una vez determinada xR(1) como x(R1) =
f ( b0 ) f ( a0 ) a0 + b f ( b0 ) − f ( a0 ) f ( a0 ) − f ( b0 ) 0
(4.4.1)
se analiza el cambio de signo de f(x) en [a0, xR(1)] y en [xR(1), b0] y se repite la operación en aquél en el que esto tenga lugar. Sea, por concreción, el segundo que se renombra como [xR(1), b0] = [a1, b1], f(a1)f(b1) < 0, y se determina xR(2) con la nueva secante en la forma xR( 2 ) =
f ( b1 ) f ( a1 ) a1 + b f ( b1 ) − f ( a1 ) f ( a1 ) − f ( b1 ) 1
(4.4.2)
y así sucesivamente. Se genera de esta forma una sucesión de aproximaciones que converge a la raíz buscada. Es importante en este punto resaltar algunos detalles de interés. i) Este método puede visualizarse como una generalización del de bisección, con la división del intervalo en partes proporcionales a las ordenadas de la función en los extremos en la proporción –f(an)/f(bn). ii) Al igual que el método de bisección, la regula falsi puede no mantener necesariamente, en principio, ningún punto fijo a lo largo del proceso, y ambos métodos se denominan no estacionarios. iii) En conexión con lo anterior, si f(x) en alguno de los intervalos definidos por la regula falsi [aj, bj] mantiene el signo de su curvatura constante, f¢¢(x) > 0 ó f¢¢(x) < 0, entonces este método presentará en las sucesivas etapas, j + 1, j + 2, ..., siempre fijo uno y el mismo de los extremos del intervalo j. En este caso la regula falsi se convierte en un método estacionario. Esta es la situación final que cabe esperar para la mayoría de las funciones continuas, pues en las cercanías de xR el signo de la curvatura no debería de cambiar. Las diferentes posibilidades que se pueden presentar se tratan de
211
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
forma análoga y para mejor visualizar este proceso se analiza a continuación un ejemplo ilustrativo de este caso estacionario. EJERCICIO 4.4.1 Alcanzado con la regula falsi, en su caso, el comportamiento estacionario en [aj, bj] con constancia de signo en la curvatura, f¢¢(x) > 0 (concavidad hacia las y crecientes), discutir su aplicación para calcular la raíz de f(x) = 0. En este caso se toma como punto fijo, desde el que radiarán las secantes, aquél en el que f(x) > 0, y sea éste bj. Las iteraciones a partir de aquí siempre serán de la forma xR( n +1) =
f ( xR( n ) ) f ( xR( n ) ) − f (bj )
bj +
f (bj ) f ( bj ) − f ( xR( n ) )
xR( n ) = x(Rn ) −
f ( xR( n ) ) f ( xR( n ) ) − f (bj )
(x
(n ) R
− bj
)
(4.4.3)
en donde n = j + 1, j + 2, ... La sucesión de aproximaciones {xR(n)} resultante es monótona creciente y está acotada superiormente y, por tanto, tendrá límite cuando n Æ , {xR(n)} Æ a. Este límite es justamente el valor de la raíz buscada, pues tomando límites en el algoritmo (4.4.3) se encuentra
α =α −
(
)
f (α ) α − bj → f (α ) = 0 → xR = α f (α ) − f ( bj )
Un ejemplo gráfico de esta aplicación estacionaria puede verse en la Fig. 4T.2 en la que se representa el cálculo del Ejercicio 4.3.1.
Figura 4T.2. Aplicación de la regula falsi con trazado de secantes para el Ejercicio 4.3.1.
212
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
El siguiente apartado a considerar es el de la estimación del error y las cuestiones conexas relativas a la rapidez de convergencia del método. Aunque el error en general siempre puede estimarse con la acotación ya dada en (4.2.5), es muy útil disponer de estimaciones del error relacionadas con aproximaciones sucesivas, ÁxR(n+1) – xR(n)Á, pues dan una indicación directa del número de cifras significativas que van asentándose como estables en el resultado, siendo además algo muy sencillo de evaluar. Así cuando en una aplicación estacionaria f¢(x) es continua y mantiene signo constante en el intervalo de localización de la raíz y, además, satisface la doble acotación 0 < d1 ≤ f ′ ( x) ≤ D1 < ` ; a ≤ x ≤ b
(4.4.4)
entonces se verifica la desigualdad xR − xR( n ) ≤
D1 − d1 ( n ) xR − xR( n −1 ) d1
(4.4.5)
En particular, para el caso en el que se pueda tomar D1 ≈ 2d1 y con el intervalo [a, b] suficientemente pequeño, fijada una tolerancia e se tiene xR − xR( n ) ≤ x(Rn ) − xR( n −1) < ε Por otra parte, una relación entre los errores de dos aproximaciones sucesivas puede escribirse como (bj fijo) xR − xR( n ) = xR − xR( n −1 ) . xR − bj .
f "(ξn −1 ) ; f ′(ξn −1 )
xR( n −1) < ξn−1 < bj
(4.4.6)
La demostración de éstas y de otras relaciones se proponen como ejercicios teóricos de este capítulo. La regula falsi es también un método de convergencia lenta (lineal) y, en principio, no es siempre necesariamente más rápido que el de bisección, pues esta velocidad va a depender de la forma de f(x). Existen variantes más eficaces que optimizan el trazado de las secantes (métodos Illinois y Pegasus), y también otras alternativas que utilizan interpolaciones cuadráticas inversas que involucran tres estimaciones sucesivas de la raíz (método de Müller). Los métodos de bisección y de la regula falsi discutidos aquí
213
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
pertenecen a los denominados métodos iterativos de dos puntos, pues hacen falta dos puntos para obtener cada estimación.
4.5. Método de Newton-Raphson Siguiendo con la determinación de raíces simples xR para la ecuación no lineal f(x) = 0 el método de Newton-Raphson (o simplemente de Newton) es posiblemente el más popular y por un buen número de razones. Se trata de un método de iteración de sólo un punto, es decir sólo es necesario conocer una estimación de la raíz xR(n) para determinar la siguiente xR(n+1). En las condiciones adecuadas la convergencia a la raíz es cuadrática, con lo que se «dobla» el número de cifras estables del resultado en cada nueva iteración. Es así mucho más rápido que los dos métodos anteriores. Por otra parte, el método de Newton-Raphson forma la base de algoritmos muy útiles en la resolución de sistemas de ecuaciones no lineales, como se verá más adelante.
Definición del algoritmo En esencia el método de Newton-Raphson sustituye a la secante a f(x) de la regula falsi por la tangente a f(x) en un punto y el algoritmo es como sigue. Separada la raíz simple xR en el intervalo [a, b] en el que se mantienen continuas f(x), f¢(x) y f¢¢(x), y además f¢(x) y f¢¢(x) son no nulas y tienen signo constante, el desarrollo de Taylor cerca de la raíz buscada puede escribirse como 0 = f ( xR ) = f ( xR + h0 ) + f ′ ( xR + h0 )(− h0 ) +
1 f "( xR + h0 ) h02 + ... 2
(4.5.1)
en donde el centro de desarrollo se ha tomado en xR(0) = xR + h0, y h0 puede ser positivo o negativo. Despreciando términos de segundo orden y superiores es inmediato obtener una primera aproximación a xR xR ≈ x(R1 ) = xR(0 ) −
f ( xR(0 ) ) f ′( xR(0 ) )
(4.5.2)
El proceso se repite con xR(1) como nuevo centro de desarrollo, xR(1) = xR + h1, de nuevo con h1 pudiendo ser positivo o negativo, y se obtiene una nue-
214
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
va aproximación a xR, y así sucesivamente. La expresión general del algoritmo es xR( n +1) = xR( n ) −
f ( xR( n ) ) f ′( xR( n ) )
; n = 0,1, 2, 3,...
(4.5.3)
Esta ecuación es justamente el resultado de calcular el punto de intersección de la tangente a f(x) en (xR(n), f(xR(n))) con el eje x, de manera que la aproximación a la raíz tiene lugar a través del trazado de tangentes sucesivas a f(x) en los puntos de abcisas xR(n). Cada iteración sólo necesita información de la anterior para seguir adelante (técnica de un punto). Sin embargo, es crucial prestar atención al problema de la convergencia a la raíz buscada. En particular, la elección del punto de partida xR(0) puede ser determinante. Nótese, por ejemplo, que la primera derivada f¢(xR(0)) aparece en el denominador y que valores xR(0) con tangente horizontal (f¢ = 0) harían de este algoritmo uno inútil para su propósito. Lo mismo sucede en iteraciones sucesivas con las derivadas f¢(xR(n)), por lo que no sólo hay que prestar atención a la condición exigida en el planteamiento del problema, f¢(xR(n)) ≠ 0, sino también a los casos en los que f¢(xR(n)) ≈ 0, es decir de puntos intermedios con tangente casi horizontal, pues los errores de redondeo pueden echar a perder el cálculo. Además de esta contingencia práctica la situación puede ser todavía más compleja y es muy conveniente disponer de criterios suficientes para seleccionar el iniciador xR(0).
Condiciones suficientes de convergencia En las condiciones ya señaladas, la raíz simple xR separada en el intervalo [a, b] en el que se mantienen continuas f(x), f¢(x) y f¢¢(x), y además f¢(x) y f¢¢(x) son no nulas y tienen signo constante, una elección que garantiza la convergencia
{x } → x , (n ) R
n →`
R
es partir de un punto a ≤ xR(0) ≤ b en el que
f(xR(0)) f¢¢(xR(0)) > 0. Un ejemplo gráfico de esta aplicación se muestra en la Fig. 4T.3 para el cálculo del Ejercicio 4.3.-1. Otras opciones podrían fácilmente conducir a divergencias o a raíces situadas fuera del intervalo de interés [a, b]. Las demostraciones de estos hechos se dejan para los ejercicios teóricos propuestos. También hay que indicar que existen más condiciones suficientes que garantizan convergencia en otras situaciones, y muchas de ellas
215
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
pueden anticiparse sin más que realizar un sencillo gráfico aproximado de la función y viendo si los cortes de las tangentes sucesivas con el eje x van a llevar a la raíz. Por ejemplo, en la Fig. 4T.3 partiendo de un punto que no verifica la condición suficiente anterior, como es rR*(0) = 5, para el que f(5)f¢¢(5) < 0, también se alcanzaría la raíz, pues ya el primer trazado de tangente conduciría a una situación en la que el corte rR*(1) sí cumpliría la condición mencionada antes.
Figura 4T.3. Aplicación del método de Newton-Raphson con trazado de tangentes para el Ejercicio 4.3.1.
Estimación del error Por último hay que considerar la estimación del error cometido al hacer xR xR(n).La expresión general del error (4.2.5) puede afinarse notando que
)
(
f ( xR( n ) ) = f ( xR( n −1) ) + f ′( xR( n−1) ) xR( n ) − xR( n −1)) +
(
1 f "(ξn −1 ) xR( n ) − xR( n −1 ) 2
)
2
(4.5.4)
en donde xn–1 está incluido en el intervalo cerrado definido por xR(n–1) y xR(n). Los dos primeros términos de (4.5.4) son justamente la definición del algoritmo y por lo tanto f ( xR( n ) ) =
216
(
1 f "(ξn −1 ) xR( n ) − xR( n −1) 2
)
2
(4.5.5)
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
Tomando la acotación de f¢¢ con su valor máximo en el intervalo abierto (a, b), Áf¢¢(x)Á ≤ D2 < , se puede escribir xR − x(Rn ) ≤
2 D2 ( n ) xR − xR( n −1 ) 2 d1
(4.5.6)
una expresión que da el error en función de dos estimaciones sucesivas y que ya indica la convergencia cuadrática en cada paso de este método (compárese con (4.4.5)). Para probar el resultado (4.5.6) se utiliza el desarrollo de Taylor en torno a xR(n–1) para estimar xR
)
(
0 = f ( xR ) = f ( x(Rn−1) ) + f ′ ( xR( n −1 ) ) xR − xR( n−1 ) +
(
1 f "(ξn−1 ) xR − xR( n −1 ) 2
)
2
(4.5.7)
en donde xn–1 está incluido en el intervalo cerrado definido por xR(n–1) y xR. Combinando (4.5.7) con (4.5.3) aplicado para obtener xR(n) se obtiene con facilidad 2 1 f "(ξn −1 ) ( n −1 ) (4.5.8) xR − xR( n ) = − x − x 2 f ′( xRn−1 ) R R
)
(
)
(
Este último resultado indica cómo el error en la iteración n es proporcional al cuadrado del error en la iteración previa n – 1. Como a partir de un n dado estas cantidades son menores que la unidad, es claro que el número de cifras significativas estables alcanzadas para xR en una determinada iteración crece grandemente en la siguiente (aproximadamente «el doble»). La velocidad de este método es así mucho mayor que la de los precedentes y de ahí su utilidad.
La variante Newton-secante Una variante de este método evita el cálculo de la derivada f¢(xR(n)) sustituyéndolo por el cociente de incrementos f ′( xR( n ) ) ≈
f ( xR( n ) ) − f ( x(Rn−1) )
(4.5.9)
xR( n ) − xR( n −1 )
con lo que este algoritmo, denominado de Newton-secante, pierde su carácter de un punto pasando a ser ya de dos puntos y se expresa xR( n+1) = xR( n ) −
f ( xR( n ) ) f ( xR( n ) ) −
f ( xR( n −1) )
(x
(n ) R
− x(Rn−1)
)
(4.5.10)
217
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
4.6. Método iterativo de punto fijo El siguiente método de búsqueda de raíces es de nuevo de los denominados de un punto. Se le denomina de punto fijo atendiendo a su formulación, ya que consiste en expresar f(x) = 0 en una forma equivalente del tipo f(x) = x – F(x) = 0, generando aproximaciones xR(n) a la raíz dentro de [a, b] mediante el algoritmo xR( n+1) = F ( xR( n ) ) ; n = 0,1, 2, 3,...
(4.6.1)
En la teoría matemática de aplicaciones continuas F(x) la existencia de puntos fijos, que se definen como aquellos en los que el punto x coincide con su imagen F(x), x = F(x), juega un papel importante, y de esta nomenclatura proviene el nombre del presente método no lineal. Hay que señalar que no todas las particiones f(x) = x – F(x) van a ser adecuadas para que se produzca la convergencia a la raíz del algoritmo (4.6.1) y esto está estrechamente ligado a la elección de la aproximación inicial xR(0). El anterior proceso iterativo puede visualizarse como el del cálculo del punto de corte de dos funciones y = x e y = F(x). Si se selecciona xR(0) razonablemente próxima a xR, xR – d ≤ xR(0) ≤ xR + d, y en ese intervalo la derivada F¢(x) está acotada en la forma F ′( x) ≤ L < 1 ; xR − δ ≤ x ≤ xR + δ
(4.6.2)
entonces, independientemente del xR(0) seleccionado en el intervalo mencionado, el proceso será convergente a la raíz que además va a ser única. Es fácil ver que va a producirse el resultado indicado, ya que F ( x) − F ( x′ ) = F ′(ξ )( x − x′ ) ;
xR − δ ≤ x′ < ξ < x ≤ xR + δ
(4.6.3)
de donde utilizando la acotación de F¢ se obtiene la condición de Lipschitz F ( x) − F ( x′ ) ≤ L x − x ′
(4.6.4)
A partir de aquí se establece que xR − xR( n ) = F ( xR ) − F ( xR( n −1) ) ≤ L xR − xR( n −1) < xR − xR( n−1 )
218
(4.6.5)
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
Al ser L < 1, xR(n) estará más próxima a xR que xR(n–1). En consecuencia, el proceso iterativo no escapa del intervalo. Se tiene entonces xR − xR( n ) ≤ L xR − x(Rn −1) ≤ L 2 xR − xR( n − 2 ) ≤ ... ≤ L n xR − xR(0 )
(4.6.6)
y por tanto lim xR − xR( n ) = 0 → xR = lim xR( n )
n→ `
n→ `
(4.6.7)
Geométricamente, si F(x) tiene tangentes con inclinación Áf Á< 45° entonces el proceso será convergente. De nuevo hay que señalar que ésta es una condición suficiente de convergencia de utilidad para cualquier tipo de función F(x). La condición de Lipschitz (4.6.4) resulta más práctica y menos restrictiva. En este sentido la Fig. 4T.4 muestra situaciones de convergencia y de divergencia en la aplicación de este método a la ecuación x – x3 = 0 con la partición obvia x = F(x) = x3. Aquí es interesante notar que cualquier valor de partida xR(0) dentro de 0 < x < 1 va a llevar a convergencia a la raíz xR = 0, aunque la derivada F¢ = 3x2 en ese intervalo pueda tomar valores ≥1. Por otra parte, cualquier valor de partida xR(0) > 1 va a llevar a divergencia, y la raíz xR = 1 sólo podrá obtenerse con esta partición si se parte de ella misma en las iteraciones.
Figura 4T.4. Aplicación del método iterativo de punto fijo al caso x – x3 = 0. La situación de convergencia a xR = 0 se da para cualquier valor de partida xR(0) < 1. Se obtiene divergencia para valores xR(0) > 1.
219
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
También hay que notar que en este método las trayectorias de convergencia a, o divergencia de, la raíz pueden tomar formas diversas (monótonas, en espiral, etc.). Además, el algoritmo que se está considerando es muy lento, pues el error en un paso n es simplemente proporcional al error en el paso previo n – 1 y se dice que presenta convergencia lineal. Esto es similar a lo que sucede en la regula falsi, pero distinto de la convergencia cuadrática de Newton-Raphson. Una estimación del error en un paso puede obtenerse a partir simplemente de la estimación obtenida en él y resulta ser
xR −
xR( n )
≤
f ( xR( n ) ) d1
=
xR( n ) − F ( x(Rn ) ) 1− L
;
f ( x) = x − F ( x)
(4.6.8)
en donde se ha aplicado la acotación f ′( x) = 1 − F ′( x) ≥ 1 − F ′( x) ≥ 1 − L = d1 > 0
(4.6.9)
4.7. El caso de las raíces múltiples Supóngase que utilizando el método de Newton-Raphson o su variante de la secante para resolver una raíz de f(x) = 0 dentro de un intervalo [a, b], se observa una convergencia anómala a la raíz buscada xR, que pudiera manifestarse como i) Valores de f(xR(n)) muy pequeños con n creciente, en tanto que ÁxR(n) – x Á permanece relativamente grande. (n–1) R
ii) La velocidad de convergencia de ÁxR(n) – xR(n–1)ÁÆ 0 se muestra excesivamente lenta, es decir que tras muchas iteraciones no se alcanza un resultado razonablemente estable. Todo ello apunta hacia la posibilidad de que xR sea una raíz con multiplicidad j > 1. Estas observaciones pueden verse complementadas con el estudio del signo de la función en las cercanías de la raíz que se calcula (Fig. 4T.5). Una raíz xR con multiplicidad j indica que f(x) puede escribirse como f ( x) = ( x − xR ) j g( x)
220
(4.7.1)
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
Figura 4T.5. Comportamientos típicos de las funciones polinómicas alrededor de una raíz con multiplicidad par y multiplicidad impar. Se observan alrededor de la raíz múltiple comportamientos que recuerdan (no son) las simetrías par e impar: la multiplicidad par no cambia de signo, la impar sí.
Para j > 1 esto implica en general las siguientes relaciones para las derivadas sucesivas de f(x) f ( xR ) = f ′( xR ) = f "( xR ) = ... = f ( j −1) ( xR ) = 0 ;
f ( j ) ( xR ) ≠ 0
(4.7.2)
y además se considerará en adelante que g(x) ≠ 0 en un entorno pequeño de xR. La condición f¢(xR) = 0 ya muestra que los métodos de Newton van a presentar problemas en la evaluación de raíces múltiples. A continuación se revisan algunas ideas para abordar este problema.
Métodos para determinar la multiplicidad 1) Un tratamiento directo del caso j > 1 se basa en la observación de que la función auxiliar cociente j(x) = f(x)/f¢(x) tiene a xR como raíz simple. Así, se encuentra ( x − xR ) j g( x) f ( x) ; ϕ ( x) = = f ′( x) j ( x − xR ) j −1 g( x) + ( x − xR ) j g ′( x)
ϕ ′( x) = 1 −
f ( x) f "( x) f ′( x)
2
; lim ϕ ′( x) = x→ xR
ϕ ( xR ) = 0
1 ≠ 0 , j >1 j
(4.7.3)
(4.7.4)
221
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Este resultado muestra que j(x) no presentará problemas en su derivada al aproximarse a xR, por lo que el método de Newton (o su variante) puede aplicarse directamente a j(x) xR( n+1 )
=
xR( n)
−
ϕ ( xR( n ) ) ϕ ′( xR( n ) )
; n = 0,1, 2, 3,...
(4.7.5)
en donde ayudará la utilización de la condición suficiente de convergencia j(xR(0))j¢¢(xR(0)) > 0. 2) Otra posibilidad más sencilla, siguiendo con el método de NewtonRaphson, es hacer la aproximación g(x) ≈ constante llegando entonces a (4.7.6)
f ( x) = ( x − xR ) j g( x) ≈ cte.( x − xR ) j ; j > 1
de manera que f(x)/f¢(x) ⯝ (x – xR)/j, y el ciclo iterativo (4.5.3) se convierte en xR( n +1) = xR( n ) − j
f ( xR( n ) ) f ′( xR( n ) )
; n = 0,1, 2, 3, ... ; j > 1
(4.7.7)
Análogamente, para la variante Newton-secante se encuentra la expresión corregida xR( n +1 ) = x(Rn ) − j
f ( xR( n ) ) f ( xR( n ) ) − f ( xR( n −1 ) )
(x
(n) R
− xR( n −1)
)
(4.7.8)
3) En la aplicación de las opciones (4.7.7) y (4.7.8) anteriores la cuestión está en el desconocimiento previo de j, con lo que debe disponerse de una estimación de esta multiplicidad para poder aplicar (4.7.7) y (4.7.8). Una posibilidad obvia es utilizar (4.7.4) para estimar j con un valor aproximado x˜R. Otra es la del tanteo «bien dirigido». Supóngase que se ha utilizado un valor de prueba incorrecto para j, sea j1 y que lleva a una razonable estimación de xR, x˜R(1), pero tras un gran número de iteraciones. Se puede estimar una multiplicidad mejor j2 tomando dos valores x y x¢ separados de xR y efectuando las aproximaciones
)
(1 ) j f ( x) , cte.( x − x (1 ) ) j2 ln ( f ( x) / f ( x′) f ( x) ( x − x R ) 2 R , → j2 , Ä Ä Ä Ä (4.7.9) Ä ÄÄÄÄÄÄÄÄÄÄÄ → j2 ( 1 ) (1) (1) (1 ) j2 f x ( ) ′ x x ( ) ′ − ln ( x − xR ) / ( x′ − xR ) f ( x′ ) , cte.( x′ − x R ) R A partir de aquí se repiten los cálculos con el método de Newton utilizando como valor j2 el resultante del cociente de logaritmos neperianos en
(
222
)
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
(4.7.9), se determina una nueva aproximación a xR y se sigue con el proceso hasta obtener consistencia en la respuesta. 4) Desde otro punto de vista, en muchas ocasiones la multiplicidad de una raíz viene dada de antemano por razonamientos de tipo físico-químico, como son las relaciones simetría-degeneración presentes en muchos problemas (orbitales moleculares, vibraciones moleculares, etc.), de los que se tratarán algunas cuestiones elementales en el Cap. 9. Pero claramente esto requiere conocimientos ajenos al puro cálculo numérico.
B. SISTEMAS DE ECUACIONES 4.8. Sistema lineal (no homogéneo) Con ocasión del estudio de la aproximación de mínimos cuadrados ya se ha considerado una posibilidad de sistema lineal de ecuaciones (Cap. 1). El problema era del tipo «mal condicionado» al llevar asociadas matrices de Hilbert y una solución alternativa muy poderosa era la suministrada por los polinomios ortogonales. A continuación va a tratarse el problema general de un sistema de ecuaciones lineales no homogéneo y compatible determinado. La resolución numérica de este tipo de sistemas puede abordarse con una buena serie de métodos y hay que prestar atención a los posibles problemas derivados principalmente de los redondeos. Un sistema lineal no homogéneo tiene la forma a11x1 + a12 x2 + a13 x3 + ... + a1n xn = b1 = a1, n+1 a21 x1 + a22 x2 + a23 x3 + ... + a2n xn = b2 = a2, n +1 .... ....
.... .... .... .... .... .... an1 x1 + an2 x2 + an3 x3 + ... + ann xn = bn = an, n +1
(4.8.1)
en donde las n incógnitas se denotan por xi, los coeficientes por aij, y los términos independientes (no todos nulos) por bi = ai,n+1. En forma matricial el sistema (4.8.1) se expresa como Ax = b
(4.8.2)
con A una matriz cuadrada (n ¥ n), y x y b vectores columna (n ¥ 1).
223
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
a11 a12 a a A = 21 22 ... ... an1 an2
x1 b1 a1n ... a 2 n x2 b ; x= ; b = 2 ... ... ... ... ... ann xn bn ...
(4.8.3)
El teorema del Álgebra que garantiza la solución única para el sistema establece que el rango de la matriz A, r(A) = orden del mayor menor complementario no nulo, debe necesariamente ser igual al de A ampliada con la columna b de términos independientes, r(Ab), y además al número de incógnitas r(A) = r(Ab) = n (compatible determinado)
(4.8.4)
Si sucediera que r(A) = r(Ab) < n, entonces existe solución, pero no es única (compatible indeterminado), pues n – r(A) incógnitas pueden ser fijadas arbitrariamente y el resto se definen en función de ellas: se trata de una solución multiparamétrica. Si finalmente r(A) ≠ r(Ab), entonces el sistema no tiene solución (incompatible). Centrando la atención en los sistemas compatibles determinados, podría pensarse que la forma natural de resolverlos sería calcular las n incógnitas xi haciendo uso de la conocida regla de Cramer. Sin embargo, y a pesar de su elegancia formal, este método es poco práctico, pues el número de operaciones a realizar resulta muy elevado (~n!) comparado con sencillos métodos de eliminación (~n3/3) Por otra parte, el efecto acumulativo de los errores de redondeo será tanto mayor cuanto mayor sea el número de operaciones a realizar, y estos errores pueden llevar a resultados muy alejados de los auténticos. Otra fuente de complicaciones es la propia naturaleza de la matriz de coeficientes que se pueden resumir en: a) sus elementos aij pudieran venir afectados de errores de entrada dij y habría que intentar acotar su efecto final ei sobre las soluciones obtenidas, xi ± ei; b) muchos de los elementos aij pudieran ser nulos (matriz dispersa), o por el contrario muy pocos; c) la matriz A puede ser «mal condicionada» en el sentido de que, siendo su determinante ÔAÔ ≠ 0, su inversa A–1 presenta algunos elementos muy grandes en valor absoluto. Este es un tema muy delicado y sólo van a darse aquí unas ideas básicas sobre cómo abordar los problemas más sencillos.
224
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
Método de Gauss con pivote La idea general de este método directo es la de reducir ordenadamente, mediante eliminación de incógnitas, el sistema original a un sistema triangular superior. En este sistema triangular la primera ecuación mantiene las n incógnitas (x1, x2, x3, ..., xn), la segunda ecuación presenta n – 1 incógnitas (x2, x3, ..., xn), la tercera ecuación n – 2 incógnitas (x3, ..., xn), y así sucesivamente hasta llegar a la penúltima ecuación, la (n – 1)-sima con dos incógnitas (xn–1, xn), y la última n con sólo una incógnita (xn). La solución va de abajo arriba, despejando el valor de la incógnita xn de la última ecuación, sustituyéndola en la penúltima ecuación para obtener xn–1, y así hasta determinar todas las incógnitas. Si no hubiese errores de redondeo, las soluciones serían perfectamente correctas y exactas, al igual que sucedería con cualquier otro método directo como el de Cramer. Como estos errores son en general inevitables, una forma de minimizarlos es combinar el método de Gauss con la técnica conocida como la de selección de pivote: de entre todos los coeficientes en cada paso de eliminación se elige aquel coeficiente que difiera de cero lo máximo posible, para que al dividir por él los errores de redondeo permanezcan lo más controlados posible. Estas operaciones de «pivoteo» implican la reordenación del sistema a medida que se van realizando, lo que normalmente requiere de computación. La descripción de este proceso en detalle para un caso sencillo que sirve de ilustración se desarrolla como ejercicio a continuación. EJERCICIO 4.8.1 Describir las etapas del método de Gauss con selección de pivote para resolver el sistema lineal (3 ¥ 3) siguiente a11x1 + a12x2 + a13x3 = a14 a21x1 + a22x2 + a23x3 = a24 a31x1 + a32x2 + a33x3 = a34 El primer paso es seleccionar el elemento aij con mayor valor absoluto, sea éste a11 ≠ 0. Se elimina la incógnita x1 de las dos ecuaciones finales (i = 2 y 3) restándolas la primera multiplicada por el cociente ai1/a11 y se tiene la primera reducción
225
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
a11 x1 + a12 x2 + a13 x3 = a14 (1 ) (1 ) (1 1) a22 x2 + a23 x3 = a24 ; aij(1) = aij − a1j (1 ) (1 ) (1 ) x2 + a33 x3 = a34 a32
ai1 a11
; i = 2, 3 ; j = 2, 3, 4
El siguiente paso es buscar de nuevo el elemento de mayor valor absoluto entre los aij(1), para con él eliminar una de las dos variables, x2 o x3, de las (1) ≠ 0. En este caso la tercera dos últimas ecuaciones. Sea este elemento el a33 ecuación queda como está y a la segunda se la resta la tercera multiplicada (1) (1) /a33 . Se obtiene así por el cociente a23 a11 x1 + a12 x2 + a13 x3 = a14 (2 ) a22 x2
(2 ) (2 ) (1 ) (1 ) = a24 ; a22 = a22 − a32
(1 ) (1 ) (1 ) a32 x2 + a33 x3 = a34
(1 ) a23
(1 ) (2 ) (1 ) (1 ) a23 ; a = a − a 24 24 34 (1 ) (1 ) a33 a33
Por sustitución reversiva pueden determinarse ya las soluciones: primero x2 de la segunda ecuación, segundo x3 de la tercera, y por último x1 de la primera. El proceso es de notación un tanto complicada, pero resulta muy eficaz. En los casos de órdenes n elevados conviene ir reorganizando el sistema que se va obteniendo en cada paso para darle forma triangular progresiva. Esto obliga a ir renombrando los coeficientes y las incógnitas. En el caso que se está tratando estas operaciones se esquematizan como sigue a11 x1 + a12 x2 + a13 x3 = a14 Å Å Å Å Å Å Å Å Å a11 x1 + a12 x2 + a13 x3 = a14 (2 ) a22 x2
(2 ) (1 ) (1 ) (1 ) x2 + a23 x3 = a24 = a24 → Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å a22
(1 ) (1 ) (1 ) (2 ) (2 ) x3 = a34 Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å Å a33 a32 x2 + a33 x3 = a34
y en donde las equivalencias deberían resultar claras x1 = x1 , x2 = x3 , x3 = x2 a11 = a11 , a12 = a13 , a13 = a12 , a14 = a14 (1 ) (1 ) (1 ) (1 ) (1 ) (1 ) a22 = a34 = a33 = a32 , a23 , a24 (2 ) (2 ) (2 ) (2 ) = a22 , a34 = a24 a33
226
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
Estimación del error Este tipo de cálculos para órdenes n > 4 hay que realizarlos en computadora. A las soluciones calculadas se las denotará por x1s, x2s, x3s, ..., xns, y se las dispondrá en forma de vector columna x˜S (n ¥ 1) Una medida del error cometido en la resolución del sistema lineal viene dada por el vector residuo dado como matriz columna (n ¥ 1) R = b – Ax˜S
(4.8.5)
Si R = 0 es decir todas las componentes Ri = 0, la solución x˜S es exacta. En la mayoría de las aplicaciones esto no sucede y, entre otros criterios, una elección razonable es la de dar una cota de tolerancia e(~10-6, 10–8, etc.) para el cálculo de manera que, si se satisface para el cociente de normas (norma = módulo = longitud) la relación siguiente n
R b
∑R
2 i
=
i =1 n
∑
0
(4.9.6)
229
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
en donde las derivadas parciales se toman en (x0, y0) y l0 es un número que efectivamente hace S(x0, y0) > S(x1, y1). Nótese que valores grandes de l0 pudieran forzar situaciones indeseadas, efectuando un «salto» demasiado largo y situando la estimación fuera de la región razonable en la que el gradiente tiene sentido. Esto haría perder al método su utilidad y hay que prestar atención a la elección de un buen l0 (una serie de tanteos ayuda en ello). Una vez determinado el punto (x1, y1) se utiliza éste para obtener el siguiente (x2, y2) siguiendo el mismo proceso, y así sucesivamente. Este proceso se esquematiza en ∂S xn +1 = xn − λn ∂x n ∂S yn +1 = yn − λn ∂y n
; λn > 0 ; n = 0,1, 2, 3,...
(4.9.7)
con los valores ln adecuadamente elegidos y con las derivadas parciales calculadas en cada (xn, yn). Se genera así un camino de «descenso» en la magnitud S a través de puntos del plano xy caracterizado por una sucesión decreciente de valores S S( x0 , y0 ) > S( x1, y1 ) > S( x2 , y2 ) > ... > S( xn , yn ) > ...
(4.9.8)
La convergencia del proceso a la solución significativa para el problema no está garantizada sin más. La ruta de descenso puede extraviarse hacia regiones de S(x, y) en las que se alcancen otros mínimos, generalmente locales (relativos) o incluso tan absolutos como el buscado. El proceso puede quedar entonces «atrapado» en tales regiones y hay que analizar cuidadosamente los resultados para verificar su fiabilidad. En cuanto al error, el valor de S en cada etapa es ya una buena medida del error cometido, pudiendo indicar también aquellas situaciones con convergencias no deseadas como las de los mínimos locales (valores S significativamente mayores que cero y que permanecen estables con n crecientes).
230
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
BIBLIOGRAFÍA 1. SCHEID, F., Análisis Numérico, McGraw-Hill (serie Schaum), 1972. (Caps. 25, 26). Se mantienen los mismos capítulos numerados de consulta en la obra Numerical Analysis (1988). 2. SESÉ, L. M., Métodos Teóricos de la Química-Física (Vol. 1), UNED, Madrid, 1994. (Tema 5). 3. PRESS, W. H.; FLANNERY, B. P.; TEUKOLSKY, S. A. y VETTERLING, W. T., Numerical Recipes, Cambridge University Press, Cambridge, 1986. (Caps. 9, 10). 4. RICE, J. R., Numerical Methods, Software and Analysis, McGraw-Hill, Nueva York, 1983. (Caps. 6, 8). 5. RALSTON, A. y RABINOWITZ, P., A First Course in Numerical Analysis, Dover, Nueva York, 2001. (Caps. 8, 9).
231
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
PROBLEMAS TEÓRICOS Y NUMÉRICOS
Problemas teóricos 4.1) Discutir la aplicación de la regula falsi para encontrar una raíz simple xR de f(x) = 0, localizada en un intervalo [a, b] en el que f(a) > 0, f(b) < 0, y f¢¢(x) < 0. 4.2) Demostrar la fórmula que acota el error en el método de la regula falsi para la determinación iterativa estacionaria de una raíz simple xR de f(x) = 0, localizada en el intervalo [a, b], en función de la diferencia entre dos aproximaciones sucesivas xR − xR( n ) ≤
D1 − d1 ( n ) xR − x(Rn −1 ) d1
Supóngase que f¢ (x) cumple en el intervalo: i) continuidad; ii) signo constante; y iii) la doble acotación (4.4.4). 4.3) Demostrar la convergencia del proceso Newton-Raphson para localizar una raíz simple xR de f(x) = 0, localizada en el intervalo [a, b], en el que f¢(x) y f¢¢(x) son continuas, no nulas y con signo constante, cuando se inician las iteraciones con un xR(0) tal que a ≤ xR(0) ≤ b y f(xR(0)) f¢¢(xR(0)) > 0. 4.4) Demostrar que si una raíz xR de f(x) = 0 tiene multiplicidad j > 1, la derivada de la función cociente auxiliar j(x) = f(x)/f¢(x) se comporta en xR en la forma 1 lim ϕ ′( x) = ; j > 1 x → xR j
232
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
Problemas numéricos 4.5) Un potencial aproximado V(r) para describir la interacción entre dos átomos de helio en función de su distancia internuclear (r > 1,5 Å) viene dado por la expresión 0, 014932 −17 V ( r ) = 7, 700516 exp ( −4, 592034 r − × 10 Julios 6 r
)
en donde r se expresa en unidades de Å. Determinar numéricamente la distancia de equilibrio re < dada por la condición de anulación de la fuerza a lo largo de la dirección radial F = –dV/dr = 0, y la profundidad del pozo de potencial V(re). Utilizar los métodos de: a) Newton-Raphson; b) punto fijo. (1 Å = 10–10 m). 4.6) Determinar numéricamente los máximos y mínimos de la función de 2 (r) del estado 2s del átomo de hidrógeno distribución radial F2s(r) = r2R2s dado por el orbital r r R2 s ( r ) = C2 s 1 − exp − 2 a0 2 a0 Las magnitudes C2s y a0 son constantes (a0 = radio de la primera órbita de Bohr = 0,529177249 Å). Utilizar el método de Newton-Raphson y expresar los resultados en unidades de a0 4.7) Una ecuación empírica para determinar el volumen crítico VC de un gas es f(VC) = VC3 + 4AVC2 + 9BVC + 16C = 0 en donde A = –0,243672, B = 0,029859, C = – 0,002451. Calcular VC redondeando el resultado a cuatro decimales. Las unidades de volumen consistentes con los datos son l/mol.
233
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
4.8) Los momentos principales de inercia de una molécula poliatómica de n átomos son las tres raíces Ij de la ecuación secular Ixx − I P ( I ) = − I yx
− Ixy I yy − I
− Izx
− Izy
− Ixz − I yz = 0 Izz − I
en donde los elementos numéricos del determinante vienen dados por las expresiones n
Ixx =
n
∑
mi ( yi2 + zi2 ) Ixy = I yx =
i =1
n
∑
mi ( xi2
+
zi2 )
Ixz = Izx =
i =1
∑
∑m xz
i i i
i =1
n
Izz =
i i i
i =1
n
I yy =
∑m x y n
mi ( xi2
+
yi2 )
I yz = Izy =
i =1
∑m y z
i i i
i =1
En ellas mi es la masa del átomo i y las coordenadas de cada átomo r(x, y, z) se expresan como relativas a las del centro de masa molecular RCM(X, Y, Z) xi = X i − X CM
yi = Yi − YCM
zi = Zi − ZCM
∑ mi X i
∑ miYi
∑ mi Zi
X CM =
i
∑ mi i
YCM =
i
∑ mi i
ZCM =
i
∑ mi i
Las coordenadas (X, Y, Z) se refieren a un sistema de referencia ortogonal fijo en el espacio. Determinar numéricamente los momentos principales de inercia de las moléculas siguientes: a) Ozono O3, con la geometría molecular d(O – O) = 1,278 Å, f(O – O – O) = 116°49¢. m(O) = 15,9994 uma. b) Amoníaco NH3, con la geometría molecular piramidal de base regular con vértice en el átomo N:d(N – H) = 1,008 Å, f(H – N – H) = 107,3°. m(N) = 14,0067 uma, m(H) = 1,007825 uma. (1 Å = 10–10 m).
234
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
4.9) Un oscilador armónico bidimensional se mueve sujeto a una doble perturbación sinusoidal de acuerdo con el potencial V ( x, y) =
2 1 1 0, 5 ( x − 2 − λ sen x sen y + 0, 75 ( y − 3 2 2
)
)
2
Utilizando el método de Newton-Raphson encontrar los puntos en los que la fuerza F es nula utilizando diferentes valores de l = 0,1, 0,2, 0,5, en las cercanías del punto (x0, y0) = (2, 3). F = −∇ ⋅ V = −
∂V ∂V i− j ∂x ∂y
SOLUCIONES Problema 4.1 Se cumple la condición necesaria f(a)f(b) < 0 y como la segunda derivada de f(x) tiene signo constante en el intervalo, f¢¢(x) < 0 (convexidad dirigida hacia las y crecientes, como en y = –x2) se está en régimen estacionario. En estas condiciones el punto desde el que se radian las secantes es (b, f(b)). Nótese que f(b) < 0 y que el esquema iterativo es xR(0 ) = a xR(1 ) = a −
f ( a) ( a − b) f ( a) − f ( b )
=
f ( xR(1 ) )
xR(2 )
xR(1 )
−
f ( xR(1 ) ) −
f ( b)
( xR(1 ) − b)
.... xR( n +1)) = xR( n ) −
f ( xR( n ) ) f ( xR( n ) ) − f ( b)
( xR( n ) − b)
La sucesión {xR(n)} es monótona creciente y está acotada superiormente, pues xR(n) < b para todo n. Tiene por tanto límite a y coincide con la raíz buscada
235
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
lim n→ `
xR( n +1 )
= lim
n→ `
xR( n )
−
f (lim xR( n ) ) n →∞
f (lim xR( n ) ) − f ( b)
(lim xR( n ) − b) n→ `
n→ `
α =α −
f (α ) (α − b) → f (α ) = 0 → α = xR f (α ) − f ( b)
Problema 4.2 Sea para concretar (b, f(b)) el punto fijo en el que f(b) > 0, teniendo además f¢¢(x) > 0. El algoritmo es xR( n ) = xR( n −1 ) −
f ( xR( n −1 ) ) f ( xR( n −1 ) ) −
f ( b)
( xR( n −1) − b)
de donde se puede escribir la relación equivalente (f(xR) = 0) f ( xR ) −
f ( xR( n −1 ) )
=
f ( xR( n−1 ) ) − f ( b) xR( n −1 )
−b
( xR( n ) − xR( n −1) )
Aplicando el teorema del valor medio (teorema de Lagrange) se tienen las dos igualdades f ( xR ) − f ( xR( n −1 ) ) = ( xR − xR( n −1) ) f ′(ξn −1 ) ;
xR( n −1) < ξn −1 < xR
f ( xR( n−1 ) ) − f ( b) = ( xR( n −1) − b) f ′(ξn∗ −1 ) ;
xR( n −1) < ξn∗ −1 < b
y de ahí se obtiene ( xR − xR( n −1) ) f ′(ξn −1 ) = f ′(ξn∗ −1 )( xR( n ) − xR( n −1) ) de donde, sumando y restando xR(n) en el miembro de la izquierda, se llega a ( xR − xR( n ) ) =
f ′(ξn∗ −1 ) − f ′(ξn−1 ) ( n ) ( xR − xR( n −1) ) f ′(ξn−1 )
Como los puntos x están ambos en [a, b], y f¢(x) no cambia de signo y verifica la doble acotación, la expresión anterior puede en valor absoluto acotarse como
236
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
xR − xR( n ) ≤
D1 − d1 ( n ) xR − xR( n −1) d1
que es la fórmula que se quería demostrar. Nótese que la diferencia de derivadas en el numerador de la última igualdad tiene que ser menor o igual, en valor absoluto, que la diferencia entre los valores máximo D1 y mínimo d1 de la doble acotación de partida. Además, el cociente de derivadas indicado debe ser menor o igual que (D1/d1 – 1) al sustituir el denominador por un número d1 menor o igual que él.
Problema 4.3 Sea para concretar el caso definido por las condiciones siguientes en [a, b] f(a) > 0, f(b) < 0, f¢(x) < 0, f¢¢(x) < 0 El iniciador xR(n) debe ser tal que f(xR(0)) < 0. Entonces a partir de xR(0) = b se generan las aproximaciones sucesivas xR( n +1 ) = xR( n ) −
f ( xR( n ) ) f ′( xR( n ) )
El desarrollo en serie de Taylor en torno a xR(n) para estimar f(xR) = 0 y hasta segundo orden, con punto x indeterminado, pero interior al intervalo definido por xR(n) y xR, resulta ser 0 = f ( xR ) = f ( xR( n ) ) + f ′( xR( n ) )( xR − xR( n ) ) +
1 f "(ξ ) ( xR − xR( n ) )2 2
De aquí, por ser f¢¢(x) < 0, se deduce la desigualdad f(xR(n)) + f¢(xR(n))(xR – xR(n)) > 0 que combinada con el algoritmo del cálculo de las raíces indica que (f¢ < 0) xR < xR( n ) −
f ( xR( n ) ) f
′( xR( n ) )
= xR( n+1 )
237
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
un resultado que se cumple para cualquier valor n = 0, 1, 2, ... La sucesión {xR(n)} está entonces acotada inferiormente. Por otra parte, es claro del algoritmo generador que xR(n+1) < xR(n), y esto combinado con el resultado anterior implica que existe límite a, el cuál coincidirá con la raíz lim
n→ `
xR( n +1 )
= lim
n→ `
xR( n )
−
f (lim xR( n ) ) n→ `
f ′( lim
n→ `
xR( n ) )
→ α =α −
f (α ) → f (α ) = 0 → xR = α f ′(α )
El resto de las posibilidades alternativas a las condiciones del problema y compatibles con f(xR(0))f¢¢(xR(0)) > 0, se demuestran de forma análoga a la presentada.
Problema 4.4 La función puede escribirse como f(x) = (x – xR)j g(x) y la función auxiliar y su primera derivada se escriben como
ϕ ( x) =
( x − xR ) j g( x) f ( x) ; j >1 = f ′( x) j ( x − xR ) j −1 g( x) + ( x − xR ) j g ′( x)
ϕ ′( x) = 1 −
f ( x) f "( x) f ′( x)
2
La segunda derivada de f(x) se calcula de manera directa f "( x) = j ( j − 1)( x − xR ) j − 2 g( x) + 2 j ( x − xR ) j −1 g ′( x) + ( x − xR ) j g "( x) Con ello la derivada buscada queda
ϕ ′( x) = 1 −
{
( x − xR )2 j − 2 j ( j − 1) g( x)2 + 2 jg( x) g ′( x)( x − xR ) + g( x) g "( x)( x − xR )2
{
( x − xR )2 j − 2 j 2 g( x)2 + 2 jg( x) g ′( x)( x − xR ) + g ′( x)2 ( x − xR )2
y por tanto el límite cuando x Æ xR resulta
238
}
}
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
lim ϕ ′( x) = 1 −
x→ xR
j ( j − 1) 1 = ; j >1 j j2
que es la relación que se quería demostrar.
Problema 4.5 Por comodidad de notación se escribe el potencial en la forma V (r ) c = V ( r ) = a exp ( − b r − 6 ; a = 7, 700516 , b = 4, 592034 , c = 0, 014932 −17 10 r
)
con lo que la ecuación a resolver, anulación de la fuerza, se expresa dV c F = − = − − ab exp − br + 6 7 = 0 dr r y las dos primeras derivadas de la fuerza son c dF d 2V c d2 F d3V F ′ = = − 2 = − ab2 exp − br − 42 8 ; F " = 2 = − 3 = − − ab3 exp − br + 3366 9 dr r dr r dr dr Un tanteo de signos para F˜ indica que la raíz está contenida en el intervalo [2,75, 3] a) Newton-Raphson El algoritmo iterativo es en este caso rn +1 = rn −
− ab exp − brn + 6 c rn−7 ab2 exp − brn − 42c rn−8
Tomando los dos puntos de inicio siguientes, r0 = 2,75 y r0 = 3, se encuentran las sucesiones siguientes (resultados redondeados a 8 decimales)
239
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
r0 = 2,75
r0 = 3
r1 = 2,86921560
r1 = 2,94294376
r2 = 2,93393827
r2 = 2,95164988
r3 = 2,95089819
r3 = 2,95190775
r4 = 2,95190462
r4 = 2,95190797
r5 = 2,95190797
r5 = 2,95190797
r6 = 2,95190797 En los dos puntos iniciales, manteniéndose los comportamientos adecuados de la función y sus dos primeras derivadas, sólo el primero cumple con la condición suficiente mencionada F˜(r0 = 2,75))F˜(r0 = 2,75) > 0, pero se ve cómo ambos llevan a la solución correcta (un gráfico como el mostrado en la Fig. 4EP.1 ayuda a comprender porqué). El resultado es re = 2,95190797 ≈ 2,952 Å = 2,952.10–10 m y se trata efectivamente de un mínimo (F˜¢¢(re) > 0, no puede ser otra cosa como se comprueba en la Fig. 4EP.1, y su profundidad es V(re) = –1,25789 ¥ 10–22 Julios. Con los 8 decimales de la solución re el valor de la fuerza en ese punto es del orden ÔF(re)Ô ⬃10–30 J/Å = 10–20 J/m, y a efectos prácticos se tiene ÔF(re)Ô = 0.
Figura 4EP.1. Energía potencial de interacción y fuerza actuantes entre dos átomos de helio-4 con el potencial del Problema 5.
b) Método iterativo de punto fijo. La ecuación a resolver es
240
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
− ab exp − br + 6
c =0 r7
y una posible manera de descomponerla para aplicar este método podría ser r=
6 c exp[ br ] 6 c exp[ brn ] = f ( r ) → rn+1 = 6 ab ab r rn6
Ahora bien hay que analizar las propiedades de f(r) para ver si habría convergencia. Así, partiendo de un r0 adecuado sería suficiente para la convergencia que df r˜1 ≈ 1,31, y que se mantiene así hasta valores r < r˜2 ≈ 2,19, tomando valores mayores que la unidad para r > r˜ ≈ 2,19. Como la raíz se sabe que está localizada en [2,75, 3] esta partición de la ecuación no va a ser útil para calcularla. Se puede comprobar como aplicaciones que parten de puntos de ese intervalo llevan a rápidas divergencias en la solución. Pueden ensayarse otras particiones de la ecuación a resolver. Por ejemplo, dado que r > 0, una alternativa tomando logaritmos es − ab exp − br + 6
6c c 6c 1 = 0 → r 7 exp[ − br ] = → r = 7 ln r − ln = f ( r ) 7 ab b ab r
En este caso la condición suficiente es df 7 = 7/b ≈ 1,524. De manera que cualquier valor entre estos llevará a buen término el proceso iterativo. Este proceso junto con resultados redondeados a 8 decimales, partiendo de cuatro posiciones r0 diferentes y adecuadas, se resumen a continuación
241
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
rn +1 =
6c 1 7 ln rn − ln b ab
r0 = 2
r0 = 2,5
r0 = 3,5
r0 = 7,5
r1 = 2,35846031
r1 = 2,69861564
r1 = 3,21152684
r1 = 4,37331310
r5 = 2,89926795
r5 = 2,93225863
r5 = 2,96894581
r5 = 3,02202379
r10 = 2,94993979
r10 = 2,95118155 r10 = 2,95253007 r10 = 2,95442356
r15 = 2,95183564
r15 = 2,95188129 r15 = 2,95193081 r15 = 2,95200028
r20 = 2,95190532
r20 = 2,95190699 r20 = 2,95190881 r20 = 2,95191136
r32 = 2,95190797
r30 = 2,95190797 r29 = 2,95190797 r31= 2,95190797
y se tiene de nuevo el resultado conocido re = 2,95190797 ≈ 2,952 Å. En estos cálculos iterativos es importante observar que la convergencia funciona según lo esperado, de ahí que se haya exigido convergencia a 8 decimales. Esto ayuda a no cometer errores derivados de malas apreciaciones sobre la funcionalidad elegida para iterar. Como puede verse el criterio de selección del punto de partida es una condición suficiente que garantiza la convergencia. Esta convergencia es extremadamente lenta, pero se dirige con seguridad hacia la raíz re. Otros puntos de partida no necesariamente llevan a convergencia. Por ejemplo: se obtienen divergencias partiendo de r0 = 0,1, 0,5, 0,6; y se obtienen, sin embargo, convergencias a la raíz partiendo de r0 = 0,7, 0,75. Problema 4.6 La función de distribución radial desarrollada es 2
2
Φ2 s (r ) = r R (r ) =
C22s r 2 1 −
2
r r exp − ; r ≥ 0 2 a0 a0
Utilizando la variable reducida r* = r/a0 se escriben F2s y su derivada dF2s/dr* como 2 r∗ Φ2 s ( r ) = C r 1 − exp − r ∗ ; 2 ∗
242
∗2
dΦ2 s dr ∗
r ∗4 = C exp − r ∗ 2 r ∗ − 4 r ∗2 + 2r ∗3 − 4
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
en donde se ha hecho C = C22sa20. La anulación de la derivada para localizar los máximos y mínimos indica que F2s(r* Æ ) = 0, la función se anula (valor mínimo) en el infinito, y los valores finitos de r* en los que cabe esperar extremos vienen dados por 8r* – 16r*2 + 8r*3 – r*4 = 0 Una de las raíces es pues r*1 = 0 Æ F2s(0) = 0, mínimo y las otras tres raíces son las soluciones de la ecuación auxiliar f(r*) = r*3 – 8r*2 + 16r* – 8 = 0 Las dos primeras derivadas de f(r*) son f¢(r*) = 3r*2 – 16r* + 16;
f¢¢(r*) = 6r* – 16
Esta función f(r*) presenta un mínimo en r* = 4 y un máximo en r* = 4/3. Teniendo en cuenta que esta función sólo está definida para valores no negativos de r* una tabla de signos de f(r*) es r* sgn f(r*)
0 –
4/3 +
4 –
6 +
8 +
y las tres raíces (simples) están localizadas en los intervalos [0, 4/3], [4/3, 4] y [4, 6]. La aplicación del método de Newton requiere del algoritmo rn∗+1 = rn∗ −
rn∗3 − 8 rn∗2 + 16 rn∗ − 8 3 rn∗2 − 16 rn∗ + 16
En el intervalo [0, 4/3] un punto de partida que va a llevar a convergencia es r*0 = 0, pues f(0)f¢¢(0) > 0. En el intervalo [4/3, 4] ninguno de los dos extremos son válidos para efectuar el proceso iterativo, ya que anulan el denominador. Un valor de prueba como r*0 = 3 no cumple la condición suficiente utilizada antes, pues f(3)f¢¢(3) < 0, pero esta no es la única condición suficiente y la función es tal que también partiendo de r*0 = 3 se llega a una rápida convergencia a la raíz. En el intervalo [4, 6] el extremo r*0 = 6 cumple la condición suficiente y lleva a convergencia a la raíz. Estas discusiones pueden completarse con una inspección de la Fig. 4EP.2. Los resultados se resumen en las secuencias que se dan a continuación (datos redondeados a 8 decimales).
243
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Figura 4EP.2. Gráficos de la función de distribución radial y de su derivada para el estado 2s del átomo de hidrógeno (Problema 6).
Intervalo [0, 4/3]
Intervalo [4/3, 4]
Intervalo [4, 6]
r*2,0 = 0
r*3,0 = 3
r*4,0 = 6
r*2,1 = 0,5
r*3,1 = 2
r*4,1 = 5,42857143
r*2,2 = 0,71428571
r*3,2 = 2
r*4,2 = 5,25315615
r*2,3 = 0,76158624
r*4,3 = 5,23622139
r*2,4 = 0,76392636
r*4,4 = 5,23606799
r*2,5 = 0,76393202
r*4,5 = 5,23606798
r*2,6 = 0,76393202 Nótese que la raíz r* = 2 podría haberse anticipado, al ser este valor un divisor entero del término independiente de f(r*) que verifica además la ecuación. Los resultados finales para las raíces y sus caracterizaciones son
244
r*1 = 0 (mínimo)
F2s(r*1) = 0
r*2 = 0,76393202 ≈ 0,764 (máximo relativo)
F2s(r*2) = 0,10383952C
r*3 = 2 (mínimo)
F2s(r*3) = 0
r*4 = 5,23606798 ≈ 5,236 (máximo absoluto)
F2s(r*4) = 0,38193583C
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
Aquí los valores redondeados son de carácter simplificador para visualizar. Repárese en que a0 viene ya definido con 9 cifras decimales y que el modelo matemático utilizado para los orbitales atómicos es exacto.
Problema 4.7 La ecuación para determinar el volumen es f(V) = V3 + 4AV2 + 9BV + 16C = 0 La función f(V) sólo presenta un cambio de signo. Se trata de una cúbica que posee un máximo y un mínimo, pero ambos puntos poseen f(V) < 0, lo que combinado con los comportamientos asintóticos, f(V Æ –) Æ – y f(V Æ ) Æ , indican que sólo hay una raíz real. Una localización de esta raíz es en el intervalo [0,6(–), 0,7(+)], en donde se incluyen los signos de f(V) en los extremos. La aplicación del método de Newton partiendo de V0 = 0,6 se resume a continuación (datos redondeados a 8 decimales) Vn+1 = Vn −
Vn3 + 4 AVn2 + 9 BVn + 16 C 3Vn2 + 8 AVn + 9 B
V0 = 0,6 V1 = 0,67182184 V2 = 0,65704295 V3 = 0,65625117 V4 = 0,65624895 V5 = 0,65624895 El volumen crítico es pues VC ≈ 0,6562 l/mol.
245
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Problema 4.8 a) La molécula de ozono es plana y lo primero será determinar su centro de masa. Una disposición geométrica conveniente es aquella en la que los tres átomos están en el plano con las coordenadas siguientes (Fig. 4EP.3)
Fig. 4EP.3. Diagrama de la orientación espacial de partida para la molécula de ozono en un sistema de ejes fijo en el espacio (Problema 8).
Tabla (a1). Problema 4.8 ÁTOMO - O
X(Å)
Y(Å)
Z(Å)
1
0
0
1,278
2
0
0
0
3
0
1,140557
–0,576553
Las coordenadas anteriores están redondeadas a 6 decimales, y se ha utilizado el ángulo b = 116,8167° – 90° = 26,8167° para calcular las proyecciones (coordenadas) del átomo 3 sobre los ejes. Préstese atención, dependiendo de la máquina de cálculo, a la elección de grados o radianes (1 radián = 180°/p grados sexagesimales). Con estos datos y de nuevo redondeando a 6 decimales se obtienen las coordenadas del centro de masa molecular XCM = 0, YCM = 0,380186, ZCM = 0,233816 Las coordenadas de los átomos relativas a este nuevo origen, r = R – RCM, son
246
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
Tabla (a2). Problema 4.8 ÁTOMO - O
x(Å)
y(Å)
z(Å)
1
0
–0,380186
1,044184
2
0
–0,380186
–0,233816
3
0
0,760371
–0,810369
Nótese que al ser los tres átomos iguales las sumas parciales de las coordenadas deberían ser Sxi = Syi = Szi = 0, pero que los redondeos utilizados en la tabla no van a preservar esta propiedad. Este tipo de detalle podría en algunos casos afectar a la calidad de los resultados para los momentos de inercia calculados con los datos de la tabla. Para minimizarlo, los cálculos que se detallan a continuación se han efectuado en doble precisión, pero el lector puede realizar pruebas con el número de decimales que elija y observar el efecto de estos redondeos, que en el caso de 6 decimales no es determinante. La evaluación de los elementos de la matriz (o el tensor) de inercia lleva a los siguientes resultados (con 6 decimales) I xx = 42, 701365
I yy = 28, 825936
I yz = Izy = −14, 787796
Izz = 13, 875429
Ixy = I yx = Ixz = Izx = 0
El determinante secular queda entonces
P
(3)
42, 701365 − I 0 0 (I) = 0 28, 825936 − I 14, 787796 = 0 0 14, 787796 13, 875429 − I
que se factoriza directamente en una solución I1 = 42,701365 uma. Å2 y un determinante secular (2 ¥ 2) P (2) =
28, 825936 − I 14, 787796 =0 14, 787796 13, 875429 − I
que lleva a una ecuación de segundo grado de la que se pueden determinar las otras dos soluciones.
247
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Sin embargo, esto no es lo que va a suceder en general y aquí se seguirá el proceso basado en la determinación de las tres raíces del polinomio de tercer grado tal cual P(3)(I) = I3 + aI2 + bI + c en donde los parámetros toman los valores a = –85,40273034
b = 2004,699924357
c = –7741,47298685
Un estudio previo de los cambios de signo de P(3)(I), teniendo en cuenta que I > 0, arroja la tabla siguiente I
0
4
10
20
35
40
45
sgn P(3)(I)
–
–
+
+
+
–
+
de manera que las tres raíces (simples) están en los intervalos [4, 10], [35, 40] y [40, 45]. La utilización del método de Newton se resume en el algoritmo y resultados siguientes In +1 = In −
In3 + aIn2 + bIn + c 3 In2 + 2 aIn + b
Intervalo [4, 10]
Intervalo [35, 40]
Intervalo [40, 45]
I1,0 = 4
I2,0 = 35
I3,0 = 45
I1,1 = 4,74854573
I2,1 = 37,27705105
I3,1 = 43,33654163
I1,2 = 4,78082248
I2,2 = 37,86261809
I3,2 = 42,77629818
I1,3 = 4,78088144
I2,3 = 37,91989891
I3,3 = 42,70264698
I1,4 = 4,78088144
I2,4 = 37,92048366
I3,4 = 42,70136556
I2,5 = 37,92048372
I3,5 = 42,70136517
I2,6 = 37,92048372
I3,6 = 42,70136517
Redondeados a 6 decimales los resultados finales son I1 = 4,780881 uma. Å2,
I2 = 37,920484 um. Å2,
I3 = 42,701365 uma. Å2
La molécula de ozono pertenece al grupo de moléculas trompo asimétricas, pues sus tres momentos principales de inercia son diferentes. Comprobaciones adicionales de estos resultados son la sustitución en la ecuación P(3)(I) = 0, o la observación de la invariancia de la suma de los elementos dia-
248
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
gonales del tensor de inercia que debe ser igual a la suma de las tres raíces calculadas (85,402703). Más pruebas se estudian en el Cap. 9. Como siempre hay que insistir en que, aunque no todos los decimales con los que se ha trabajado son significativos, conviene mantener todos los posibles en el cálculo intermedio, sobre todo si van a ser utilizados para otros cálculos posteriores, como por ejemplo en espectroscopia de rotación. De esta manera se evitarán efectos indeseados derivados de los redondeos que puedan alterar la calidad de los resultados finales (frecuencias de rotación molecular, etc.). b) La molécula de amoníaco tiene cuatro átomos y tiene forma piramidal con la base definida por los tres hidrógenos equilátera. El cálculo de coordenadas es ahora más complicado. Un posible método es el siguiente (Fig. 4EP.4). Se disponen inicialmente los átomos en una geometría razonablemente cómoda para determinar sus coordenadas (X, Y, Z): el N(1) se sitúa en el origen de coordenadas, un átomo H(2) en el plano ZY, con el eje de simetría vertical al plano de los tres átomos H y todos ellos con coordenadas Z < 0. De esta forma una rotación de 120° en sentido horario alrededor de este eje, vista desde arriba, va a transformar la posición de H(2) en la del átomo H(3), la de H(3) en la de H(4), y la de H(4) en la de H(2). Con una nueva rotación de 120° en sentido horario, el resultado final de las dos rotaciones se resume en los cambios de posición: H(2) Æ H(3) Æ H(4), H(3) Æ H(4) Æ H(2), H(4) Æ H(2) Æ H(3). En todo este proceso las coordenadas Z negativas
Fig. 4EP.4. Diagrama de la orientación espacial de partida para la molécula de amoníaco, en un sistema de ejes fijo en el espacio (Problema 8).
249
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
de los átomos H permanecen idénticas; las coordenadas X e Y están relacionadas mediante las consabidas matrices de rotación bidimensionales y se pueden generar a partir de las de H(2). Las coordenadas de H(2) son H(2) = (X2, Y2, Z2) = (0, 1,008 cos 17,3°, –1.008 sen 17,3°) y las coordenadas XY de H(3) [q = 120°] y H(4)[q = 240° ó –120°] se obtienen de las relaciones X = X2 cos q + Y2 sen q
q en sentido horario (+)
Y = –X2 sen q + Y2 cos q Efectuando estas operaciones se tienen las coordenadas iniciales (redondeos a 6 decimales) Tabla (b1). Problema 4.8 ÁTOMO
X(Å)
Y(Å)
Z(Å)
N(1)
0
0
0
H(2)
0
0,962399
–0,299754
H(3)
0,833462
–0,481199
–0,299754
H(4)
–0,833462
–0,481199
–0,299754
La posición del centro de masa es pues XCM = 0, YCM = 0, ZCM = –0,053217 y las coordenadas relativas (x, y, z) a esta posición CM son Tabla (b2). Problema 4.8
250
ÁTOMO
X(Å)
Y(Å)
Z(Å)
N(1)
0
0
0,053217
H(2)
0
0,962399
–0,246537
H(3)
0,833462
–0,481199
–0,246537
H(4)
–0,833462
–0,481199
–0,246537
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
La matriz de inercia tiene por elementos Ixx = 1,623625
Iyy = 1,623625
Izz = 2,800378
Ixy = Iyx = Ixz = Izx = Iyz = Izy = 0 La elección de geometría ha factorizado el determinante y los momentos principales de inercia son los valores diagonales. Como antes, y para ilustrar situaciones de interés en el caso de raíces múltiples de orden par, va a procederse siguiendo el modo general determinando las raíces del polinomio de tercer grado P(3) = I3 + aI2 + bI + c
a = –6,047627
b = 11,729681
c = –7,382235
La tabla de signos es muy particular. Una primera tabulación sencilla produce I
1
5
10
15
sgn P(3)(I)
–
+
+
+
y espaciados más finos indican que sólo hay un cambio de signo localizado entre 2 < I < 3. Hay una raíz en ese intervalo y como debe haber tres en total y todas reales, por ser la matriz de inercia simétrica (Cap. 9), las dos que faltan deben constituir una raíz doble. Este comportamiento es el mismo que en x2 = 0, en donde no hay cambio de signo en la función alrededor de x = 0. Utilizando el algoritmo de Newton se encuentran los resultados siguientes In + 1 = In − j
In3 + aIn2 + bIn + c 3 In2 + 2 aIn + b
I1,0 = 2 (j = 2)
I3,0 = 5 (j = 1)
I1,1 = 1,507926
I3,1 = 4,044867
I1,2 = 1,618668
I3,2 = 3,431206
I1,3 = 1,623614
I3,3 = 3,059689
I1,4 = 1,623625
I3,4 = 2,869179
I1,5 = 1,623625
I3,5 = 2,807222 I3,6 = 2,800456 I3,7 = 2,800378 I3,8 = 2,800378
251
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
La molécula de amoníaco es del tipo trompo-simétrico y sus momentos de inercia a 6 decimales son I1 = I2 = 1,623625 amu. Å2,
I3 = 2,800378 amu. Å2
La determinación de las direcciones de los ejes principales de inercia se realiza resolviendo un sistema de ecuaciones en una forma similar a lo mostrado en el Cap. 9 (diagonalización).
Problema 4.9 La condición de anulación de la fuerza F implica que las dos componentes deben ser simultáneamente nulas. Se tiene así f ( x, y) = g( x, y) =
∂V = 0, 5 ( x − 2) − λ cos x sen y = 0 ∂x ∂V = − λ senx cos y + 0, 75 ( y − 3) = 0 ∂y
y las derivadas parciales necesarias para la aplicación del método son fx = 0,5 + l sen x sen y
fy = –l cos x cos y
gx = –l cos x cos y
gy = l sen x sen y + 0,75
Utilizando el método de Newton los resultados, redondeados a 6 decimales, se resumen a continuación. − f ( xn , yn ) = hn fx ( xn , yn ) + kn f y ( xn , yn ) xn+1 = xn + hn → ; n = 0,1, 2, 3,... yn+1 = yn + kn − g( xn , yn ) = hn gx ( xn , yn ) + kn g y ( xn , yn ) a) l = 0,1
252
(x0, y0) = (2, 3)
V0 = –0,012832
(x1, y1) = (1,978977, 2,880857)
V1 = –0,018228
(x2, y2) = (1,979575, 2,881759)
V2 = –0,018228
(x3, y3) = (1,979575, 2,881759)
V3 = –0,018228
RESOLUCIÓN NUMÉRICA DE ECUACIONES Y SISTEMAS
b) l = 0,2 (x0, y0) = (2, 3)
V0 = –0,025664
(x1, y1) = (1,940279, 2,761546)
V1 = –0,046972
(x2, y2) = (1,946540, 2,768950)
V2 = –0,047002
(x3, y3) = (1,946558, 2,768963)
V3 = –0,047002
(x4, y4) = (1,946558, 2,768963)
V4 = –0,047002
c) l = 0,5 (x0, y0) = (2, 3)
V0 = –0,064160
(x1, y1) = (1,720251, 2,376382)
V1 = –0,177081
(x2, y2) = (1,831897, 2,483578)
V2 = –0,188336
(x3, y3) = (1,839050, 2,489175)
V3 = –0,188369
(x4, y4) = (1,839076, 2,489196)
V4 = –0,188369
(x5, y5) = (1,839076, 2,489196)
V5 = –0,188369
Si no hubiera perturbación, l = 0, el mínimo del potencial V(l = 0) = 0 estaría en (x0, y0) = (2, 3). El efecto de esta perturbación es desplazar el mínimo hacia posiciones más próximas al origen de coordenadas. En estos resultados hay que notar la más rápida convergencia relativa del valor del potencial que la de la posición del mínimo.
253
II INTRODUCCIÓN A LA TEORÍA Y APLICACIONES DE LA ESTADÍSTICA
5. Distribuciones de probabilidad 6. Muestreo, estimación y decisión estadística 7. Correlación, regresión y estadística no paramétrica
CAPÍTULO 5 DISTRIBUCIONES DE PROBABILIDAD
5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 5.7.
Probabilidad, Estadística y Química Variables aleatorias, población y muestra Funciones de distribución de probabilidades Caracterización de una distribución de probabilidad Ejemplos de distribuciones discretas Ejemplos de distribuciones continuas Composición de variables aleatorias
Bibliografía Problemas teóricos y numéricos
La Química como tal está plagada de aplicaciones, tanto experimentales como teóricas, en las que los razonamientos estadísticos que involucran variables aleatorias y distribuciones de probabilidad son indispensables tanto para entender y formular los problemas, como para obtener soluciones aceptables de ellos. Para ilustrar todas estas interrelaciones se da primeramente una discusión en la que se presentan los conceptos básicos de probabilidad, del razonamiento estadístico, y de las aplicaciones en la Química de estas herramientas matemáticas. Se dan seguidamente las definiciones básicas de variables aleatorias, de población y muestra, y se pasa a discutir las funciones de distribución de probabilidades (densidad e integral) en los casos discreto y continuo para variables monodimensionales. Después se estudian los parámetros que permiten caracterizar una población (valor medio, desviación típica, etc.) y se continúa con el estudio de ejemplos discretos en una dimensión: la distribución binomial (útil para estudiar situaciones divalentes, como las redes de espines ½); la distribución de Poisson (útil para estudiar fluctuaciones en volúmenes pequeños o la desintegración de sustancias radiactivas), y la distribución multinomial que generaliza la binomial. El punto siguiente es el de los ejemplos de distribuciones continuas en una dimensión: la distribución uniforme (sorteos al azar), y la omnipresente distribución Gaussiana (ley de errores y de las velocidades moleculares en un gas —Maxwell—), de la que se resalta su importancia general como ley límite (teorema cen-
257
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
tral del límite). Por último, se considera la composición de variables aleatorias y los valores medios y dispersiones de estas composiciones, concluyendo con una breve nota sobre las distribuciones multidimensionales en general y sobre la descripción de éstas mediante la representación en «cluster». Variables aleatorias
Población
Muestra
Funciones densidad e integral CASOS MONODIMENSIONALES: DISCRETO Y CONTINUO Parámetros Media Varianza Momentos en general
Ejemplos Caso discreto: Binomial Poisson Multinomial
Caso continuo: Uniforme Gaussiana (normal) Log-normal
Variables derivadas Transformaciones simples Composición
CASO N-DIMENSIONAL Independencia Dependencia Covarianza «Clusters»
Caps. 6, 7, 8, 10
5.1. Probabilidad, Estadística y Química El concepto de probabilidad Los primeros intentos conocidos de cuantificar en términos matemáticos las posibilidades de que determinados sucesos de entre un conjunto de ellos pudieran observarse tuvieron lugar hacia mediados del s. XVII y estaban ligados a los juegos de azar. Al concepto emergente detrás de esta cuantificación del azar (o aleatoriedad) se le denominó probabilidad y en su clarificación inicial intervinieron matemáticos de primera línea como Pascal y Fermat (s. XVII), Bernouilli (1713), de Moivre (1718, 1756), hasta culminar en Laplace (1812). El desarrollo conceptual de la Teoría de Probabilidades no acabó entonces, pues fue entremezclándose paralelamente con el desarrollo de la Estadística hasta bien entrado el s. XX. Ambas disciplinas forman hoy parte obligada de los estudios científicos tanto en su vertiente pura, en lo que se suelen llamar ciencias «duras» (Matemáticas, Física, Química, etc.), como en la vertiente aplicada en las ciencias sociales.
258
DISTRIBUCIONES DE PROBABILIDAD
Inicialmente, la probabilidad de aparición de un suceso S1 en un juego acabó identificándose como el cociente del número de casos favorables para la presentación del suceso entre el número total de casos posibles que se podrían dar en la realización del juego en cuestión. La probabilidad quedaba así definida como un número que forzosamente quedaba comprendido entre 0 y 1 0 ≤ p( S1 ) =
número decasos favorables ≤1 número decasoss posibles
(5.1.1)
Esta es la conocida como definición clásica de probabilidad. Hay que notar que hubo necesidad de tener que identificar con claridad cada uno de los dos factores del cociente anterior. En juegos sencillos con resultados excluyentes, como el de arrojar una moneda, con dos resultados (cara y cruz), o un dado cúbico, con seis resultados uno por cada cara, ambos factores resultaban en principio evidentes. Sin embargo, en juegos más complicados en los que intervenían decisiones lógicas con posibilidades no necesariamente excluyentes (lanzamientos sucesivos de varios dados o juegos de naipes con extracciones, todos ellos dependientes de condiciones diversas, etc.) estos factores dejaban de ser tan fácilmente identificables. Todo ello forzó el desarrollo del análisis combinatorio como una manera fiable de efectuar recuentos (se suele definir esta disciplina como el arte de contar sin contar). Es muy importante reparar en que dentro de la definición clásica (5.1.1) está contenido un elemento de simetría subyacente que implica que, a falta de información adicional, todos los sucesos posibles son igualmente probables. Este es el denominado principio de igualdad de probabilidades a priori y se trata de una definición que plantea la dificultad de incluir lo definido (probabilidad) en la definición. Por otra parte, si un dado está «cargado» y favorece la salida de una cualquiera de sus caras sobre las demás, o si la baraja de naipes está «trucada», o si existe alguna causa no necesariamente fraudulenta que haga desaparecer la simetría aludida, entonces (5.1.1) deja de ser aceptable como definición de probabilidad. Por ejemplo, ante la elección del primer plato de un menú por los componentes de un grupo de personas desconocidas entre una oferta de cuatro posibilidades, un observador imparcial asignaría una probabilidad de un 25% a cada uno de los platos, asignación que podría ser mucho más precisa si el observador conociera información adicional sobre los hábitos de los sujetos. La consecuencia es pues que la
259
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
definición (5.1.1) es una formulación ideal de la cuantificación de la posibilidad: el dado se considera perfecto, uniforme y homogéneo, la baraja sin trucos, los comensales absolutamente impredecibles, etc. Su aplicación queda restringida a lo que se denominan espacios equiprobables. Por otra parte, los inicios de la Estadística como ciencia realmente cuantitativa comenzaron en el s. XVIII con la incorporación de los conceptos probabilistas existentes mencionados al análisis de muchas cuestiones que podían investigarse estudiando grandes poblaciones humanas. Las respuestas obtenidas fueron de gran valor, lo que explica el gran auge en aquellos tiempos de los estudios de las relaciones edad-mortalidad y del desarrollo de los consiguientes seguros de vida. La extensión de este tipo de razonamientos fue rápida y no ha cesado. Hoy es común saber de estudios de los controles estadísticos de calidad en la producción de bienes y servicios, o de estudios de las poblaciones humanas para averiguar los hábitos de consumo, aficiones y demás, que contribuyen a dinamizar (aunque no siempre) la actividad económica. Paralelamente al desarrollo del concepto ideal expresado en (5.1.1) se fue observando que en condiciones controladas las frecuencias relativas fr de los sucesos tendían hacia los correspondientes valores indicados por (5.1.1) al aumentar el número de ensayos. Así, al arrojar un dado cúbico, tan perfecto como podía conseguirse, el número de veces m que se presentaba una cualquiera de sus caras dividido por el número total de veces n que se arrojaba el dado se acercaba a la razón simétrica esperada fr = m/n Æ 1/6 (n creciente), y tanto más cuanto mayor se hacía n. Lo mismo se observó en otros muchos casos de diferente naturaleza y este efecto de estabilidad de las frecuencias relativas ofreció finalmente la alternativa de expresar la probabilidad de un suceso como la frecuencia relativa de éste al realizar un número muy grande de ensayos. La generalización natural como paso al límite de infinitos ensayos da una nueva definición de probabilidad de naturaleza estadística p = lim fr = lim n→ `
n→ `
m n
(5.1.2)
en la que, a efectos prácticos, interviene explícitamente la consideración de grandes números. Sin embargo, desde un punto de vista matemático formal esta definición, aunque de gran valor operativo, tampoco resulta completamente satisfactoria, pues hay que definir cómo realizar una secuencia infi-
260
DISTRIBUCIONES DE PROBABILIDAD
nita de experimentos en la que se mantengan ciertas condiciones fijas durante un tiempo ilimitado, de manera que el límite expresado tenga sentido. Todo esto no es hoy un problema pues se ha construido una teoría de la probabilidad que permite una presentación axiomática ligada a la teoría de conjuntos.
Breve presentación axiomática de la probabilidad Se define la probabilidad p de un suceso como un número 0 ≤ p ≤ 1 tal que p(Sk ) = 0
→ Sk = suceso imposible
p(Sk ) = 1
→ Sk = suceso seguro (cierto)
(5.1.3)
Se denomina espacio muestral S al conjunto de todos los sucesos (resultados), S1, S2, ..., Sk,... que pueden aparecer en un experimento aleatorio, en donde la definición precisa del experimento delimita los sucesos que pueden presentarse. Estos espacios pueden ser discretos o continuos. Los espacios discretos a su vez pueden ser finitos (las seis caras de un dado que pueden salir al arrojarlo), o infinitos pero numerables, es decir que admitan una ordenación, incluyendo el 0, con los números naturales: 0, 1, 2, 3, ,..., n, ... (por ejemplo, para un dado «descargado» en una de sus caras el número de tiradas necesarias hasta que aparezca ésta pudiera ser n Æ ⬁). Los espacios continuos no son numerables, como son los resultados dentro del rango marcado por un intervalo de números reales, por ejemplo 0 < x < 1. Los sucesos pueden ser mutuamente excluyentes o no y, además, pueden componerse entre sí para dar otros nuevos sucesos. La exclusión implica que no hay solapamientos entre ellos, o aparece uno o aparece el otro, pero no los dos a la vez. Las operaciones de composición básicas son la «suma» (unión) y el «producto» (intersección). Para dos sucesos mutuamente excluyentes la probabilidad de su «suma» se formula p(S1 + S2 ) = p( S1 ) + p(S2 )
(5.1.4)
y representa la probabilidad de que aparezca S1 o S2 (la ocurrencia de al menos uno de los dos). Una posibilidad adicional es la de sucesos independientes (o no). Si dos sucesos son independientes (o estocásticamente inde-
261
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
pendientes), la probabilidad de su «producto», o aparición conjunta de ambos S1 y S2, se formula p(S1S2 ) = p(S1 ) p( S2 )
(5.1.5)
y cuando los sucesos son mutuamente excluyentes se tiene que p(S1S2 ) = 0. Las anteriores son circunstancias muy particulares y, en general, se tienen las dos relaciones básicas siguientes que tienen en cuenta los posibles solapamientos y la no independencia de sucesos p( S1 + S2 + S3 + ...) ≤ p(S1 ) + p( S2 ) + p(S3 ) + ...
(5.1.6)
p( S1S2 ) = p(S1 S2 ) p( S2 )
(5.1.7)
en donde el signo < en (5.1.6) expresa la posibilidad de que una o más parejas de sucesos tengan tales solapamientos, y (5.1.7) expresa la posibilidad de que aparezca S1 cuando se sabe que S2 ya ha ocurrido. La cantidad p(S1ÔS2) es la probabilidad condicional asociada a este último hecho y se reduce a (5.1.5) para sucesos independientes. Cuando por otra parte un conjunto de n sucesos verifica p(S1 + S2 + S3 + ... + Sn ) = p(S1 ) + p(S2 ) + p(S3 ) + ... + p( Sn ) = 1
(5.1.8)
se dice que los n sucesos forman un sistema completo S = S1 + S2 + S3 +...+ Sn – y se define el suceso complementario S k de uno dado Sk como aquel que consiste en que Sk no aparezca, verificándose Sk = S − Sk = S1 + S2 + ... + Sk −1 + Sk +1 + ... + Sn
(5.1.9a)
p(Sk ) = 1 − p( Sk ) → Sk = suceso complemetario de Sk
(5.1.9b)
Por completitud, se considerará también la operación general «resta» de sucesos, en la que S1 = S2 – S3 es el suceso que resulta de eliminar de S2 todo aquello que pueda tener en común con S3, y la probabilidad se expresa p(S1 ) = p( S2 − S3 ) = p( S2 + S3 ) − p(S3 ) = p(S2 ) − p(S2 S3 )
262
(5.1.10)
DISTRIBUCIONES DE PROBABILIDAD
es decir, la probabilidad de que se presente S2 eliminando toda traza de que S3 lo haga a la vez. Todas estas relaciones junto con diagramas de conjuntos (Venn) permiten obtener los principales resultados del álgebra de probabilidades. No se pretende aquí dar una presentación exhaustiva de este tema, sino sólo suministrar los conceptos básicos que permitan comprender lo que sigue, aunque en los ejercicios siguientes se dan algunas ampliaciones. Se remite al lector a referencias especializadas para ampliar detalles. EJERCICIO 5.1.1 Deducir la expresión general de la probabilidad para la suma de un conjunto de tres sucesos arbitrarios. Generalizar la expresión al caso de n sucesos. La probabilidad pedida es p(S1 + S2 + S3) que representa la probabilidad de que al menos uno de los tres sucesos ocurra. Por la propiedad asociativa de la «suma» de sucesos puede escribirse p(S1 + S2 + S3) = p((S1 + S2) + S3) = p(S12 + S3). Es sencillo darse cuenta de que para la «suma» de sólo un par de sucesos arbitrarios su probabilidad debe ser p(A + B) = p(A) + p(B) – p(AB) en donde el término p(B) se introduce para evitar contar dos veces una misma cosa debida al solapamiento (intersección) de A y B. Si este solapamiento fuera nulo, ambos sucesos serían excluyentes y la expresión se reduciría a la ecuación (5.1.4). Por tanto, utilizando la propiedad distributiva del «producto» sobre la «suma», se pueden escribir las relaciones p(S1 + S2 + S3 ) = p(S12 + S3 ) = p(S12 ) + p(S3 ) − p( S12S3 ) p(S12 ) = p(S1 ) + p( S2 ) − p(S1S2 )
(
)
(
)
p(S12 S3 ) = p (S1 + S2 )S3 = p S1S3 + S2 S3 = p(S1S3 ) + p(S2 S3 ) − p(S1S2 S3 ) en donde p(S1S2S3) es la probabilidad de que los tres sucesos ocurran a la vez. Todo ello conduce finalmente a la expresión p(S1 + S2 + S3 ) = p( S1 ) + p(S2 ) + p( S3 ) − p(S1S2 ) − p(S1S3 ) − p(S2 S3 ) + p(S1S2 S3 ) Esto puede generalizarse sin dificultad para un número n arbitrario de sucesos
263
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
p( S1 + S2 + S3 + ... + Sn ) = p(S1 ) + p(S2 ) + p( S3 ) + ... + p( Sn ) − p(S1S2 ) − p( S1S3 ) − ... − p( S2S3 ) − ... − p(Sn −1Sn )
)
+ p(S1S2S3 ) + p(S1S2S4 ) + ... + p( Sn − 2Sn−1Sn ) + ... + ( −1
n −1
p( S1S2 S3 ...Sn )
EJERCICIO 5.1.2 En un determinado proceso industrial una fábrica produce viales con disoluciones de una sal de hierro que deben satisfacer ciertos controles de calidad. La producción de un día se distribuye en N cajas iguales y para contrastar su calidad se envían estas cajas a cuatro laboratorios diferentes: NA cajas al laboratorio A, NB cajas al laboratorio B, NC cajas al laboratorio C, y ND cajas al laboratorio D (N = NA + NB + NC + ND). Cada laboratorio utiliza un equipamiento y método no destructivo distintos para decidir si las disoluciones son o no aceptables. Por experiencia pasada, se sabe que las aceptaciones de viales por cada laboratorio son: A acepta un 95%, B acepta un 90%, C acepta un 97%, y D acepta 92%. De vuelta todas las cajas en la fábrica se elige al azar una de ellas y de ésta a su vez un vial, también al azar. Si una vez analizado su contenido resulta defectuoso, ¿cuál es la probabilidad de que el análisis lo haya realizado el laboratorio A? Esta es una aplicación del conocido teorema de Bayes. Suponiendo simetría entre las cajas de la producción, la caja seleccionada al azar tendrá las siguientes probabilidades a priori de procedencia
πA =
NB NA ; πB = ; N A + NB + NC + ND N A + NB + NC + ND
πC =
NC ND ; πD = . N A + NB + NC + ND N A + NB + NC + ND
Por otra parte, las probabilidades condicionales de que el vial sea defectuoso en función de cada caja son pA = 1 − pA = 1 − 0, 95 = 0, 05;
pB = 1 − pB = 1 − 0, 90 = 0,10;
pC = 1 − pC = 1 − 0, 97 = 0, 03; pD = 1 − pD = 1 − 0, 92 = 0, 08
264
DISTRIBUCIONES DE PROBABILIDAD
que se obtienen como las complementarias de las de las aceptaciones respectivas. El suceso Q «vial defectuoso» es la suma de cuatro sucesos compuestos mutuamente excluyentes: — elegir una caja de las analizadas por el laboratorio A y elegir un vial defectuoso (Q) — elegir una caja de las analizadas por el laboratorio B y elegir un vial defectuoso (Q) — elegir una caja de las analizadas por el laboratorio C y elegir un vial defectuoso (Q) — elegir una caja de las analizadas por el laboratorio D y elegir un vial defectuoso (Q) Q = SA Q + SB Q + SC Q + SD Q y su probabilidad es p(Q ) = p(SA Q ) + p(SB Q) + p( SC Q) + p(SD Q ) Ahora bien, cada una de estas probabilidades p(SkQ) implica un elemento condicional p(QSk ) = p(Sk Q) = p( Sk ) p(Q Sk ) = p( Q) p(Sk Q) y en las condiciones del problema se tiene p(Sk ) = π k ;
p(Q Sk ) = pk ; k = A, B, C , D
Así, la probabilidad de Q resulta p(Q ) = π A pA + π B pB + π C pC + π D pD y la probabilidad de p(SkÔQ) es sencillamente
265
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
qk = p( Sk Q ) =
p(Sk ) p(Q Sk ) p(Q )
=
π k pk π A pA + π B pB + π C pC + π D pD
(teoremaÄ deÄ Bayes)
Por tanto, la probabilidad de que el análisis lo haya realizado el laboratorio A es qA =
NA pA π A pA = = π A pA + π B pB + π C pC + π D pD N A pA + N B pB + NC pC + ND pD 0, 05. N A 0, 05 . NA + 0,10 . NB + 0, 03 . NC + 0, 08 . ND
lo que se puede visualizar como en correspondencia con la definición clásica de probabilidad (5.1.1) que utiliza la simetría como argumentación, sin más que considerar con relación al resultado de vial «defectuoso»: el numerador como proporcional al número de «casos favorables» al resultado, y el denominador como proporcional al número total de casos posibles para el resultado (un pequeño diagrama en árbol con trayectorias excluyentes ayuda a visualizar todo el razonamiento anterior, Fig. 5.T1). Conviene reparar en que el cálculo de probabilidades anterior se corresponde también con la determinación de una probabilidad a posteriori de que la caja haya sido analizada por el laboratorio A, habiendo considerado la hipótesis de partida de que se conoce que el vial es defectuoso.
Figura 5T.1. Diagrama en árbol para la aplicación del teorema de Bayes del Ejercicio 5.1.2.
266
DISTRIBUCIONES DE PROBABILIDAD
Otras observaciones y las aplicaciones en la Química El enfoque probabilista es deductivo y de predicción en general a priori, y con las condiciones de simetría (o asimetría) bien definidas puede aplicarse a un objeto individual. Se trata de dar respuestas probabilistas a los sucesos potencialmente posibles, es decir antes de que ocurran. El razonamiento matemático deductivo, con la obtención de leyes ideales de referencia, juega un papel fundamental en las ciencias naturales (por ejemplo, la desintegración de sustancias radiactivas). En Química (y en Física) una disciplina teórica básica, de naturaleza probabilista, para la comprensión de las propiedades de la materia es la Química Cuántica, o en general la Mecánica Cuántica. Tras mucha discusión sobre su naturaleza, probabilista versus estadística, desde su creación (Heisenberg, 1925, 1927; Schrödinger, 1926), hoy se sabe que el tratamiento cuántico es probabilista, es decir que puede aplicarse a un solo objeto: un electrón, un átomo, una molécula, etc., y produce resultados consistentes y comprobables experimentalmente en el laboratorio. La validez de este tipo de tratamiento matemático para estudiar, por ejemplo, átomos y moléculas como tales, no está así ligada a la consideración de un gran número de objetos y a la realización de evaluaciones estadísticas sobre ellos. Por otra parte, el enfoque estadístico presenta varias alternativas a considerar: inductiva, descriptiva, y «teórica». Aunque las tres alternativas pueden aparecer mezcladas en muchas aplicaciones, las dos primeras son las que suelen identificarse automáticamente con los estudios estadísticos de conjuntos de datos y están ligadas principalmente a la experimentación en todas sus formas (incluso numérica) y ensayos de relaciones empíricas, en tanto que la tercera está fuertemente enraizada en el trabajo teórico y requiere muchas más manipulaciones matemáticas de corte analítico. La estadística inductiva realiza predicciones a posteriori (inferencia estadística). Aquí, primero hay que realizar los ensayos o experimentos para poder después extraer las conclusiones de los datos obtenidos, cuantificadas mediante probabilidades, y relativas a los sucesos que han ocurrido o que cabe esperar que se presenten en circunstancias más amplias (una «extrapolación» guiada). En muchas circunstancias un número elevado de objetos se someten a estudio, pero las conclusiones no se aplican a ninguno de ellos en particular, son propiedades del conjunto. Como el estudio de grandes poblaciones no es posible de llevarlo a cabo al detalle, objeto por objeto, se
267
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
selecciona un grupo representativo (muestra) para estudio y a partir de los resultados obtenidos con tal grupo se infiere lo que puede suceder en la población global, dando respuestas en forma de porcentajes probabilistas que se espera sean significativos. No obstante, también pueden estudiarse muestras pequeñas con ayuda de la Teoría de pequeñas muestras. Todo esto conlleva ciertos elementos de incertidumbre que deben valorarse adecuadamente para dar los márgenes de fiabilidad del estudio. Esta es la manera habitual de proceder en el trabajo experimental en un laboratorio químico (o de cualquier otra ciencia experimental), en el que se determinan valores de magnitudes y sus errores, se contrastan hipótesis para decidir sobre el control de calidad de productos, etc. Por otra parte, la estadística descriptiva (o deductiva) se ocupa de estudiar las características de un conjunto dado de objetos o datos, sin pretender inferir a partir de los resultados obtenidos lo que sucedería en otras circunstancias más amplias. También es utilizada como herramienta de ayuda en el trabajo experimental de laboratorio. Pero hay todavía más que decir del enfoque estadístico en las ciencias experimentales, en particular en Química y en Física, y es el hecho de la emergencia de leyes muy generales e independientes del sistema concreto estudiado. Estas leyes están ligadas a la existencia de grandes números (grandes poblaciones), como es el caso del estudio de sistemas compuestos de muchas partículas. Estos grandes números son típicamente N ~ 1023 – 1024, del orden del número de Avogadro (N0 ≈ 6.1023), una cantidad que no es infinita, pero que a efectos prácticos puede tomarse como tal N Æ ⬁ en muchas aplicaciones. Lo mismo sucede obviamente con números mayores de partículas e incluso con otros significativamente menores como N ~ 1018, etc. Es aquí donde entra de lleno lo que se ha denominado antes estadística teórica. Un ejemplo muy conocido de este tipo de tratamiento es el de la Teoría Cinética de Gases con su distribución clásica de velocidades (Maxwell, 1863, 1875; Boltzmann, 1868), que utiliza la denominada y omnipresente distribución Gaussiana. En esta aplicación efectivamente no se puede decir la velocidad concreta que lleva una molécula de un gas a una temperatura (y densidad) dada, pero sí se puede responder a cuestiones como la del porcentaje de moléculas que poseen el módulo de su velocidad entre límites prefijados, u otras muchas. Estas leyes tan generales surgen del razonamiento matemático abstracto una vez fijados determinados axiomas o condiciones previas, y su validez puede contrastarse en el laboratorio. En este sentido,
268
DISTRIBUCIONES DE PROBABILIDAD
para la Química y la Física las disciplinas que permiten estudiar teóricamente (¡también hay que utilizar el Cálculo Numérico!) sobre bases estadísticas los sistemas compuestos de muchas partículas son la Mecánica y la Termodinámica Estadísticas (Boltzmann, 1896-1898; Gibbs, 1902), de las que la Teoría Cinética es una sencilla aplicación. Es dentro de este contexto, quizá, donde el concepto de probabilidad tiene su máxima expresión en la caracterización de fenómenos irreversibles. Por ejemplo, un objeto abandonado a sí mismo en un campo gravitatorio cae hasta alcanzar una situación estable (mínimo de energía potencial). Este es un hecho natural y observado siempre. Sin embargo, el fenómeno contrario, es decir, el ascenso sin causa aparente del objeto hasta la posición de la que cayó no se observa. Se dice que es un suceso «imposible». Por otra parte, nada impide que en una extraña fluctuación las moléculas de aire empujen al objeto justamente de esa manera «fantasmal» y lo eleven en el aire. La cuestión está en que la probabilidad de este chocante suceso es minúscula, de una entre 10N, con N igual al número de moléculas. Sólo para N igual al número de Avogadro tal probabilidad ya es un número despreciable que indica que se debería esperar un tiempo del orden de la edad del Universo o mayor para observar este fantástico fenómeno. Se dice entonces que en probabilidad determinados sucesos son altamente o muy improbables, no imposibles. A la vista de toda la potencialidad anterior es fácil comprender que el enfoque estadístico puede ayudar a comprender y manejar con provecho situaciones o problemas extremadamente complicados. Renunciando al conocimiento objetivo completo, en principio accesible, de lo que le sucede a cada objeto, se obtienen resultados prácticos de gran valor. Por ejemplo, y elaborando un poco más el caso mencionado de las moléculas de un sistema termodinámico, un gas o un líquido a una determinada temperatura y densidad, conocido el potencial intermolecular que actúa entre una pareja de moléculas (despreciando efectos de deslocalización cuántica) se puede estudiar el movimiento de éstas resolviendo las ecuaciones de Newton (Cap. 9) y determinar sus trayectorias. Esto suministraría el conocimiento completo del estado del sistema termodinámico. Sin embargo esta tarea para un sistema de ~1023 partículas desborda las capacidades de cálculo y, además (aparte de problemas numéricos), la ingente cantidad de información resultante, caso de poderse obtener, sería muy complicada de manejar y por ello poco útil. Sin embargo, el estudio estadístico en el sentido mencionado arriba, renun-
269
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
ciando a conocer con detalle la trayectoria de cada partícula, permite obtener numéricamente los valores promedio significativos de las propiedades del sistema, propiedades que junto con sus fluctuaciones pueden medirse experimentalmente. Esto es abordable y gratificante, pues resulta más que suficiente para realizar estudios de gran valor tanto para el avance del conocimiento como para las aplicaciones prácticas (diseño de nuevos materiales: cristales fotónicos, nanotubos, etc.). Finalmente, los enfoques probabilista y estadístico no son necesariamente excluyentes. Siguiendo con los ejemplos de interés en Química, el estudio de sistemas compuestos por muchas partículas a temperaturas suficientemente bajas (menores de unas pocas decenas de grados K), condiciones en las que las características cuánticas de la materia se manifiestan de manera significativa (a densidades crecientes se intensifican), los dos enfoques, el probabilista y el estadístico, son necesarios y complementarios. La disciplina que se ocupa del estudio de estos fenómenos se llama Mecánica Estadística Cuántica. 5.2. Variables aleatorias, población y muestra Los conceptos desarrollados en el epígrafe anterior permiten hacerse una idea de lo que se entiende por un suceso aleatorio. Un experimento o ensayo se denomina aleatorio cuando no puede establecerse por anticipado el resultado que se va a obtener, pues sobre él influyen muchas y muy diversas causas cuyos efectos o no pueden cuantificarse, o son tantos que esta operación no resulta práctica y se prefiere simular la situación mediante algún diseño estadístico. Los resultados que se obtienen son generalmente diferentes cada vez que se realiza el experimento y existe pues una componente de azar en todo el proceso. Aunque no siempre estos resultados van a estar relacionados con valores numéricos, típicos de las operaciones de conteo, en muchos casos nada impide adoptar convenciones para caracterizar cada uno de estos resultados mediante uno o varios valores numéricos. A la magnitud que puede tomar todos estos valores se la define como la variable aleatoria asociada al experimento. Por sencillez se discutirán aquí las variables aleatorias X que quedan definidas mediante un solo número (monodimensionales), como por ejemplo la variable continua que describe la posición x de una partícula que se mueve a lo largo de la recta real (o de un segmento de ella), o la variable discreta que toma los valores de un conjunto
270
DISTRIBUCIONES DE PROBABILIDAD
numerable como el número de átomos radiactivos que se desintegran en un tiempo dado. Los dominios de estas variables pueden evidentemente ser finitos (caso discreto) o infinitos (casos discreto y continuo). También puede darse el caso de una variable aleatoria mixta que presente a la vez las dos características, discreta y continua, en cuyo caso su dominio presentará una parte discreta y otra continua. Un ejemplo de este último caso discretocontinuo es la energía de un electrón en el campo creado por un núcleo atómico (carga positiva): cuando el electrón está ligado al núcleo su energía toma valores discretos (estados estacionarios), pero si se ioniza la energía toma valores continuos (estados de colisión). No se tratarán estos casos especiales mixtos aquí. El concepto de variable aleatoria se generaliza con facilidad al caso multidimensional expresando la variable aleatoria como un vector que se denotará en negrita X, de la que pueden ser ejemplos el vector de velocidad V = (vx, vy, vz) de una partícula browniana que se mueve en tres dimensiones sujeta a fuerzas fluctuantes, o la variable que describe la desintegración de dos sustancias radiactivas v = (v1, v2). Desde la perspectiva más general de la estadística «teórica» la cuestión central está en conocer la probabilidad de que la variable aleatoria X tome los valores de su dominio de definición. Así, en el caso discreto habrá que conocer todas las probabilidades P(X = vi) = pi de todos y cada uno de los sucesos posibles vi, mientras que en el caso continuo la cuestión hay que reformularla como el conocimiento de todas las probabilidades en intervalos P(xi < X ≤ xj) con xi y xj arbitrarios y pertenecientes al dominio de la variable. Cuando se conocen estas probabilidades se dice que se conoce la distribución de probabilidad de la variable aleatoria correspondiente, y el cálculo analítico que esta distribución permitirá obtener todas las propiedades significativas del experimento estudiado (muchas veces denominado el sistema) a través de una serie de parámetros característicos. Estos parámetros responden a preguntas como las siguientes: ¿cuál es el valor de la variable que ocupa una posición «central» en la distribución (la media, la mediana, la moda)?, ¿cuál es el valor más probable de la variable (la moda)?, ¿cómo es la distribución de probabilidades alrededor del valor «central»: simétrica, asimétrica, muy estrecha, muy dispersa, etc.?, y otras muchas. El caso «teórico» trata directamente con toda la población relativa al fenómeno que se estudia, población que tiene un gran tamaño en número de objetos (o individuos), lo que hace viable y significativo el tratamiento estadístico. Es importante notar que los parámetros poblacionales (media, desviación típica, etc.) están
271
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
perfectamente definidos mediante las correspondientes operaciones matemáticas analíticas y no son variables aleatorias. Ambos, la población y el fenómeno, están contenidos y cuantificados en la distribución de probabilidades. Por ejemplo, en el caso de un gas clásico de moléculas, si se investigan cuestiones sobre sus velocidades, la población es el conjunto de todas las moléculas del gas y la distribución de probabilidades para sus velocidades es la ley de Maxwell-Boltzmann. Sin embargo, en las otras dos opciones de esquema estadístico, la inferencial (inductiva) y la descriptiva, se trabaja con conjuntos finitos de objetos y datos de los que exactamente no se conoce de antemano la distribución de probabilidad relativa al fenómeno estudiado para la población. En el caso más interesante, el inferencial, los datos se determinan a partir de una selección de objetos o individuos (muestra) tomada de un conjunto muy grande (población). Una cuestión de nomenclatura conviene ser tenida en cuenta aquí: en el lenguaje químico corriente se habla de muestra y de las muestras que pueden formar esta muestra. Es importante no confundir ambos términos y conviene insistir en que: muestra es el conjunto de elementos, objetos, individuos, especimenes, etc., seleccionados para el análisis estadístico; a su vez, los objetos de este conjunto son las muestras; por otra parte, se puede hablar de diferentes muestras en el primer sentido, es decir, como diferentes conjuntos independientes de objetos que van a ser analizados. El tamaño de la muestra (número de individuos) es mucho más pequeño que el de la población y siempre se plantea el problema de la representatividad de tal muestra. Como en el caso discutido arriba, también se definen aquí parámetros característicos, como el valor medio de la variable (la media aritmética de los valores observados), medidas que indican la dispersión de la variable en torno a su valor medio (desviación típica o estándar, desviación media, etc.). Si la muestra es representativa de la población, sus parámetros muestrales calculados serán muy próximos a los parámetros poblacionales, que son en realidad desconocidos. Cabe esperar que cuanto mayor sea el tamaño de la muestra, mejor serán las estimaciones de los parámetros poblacionales, aunque esto sólo la experiencia con comparaciones exhaustivas es la última fuente de comprobación. Garantizar la representatividad de la muestra elegida es un asunto delicado que implica determinar los límites de fiabilidad de los parámetros, y como se ha señalado en muchas ocasiones se requiere utilizar la estrategia ensayo-error hasta llegar a poder despejar las dudas de procedimiento en la selección de muestras para una aplicación
272
DISTRIBUCIONES DE PROBABILIDAD
concreta. Todos estos asuntos se tratarán en detalle más adelante (Cap.6). Por el momento, el punto importante aquí es señalar que los parámetros muestrales son también en sí mismos variables aleatorias, pues están sujetos a variaciones impredecibles a priori y que dependen de la muestra seleccionada, de los métodos seguidos para la toma de datos, de la posibilidad de errores humanos, etc. Lo dicho en este párrafo se aplica a la estadística descriptiva de un conjunto de datos, salvo en todo aquello que hace referencia a la inferencia poblacional. Un pequeño ejemplo adicional puede ayudar a visualizar estas dos últimas situaciones de corte más práctico. EJERCICIO 5.2.1 Discutir los conceptos anteriores considerando el problema de la extracción industrial de un mineral en el que se desea averiguar la riqueza en un determinado elemento metálico. Del total de las toneladas extraídas en un día (la población), siguiendo determinados protocolos establecidos, se toman N pequeñas porciones para su análisis químico. Este conjunto de N objetos es la muestra, cuyo tamaño es N. Realizada la determinación del contenido de metal en cada objeto, la estadística descriptiva se contentaría con calcular los parámetros (valor medio, desviación típica, etc.), e incluso podría realizar ajustes a determinadas distribuciones teóricas o leyes empíricas. No obstante, la verdadera potencia del enfoque estadístico está en el paso inferencial con el que, a partir de la muestra, se ampliarían los resultados descriptivos anteriores determinando de los límites de fiabilidad (confianza) dentro de los que cabe esperar que se encuentren los parámetros poblacionales correspondientes a todas las toneladas extraídas. El proceso puede afinarse más y más, tomando diversas muestras (no necesariamente iguales en tamaño) y contrastando los resultados obtenidos en todas ellas. Entran aquí los estudios de la homogeneidad de la muestra, la significación de las variaciones en los resultados entre diversas muestras, el contraste de hipótesis y la toma de decisiones estadísticas, los límites de tolerancia, y otras operaciones que conducen a la evaluación de las etapas y de la viabilidad del proceso industrial. Una nota final sobre la notación con la que se designan los parámetros de las distribuciones poblacionales y muestrales. La convención general es la de utilizar letras griegas para designar los parámetros poblacionales (la media m, la deviación típica s, etc.) y, por otra parte, utilizar letras latinas para los
273
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
parámetros muestrales (la media x¯, la desviación típica s, etc.). Otra convención, coexistente con la anterior y habitual en el trabajo en Química y Física Teóricas con funciones de distribución analíticas conocidas, es utilizar el símbolo 具...典 para designar los valores medios poblacionales de una variable X o de otras magnitudes que se definen a partir de ella: la media de X se escribe como 具X典 ó 具x典, el valor medio de X2 como 具X2典 ó 具x2典, etc. En este capítulo por razones formales se mantendrá el convenio de denotar con carácter en mayúscula a la variable, y con minúscula a los valores concretos que puede tomar, aunque más adelante dependiendo del contexto podrá optarse por una notación menos rígida. El objetivo presente es la formulación analítica poblacional que sirve de base conceptual para todos los desarrollos posteriores del trabajo estadístico con muestras. 5.3. Funciones de distribución de probabilidades Variables monodimensionales (discretas y continuas) Una imagen muy conveniente para visualizar toda la formulación matemática de las funciones de distribución es la del reparto de una «masa unidad», la probabilidad total, entre el conjunto de los valores que toma la variable aleatoria. En el caso discreto, con la tabla de probabilidades ordenada según valores crecientes X = vk de la variable, {(vk, pk)}k=0,1,2,..., la visualización es trivial pues en cada valor vk se sitúa una «masa» de probabilidad pk, siendo  pk = 1. Esto se puede representar gráficamente en el denomina k
do diagrama o esquema de probabilidad, en el cual sobre cada punto vk en el eje de abcisas se lleva un segmento de ordenada con altura pk ≥ 0 (Fig. 5T2). Otra posibilidad es la de dar la denominada función de distribución cumulativa de probabilidades F, que para cada punto vk se define como F (ν k ) =
∑ p = p + p + p + ... + p ; i
0
1
2
k
k = 0,1, 2, 3,...
(5.3.1a)
i≤ k
y que consiste en llevar sobre cada punto vk la masa de probabilidad acumulada desde el primer punto de la variable (índice i = 0) hasta el considerado (índice i = k). La representación gráfica es «escalonada» pues por convención se construyen tramos horizontales con altura F(vk) entre cada dos valores sucesivos vk y vk+1. Con esto se define con más generalidad la función de distribución cumulativa en la forma
274
DISTRIBUCIONES DE PROBABILIDAD
F( X ) =
∑
νi ≤ X
pi
(5.3.1b)
que resulta así una función continua y con la que se puede responder directamente a la cuestión de cuál es la probabilidad de que la variable tome cualquier valor menor o igual que uno dado, u otras cuestiones similares. Nótese que F(v < v0) = 0 y que en esquemas finitos de tamaño N: F(v ≥ vN) = 1. En muchas ocasiones a los diferentes vk se les denomina «estados» del sistema.
Figura 5T.2. Esquema de probabilidad para una distribución discreta en un espacio de 10 estados. Esencialmente esto es un histograma de frecuencias relativas.
Un esquema de probabilidad {(vk, pk)}k=0,1,2,... da una medida de la incertidumbre global asociada al experimento que representa . Esta incertidumbre en esquemas N finitos siempre se puede caracterizar mediante un número H denominado entropía del esquema y que se define como N
H=−
∑ p ln p k
k
(5.3.2)
k =1
de modo que a mayor incertidumbre se tiene una mayor entropía (o un mayor desorden), y a menor incertidumbre se tiene una menor entropía (o un mayor orden). El máximo valor de H para un esquema de N probabilidades es ln N y resulta de que todos los sucesos son igualmente probables pk = 1/N. El valor mínimo de H es H = 0 y aparece cuando una de las pk = 1 y el resto son
275
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
todas nulas. En algunas ocasiones, entre dos o más esquemas correspondientes a diferentes métodos de análisis de un mismo problema, se puede estar interesado en seleccionar aquél con menor incertidumbre global y H sirve bien a este propósito. Aunque la selección así hecha no tiene necesariamente que ser la del método mejor desde un punto de vista experimental y/o de rendimiento, la información extraída de aquí puede resultar muy valiosa al complementarla con otras pruebas adicionales. EJERCICIO 5.3.1 Si se fija la atención en un sub-volumen pequeño de un cierto gas contenido en un recipiente, el número de moléculas X que pueden encontrarse en dicho sub-volumen tiene asociada la probabilidad dada por la expresión matemática p( X = ν ) =
2ν exp( −2) (distribución de Poisson). Obtener la función ν!
cumulativa de probabilidades entre 0 ≤ v ≤ 6. Redondear todos los cálculos a cuatro decimales. La primera operación es determinar las probabilidades para v = 0, 1, 2, 3, 4, 5, 6 moléculas. Se encuentra así que p(0 ) =
20 21 exp( −2) ≈ 0,1353; p(1) = exp(−2) ≈ 0, 2707; 0! 1!
p(2) =
22 exp(−2) ≈ 0, 2707; etc. 2!
Teniendo en cuenta que F(v < 0) = 0 los tres primeros valores acumulados son por tanto F (0 ) = 0,1353; F (1) = 0,1353 + 0, 2707 = 0, 4060; F (2) = 0,1353 + 0, 2707 + 0, 2707 = 0, 6767 en donde utilizando la convención ya mencionada se ha utilizado el signo = para los valores F sabiendo que proviene de magnitudes redondeadas a cuatro decimales. Además está la particularidad de que considerando los valores intermedios que la variable no puede tomar se conviene en representar
276
DISTRIBUCIONES DE PROBABILIDAD
F (0 ≤ ν < 1) = 0,1353; F (1 ≤ ν < 2) = 0, 4060; F (2 ≤ ν < 3) = 0, 6767 y así sucesivamente para el resto de los valores v del problema. Los resultados discretos se resumen en la tabla siguiente Tabla. Ejercicio 5.3.1 v
0
1
2
3
4
5
6
p(v)
0,1353
0,2707
0,2707
0,1804
0,0902
0,0361
0,0120
F(v)
0,1353
0,4060
0,6767
0,8571
0,9473
0,9834
0,9954
El caso continuo requiere un ataque diferente y la imagen de la «masa» de probabilidad a manejar es la de una masa unidad repartida a lo largo de una varilla infinitamente delgada, el dominio de la variable X, de acuerdo con una determinada densidad lineal f(x). La barra puede ser de longitud finita, y entonces se tiene el dominio en un intervalo finito a < X < b, o de longitud infinita y se tiene el dominio en uno de los posibles intervalos –⬁ < X < ⬁, –⬁ < X < b, ó a < X < ⬁. En consecuencia, la cantidad de masa situada en un punto concreto xi es necesariamente nula pues un punto no tiene longitud, es decir se tiene la probabilidad p(X = xi) = 0. La densidad de «masa» (la densidad de probabilidad) f(x), sin embargo, no es necesariamente nula en ese punto f(xi) ≥ 0, y la cantidad de masa situada en el intervalo infinitesimal xi < x < xi + dx, de longitud dx, es f(xi)dx ⬅ densidad lineal ¥ longitud = masa. Esto no es otra cosa que la probabilidad de que la variable aleatoria tome valores dentro de tal intervalo infinitesimal, lo que formalmente se escribe por convención sin incluir el extremo derecho del intervalo en la forma p( xi < X < xi + dx) = f ( xi ) dx
(5.3.3)
A la función densidad de probabilidad f(x) también se la denomina función de frecuencia, y es la generalización en el caso continuo de la colección de probabilidades discretas pk vistas anteriormente. Las propiedades que debe cumplir f(x) se resumen a continuación. i) Ser no negativa, lo que implica f(x) ≥ 0 para todo x del dominio de la variable.
277
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
ii) Ser normalizable, lo que implica
∫
` −`
f ( x) dx = C < + `.
(5.3.4)
En general y por razones de comodidad se trabaja con f(x) en la forma normalizada, C = 1, lo que se puede conseguir siempre de una función densidad arbitraria que cumpla la condición i) dividiéndola por C en caso necesario. Se ha utilizado con toda generalidad el intervalo –⬁ < X < ⬁, pues la formulación se mantiene sustituyendo en los límites de la integral los extremos del intervalo correspondiente en otro caso. Por ejemplo, nótese que, para un dominio de longitud finita a < X < b, la densidad de probabilidad fuera de él puede definirse f(x) = 0 y (5.3.4) se reduce a la integración sobre este dominio finito particular. iii) Ser función continua o que presente un conjunto de puntos aislados en los que existan discontinuidades, lo que se ha denominado en otra parte (Cap. 2) un conjunto de medida nula (longitud cero). Una manera sencilla de visualizar esta situación favorable, útil en muchas aplicaciones, es la de que en cualquier intervalo finito del dominio de la variable X el número de puntos de discontinuidad sea forzosamente finito. Recursos matemáticos más avanzados (integral de Lebesgue, medida de conjuntos, etc.) permiten ampliar la simple imagen anterior, pero por su naturaleza no pueden ser tratados aquí. El cálculo de probabilidades con f(x) normalizada es consecuencia de (5.3.3). Así, la probabilidad de que X tome valores entre x0 y xn viene dada por la integral p( x0 < X ≤ xn ) =
∫
xn
f ( x) dx
(5.3.5)
x0
y en particular se deduce de aquí que p(X = xi) = 0. Este hecho hace que desde el punto de vista de la probabilidad no haya diferencias entre intervalos abiertos, cerrados, y semiabiertos. El siguiente concepto en el caso continuo es el de la función integral o cumulativa y que no es más que la generalización al caso discreto del concepto paralelo expresado en las fórmulas (5.3.1). Se define así F(x) como la integral sobre la función densidad f(x) F ( x) = p( X ≤ x) =
278
∫
x
−`
f (u) du
(5.3.6)
DISTRIBUCIONES DE PROBABILIDAD
en donde se ha renombrado como u a la variable x dentro de la integral para evitar confusiones con el límite superior. Claramente, (5.3.6) representa la probabilidad contenida entre –⬁ y el valor x considerado (la masa de la varilla en el recorrido entre esos límites). Las propiedades de F(x) son consecuencia de las indicadas para f(x) dF ( x) dx
(5.3.7)
ii) F ( x) ≥ 0; F ( x → + ` ) = 1
(5.3.8)
i) f ( x) =
iii) Para un dominio de definición de X finito (a, b) la continuidad de F implica que F ( x ≤ a) = 0; F ( x ≥ b) = 1 iv) p( x0 < X ≤ xn ) =
∫
xn x0
f ( x) dx = F ( xn ) − F ( x0 )
(5.3.9) (5.3.10)
La propiedad i) se considera con más detalle en el ejercicio siguiente y la iv) es otra manera de formular (5.3.5) (Fig. 5T 3).
Figura 5T.3. Ejemplo de distribución continua de probabilidades con densidad f(x) definida no nula en 0 < x < 1. Nótense las tres regiones de definición para la función integral F(x).
279
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
EJERCICIO 5.3.2 La función densidad de probabilidad de las longitudes x de unas piezas alargadas y estrechas de metal, inicialmente todas con longitud L, una vez sometidas a un proceso de corrosión responde con muy buena aproximación a la expresión f˜(x) = exp(–2x) ; 0 < x < L a) Normalizar la distribución; b) determinar la función integral; c) de un conjunto de N = 600 piezas obtener el número de ellas con longitudes entre L/4 y 3L/4. a) Ante una posible función densidad lo primero es identificarla como aceptable, es decir, que sea no negativa y además normalizable. En este caso es no negativa, pues f˜(x) ≥ 0 para todos sus valores x (en realidad es f˜(x) > 0 y esto es ya suficiente para esta condición). Por otra parte, el dominio de la variable está entre 0 y L y el enunciado dice que no se sale de esos límites (f˜(x) = 0 fuera del dominio). Así, la integral de f˜(x) siguiente C=
∫
`
−`
f ( x)dx =
∫
L
f ( x) dx =
0
∫
L 0
L
1 1 exp(−2 x) dx = − exp(−2 x) = (1 − exp(−2L ) 2 2 0
)
indica que la constante C no es infinita y tampoco es igual a la unidad, de manera que la distribución original es normalizable sin más que redefinirla como f ( x) =
1 2 f ( x) = exp(−2 x); 0 < x < L C (1 − exp(−2 L)
)
resultando ahora que el área encerrada entre 0 y L (la masa de probabilidad total) es
∫
` −`
f ( x) dx =
∫
L
f ( x) dx = 1
0
La función f(x) tiene su máximo en x = 0 Æ f(0) = 1/C y su mínimo en x = L Æ f(L) = exp(–2L)/C. b) La función integral de probabilidades se define en tres secciones: –⬁ < x < 0, 0 ≤ x < L, y L ≤ x < ⬁. Se tiene entonces
280
DISTRIBUCIONES DE PROBABILIDAD
F(x) = 0, –⬁ < x < 0 F ( x) =
1 C
∫
x
exp( −2u) du =
0
1 − exp(−2 x) ; 0≤ x< L 1 − exp( −2 L)
F ( x) = 1; L ≤ x < ` En el resultado anterior hay que notar que F(x) es continua, conservándose así en los puntos de empalme de la definición las relaciones: F(0) = 0 y F(L) = 1. Sin embargo, nótese que no es derivable en tales puntos de empalme. Desde un punto de vista práctico esto no plantea mayores problemas en general, pues la probabilidad en un punto concreto es nula. c) El número de varillas pedido necesita del conocimiento de la probabilidad asociada. Esta probabilidad se puede calcular como p( L / 4 ≤ x ≤ 3 L / 4 ) = =
∫
3L / 4 L/4
L exp(− L / 2) 3L 1 1 − F = = exp(−2 x) dx = F C 4 4 1 + exp(− L ) 2 cosh ( L / 2
)
Con ello el número de varillas pedido viene dado por n = Np( L / 4 ≤ X ≤ 3 L / 4 ) =
300 cosh ( L / 2
)
en donde se ha utilizado el coseno hiperbólico (cosh) que se define como cosh u =
exp(u) + exp(− u) . 2
Variables monodimensionales derivadas Dada una variable aleatoria X se pueden construir a partir de ella otras nuevas variables aleatorias a través de relaciones funcionales Y = Y(X), de modo que a cada valor X = xi se le haga corresponder Y = yi = Y(xi). El problema ahora es si conocidas las distribuciones de probabilidad de X, dadas por f(x) ó F(x), se pueden determinar a partir de ellas las correspondientes de Y, g(y) y G(y). Aunque para algunos propósitos relacionados con la determinación de los parámetros característicos de Y, esta nueva información no es
281
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
realmente necesaria a priori como se verá después, conviene analizar algún caso para observar cómo proceder en general. Existen recursos matemáticos avanzados (d de Dirac) para efectuar esta operación basando todo el cálculo en la transformación f(x) Æ g(y), pero se escapan de este curso. Por tanto, la discusión se va a mantener en un nivel elemental haciendo uso sólo de la función integral y el caso continuo para obtener como ejemplos las distribuciones de probabilidad de Y = aX + b e Y = X2.
Figura 5T.4 (a) y (b). Diagramas para la transformación de distribuciones de probabilidad con una dependencia lineal y = ax + b en función del signo de a.
La relación lineal Y = aX + b, con X definida en –⬁ < X < ⬁ y conocida F(x) = p(X ≤ x), puede transformarse como sigue. Hay que considerar dos posibles casos separados dependiendo del signo de a. El caso a = a¢ > 0 está representado en la Fig. 5T.4a, en donde por claridad de explicación se particulariza la discusión en el punto concreto (xi, yi). La situación G(y) = p(Y ≤ yi), es equivalente a p(X ≤ xi), siendo entonces claro que y − b p(Y ≤ yi ) = p( X ≤ xi ) = F ( xi ) = F i a
(5.3.11)
Por otra parte, el caso a = –a¢ < 0 se representa en la Fig. 5T.4b y se observa que p(Y ≤ yi) es equivalente a p(X ≥ xi), con lo que utilizando el suceso complementario se tiene y − b p(Y ≤ yi ) = p( X ≥ xi ) = 1 − p( X ≤ xi ) = 1 − F ( xi ) = 1 − F i − a′
282
(5.3.12)
DISTRIBUCIONES DE PROBABILIDAD
En general, el resultado para G(y) es y − b a>0 F ; a G( y) = p(Y ≤ y) = 1 − F y − b ; a < 0 a
−`< y0 a a a dG dx dy = g( y) = dy dF dx f ( x) 1 y − b . f ; a 0). Así, la probabilidad de que X tome un valor tal que ÔX – mÔ > ks está acotada por
(
)
1 p X − µ > kσ = p ( X < µ − kσ + p ( X > µ + kσ < 2 k
)
)
(5.4.6)
lo que indica que esta probabilidad decrece tanto más cuanto mayor es k. Claramente, s es pues una buena herramienta para medir la concentración (o la dispersión) de probabilidades de una distribución alrededor de su posición media m. Por otra parte, utilizando la media y la desviación típica de una variable puede definirse una nueva variable auxiliar, denominada tipificada, como Z=
X −µ σ
(5.4.7)
que presenta la particularidad de poseer media cero y desviación típica unidad. Se volverá sobre ella más adelante.
Momentos de una distribución En las aplicaciones anteriores han aparecido cantidades que se han denotado como los valores medios 具X典, 具X2典 y 具(X – m)2典, referidos a la distribución f(x) ó pk. Son ejemplos de lo que se conocen como momentos de una distribución: los dos primeros son los momentos con respecto al origen X = 0 de primer y de segundo orden, respectivamente; el tercero es el momento
286
DISTRIBUCIONES DE PROBABILIDAD
central, es decir con respecto a la media X = m, de segundo orden. En general, para un orden entero n = 1,2,3,..., y con distribuciones normalizadas se definen estos momentos como
µn = X n =
∫
` −`
xn f ( x)dx, (caso continuo); µ n = X n =
∑
pkν kn , (caso discreto) (5.4.8)
k = 0 ,1, 2,...
α n = ( X − µ )n = αn = ( X − µ)
n
∫
=
` −`
( x − µ )n f ( x) dx, (caso continuo);
∑
(5.4.9) n
pk (ν k − µ ) , (caso discretto)
k = 0 ,1,2 ,...
Hay que indicar que se pueden definir momentos del tipo an con respecto a puntos arbitrarios X = a ≠ m, pero los más útiles son los centrales (5.4.9). En particular, el momento de segundo orden con respecto a un punto alcanza su valor mínimo cuando tal punto es la media m de la distribución: la varianza es pues la mínima de entre todas las posibilidades resultantes de elegir tales puntos de referencia. Otra observación adicional es que los dos conjuntos {mk} y {ak} contienen la misma información, pudiéndose pasar de uno a otro con relativa facilidad
α1 = 0 α 2 = σ 2 = µ2 − µ12
(5.4.10)
α 3 = µ3 − 3 µ1µ2 + 2 µ13 α 4 = µ 4 − 4 µ1µ3 + 6 µ12 µ2 − 3 µ14 .....
La determinación de estos momentos a partir de las relaciones (5.4.8) y (5.4.9) implica que las integrales o las posibles k-series resultantes deben ser absolutamente convergentes. Esta es la condición necesaria y suficiente para la existencia de los momentos y, por ejemplo, para los valores medios se formula como
µ=
∫
` −`
x f ( x) dx < `, (caso continuo) ; µ =
∑
pkν k < `, (caso discreto) (5.4.11)
k = 0,,1, 2,...
condiciones que se cumplirán en casos sencillos como aquéllos en los que una aceptable f(x) sea no nula en un intervalo de definición finito, o en los que la suma sobre k conste de un número finito de términos. Otras conside-
287
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
raciones más complejas de las teorías de series y de integrales caen fuera del alcance de este curso y no se discutirán aquí. Es también interesante mencionar que conocida una colección infinita de momentos mn (ó an) habrá una y sólo una distribución de probabilidades asociada con ellos si la siguiente serie de potencias en un parámetro arbitrario t 1 1 ψ ( t ) = exp (tX ) = 1 + tX + t 2 X 2 + t 3 X 3 + ... = 2! 3!
`
µn
∑ n! t
n
(5.4.12)
n= 0
se puede demostrar que converge para algún valor t ≠ 0. En este caso a y(t) se la denomina función generatriz de la distribución de probabilidades.
Medidas de asimetría y de exceso Los momentos centrales a3 y a4 pueden utilizarse para caracterizar la asimetría y el exceso (o apuntamiento) de una distribución de probabilidades f(x) ó pk. Hay varias definiciones de los conceptos que siguen y aquí van a darse las posiblemente más utilizadas. La asimetría (Fig. 5T.5) suele valorarse mediante el coeficiente de sesgo
γ1 =
α3 σ
(5.4.13)
3
que es una magnitud adimensional. Si g1 > 0 la distribución se dice de asimetría positiva ó de sesgo positivo y la gráfica de la distribución muestra una caída lenta (cola alargada) en el sentido de los valores X crecientes. Si g1 < 0 la distribución se dice de asimetría negativa ó de sesgo negativo y la gráfica de la distribución muestra una caída lenta (cola alargada) en el sentido de los valores X decrecientes. Finalmente, si g = 0 la distribución es simétrica. Por otra parte, el exceso valora cómo está de destacada la zona central de la distribución con respecto al resto y se utiliza el denominado coeficiente de curtosis (o apuntamiento) que se define como
γ2 =
α4 σ4
−3
(5.4.14)
Valores g2 > 0 indican apuntamientos altos en la región del máximo y la distribución se califica como leptocúrtica. Valores g2 < 0 indican apunta-
288
DISTRIBUCIONES DE PROBABILIDAD
Figura 5T.5. Densidad de probabilidad con asimetría: sesgo g1 positivo.
mientos bajos en la región del máximo, con la forma de la distribución achatada, y la distribución se califica como platicúrtica. Finalmente, si g2 = 0, la distribución se califica como mesocúrtica (la distribución normal o Gaussiana ya mencionada). Más adelante al tratar con ejemplos concretos de distribuciones se volverán a considerar estos conceptos.
Otros parámetros En ocasiones se presentan algunas distribuciones de probabilidad f(x) ó pk que pueden no tener un valor medio m (problemas de convergencia), o que están tan irregularmente dispersas que tal posición de referencia y, por tanto s, son parámetros poco útiles. Conviene entonces utilizar otras medidas de la posición como la mediana o la moda. La mediana es la posición que divide a la distribución de probabilidad en dos partes iguales, con una «masa» total de 1/2 en cada lado. En una distribución continua esto significa que el 50% de la probabilidad queda a la derecha y que el otro 50% queda a la izquierda de la mediana. Para una distribución discreta la mediana separa el 50% de los datos a derecha e izquierda. La moda es el valor X = xM más probable, es decir aquel en el que se alcanza el máximo de la distribución.
289
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Las explicaciones anteriores pueden parecer superfluas, pero sirven para ilustrar que estos nuevos parámetros presentan algunas dificultades, pues pudieran no ser únicos y, además, sus propiedades matemáticas son menos flexibles que las de m. En cuanto a la unicidad, en el caso de la mediana de una distribución discreta puede aparecer una indefinición entre los puntos de un cierto intervalo continuo de la variable vk < X < vk+1 al intentar situar este parámetro, y como solución se acepta el punto medio de ese intervalo como mediana. Una manera práctica de realizar esta separación con la identificación de la mediana es utilizar la función integral, fijando el valor de la ordenada en F(x) = 1/2 y efectuando la interpolación inversa que lleva al valor x de la mediana. Para la moda también pudieran existir varios máximos en la distribución y habría que elegir el máximo absoluto, pero esto pudiera resultar poco significativo dependiendo de los valores relativos de tales máximos y de las características de simetría presentes. En cuanto a la flexibilidad matemática se verá con detalle más adelante lo que esto significa, pero por el momento baste señalar algo muy sencillo de comprobar con (5.4.1) y (5.4.3). La media m de la suma de dos distribuciones, por ejemplo f(x) + g(x), es la semisuma de las medias (mf + mg)/2 de cada distribución, algo que no tiene que suceder necesariamente con la mediana y con la moda. Por otra parte, en muchas aplicaciones prácticas al tratar con el muestreo de poblaciones (Cap. 6) se pueden utilizar estas últimas magnitudes de manera ventajosa. Como parámetros complementarios en estos casos, y en los otros más generales, pueden utilizarse los denominados: rango, o los cuartiles, deciles, percentiles, etc.. El rango es la diferencia entre los valores máximo y mínimo de X (el recorrido o dominio de esta variable). Los tres cuartiles z1, z2 y z3 son aquéllos valores de X que efectúan una división de la distribución en cuatro partes iguales (25% de la masa en cada una de ellas): i) p(X < z1) = 0,25; ii) p(z1 < X < z2) = 0,25; iii) p(z2 < X < z3) = 0,25; iv) p(z3 < X) = 0,25. La cantidad z3 – z1 se denomina rango intercuartílico y, dado que z2 = mediana = Med(X), suele utilizarse el rango semi-intercuartílico (z3 – z1)/2 como una medida alternativa de la dispersión. En distribuciones discretas los cuartiles primero y tercero se fijan de manera análoga a lo indicado antes para la mediana. Definiciones análogas pueden hacerse para los deciles (del 1 al 9) y los percentiles (del 1 al 99) que dividen la distribución en 10 ó en 100 partes iguales (10% ó 1% de la masa respectivamente en cada una de estas partes). El símbolo Med(X) para la mediana es particular de este texto.
290
DISTRIBUCIONES DE PROBABILIDAD
Por último, utilizando la media m, la desviación típica s y bien la mediana z2 o bien la moda, se definen otras medidas de la dispersión y del coeficiente de sesgo a) Dispersiones con desviaciones medias (en valor absoluto) con respecto a m o con respecto a z2 X −µ
o
X − ζ2
(5.4.15)
b) Coeficientes de sesgo con moda o con mediana
µ − moda σ
o
3 ( µ − mediana
σ
)
(5.4.16)
que se conocen como los coeficientes de sesgo primero y segundo de Pearson.
5.5. Ejemplos de distribuciones discretas La distribución binomial La distribución binomial (o binómica) es una distribución discreta con sólo dos puntos y convencionalmente se denotan los dos resultados del experimento binomial como X = 0,1, lo que resulta muy práctico ya que X se corresponde con la variable aleatoria asociada a que un suceso se presente (X = 1) o a que no se presente (X = 0). Pueden imaginarse un gran número de experimentos en los que se buscan dilucidar las dicotomías SI-NO, CIERTO-FALSO, etc., y el problema requiere nada más del conocimiento de la probabilidad de una de esas dos opciones generales. Se suele representar mediante p a la probabilidad de que el suceso se presente, es decir X = 1, y por q = 1 – p a la probabilidad del suceso complementario X = 0. En algunas ocasiones se denomina estados a los sucesos X = 0 y X = 1. La utilidad de esta distribución es aún mayor de lo que cabría esperar con base en la consideración anterior, ya que sirve como punto de partida para desarrollar otras distribuciones más generales, como son la de Poisson y la Gaussiana. Normalmente no se está interesado en realizar un único ensayo, sino en la repetición de este ensayo un número N de veces, independientes unas de otras, y en el planteamiento de cuestiones probabilistas relacionadas con
291
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
ello. Se tiene así un problema combinatorio con pesos probabilistas y el problema a investigar es el de la probabilidad de observar v veces, en N ensayos, el resultado X = 1 (la situación es perfectamente reversible con X = 0). Una presentación heurística ayuda a comprender la resolución de este problema. Para N = 1 la situación X = 1 es trivial y se tiene: v = 0 Æ p0 = q; v = 1 Æ p1 = p. Para N = 2 las posibilidades crecen pues v = 0, 1, 2. En cada uno de estos casos se encuentra
ν = 0 → X = 0, 0 → P0 = q ⋅ q = q 2 ν = 1 → X = 1, 0 o X = 0, 1 → P1 = p ⋅ q + q ⋅ p = 2 pq ν = 2 → X = 1, 1 → P2 = p ⋅ p = p2 en donde se ha utilizado que los sucesos son mutuamente excluyentes y/o independientes. Para N = 3 las posibilidades aumentan y se encuentra
ν = 0 → X = 0, 0, 0 → P0 = q ⋅ q ⋅ q = q3 ν = 1 → X = 1, 0, 0 o X = 0, 1, 0 o X = 0, 0, 1 → P1 = 3 pq2 ν = 2 → X = 1, 1, 0 o X = 0 , 1, 1 o X = 1, 0, 1 → P2 = 3 p2 q ν = 3 → X = 1, 1, 1 → P3 = p ⋅ p ⋅ p = p3 El proceso puede continuarse para N crecientes y se observa que la probabilidad de que X = 1 aparezca v veces en N ensayos independientes está dada por N N! Pν = pν q N − ν = pν q N − ν ; 0 ≤ ν ≤ N ν ! ( N − ν )! ν
(5.5.1)
expresión que contiene el número de combinaciones de N objetos tomados de v en v y, que puede demostrarse por inducción, es válida para valores arbitrarios 0 ≤ v ≤ N. Cuando hay que trabajar con valores grandes de N los factoriales en (5.5.1) conviene tratarlos mediante la aproximación de Stirling y operar con logaritmos N ! ~ 2π N N N exp(− N ) → ln N ! ~
1 ln (2π N + N ln N − N 2
)
aproximación que es tanto mejor cuanto mayor es N.
292
(5.5.2)
DISTRIBUCIONES DE PROBABILIDAD
Es interesante notar que al ser p + q = 1 resulta
( p + q)
N
N
=
∑ ν =0
N ν N −ν = ν p q
N
∑P =1
(5.5.3)
ν
ν =0
una relación general que sirve de ayuda para obtener los parámetros de esta distribución. El valor medio m y la varianza son
µ = Np; σ 2 = Npq
(5.5.4)
y los coeficientes de sesgo y de curtosis están dados por
γ1 =
q− p + Npq
γ2 =
;
1 − 6 pq Npq
(5.5.5)
De estas relaciones anteriores es interesante destacar que g1 y g2 Æ 0 con N Æ ⬁ y además que la dispersión relativa de la distribución alrededor de la — media se comporta como s/m ~ 1/√ N cantidad que da una idea de la fluctuación de los resultados del experimento alrededor del valor medio. Las demostraciones de estas relaciones se dejan como ejercicios y problemas. EJERCICIO 5.5.1 Obtener la expresión del valor medio de la distribución binómica dada en (5.5.4). El cálculo se desarrolla en la forma N
µ=
N
∑ν P =∑ ( ν
ν =0 N
ν =0
∑ν Np ν ⋅ (ν (−1)!( N) − ν )! p
N! ν pν q N −ν = ν! N −ν !
)
∑ (ν − 1)!(((N −1))− (ν −1))! p
Np
N −1 !
N
ν −1 N − ν
q
=
ν =1
ν −1 ( N −1) − (ν −1)
q
N −1 !
= Np
ν =1
en donde hay que notar que en la división por v se elimina el sumando v = 0 y que la suma final desde v = 1 Æ N es la unidad, pues se corresponde con la probabilidad total de N – 1 ensayos.
293
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
EJERCICIO 5.5.2 Para determinar si la acidez de unas disoluciones está entre 4 < pH < 5, se utiliza un p-hachímetro que presenta un error sistemático de funcionamiento que hace que identifique incorrectamente las disoluciones dentro de los límites anteriores en un 10% de los casos. En un análisis de una muestra total de N = 500 disoluciones determinar la media, la varianza, el coeficiente de sesgo y el coeficiente de curtosis para las disoluciones identificadas correctamente. La probabilidad de identificación incorrecta es q = 0,1 y la de identificación correcta es p = 0,9. Con ello los parámetros pedidos son redondeando a dos decimales y utilizando la convención del signo igual
µ = Np = 500 ⋅ 0, 9 = 450 σ = + Npq = + 500 ⋅ 0, 9 ⋅ 0,1 = 6, 71 q − p 0,1 − 0, 9 = = −0,12 6, 71 σ 1 − 6 pq 1 − 6 ⋅ 0,1 ⋅ 0, 9 = 0, 01 > 0 = γ2 = 45 σ2
γ1 =
La asimetría es negativa y la cola de la distribución está situada a la izquierda. Por otra parte, la distribución es muy ligeramente leptocúrtica.
La distribución de Poisson Esta distribución discreta se obtiene como límite de la binomial cuando la probabilidad p se hace muy pequeña y el número N de repeticiones del ensayo se hace muy grande manteniéndose finito el valor medio, es decir, el producto Np = l = finito > 0. De lo dicho se deduce que su aplicación está indicada en las situaciones en las que se produce un fenómeno poco frecuente o cuya probabilidad de aparición es proporcional a la longitud de un intervalo (espacial, temporal). En estos casos se está interesado en cuantificar la probabilidad del número de veces que se registra o aparece el fenómeno. Ejemplos físico-químicos típicos son las probabilidades de que en un pequeño subvolumen de un gas muy diluido se encuentren v = 0, 1, 2, ... moléculas (Ejercicio 5.3.-1), o las probabilidades de que para un
294
DISTRIBUCIONES DE PROBABILIDAD
material radiactivo en un tiempo dado se hayan producido las desintegraciones de v = 0, 1, 2, ... átomos. La distribución de Poisson se expresa mediante la relación pν =
λν exp(− λ ); ν = 0, 1, 2, 3,..., N ,... ν!
(5.5.6)
y técnicamente es el siguiente límite matemático de la distribución binomial N pν = lim Pv = lim pν q N − ν = p →0 N → ` p→0 N → ` ν λ = Np = finito
λ = Np = finito
( Np)
ν
lim
p→ 0 N → ` λ = Np = finito
Np 1− N ν !
N
(1− p)
−ν
ν −1
i
∏ 1 − N i =1
de donde se obtiene (5.5.6) notando que para cada valor fijo n se verifica Np lim 1 − p→ 0 N → ` N
N
= exp(− λ );
lim (1 − p
p→ 0
)
−ν
= 1;
(5.5.7a)
λ = Np = finito ν −1
lim
N →`
∏ 1 − Ni = lim 1− N1 1− N2 ... 1− νN− 1 = 1 N →`
i =1
(5.5.7b)
La suma de todas las probabilidades pv es la unidad como se comprueba fácilmente `
∑ ν =0
`
pν =
∑ ν =0
λν exp(− λ ) = exp(− λ ) exp(λ ) = 1 ν!
(5.5.8)
y haciendo uso de esta relación se pueden determinar los parámetros de esta distribución. La media y la varianza están dadas por
µ = λ; σ 2 = λ
(5.5.9)
y los coeficientes de sesgo y de curtosis están dados por
γ1 =
1 + λ
;
γ2 =
1 λ
(5.5.10)
295
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Nótese que para valores v crecientes más y más alejados de m = l se tiene pv Æ 0. De nuevo la demostración de las fórmulas anteriores queda para ejercicios y problemas. EJERCICIO 5.5.3 Obtener las expresiones de la media y varianza de la distribución de Poisson dadas en (5.5.9). El cálculo de la media se plantea de la forma usual `
`
`
λν λ ν −1 µ= ν pν = ν exp(− λ ) = λ exp(− λ ) = λ exp(− λ ) exp(λ ) = λ ν! ν − 1)! ν =1 ( ν =0 ν =0
∑
∑
∑
Análogamente la varianza puede evaluarse como sigue `
σ2 =
∑
`
2
ν =0
)
`
`
ν =0
`
∑
exp(− λ )
ν =0
λν 2 ν − 2νλ + λ 2 = ν!
∑ (
(ν − λ ) pν = exp(− λ )
λν 2 λν λν 2 ν − exp( − λ ) 2νλ + exp(− λ ) λ = ν! ν ! ν ! ν =0 ν =0
`
∑
∑
`
`
λ ν −1 λ ν −1 λν 2 exp(− λ ) ν λ − exp(− λ ) 2λ 2 + exp( − λ ) λ = (ν − 1)! (ν − 1)! ν! ν =1 ν =0 ν =1
∑
∑
∑
+ −
= λ 2 + λ − 2λ 2 + λ 2 = λ en donde se han tenido en cuenta (5.5.8), el resultado para m y la relación `
`
λ ν λ ν −1 exp(− λ ) ν λ = {ν = ν − 1} = exp( − λ ) (ν + 1) λ = λ 2 + λ ν ! (ν − 1)! ν =1 ν = 0
∑
∑
La distribución multinomial Esta nueva distribución discreta es una generalización de la distribución binomial que se utiliza cuando el número de posibilidades que aparecen como resultado de un experimento es tres o más. Son problemas típi-
296
+
DISTRIBUCIONES DE PROBABILIDAD
cos los de distribuciones de moléculas entre un conjunto de estados con diferentes probabilidades de presentarse (estadística de Maxwell-Boltzmann), o la consideración de alternativas que no se limitan a la dicotomía CIERTO-FALSO que caracteriza a la distribución binomial. Así, para un conjunto de n opciones (o estados) que se pueden asociar con una variable aleatoria X = 1, 2, 3, ..., N, con probabilidades p1, p2, ... pn, se debe cumplir la relación
(p + p 1
2
+ ... + pn
)
N
=1
(5.5.11)
y a partir de ella, aplicando el desarrollo de la potencia N-sima se obtiene la expresión de cada una de las probabilidades asociadas con cada uno de los diferentes sucesos de observación (u ocupación) de X
(p + p 1
2
+ ... + pn
)
N
=
∑
ν1 ,ν 2 ,...,ν n
N! ν ν p1 1 p2ν2 ... pnn ; ν1 + ν 2 + ... + ν n = N (5.5.12) ν1 !ν2 !...ν n !
de manera que la probabilidad de que en N ensayos se observe X = 1 un número entero v1 de veces, X = 2 un número entero v2 de veces, etc., es
(
)
P ν1 , ν 2 ,...,ν n =
N! ν pν1 pν 2 ... pnn ; ν1 !ν 2 !...ν n ! 1 2
ν1 + ν2 + ... + ν n = N (5.5.13)
El factor combinatorio en (5.5.13) es el número de permutaciones con repetición de N elementos (ensayos = número de estados que se pueden repetir) tomados de v1 en v1, v2 en v2, ..., y vn en vn veces. EJERCICIO 5.5.4 Obtener todos los grupos de números de ocupación resultantes de repartir N = 4 partículas, del mismo tipo y distinguibles, entre tres estados con energías diferentes (n = 3) y que tienen diferentes probabilidades de ocupación ¿Cuántos modos de reparto hay? Hay que determinar todos los números de ocupación v1, v2 y v3 compatibles con las restricciones
ν1 + ν 2 + ν 3 = 4;
0 ≤ νk ≤ 4
297
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
De momento no importa la partícula concreta que esté en un nivel, sólo el número total de partículas que lo ocupan. Hay 15 posibles grupos de tres enteros que cumplen lo anterior y que se enumeran en la tabla siguiente. Ejercicio 5.5.4 v1
4
3
3
2
2
2
1
1
1
1
0
0
0
0
0
v2
0
1
0
2
0
1
2
1
0
3
2
3
1
4
0
v3
0
0
1
0
2
1
1
2
3
0
2
1
3
0
4
Como puede verse todos los estados se tratan por igual. Cada columna es un grupo que se presenta un número de veces mayor o igual a 1. Por ejemplo, la terna (4, 0, 0) se presenta una vez, y la terna (1, 2, 1) se presenta 12 veces, de acuerdo con los factores combinatorios 4! = 1; 4 ! 0! 0 !
4! = 12 1! 2! 1!
En un desarrollo de (x + y + z)4 estos números de ocupación se corresponden con los términos de potencias que se indican: (4, 0, 0) Æ x4; (1, 2, 1) Æ xy2z. Resultados análogos pueden establecerse para el resto de las posibilidades. En total hay 81 = 34 posibilidades repartidas del modo
{(4, 0, 0),(0, 4, 0),(0, 0, 4)} 3 × 6 = 18 {(2, 2, 0 ),, (2, 0, 2),(0, 2, 2)} 6 × 4 = 24 {(3,1, 0),(3, 0,1),(1, 3, 0 ),(1, 0, 3),(0,1, 3),(0, 3,1)} 3 × 12 = 36 {(2,1,1),(1, 2,1),(1,1, 2)} 3 ×1= 3
5.6. Ejemplos de distribuciones continuas La distribución uniforme Esta distribución continua representa la distribución equiprobable en un intervalo finito a < x < b y se define mediante la distribución rectangular de densidad de probabilidad
298
DISTRIBUCIONES DE PROBABILIDAD
1 si a < x < b f ( x) = 0 en otro caso
(5.6.1)
Su normalización es trivial y lleva a 1 si a < x < b f ( x) = b − a 0 en otro caso
(5.6.2)
La determinación de sus parámetros característicos no presenta dificultades a) media µ =
∫
b
b+ a 2
xf ( x) dx =
a
b) varianza σ = 2
∫
b a
( x − µ)
2
(5.6.3)
( b − a) =
2
f ( x) dx = X
2
−µ
2
(5.6.4)
12
c) coeficiente de sesgo
γ1 =
α3 σ3
∫ =
b a
( x − µ)
3
f ( x) dx
σ3
= 0; por simetría en torno a x = m
(5.6.5)
6 − 3 = − ; Ä Ä (platicúrttica) 5
(5.6.6)
d) coeficiente de curtosis
γ2 =
α4 σ
4
∫ =
b a
( x − µ) σ
4
4
f ( x) dx
Ésta es una distribución simple, pero muy útil pues describe la situación de resultados al azar sin ningún tipo de preferencias. Es pues importante en el diseño de muestreos de una población (muestreo al azar) y, por tanto, en la generación de números aleatorios. El lector puede deducir sin complicaciones la fórmula de la función integral para este caso. Se volverá sobre esta distribución uniforme y sus aplicaciones más adelante (Caps. 6 y 10).
299
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
La Distribución Gaussiana (normal) Esta es la distribución más universal de probabilidades, pues cuando en un fenómeno influyen un gran número de causas aleatorias diferentes e independientes, cada una con una contribución muy pequeña, tal fenómeno va a poder describirse con muy buena aproximación mediante una distribución de este tipo, Gaussiana o normal. El enunciado anterior se formula matemáticamente en el límite de infinitas causas (variables) aleatorias y se conoce como el Teorema Central del Límite de Laplace. Además, la Gaussiana, bajo ciertas condiciones, es el límite de distribuciones más sencillas como la binomial, sirve para generar formas más complejas (desarrollos asintóticos, distribución log-normal, etc.), y juega un papel destacado en una gran variedad de aplicaciones fisico-químicas (distribución de velocidades moleculares en un gas, cálculos ab-initio de orbitales moleculares, etc.). La función densidad de una variable aleatoria X que se distribuye normalmente se escribe en general como f ( x) =
( x − µ )2 exp − ; − ` < x < ` 2σ 2 σ 2π 1
(5.6.7)
en donde m es el valor medio y s2 la varianza de X X = µ ; σ 2 = Var ( X ) = X 2 − X
2
(5.6.8)
La tipificación de X lleva a la variable Gaussiana universal tipificada Z con media cero y varianza unidad (Fig. 5T.6) Z=
f ( z) =
x− µ ; σ
Z = 0; σ Z2 = 1
z2 exp − ; 2π 2 1
−`< z 0):
∫
` −` `
∫
−`
z2 n exp − az2 dz =
{
) } = 1. 3 .5....(2n − 1)
Γ ( 2n + 1 / 2
exp − az2 + bz dz =
( 2 n +1)/ 2
a
n
( 2 n +1)/ 2
2 a
b2 π exp a 4a
π
; n = 1, 2, 3,... (5.6.11)
(5.6.12)
b2 b π z exp − az2 + bz dz = exp a −` 4 a 2a
(5.6.13)
b2 1 π b2 exp 1 + z2 exp − az2 + bz dz = a −` 4a 2a 2a
(5.6.14)
∫ ∫
`
`
Como la función f(z) es simétrica en torno a z = 0, las integraciones del tipo (5.6.11) con potencias impares z2n+1 son idénticamente nulas. Notablemente, los coeficientes de sesgo y de curtosis para la Gaussiana son ambos nulos g1 = g2 = 0. El resultado para g1 es consecuencia de la simetría aludida,
301
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
en tanto que el de g2 explica la definición (5.4.14) que separa los comportamientos leptocúrticos de los platicúrticos. En (5.6.11) se ha introducido la función gamma G de Euler que juega un papel muy importante en muchas aplicaciones de interés (nótese que G(1/2) – = √p). En particular, en (5.6.11) se han tomado valores semienteros x = (2n + 1)/2. Para valores enteros las definiciones son muy sencillas Γ( n + 1) = n!;
n = 0,1, 2,...
Γ ( n + 1) ; n = −1, −2, −3,... n
Γ ( n) =
(5.6.15a) (5.6.15b)
Nótese que para enteros n < 0 Æ n!= ± ∞. Además, la definición de G(x) se extiende a cualquier valor real x de su argumento y se remite al lector a la bibliografía para estos detalles generales. La función integral cumulativa en este caso no puede evaluarse analíticamente y se expresa mediante la relación 1
F ( z) = p( Z ≤ z) =
2π
u2 exp − du; − ` < z < ` −` 2
∫
z
(5.6.16)
en donde se ha utilizado una variable auxiliar u para evitar confusiones. La expresión anterior da origen a dos variantes conocidas como la función de error erf(z) y la función complementaria de error erfc(z) que se definen como erf ( z) =
2
π ∫
z
( )
exp − u2 du; erfc( z) = 1 − erf ( z)
0
(5.6.17)
Ambas funciones están directamente relacionadas con la magnitud conocida como nivel de significación, convencionalmente denotada por a, en los ensayos de hipótesis estadísticas con la distribución Gaussiana como base (Cap. 6). Nótese que erf(z)=–erf(–z). El cálculo de probabilidades se realiza de acuerdo con (5.3.10)
)
p( a < Z ≤ b =
302
1 2π
∫
b a
u2 exp − dz = F ( b) − F ( a) 2
(5.6.18)
DISTRIBUCIONES DE PROBABILIDAD
y para ello se utilizan las tablas estándar que suelen presentarse generalmente en dos formas. Una de ellas da los valores acumulados F(z) de modo que se emplea la relación más a la derecha de (5.6.18) y el proceso se esquematiza en la Fig. 5T.7. La segunda forma es la que utiliza la simetría de f(z) de manera que para calcular (5.6.18) con el área integral se aplica la relación
∫
a
f ( z) dz =
0
∫
0
−a
f ( z) dz ; a > 0
(5.6.19)
haciéndose el cálculo total con las áreas desde 0 al valor z considerado como
p( a < Z ≤ b) =
∫ ∫
b
a
∫ f (z) dz f ( z) dz − ∫ f (z) dz
f ( z) dz +
0
si a < 0 y b > 0
0
b
0
a
(5.6.20)
si a < 0 y b < 0 o a > 0 y b > 0
0
lo que significa que las áreas parciales se suman si los signos de a y de b son opuestos, y se restan tomando los valores absolutos si estos signos son iguales. De nuevo nótese que la inclusión de los extremos es irrelevante ya que p(Z = z) = 0.
Figura 5T.7. Cálculo de probabilidades con la distribución Gaussiana. Nótese el papel que juega la simetría de esta función en este tipo de cálculo.
303
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Existen tres situaciones simétricas con respecto a Z = 0 que se utilizan como referencia en muchos estudios y que son conocidas como intervalos 1s, 2s y 3s, cuyas probabilidades son p( −σ < Z < σ )
= 0, 6827 ≡68, 27%
p( −2σ < Z < 2σ ) = 0, 9545 ≡95 5, 45%
(5.6.21)
p( −3σ < Z < 3σ ) = 0, 9973 ≡99, 73% y que encierran los porcentajes de población indicados. A efectos prácticos se suele considerar que todo aquello fuera del intervalo ±3s es despreciable. La Gaussiana es el límite de la binomial cuando el número de ensayos N Æ ⬁ y la probabilidad del suceso p se mantiene constante. En condiciones normales con valores elevados de N, pero no infinito, el cálculo binómico resulta poco práctico. Sin embargo, se puede aproximar muy bien este cálculo mediante una determinación Gaussiana cuando se da la circunstancia de que Np, Nq > 5, siendo la aproximación tanto mejor cuanto mayores sean estas dos cantidades. La tipificación a utilizar es fácil de anticipar con los valores de media y varianza binomiales
µ = Np; σ = Npq → Z =
X−µ σ
(5.6.22)
Hay que considerar además un hecho importante cual es el que se ha pasado de una distribución discreta X = v con saltos unitarios a una distribución continua Z que varía infinitesimalmente. Para tener en cuenta este efecto de manera adecuada hay que introducir la denominada corrección de continuidad utilizando las llamadas «marcas de clase» alrededor de cada entero X = v. La convención natural es tomar ±0,5 sobre cada v con lo que v Æ X equivale a v – 0,5 ≤ X < v + 0,5 (la posición del signo igual es asunto de elección). Este pequeño cambio tiene su importancia en la evaluación de probabilidades Gaussianas, pues el intervalo continuo a considerar es diferente del resultante con valores puramente enteros. Así, aunque la tipificación mantiene la forma (5.6.22) hay que prestar especial atención a los límites de X en cada problema. Esto se aclara en el Ejercicio 5.6.1. También hay que señalar que cuando en una distribución de Poisson l es un número muy grande, el interés se concentra en valores v cercanos a l y en estos casos la distribución de Poisson se puede aproximar muy bien mediante una Gaussiana con parámetros m = l y s2 = l.
304
DISTRIBUCIONES DE PROBABILIDAD
EJERCICIO 5.6.1 La probabilidad binomial para la ocurrencia de un determinado suceso es p = 0,6. Si se realizan 100 ensayos independientes, ¿cuál es la probabilidad de que el suceso aparezca un número de veces entre 58 ≤ v < 65? La distribución binomial puede representarse mediante una Gaussiana pues Np = 60 y Nq = 40 y ambos son >5. La media y la desviación típica son –—–– m = Np = 60 y s = √ Npq ≈ 4,899. Por otra parte, el intervalo 58 ≤ v < 65 al pasar a continuidad se debe expresar como el intervalo 57,5 ≤ X < 64,5 y los valores de la variable tipificada resultan Z1 =
57, 5 − 60 64, 5 − 60 = −0, 51; Z2 = = 0, 92 4, 899 4, 899
en donde se ha redondeado a dos decimales para efectuar las entradas en un tabla de áreas bajo la curva normal (5.6.18). La probabilidad pedida es p(58 ≤ ν < 65) = p(57, 5 ≤ X < 64, 5) = p(−0, 51 ≤ Z < 0, 92) = p(0 < Z ≤ 0, 51) + p(0 ≤ Z < 0, 92) = 0,1950 + 0, 3212 = 0, 5162 Se deja al lector que compruebe las diferencias al utilizar el intervalo 58 ≤ X < 65 así como las resultantes de otros problemas similares como 58 < v ≤ 65, etc.
La Distribución Logarítmico-normal (log-normal) Se tratará ahora con una variante de la distribución normal denominada logarítmico-normal (log-normal) que aparece con cierta frecuencia en la estadística de fenómenos caracterizados por una variable aleatoria X en los que influyen muchas causas, independientes entre sí, pero cuyos efectos individuales no sólo se suman sino que, además, cada uno es proporcional al valor de X. Ejemplos típicos son el tamaño de las partículas coloidales que aparecen en la formación de aerosoles, o la concentración de anticuerpos en el suero de la sangre humana. La idea básica es utilizar una nueva variable Y = ln X que se distribuye normalmente para sustituir, con muy buena aproximación, a la distribución no normal y asimétrica f(x) correspondiente a la variable original X. Cuando esta operación es aplicable se
305
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
produce una simplificación notable y se recomienda trabajar con la variable transformada Y. La forma de la distribución log-normal para X puede determinarse a partir de la de Y, Gaussiana con media m y desviación típica s, que se escribe f ( y) =
( y − µ )2 exp − ; − ` < y < ` 2σ 2 σ 2π
F ( y) = p(Y ≤ y) =
1
1
σ 2π
u− µ ( exp − −` 2σ 2
∫
y
)
2
du; − ` < y < `
(5.6.23a)
(5.6.23b)
La distribución de X = exp(Y) se obtiene notando las igualdades siguientes G( x) = P ( X ≤ x) = P (Y ≤ y) = F ( y) = F (ln x); 0 < x < `
(5.6.24)
pues exp(y) y ln(x) son ambas funciones crecientes. Se tiene entonces y−µ ln x ( 1 exp − G( x) = p( X ≤ x) = σ 2π − ` 2σ 2 0 si x ≤ 0
∫
)
2
dy; 0 < x < ` (5.6.25)
La función densidad g(x) se calcula como la derivada dG(x)/dx algo que hay que hacer con cuidado al ser la integral en (5.6.25) dependiente del parámetro x. Utilizando la regla de Leibnitz (Prob. 4) se obtiene ln x − µ ( 1 exp − dG g( x) = = σ x 2π 2σ 2 dx 0 si x ≤ 0
)
2
; 0< x 0
identificando los parámetros de la Gaussiana resultante.
322
DISTRIBUCIONES DE PROBABILIDAD
Problemas numéricos 5.7) La determinación del contenido en 87Rb de una colección de muestras sólidas de leucita se ha realizado mediante tres técnicas diferentes A, B y C. En cada una de ellas y tras la determinación las citadas muestras pueden ser aceptadas (p) directamente para posterior procesamiento, rechazadas (q) como inservibles, o reutilizadas (r) para otros fines. Los esquemas de probabilidad son los siguientes Técnica
Aceptación – p
Rechazo – q
Reutilización – r
A
0,40
0,31
0,29
B
0,30
0,32
0,38
C
0,28
0,35
0,37
¿Cuál es la técnica que en conjunto presenta la menor incertidumbre (menor entropía)? ¿Es necesariamente tal técnica la mejor desde un punto de vista químico? 5.8) Con los datos del Ejercicio 5.5.2 para una muestra de 20 disoluciones elegidas al azar determinar la probabilidad de que exactamente 2 sean defectuosas. Utilizar las distribuciones binomial y de Poisson. 5.9) La distribución de Poisson para un fenómeno aleatorio que se produce un número de veces en un intervalo de tiempo t toma la forma
(λt) p (t ) =
ν
ν
ν!
exp ( − λ t
)
En el caso de la desintegración radiactiva l es una constante con dimensiones de (tiempo)–1. La fórmula anterior se reduce a la expresión convencional de esta distribución haciendo x = lt. Aplicar la forma anterior dependiente del tiempo para responder a las siguientes cuestiones relativas al número de átomos radiactivos de una muestra que se desintegran en un tiempo t. a) ¿Con qué probabilidad se habrá desintegrado al menos un átomo? b) Para la desintegración 93Sr Æ 93Y la constante de desintegración radiactiva es l = (ln 2)/T (minutos)–1 con T = 8 minutos. Construir la
323
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
tabla reducida de probabilidades con 0 ≤ v ≤ 5 átomos desintegrados de 93 Sr en los tiempos t = T, 2T. ¿En esos tiempos, cuántos átomos de una muestra inicial de N quedan sin desintegrar? c) Estudiar la evolución temporal de la distribución b) considerando sus parámetros característicos m, s, g1 y g2. 5.10) Un conjunto de espines independientes s = 1/2 se encuentran en equilibrio térmico en un campo magnético B. La componente z de estos espines puede orientarse de dos maneras con respecto a B: paralela o antiparalelamente. Si la probabilidad de orientarse paralelamente es p = 0,7 y considerando un conjunto de N = 300 de estos espines, obtener las probabilidades de los sucesos siguientes. a) Número de espines paralelos sea v ≥ 200. Evaluar el efecto de considerar o no «correcciones de continuidad» y también el efecto de tomar un redondeo a dos ó tres decimales en la variable tipificada. b) Número de espines paralelos sea v < 225. c) Número de espines paralelos esté entre 195 ≤ v ≤ 215. d) Número de espines antiparalelos esté entre 70 < v˜ < 100. Redondear a dos decimales las evaluaciones finales de la variable tipificada en los casos b), c) y d). 5.11) Un análisis del contenido en 238U de una serie de muestras de carnotita lleva a aceptar directamente para posterior procesamiento el 35%, a rechazar el 45%, y a reutilizar el resto en otros fines. En un conjunto de N = 10 muestras elegidas al azar determinar las probabilidades siguientes. a) Aceptar 5, rechazar 2 y reutilizar 3. b) Aceptar todas. c) Rechazar todas. d) Reutilizar todas. e) Si el conjunto está compuesto por N = 1000, estimar la probabilidad de aceptar 500, rechazar 200 y reutilizar 300. f) Si el número de elementos de la muestra es N = 1000, calcular la probabilidad de que sean aceptables en un primer ensayo al menos 300.
324
DISTRIBUCIONES DE PROBABILIDAD
5.12) La longitud en Å de la unidad monomérica de un polímero se distribuye uniformemente entre 20 < L < 25, no saliéndose de tales límites. Determinar los cuatro momentos centrales de esta distribución, la asimetría y el exceso. Para una cadena lineal de N = 500 unidades, supuestas independientes, obtener la longitud media y la desviación típica. Dar una respuesta final significativa para la longitud.
SOLUCIONES Problema 5.1 La función densidad no está normalizada, hay que normalizarla y calcular después la función integral de probabilidades. La constante de normalización C se calcula través de C
∫
1
f ( x) dx =C
0
∫
1
0
xdx =
C = 1→ C = 2 2
La función densidad normalizada es pues 2 x si 0 < x < 1 f ( x) = 0 en otro caso La función integral está definida en tres partes 0 Ä Ä si Ä Ä Ä Ä Ä − ` < x < 0 x F ( x) = 2 u du = x2 Ä si 0 ≤ x 5; Nq = 300 ⋅ 0, 3 = 90 > 5 siendo la media y la desviación típica
µ = Np = 210; σ = Npq = 63 ≈ 7, 937 Al transformar la distribución discreta (binomial) en continua (Gaussiana) conviene utilizar las llamadas correcciones de continuidad, que en defi-
332
DISTRIBUCIONES DE PROBABILIDAD
nitiva son una manera de definir las «marcas de clase». Por ejemplo, el número entero v = 175 se corresponde con el intervalo definido con «±0,5» sobre la última cifra significativa escrita: 174,5 ≤ x < 175,5. Se ha elegido incluir el límite inferior, aunque podría haberse tomado el superior. Esto obliga a ajustar las cuestiones formuladas en consonancia con esta definición para determinar los valores de la variable normal tipificada Z. Los valo— res de la variable tipificada pueden determinarse perfectamente con s = √63 en los cálculos con calculadora utilizando todos los decimales que ésta ofrezca, esto no representa ningún engorro y es siempre conveniente (utilícese una memoria libre para almacenar este dato o combínense adecuadamente las operaciones). No obstante, el lector puede utilizar la expresión decimal truncada, cerciorándose siempre de que se garantiza la precisión requerida por el problema o la aplicación que esté investigando. En las condiciones pedidas el valor 7,937 resulta suficiente. En adelante se utilizará el signo = en vez de ≈ cuando convenga. a) El caso v ≥ 200 equivale a X ≥ 199,5 con corrección de continuidad z=
x − µ 199, 5 − 210 = = −1, 3229 σ 63
Sin corrección de continuidad X ≥ 200 z=
x − µ 200 − 210 = = −1, 2599 σ 63
Con dos decimales de redondeo en Z
)
)
)
)
p( 2 ) ( X ≥ 199, 5 = p ( Z ≥ −1, 32 = p ( −1, 32 ≤ Z < 0 + p ( Z ≥ 0 = = 0, 4066 + 0, 5 = 0, 9066 y análogamente
)
)
p( 2 ) ( X ≥ 200 = p ( Z ≥ −1, 26 = 0, 8962 Con tres decimales de redondeo se tiene la condición Z ≥ –1,323 y la probabilidad es
333
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
)
)
)
p( 3 ) ( X ≥ 199, 5 = p ( Z ≥ −1, 323 = p( Z ≤ 0 ) + p (0 < Z ≤ 1, 323 = = 0, 5 + 0, 40708 = 0, 9071 Para obtener la probabilidad p(0 < Z ≤ 1,323) se ha interpolado linealmente en las entradas de la tabla p(0 < Z ≤ 1,32) = 0,4066 y p(0 < Z ≤ 1,33) = 0,4082
)
)
p ( 0 < Z ≤ 1, 323 = p (0 < Z ≤ 1, 32 +
0, 003 ⋅ 0, 0016 = 0, 4066 + 0, 00048 = 0, 4071 0, 01
Comparando resultados se observa que de no haber tomado la corrección de continuidad (con dos decimales): p(2)(X ≥ 200) = 0,8962 y p(2)(X ≥ 199,5) = 0,9066, hay pues una pequeña diferencia del –1,15% de la primera estimación con respecto a la segunda más precisa. En cuanto al redondeo con corrección de continuidad incluida: p(2)(X ≥ 199,5) = 0,9066 y p(3)(X ≥ 199,5) = 0,9071, una diferencia de –5,10–4 realmente pequeña (–0,055%) que puede despreciarse sin afectar significativamente el resultado. b) En este caso v < 225 equivale a X < 224,5 y la variable tipificada toma el valor redondeado a dos decimales z=
224, 5 − 210 63
= 1, 83
)
)
)
p ( X < 224, 5 = p ( Z < 1, 83 = p( Z < 0) + p (0 ≤ Z < 1, 83 = 0, 5 + 0, 4664 = 0, 9664 c) Ahora la condición 195 ≤ v ≤ 215 es equivalente a 194,5 ≤ X < 215,5 y los valores límites de la variable tipificada son con redondeo a dos decimales z1 =
194, 5 − 210 63
= −1, 95;
z2 =
215, 5 − 210 63
= 0, 69
La probabilidad es entonces (Fig. 5EP.1)
p (194, 5 ≤ X < 215, 5) = p ( −1, 95 ≤ Z < 0, 69 ) = p ( 0 < Z ≤ 1, 95) + + p(0 ≤ Z < 0, 69) = 0, 4744 + 0, 2549 = 0, 7293
334
DISTRIBUCIONES DE PROBABILIDAD
Figura 5EP.1. Diagrama para el cálculo de probabilidad para el Problema 10 apartado c).
d) Ahora conviene ver el problema desde el punto de vista complementario, es decir, el de los espines antiparalelos, para el cuál p˜ = q y q˜ = p. En este caso la media cambia, pero no la desviación típica
µ = Np = 300 ⋅ 0, 3 = 90;
σ = Npq
La situación pedida es 70 < v˜ < 100 y es equivalente a 70,5 ≤ X˜ < 99,5 con lo que los valores límites de la variable tipificada Z˜ son z1 =
70, 5 − 90 63
= −2, 4568 ≅ −2, 46; z2 =
99, 5 − 90 63
= 1,1969 ≅ 1, 20
Utilizando el redondeo a dos decimales la probabilidad es entonces
) (
(
) (
)
p 70, 5 ≤ X < 99, 5 = p −2, 46 ≤ Z < 1, 20 = p 0 < Z ≤ 2, 46 +
(
)
+ p 0 ≤ Z < 1, 20 = 0, 4931 + 0, 3849 = 0, 8780
Problema 5.11 La aplicación de la distribución multinomial da los resultados con tres dígitos significativos (casos a) al d))
335
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
a) P(5, 2, 3) =
10 ! 0, 355 ⋅ 0, 452 ⋅ 0, 23 = 0, 0214 = 2,14 ⋅10 −2 5! 2! 3!
b) P(10, 0, 0) =
10 ! 0, 3510 ⋅ 0, 450 ⋅ 0, 20 = 2, 76 ⋅10 −5 10 ! 0 ! 0 !
c) P(0,10, 0 ) =
10 ! 0, 350 ⋅ 0, 4510 ⋅ 0, 20 = 3, 41⋅10 −4 0 ! 10 ! 0 !
d) P(0, 0,10) =
10 ! 0, 350 ⋅ 0, 450 ⋅ 0, 210 = 1, 02 ⋅10−7 0 ! 0 ! 10 !
e) Esta es una evaluación ciertamente complicada de llevar a cabo P(500, 200, 300 ) =
1000 ! 0, 35500 ⋅ 0, 45200 ⋅ 0, 2300 500 ! 200 ! 300 !
y conviene utilizar la aproximación de Stirling para el factorial de números grandes. La idea es calcular el logaritmo neperiano de la aproximación y luego tomar antilogaritmos para tener una estimación de la probabilidad. N ! ~ 2π N N N exp(− N ) → ln N ! ~
1 ln (2π N + N ( ln N − 1 2
)
)
Se tiene entonces que ln P = ln 1000 !− ln 500 !− ln 200 !− ln 300 !+ 500 ln 0, 35 + 200 ln 0, 45 + 300 ln 0, 2 El resultado es negativo y el antilogaritmo resulta ser una cantidad muy pequeña ln P ~ −144, 78331 → P ~ 1, 32 ⋅10 −63 f) En este caso hay que visualizar el problema como una distribución binomial en la que 300 o más sean aceptables, lo que tiene asociada una probabilidad p˜ = 0,35, con lo que la probabilidad de que no sea aceptable para procesar en primera instancia resulta q˜ = 0,65. El cálculo binomial sería
336
DISTRIBUCIONES DE PROBABILIDAD
10 000
P(ν ≥ 300) =
1000 1000 300 700 0, 35ν ⋅ 0, 651000 −ν = 0, 35 ⋅ 0, 65 + ν 300 ν = 300
∑
1000 0, 35301 ⋅ 0, 65699 + ... + 301 Este es de nuevo un cálculo ciertamente complejo que conviene abordar utilizando la distribución Gaussiana, pues Np˜ = 1000 · 0,35 = 350 > 5; Nq˜ = 1000 · 0,65 = 650 > 5. La media y la desviación típica son = 1000 ⋅ 0, 35 ⋅ 0, 65 = 227, 5 . 15, 083 µ = Np = 1000 ⋅ 0, 35 = 350; σ = Npq y la probabilidad pedida resulta P(v˜ ≥ 300) = P(X˜ ≥ 299,5) en donde se ha tomado la convención de las marcas de clase como en el problema 8: 299,5 ≤ (X˜ = 300) < 300,5. El valor de la variable Z˜ es redondeado a dos decimales X − µ 299, 5 − 350 Z = → z = = −3, 35 σ 227, 5 y por tanto la probabilidad resulta
(
)
P (ν ≥ 300) = P ( X ≥ 299, 5) = P Z ≥ −3, 35 = 0, 4996 + 0, 5 = 0, 9996 Los mismos comentarios hechos en el Prob. 10 con respecto a la división por s˜ se aplican aquí.
Problema 5.12 Hay primero que plantear la función densidad de probabilidad en forma normalizada. Es del tipo rectangular y resulta 1 f ( x) = 1 si 20 < x < 25 → normalización n → f ( x) = 5 0 en otro caso 0
si 20 < x < 25 en otro caso
en donde la constante de normalización se ha determinado haciendo
337
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
C
∫
25
f ( x) dx = C
20
∫
25
dx = 5C = 1 → C = 1 / 5
20
El cálculo del valor medio es trivial y su resultado fácil de anticipar por la simetría de la distribución
µ= L =
∫
25
20
25
1 x2 x dx = 5 10
= 22, 5Ä Å 20
Los momentos centrales (con respecto a m) se calculan directamente
α1 =
25
∫
( x − µ ) f ( x) dx = 0
20
α2 = σ 2 =
∫
25
20
( x − µ)
2
∫
2 ,5
−2,5
α3 =
α4 =
∫
25
∫
25
20
20
( x − µ)
3
( x − µ)
4
{
}
f ( x) dx = u = x − µ ; du = dx = u2
f ( x) dx =
∫
f ( x) dx =
∫
2 ,5
− 2 ,5
u2 f (u + µ ) du =
1 2 du = 2, 53 ≈ 2, 0833 Ä Å 2 5 15 2 ,5 −2,5
∫
u3 f (u + µ ) du =
2 ,5 −2,5
∫
2,5
1 u3 du = 0 Ä (porÄ simetríaÄ impar) 5 −2 ,5
u4 f (u + µ ) du =
∫
2 ,5
−2,5
u4
1 2, 55 2 ≈ 7, 8125Ä Å 4 du = 5 25
Los coeficientes de sesgo y de curtosis se evalúan a partir de los resultados anteriores
γ1 =
α3 σ
3
= 0; γ 2 =
α4 σ4
− 3 = −1, 2
dando medidas cuantitativas de lo que se sabe por simple inspección de f(x) que la asimetría es nula y que la curtosis es completamente plana. Estos resultados coinciden obviamente con los que se hubieran obtenido aplicando las fórmulas (5.6.3) a (5.6.6). Para 500 unidades independientes la longitud total es la suma de las longitudes medias de cada unidad, y la varianza la suma de las varianzas de cada unidad. Al ser todas las unidades equivalentes se tiene
338
DISTRIBUCIONES DE PROBABILIDAD
LT = Nµ = 500 . 22, 5 = 11250
σ T2 = Nσ 2 = 500 ⋅
2 ⋅ 2, 53 ≅ 1041, 6667 → σ T ≈ 32, 275Ä Å 15
Con estos resultados se escribiría para la longitud en Å de la cadena polimérica los intervalos 1σ → 11250 ± 32 2σ → 11250 ± 65 3σ → 11250 ± 97 en donde se ha redondeado a dos cifras la semianchura de cada intervalo.
339
CAPÍTULO 6 MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
6.1. 6.2. 6.3. 6.4. 6.5. 6.6. 6.7. 6.8.
Muestreo de poblaciones Distribuciones muestrales Inferencia estadística (I) Inferencia estadística (II) Función de potencia y curva OC Gráficos de control (Shewhart) y aleatoriedad Comparación de muestras: medias y proporciones Teoría de pequeñas muestras
Bibliografía Problemas teóricos y numéricos
Se consideran cuestiones estadísticas de corte práctico, como son: el muestreo de poblaciones, la estimación de parámetros poblacionales, y la formulación y validación de hipótesis estadísticas. Se comienza con unas ideas generales de los tipos de muestreo (al azar, estratificado, con y sin remplazamiento) y de las distribuciones muestrales (de medias, de varianzas, de proporciones, de diferencias y sumas). Con ello se pretende ilustrar cómo adquirir información general sobre una población y hasta el epígrafe 6.7 se considerará que la muestra es suficientemente grande y puede tratarse así mediante una distribución Gaussiana. El paso siguiente es la Inferencia Estadística que se divide en dos partes. La primera se dedica a las estimaciones de los parámetros de la población (verdaderos valores) a partir de las aproximaciones que dan los denominados estadísticos de la muestra, centrando la discusión en las estimaciones por punto y por intervalos de confianza. La segunda parte de la Inferencia considera el problema de la toma de decisiones a partir de los análisis anteriores efectuados sobre muestras extraídas de una población formulando y verificando hipótesis estadísticas sobre las distribuciones de probabilidad de la población. Estas verificaciones de hipótesis tienen una amplia utilidad en la selección de procesos mejores que los existentes, cuestiones de buen funcionamiento de una operación, etc., y se identifican los dos tipos de errores que pueden cometerse en las tomas
341
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
de decisión (tipo I y tipo II). Se presentan después algunas construcciones gráficas: la función de potencia, la curva característica de operación (OC), y los gráficos de control. Estas construcciones resultan muy útiles pues muestran gráficamente detalles importantes del proceso y ayudan a detectar problemas de funcionamiento en éste. Se estudian los métodos de comparación de muestras y, finalmente, se presta atención a la teoría de pequeñas muestras analizando las tres distribuciones típicas: t de Student, chi-cuadrado y F de Fisher.
Muestreo / Muestra Distribuciones Muestrales / Estimadores Inferencia estadística
Teoría de pequeñas muestras
Estimación por punto
Distribuciones: t de Student chi-cuadrado F de Fisher
Estimación por intervalo Verificación de hipótesis Errores Tipo I y II Gráficos OC Gráficos Shewhart Comparación de muestras
Caps. 7, 8, 10
6.1. Muestreo de poblaciones En el Cap. 5 ya se avanzaron algunas ideas sobre la operación de muestreo estadístico de poblaciones. El muestreo es, en definitiva, la manera práctica de conocer las características generales de una población utilizando una selección finita de sus objetos, artículos, elementos, individuos o especímenes, que son los nombres con los que se suelen denotar los objetos que la forman y que se utilizarán en lo que sigue de manera indistinta. Esta selección es obligada por razones económicas y temporales, se la denomina muestra y debe elegirse de manera adecuada para que sea representativa de la población. Como ya se ha señalado, aquí hay que estar precavido de que a veces la nomenclatura consagrada suele hablar de muestras (en plural) y toma de muestras para denotar a un conjunto de medidas diferentes en un experimento o ensayo, y de ello se sigue que al tratar del muestreo estadís-
342
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
tico la muestra en este caso está formada por un conjunto de «muestras» (los elementos o especímenes). Las confusiones derivadas de este uso pueden ser evitadas haciendo caso del contexto. Hay que recordar además que las poblaciones pueden ser infinitas o finitas y que, por otra parte, cuando la población es finita pero muy grande suele ser una muy buena aproximación tomarla como infinita.
Métodos Generales de Muestreo Hay una gran variedad de métodos de muestreo de poblaciones y toda una teoría matemática sobre ellos. Estas operaciones presentan muchas aplicaciones que resultan decisivas en los denominados controles de calidad de procesos. Por razones obvias se van a dar aquí sólo los principios fundamentales. En la operación de muestreo, o la toma de una muestra (colección de objetos), hay que considerar el tamaño que debe tener (número de elementos) que estará en relación directa con el coste económico (monetario/temporal) del proceso de toma y la precisión que se desea obtener finalmente. También hay que garantizar que la imagen obtenida a partir de la muestra sea suficientemente buena para representar a la población. Para esto último hay que seleccionar los especimenes de una forma objetiva y completamente al azar. Esto significa que el método de selección no puede depender de la voluntad o impulsos inconscientes de un operador que elija tales especímenes, lo que se consigue haciendo igualmente probable la elección de cualquiera de los elementos de la población (la distribución uniforme del Cap. 5). Siguiendo esta línea de pensamiento la versión más sencilla es la conocida como muestreo sencillo aleatorio que da origen a la muestra sencilla aleatoria, pudiéndose realizar de una manera práctica mediante un modelo de lotería: se ordenan numéricamente los elementos de la población (supuesta numerable) y mediante un sorteo en el que se homogeneizan los números de orden (papeletas o bolas numeradas) se obtiene la muestra del tamaño deseado. Pueden imaginarse muchos modos de realizar este proceso de sorteo, pero un modo muy simple es el de utilizar la denominada tabla de números aleatorios, en la que están las cifras del 0 al 9 repetidas muchas veces y repartidas uniformemente en forma de cuadro (filas/columnas). Se toma un punto de entrada en esta tabla (una cualquiera de las cifras) y a par-
343
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
tir de allí se van tomando los números (con una cifra, con dos cifras, etc., según las necesidades) que aparecen hacia la derecha (en la fila) o hacia abajo (en la columna), continuando hasta agotar el tamaño de la muestra. Una versión más elaborada y eficaz se denomina muestreo aleatorio estratificado. Esta puede realizarse cuando los elementos de la población pueden ser organizados por estratos (clases o grupos) de acuerdo con ciertas características que poseen. Una vez separada la población en estos estratos se procede a seleccionar muestras sencillas aleatorias en cada uno de ellos. Todas estas muestras parciales por estratos forman la muestra aleatoria estratificada. Si de la población con NP elementos se quiere tomar una muestra de tamaño n, hay que estratificarla en m estratos de manera que cada uno contenga Nm elementos (su suma debe coincidir con NP y la versión más eficaz de muestreo consiste en extraer nm elementos de cada estrato, de modo que se tenga n1 n n n = 2 = ... = m = ; n = n1 + n2 + ... + nm ; NP = ∑ Nm N1 N2 Nm NP m
(6.1.1)
Este método recibe el nombre de muestreo estratificado proporcional. Otra posibilidad surge cuando se desea una muestra aleatoria de una población, pero de acuerdo con una cierta variable aleatoria X con función de distribución cumulativa de probabilidades F(x) dada. En este caso, como 0 ≤ F ≤ 1, el proceso se puede realizar eligiendo primero un número aleatorio 0 ≤ yi ≤ 1, uniformemente distribuido en [0,1] y calculando después su imagen xi = F–1(yi). El conjunto de estos valores {xi} es la muestra del problema. Hay dos casos especiales en los que esto puede hacerse con ayuda de tablas preparadas al efecto: el caso uniforme y el caso Gaussiano. EJERCICIO 6.1.1 Utilizando tablas de números aleatorios discutir cómo extraer una muestra al azar de: a) una distribución uniforme definida en a < x < b; b) una distribución Gaussiana con media m y desviación típica s. a) Utilizando la tabla de números aleatorios se forma un número decimal en 0 < di < 1 con tantos decimales como requiera la aplicación. El paso siguiente es transformarlo al intervalo pedido mediante xi = a + di(b – a), repitiéndose el proceso para el resto de los valores que se necesiten.
344
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
b) Utilizando la tabla de desviaciones normales aleatorias se forma una secuencia del tamaño que se pida de valores zi leídos en ella (mtabla = 0, stabla = 1) y con ellos se determinan los valores buscados Estas operaciones anteriores así realizadas son muy eficaces para tamaños relativamente pequeños, pero cuando hay que utilizar muestras muy grandes (del orden de millones o mayores) como es el caso de ciertas aplicaciones teóricas (simulación Monte Carlo de fluidos), entonces deben utilizarse simuladores de números aleatorios, algo que se tratará en el Cap. 10. Por otra parte, en lo anterior está implícita la consideración de las marcas de clase al tratar con variables continuas (ver Cap. 5) y esto puede obligar a tener que afinar en el número de decimales. Finalmente, una representación gráfica de la muestra en la que se represente la frecuencia de aparición de un elemento (o clase) frente a la numeración de tales elementos, es decir el bien conocido histograma de frecuencias, puede resultar muy útil para hacerse una idea rápida de la distribución de la muestra extraída.
Observaciones adicionales a) En la discusión anterior sobre muestreo se daba por supuesto que la población constaba de elementos discretos o que se podía aproximar mediante una colección discreta de elementos. Pudiera sin embargo darse el caso de que el muestreo no se ajustara a ninguno de estos modelos, como sería el caso del análisis de un material (sólido o líquido, por ejemplo). Si este material fuera perfectamente homogéneo, su análisis sólo requeriría una pequeña porción extraída de él (test incremental). Ahora bien, la presencia de gradientes de concentración en un líquido, o de diferentes composiciones en diferentes regiones de un sólido, inducirían la pérdida de homogeneidad y el método de muestreo incremental anterior dejaría de ser válido. La detección de estos fenómenos no homogéneos puede resultar crucial en muchos casos y el análisis correspondiente necesitaría de la toma de muestras en diferentes partes del material, siguiendo métodos similares a los descritos antes y que recorriesen regiones de aquél definidas de antemano («celdas»). b) Una distinción útil entre métodos de muestreo es la de los basados en atributos (cualitativos) y en variables (cuantitativos). Esto es una gran ayuda en la definición de los planes de muestreo a realizar con la indicación del tamaño de muestra a utilizar, los gráficos OC y de potencia, etc.
345
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
c) Las operaciones de muestreo con elementos numerables pueden ser con remplazamiento o sin remplazamiento. En el primer caso cada elemento de la población puede ser elegido más de una vez en la muestra, en tanto que en el segundo caso cada elemento sólo se elige una vez como máximo. Poblaciones finitas con muestreos con remplazamiento son así, en la práctica, teóricamente infinitas. Por otra parte, poblaciones finitas muy grandes pueden visualizarse también como infinitas en la práctica, algo que ya se ha señalado antes. Repárese en que en la toma de muestras y las mediciones posteriores el elemento seleccionado pudiera tener que ser destruido (ensayo destructivo) y esto ya fuerza a que el muestreo sea sin remplazamiento. d) Con la muestra de tamaño N extraída pueden calcularse las magnitu– des muestrales media X y varianza s2 de la propiedad estudiada siguiendo expresiones matemáticas que van a definirse en el epígrafe siguiente y que recuerdan la discretización de las integrales continuas para m y s2. Es importante señalar que por lo que respecta a la varianza muestral ésta tiene dos contribuciones: la que depende de las diferencias entre los elementos de la muestra y la que depende de los errores aleatorios que afectan a cada medida. La técnica del análisis de varianza (ANOVA) permite separar ambas contribuciones e interpretar mejor los resultados (Cap. 10). e) Igualmente pueden realizarse más evaluaciones de parámetros a partir de la muestra, todo ello para caracterizar la población de la que procede. Además, pueden combinarse informaciones de diferentes muestras, procedentes bien de la misma población o de diferentes poblaciones, para obtener nuevos datos de interés estadístico. Así, el objetivo general del muestreo de poblaciones es el de inferir las características poblacionales, operación en la que juegan un papel central las técnicas de estimación por intervalos y de verificación de hipótesis estadísticas. Esto confiere un carácter probabilista a todos los resultados que se obtienen aplicando estas técnicas. e) En todo el estudio del muestreo de poblaciones hay que distinguir los casos en los que el tamaño de la muestra es grande (N ≥ 30, N ≥ 100, dependiendo del propósito) que se tratan con ayuda de la distribución Gaussiana, de los casos con muestras pequeñas que se tratan con distribuciones especiales. f) Este es un capítulo eminentemente práctico y sólo van a darse algunas demostraciones sencillas relativas a las formulaciones que siguen. Se remite al lector a la bibliografía recomendada para este tipo de detalles formales.
346
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
6.2. Distribuciones muestrales Media y Varianza Una vez tomada una muestra de tamaño N y obtenidos independientemente unos de otros los valores {xi}i=1,N de la propiedad X (variable aleatoria) a estudiar se pueden calcular las características muestrales (media, varianza, y momentos en general) para utilizarlos como aproximaciones a los correspondientes parámetros poblaciones (m, s 2, ...). Por su especial importancia – van a considerarse primero la media X y la varianza s2 muestrales que se calculan mediante las expresiones 1 X= N 1 s = N −1 2
N
∑x = i
i=1
N
∑ i =1
( xi − X )2 =
x1 + x2 + ... + xN N
( x1 − X )2 + ( x2 − X )2 + ... + ( xN − X )2 N −1
(6.2.1a)
(6.2.1b)
en donde es de notar que los denominadores de ambas expresiones son diferentes. También hay que insistir en que cada elemento de la muestra contribuye a las sumas indicadas; es decir, si apareciera uno o más valores xi repetidos (frecuencias mayores que la unidad) en la muestra extraída, habría que considerar a todos y cada uno de ellos en los cálculos (N en total). Como cada valor medido xi es un resultado aleatorio, distribuido con media m – y varianza s 2, tanto X como s 2 serán también variables aleatorias y es de interés conocer sus distribuciones, algo que puede simplificarse al conocimiento de sus correspondientes valores medios y varianzas en una primera toma de contacto que suele ser suficiente a efectos prácticos. Se habla así de las distribuciones muestrales asociadas con estos parámetros (u otros de orden superior): la distribución de medias muestrales (con sus propias media, varianza y otros momentos), la distribución de varianzas muestrales (con sus propias media, varianza y otros momentos), etc. A las expresiones (6.2.1) se las denomina estadísticos o estimadores muestrales y presentan unas propiedades que requieren consideración aparte. También hay que señalar que en – cuanto a la notación para la media muestral se utilizará indistintamente X o x¯ una elección que va a depender del contexto y de las convenciones gene– ralmente aceptadas. Así, en este capítulo la notación preferida será la de X pero se cambiará a x¯ en otros lugares (Caps. 7, 8 y 10) cuando convenga.
347
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Igualmente, es interesante indicar que en la práctica al utilizar muestras se utilizan diferentes estimadores de la varianza, cada uno adecuado a distintos propósitos como se verá más adelante con las técnicas de máxima verosimilitud y del análisis de la varianza (Cap. 10). – a) Por lo que respecta a la media X hay que indicar que en general para – una muestra se va a tener X ≠ m, y además: a.1) Repescando resultados del Cap. 5 se encuentra fácilmente que
µX = µ = X
(6.2.2)
es decir, que el valor medio del parámetro media muestral sobre su distribución de probabilidades coincide con el valor medio poblacional, independientemente del tamaño de la muestra N y de la población concreta bajo estudio. a.2) Igualmente para todas las muestras de tamaño N se encuentra
σX =
( X − µ )2 =
σ N
(6.2.3)
es decir, que la desviación típica de la media muestral es la desviación estándar poblacional dividida por la raíz cuadrada del tamaño de la muestra. A sX– – se la denomina error típico de X. Hay que indicar que se ha considerado aquí una población efectivamente infinita. a.3) Como una aplicación del teorema central del límite (Cap. 5), para – tamaños de muestra N ≥ 30 la distribución de la media X puede aproximarse mediante una Gaussiana de media m y varianza sX–2. Sin embargo, para tamaños menores N < 30 esta aproximación deja de ser válida y hay que utilizar las denominadas distribuciones de pequeñas muestras. Evidentemente, si – la población es ya Gaussiana de partida, entonces X es ya automáticamente normal. a.4) Si se tuviera un muestreo sobre una población finita (con NP elementos) y sin remplazamiento la expresión (6.2.3) se escribiría como
σX =
348
σ N
NP − N ; NP > N NP − 1
(6.2.4)
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
b) El caso de la varianza muestral s2 presenta las particularidades siguientes: b.1) Una definición de esta magnitud acorde con la definición de s 2 como un valor medio sería s 2 =
1 N
N
∑ i=1
1 ( xi − X ) = N 2
N
∑ i =1
1 ( xi − µ + µ − X ) = N 2
N
∑ (x − µ)
2
i
− ( µ − X )2
(6.2.5)
i=1
No obstante, teniendo en cuenta las relaciones que se obtienen de (6.2.3) ( xi − µ )2 = σ 2 ;
( X − µ )2 = σ 2X =
σ2 N
(6.2.6)
y notando que todos los valores xi son formalmente equivalentes, se obtiene sin dificultad s
2
1 = N
N
∑ (x − µ)
2
i
− ( µ − X )2 =
i =1
N −1 2 σ N
(6.2.7)
relación que pone de manifiesto que 具s˜2典 ≠ s 2, resultando entonces que el valor medio de la varianza muestral estimada a través de (6.2.7) es s 2 corregida con un factor que depende del tamaño de la muestra N. Aunque para tamaños grandes la corrección tiende a la unidad, debe mantenerse en evaluaciones con valores pequeños de N. b.2) En consecuencia, la estimación de la varianza muestral debe hacerse con la magnitud corregida tal y como se indicó en (6.2.1b), y que con (6.2.7) puede comprobarse que tiene un valor medio igual al valor poblacional 具s2典 = s 2. El estimador preferido para la desviación típica muestral es pues s=
1 N −1
N
∑ (x − X )
2
i
(6.2.8)
i=1
b.3) Los desarrollos de b.1) y b.2) sirven para introducir someramente el concepto de grados de libertad en una estimación. Nótese que entre (6.2.1b) y (6.2.5) la diferencia está en que el denominador de la última (N – 1) es una unidad inferior. Esta cantidad se denomina número de grados de libertad,
349
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
n = N – 1, y puede visualizarse como el resultante de restarle al número ini– cial de datos N la ligadura que representa el introducir el valor previo X (6.2.1a) s en la estimación de s2 (6.2.1b). b.4) En cuanto a los errores de la desviación típica y de la varianza muestrales se tiene para tamaños N ≥ 100 que las distribuciones respectivas son muy cercanas a normales y se pueden demostrar las aproximaciones
σs ≈
σ 2N
; σ s2 ≈ σ 2
2 N
(6.2.9)
Como es fácil de comprender, cuanto mayor es N tanto mejores son estas dos aproximaciones. Otras versiones de ellas incluyen en los denominadores (N – 1) en lugar de N, aunque con muestras muy grandes 1/(N – 1) @ 1/N. Si la población es normal, las ecuaciones (6.2.9) son exactas b.5) Si la población no es normal, o no pueden utilizarse las relaciones (6.2.9), entonces se utilizan las expresiones
σs ≈
α 4 − α 22 α 4 − α 22 ; σ s2 ≈ 4 Nα 2 N
(6.2.10)
en donde intervienen los momentos centrales a4 y a2 = s 2. Si estos valores son desconocidos, pueden utilizarse los correspondientes estimadores muestrales discretizados a4 y a2 (ver Problema 1). Como nota final relacionada con lo anterior, si los parámetros poblacionales son desconocidos y la muestra extraída es suficientemente grande, entonces se pueden utilizar los correspondientes parámetros muestrales – como substitutos: X Æ m, s2 Æ s 2, etc. A este respecto, los resultados centrales obtenidos X = µ;
s2 = σ 2
(6.2.11)
– confieren a los estimadores X y s2 la cualidad denominada de ser insesgados, que denota que sus valores medios coinciden con los poblacionales. Los estimadores que no cumplen esta condición, como es el caso de s˜ 2 se denominan sesgados. Como cuestión de principio conviene utilizar siempre estimadores insesgados en los cálculos estadísticos.
350
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
Proporciones Esta una aplicación de la distribución binomial para una población en la que se denota la probabilidad del suceso X (éxito) por p, y la probabilidad del suceso complementario (fracaso) por q = 1 – p. Si de la población infinita se extraen todas las muestras de tamaño N y se obtiene la proporción de éxitos ᏼ en cada una, la variable aleatoria ᏼ presenta una distribución muestral cuyas media y varianza se obtienen a través de fórmulas ya conocidas. Planteando el problema como antes, se tienen N variables aleatorias independientes ᏼ1, ᏼ2, ..., ᏼN, la proporción media de éxitos en una muestra de tamaño N es obviamente p y por tanto se tiene
µ = 3 1 = 3 2 = ... = 3 N = p
(6.2.12)
σ 32 = σ 32 = ... = σ 32 = pq
(6.2.13)
1
N
2
Con estos resultados se establece sin dificultad 3 =
σ = 2 3
3 1 + 3 2 + ... + 3 N Np = =p N N
σ 32 + σ 32 + ... + σ 32 1
2
N
N
2
=
Npq N
2
=
pq N
(6.2.14)
(6.2.15)
En el caso de una población finita con NP elementos y utilizando muestreo sin remplazamiento las ecuaciones son como las mostradas para la distribución de la media
µ3 = p ; σ 3 =
pq N
NP − N NP − 1
(6.2.16)
Sumas y Diferencias Cuando se realiza un muestreo conjunto de dos poblaciones infinitas diferentes caracterizadas cada una por las variables X e Y, de manera que la toma de las parejas de especímenes se realiza de forma independiente y, además, la selección de un xi no afecta en modo alguno la de yi, puede desearse
351
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
calcular las propiedades de las magnitudes X + Y y X – Y. Estas nuevas variables son muy útiles en el estudio comparativo de poblaciones y de cuestiones de inferencia estadística. Utilizando la independencia estadística señalada y las medias y varianzas de X e Y, suponiendo poblaciones infinitas, es sencillo obtener X +Y = X + Y ;
X −Y = X − Y
(6.2.17a)
Var ( X + Y ) = σ 2X + Y = σ 2X + σ Y2
(6.2.17b)
Var ( X − Y ) = σ 2X − Y = σ 2X + σ Y2
(6.2.17c)
en donde hay que notar que las varianzas parciales siempre se suman. El problema puede ampliarse si se consideran dos estadísticos generales asociados con las poblaciones respectivas, SX (obtenido con una muestra NX) y SY (obtenido con una muestra NY) y sus combinaciones SX ± SY. En las mismas condiciones de independencia señaladas anteriormente y poblaciones infinitas o muy grandes se encuentra análogamente SX + SY = SX + SY ;
SX − SY = SX − SY
Var (SX + SY ) = Var (SX − SY ) = σ S2 + σ S2 X
Y
(6.2.18) (6.2.19)
Esto se aplica de manera inmediata a magnitudes muestrales concretas. Por ejemplo, para medias muestrales X ± Y = X ± Y = µ X ± µY Var ( X ± Y ) = σ 2X + σ Y2 =
σ X ±Y =
σ 2X σ Y2 + N X NY
σ 2X σ Y2 + N X NY
(6.2.20)
(6.2.21a)
(6.2.21b)
en donde mX, mY, sX, y sY son los parámetros poblacionales (medias y desviaciones típicas) de X e Y respectivamente. Como detalles de interés hay que indicar que: a) para las distribuciones muestrales de diferencias de medias (o de proporciones) pueden tomarse
352
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
aproximaciones Gaussianas siempre que NX, NY ≥ 30; b) los resultados anteriores se mantienen para poblaciones finitas con remplazamiento; c) en el caso de poblaciones finitas con muestreo sin remplazamiento hay que corregir las expresiones anteriores (6.2.20) y (6.2.21) en una forma análoga a lo ya señalado en (6.2.16).
Mediana Para concluir este apartado se indican resultados básicos para la mediana, que divide en dos partes iguales la distribución original con media m y desviación típica s. Para muestras N ≥ 30 la distribución muestral de la mediana también puede tomarse como normal con parámetros 2 Mediana = µ ; σ Med . ≈
π 2 σ 2N
(6.2.22)
En este punto es muy importante notar que la mediana de una muestra {xi} de tamaño N se define del modo siguiente x( N +1)/ 2 Mediana = Med ( X ) = 1 ( xN / 2 + x( N / 2 )+1 ) 2
si N es impar si N es par
(6.2.23)
Al parecer no hay un símbolo universal para denotar a la mediana (el segundo cuartil) y aquí se utilizará como abreviatura la ya incluida en el Cap. 5 Med(X). Si aparecieran valores repetidos en la muestra, hay que considerarlos a todos como independientes y una vez ordenados proceder con ellos de acuerdo con (6.2.23). Por ejemplo para una muestra de 10 datos, x1, x5, x2, x2, x3, x1, x3, x3, x4, x3, se reordenaría x1, x1, x2, x2, x3, x3, x3, x3, x4, x5, y se tiene como mediana el valor z2 = Med(X) = x3, la media aritmética de los datos quinto y sexto, que deja 5 datos a cada lado (50% de la muestra). Las definiciones de los cuartiles primero z1 y tercero z3 presentan problemas con esta muestra de 10 datos, pero el lector puede comprobar que con una muestra más amplia que consistiera, por ejemplo, de 20 datos la situación estaría bien determinada. Esto indica que si se quisieran utilizar estos parámetros: a) habría que tenerlo en cuenta en la selección del tamaño en la toma de muestras; ó b) habría que definir los cuartiles con ayuda de la función
353
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
cumulativa de frecuencias relativas interpolando inversamente en F(x) = 0,25 Æ x = z1, y en F(x) = 0,75 Æ x = z3. En el caso de la interpolación mencionada queda claro que hay que hacer una elección de la función interpolatoria o efectuar una operación gráfica, y ambas posibilidades llevan inherente elementos de incertidumbre en la definición de los cuartiles.
6.3. Inferencia Estadística (I) Hasta aquí se ha considerado el problema de cómo caracterizar una muestra extraída de una población. El paso siguiente es el de poder inferir información poblacional utilizando tales muestras. Esto es lo que se denomina inferencia estadística y se persigue dar estimaciones, fijando su fiabilidad, de los parámetros poblacionales utilizando los estadísticos muestrales. En lo que sigue van a considerarse muestras grandes, N ≥ 30, para las cuales va a resultar posible utilizar la aproximación Gaussiana. Una primera forma de inferencia estadística es la conocida como estimación por punto, en la que el valor poblacional viene dado mediante el valor obtenido con un estimador de la muestra. Ya se ha tomado contacto con ello en los epígrafes previos (estimadores sesgados, insesgados, etc.) y aquí se va a profundizar un poco más en este asunto. Una segunda forma de inferencia es la estimación por intervalo (o por dos puntos), en la que el parámetro poblacional se localiza dentro de un intervalo dado. Esta segunda forma da una medida de la precisión con la que cabe confiar en la estimación propuesta y es más potente que la primera forma. Ambas formas son la base de la denominada Estimación Estadística. Hay todavía una tercera forma de inferencia estadística denominada decisión estadística en la que se formulan hipótesis sobre la población que son aceptadas o rechazadas en base a los resultados muestrales complementados con manipulaciones elaboradas que requieren el uso de tablas estadísticas específicas. Esto es la base de la denominada Decisión Estadística. Las tres formas o técnicas están íntimamente conectadas y, siguiendo un orden de presentación de complejidad creciente, en este epígrafe van a considerarse las estimaciones por punto y por intervalo, dejándose para el epígrafe siguiente todas las cuestiones de la decisión estadística.
354
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
Estimación por un punto En las estimas de un punto los estimadores estadísticos pueden clasificarse atendiendo a ciertas características. Se tienen así los estimadores sesgados e insesgados, siendo los insesgados aquellos en los que la media de su distribución muestral coincide con el correspondiente parámetro poblacional – (具X 典 = m),y los sesgados aquellos en los que esto no sucede. Una clasificación adicional es la de estimadores insesgados eficientes y no eficientes, aunque como este es un criterio comparativo puede hablarse de – estimadores más o menos eficientes. Así, para los estimadores media X y – 2 . Mediana, ambos insesgados, se dice que X es más eficiente porque s X2– < s Med En consecuencia, si se obtienen todos los estimadores de una magnitud y se ordenan de acuerdo con sus varianzas, aquel estimador que presente la varianza mínima se denomina el óptimo, nombrándose en general al resto como estimadores no eficientes. Otra característica muy deseable en un estimador insesgado es la conocida como consistencia, en virtud de la cual un estadístico muestral de este tipo presenta una varianza que tiende a cero con el tamaño creciente de la 2 . muestra. Es el caso de s X2– y s Med En general, conviene utilizar estadísticos muestrales insesgados, eficientes y consistentes. Sin embargo, en ciertas ocasiones y por razones de comodidad se emplean estadísticos no eficientes. Esto sucede en controles de calidad cuando para estimar dispersiones se emplean los rangos (distancias entre el máximo y el mínimo) de las propiedades medidas en lugar de las desviaciones típicas. Este uso redunda en el ahorro de tiempo y cálculos y, normalmente, no presenta una pérdida significativa de eficacia en el proceso. Una cuestión adicional es la del diseño de estimadores que utilicen información de varias muestras de una misma población. Aunque esto se tratará desde un punto de vista más general en el Cap. 10, es conveniente aquí indicar un modo de realizar esto en un caso sencillo. Se han tomado dos muestras, con tamaños N1 y N2 de una misma gran población caracterizada – – por (m, s 2) y se han determinado los valores (X 1, s12) y (X 2, s22). Los estimadores mejorados que pueden construirse para la media Xˆ y la varianza sˆ2 (nótese el acento circunflejo sobre los símbolos) vienen dados por las mezclas («pooling»)
355
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
N1 X1 + N2 X 2 ( N1 − 1) s12 + ( N2 − 1) s22 2 ˆ ˆ X= ; s = N1 + N2 N1 + N2 − 2
(6.3.1)
Ambos estimadores son claramente insesgados pues Xˆ =
sˆ
2
=
N1 X1 + N2 X 2 N1 + N2
=µ
( N1 − 1) s12 + ( N2 − 1) s22 N1 + N2 − 2
(6.3.2)
=σ2
(6.3.3)
Nótese que el denominador (N1 + N2 – 2) en el cálculo de la varianza mejorada sˆ2 puede visualizarse como el número de grados de libertad disponibles para evaluarla: del total de datos disponibles (N1 + N2) hay que sus– – traer dos, ya que hay dos ligaduras, la de X 1 y la de X 2. La estimación (6.3.3) puede también utilizarse para estimar el valor de una varianza común a diferentes poblaciones pero que no poseen la misma media, como sería por ejemplo el caso de un mismo método experimental general (calorimetría, viscosimetría, etc.) que se aplica a diferentes sistemas químicos para determinar alguna de las propiedades del método.
Estimaciones por intervalos de confianza Seguidamente se pasa a las estimas por intervalos de confianza. Interesa ahora dar unos márgenes entre los que se va a encontrar probabilísticamente la propiedad poblacional estudiada, algo que va a hacerse utilizando – 2 . un estadístico muestral insesgado M de un punto, con media M y varianza sM Se utilizará la aproximación Gaussiana para muestras N ≥ 30, y así se tienen – 2 2 mM = 具M典 = 具M典, y s M ª sM . Manteniendo la notación utilizada en el Cap.5, en lo que sigue z representará a los valores que puede tomar la variable tipificada gaussiana Z con media nula y desviación estándar unidad. Como ya se ha señalado en otra parte del texto, es claro que en muchos casos por simplicidad de notación se tiende a utilizar ambos símbolos indistintamente (Z y z, X y x, etc.) manteniéndose la diferenciación sólo en los casos que pudieran presentar conflicto de interpretación.
356
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
De las propiedades de la distribución normal es inmediato conocer la – probabilidad p con la que el valor muestral estimado M va a estar contenido en intervalos centrados en el valor poblacional mM p( µ M − zσ M ≤ M ≤ µ M + zσ M ) ≈ p( µ M − zsM ≤ M ≤ µ M + zsM )
(6.3.4))
en donde z es la variable tipificada (media =0, desviación típica =1). La expresión anterior es directamente invertible cambiando los papeles de mM y – M a través de unas sencillas operaciones p( µ M − zsM ≤ M ≤ µ M + zsM ) = p( µM − zsM − M ≤ 0 ≤ µM + zsM − M) = p( − zsM − M ≤ − µ M ≤ zsM − M ) = p( M − zsM ≤ µ M ≤ M + zsM )
(6.3.5))
ya que la distribución Gaussiana es simétrica con respecto al origen (Fig. 6T1). Nótese que se están manejando dos distribuciones normales con la – misma desviación típica sM: la centrada en mM y la centrada en M. Este resultado da un intervalo de confianza del 100 p% para el valor real del parámetro – mM. Los extremos M ± zsM son los límites de confianza (superior +, inferior –) del intervalo.
Figura 6T1. Intervalos de confianza para las medias poblacional y muestral utilizando la distribución Gaussiana. Nótese como la simetría fuerza la equivalencia (6.3.5) de las dos descripciones, la centrada en la media poblacional y la centrada en la media muestral. Ambas distribuciones tienen la misma desviación típica.
De toda la discusión anterior es importante reparar en que mM es una cantidad fija, no aleatoria, y que son los extremos o límites de confianza las ver-
357
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
daderas variables aleatorias de este planteamiento del problema. Esto significa que el intervalo de confianza presentará también una distribución muestral y el resultado (6.3.5) indica así que si se efectuasen tomas de un gran número de muestras diferentes, aparecería una distribución de intervalos de confianza de la que se podría afirmar en probabilidad que el porcentaje 100 p% de intervalos contendrían al valor poblacional mM. Las siguientes fórmulas dan algunos de los estadísticos más utilizados en el estudio de poblaciones infinitas (o finitas con remplazamiento) con tamaños de muestra N ≥ 30. – a) Media poblacional m con estimador de un punto X N
X ± zσ X = X ± z
σ N
≈ X ±z
∑ ( xi − X )2 i =1
N ( N − 1)
(6.3.6)
b) Proporción con estimador de un punto ᏼ 3 ± zσ 3 = 3 ± z
pq ; q = p − 1; p ≈ 3 N
(6.3.7)
c) Diferencia de medias poblacionales m1 – m2 con estimador de un punto – – X 1 – X 2 y muestras independientes de tamaños N1 y N2 extraídas de poblaciones infinitas σ2 σ2 = ( X1 − X 2 ) ± z 1 + 2 poblaciones diferentes (1 ≠ 2) N1 N2 ( X1 − X 2 ) ± zσ (6.3.8) 1 1 ≈ ( X1 − X 2 ) ± zsˆ N + N misma población (1 = 2) 1 2 con sˆ dado en (6.3.1). s 21 y s 22 se estiman con s21 y s22. d) Diferencia de proporciones poblacionales extraídas de dos poblaciones infinitas (ᏼ1 y ᏼ2 valores muestrales) 31 − 3 2 ± z en donde p1 ≈ ᏼ1, p2 艐 ᏼ2, etc.
358
p1 q1 p2 q2 + N1 N2
(6.3.9)
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
e) Desviación típica poblacional s con estimador de un punto s N
s ± zσ s = s ± z
σ 2N
≈ s± z
∑ ( xi − X )2 i=1
2 N ( N − 1)
(6.3.10)
Si las poblaciones son finitas (tamaño NP) y no hay remplazamiento en el muestreo, hay que corregir las fórmulas anteriores. Por ejemplo, en los casos más utilizados como son la media poblacional y la proporción, se tienen las expresiones f) Media m X±z
NP − N NP − 1
(6.3.11)
NP − N ; p≈3 N −1
(6.3.12)
σ N
g) Proporción 3± z
pq N
Dos precisiones más antes de concluir este epígrafe. Una definición útil en este contexto es la de error probable del estadístico M y que viene dado por 0,6745 sM. Nótese que M ± 0,6745 sM encierra alrededor de M en una distribución Gaussiana el 50% de la población. La otra precisión se refiere al concepto intervalo de tolerancia, que no debe ser confundido con el intervalo de confianza. Aunque pudieran coincidir en algún caso, el concepto de confianza se refiere a una incertidumbre sobre la localización del valor poblacional de una magnitud, en tanto que el concepto de tolerancia se refiere a una medida (también con incertidumbre) de los márgenes entre los que va a estar una determinada fracción de una población. Esto último resulta muy importante para fijar lo que se está dispuesto a aceptar como válido en un proceso de producción o de fabricación de determinados bienes o servicios con vistas a su comercialización en el mercado. Tiene pues el de tolerancia un criterio, entre otros, marcadamente económico, en tanto que el de confianza es de carácter principalmente probabilista.
359
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
6.4. Inferencia Estadística (II): formulación y verificación de hipótesis La formulación y verificación subsiguiente de hipótesis estadísticas con la pertinente toma de decisiones representa un estadio más avanzado de la inferencia estadística. La relación con los conceptos previos de la estimación es muy estrecha, sobre todo con los intervalos de confianza. En esencia se va a tratar aquí de tomar decisiones sobre la viabilidad o corrección de un proceso, y/o sobre cual de dos métodos que se proponen para un proceso es el mejor. Estas decisiones conllevan una cierta probabilidad no nula de equivocarse y elegir así la opción incorrecta, si bien tal probabilidad va a estar siempre cuantificada, hecho éste que hace de esta versión de la inferencia estadística una herramienta muy poderosa. Para centrar ideas va a analizarse a continuación un caso típico introduciendo paso a paso las etapas. EJERCICIO 6.4.1 Un proceso de fabricación de piezas poliméricas plásticas va a evaluarse de acuerdo con la resistencia media a la rotura de cada una de tales piezas, magnitud que está fijada por la especificación técnica mR = 具R典 = R0. En este análisis se va a tomar una muestra N de piezas fabricadas y con ella se va a decidir si la partida de la que procede es o no aceptable (o equivalentemente: si el proceso lo es). En el primer caso, aceptable, las desviaciones observadas con respecto al valor de referencia R0 se catalogarán como fluctuaciones inherentes al proceso, en tanto que en el segundo caso tales desviaciones (que van a ser más grandes que las anteriores) se tomarán como una indicación de que existen problemas en la fabricación. Nótese que para analizar la población se ha tomado una variable aleatoria (propiedad) R de aquella de la que se supone conocida su distribución de probabilidades. La discusión se estructura en cinco pasos que se describen a continuación.
Cinco pasos a dar en hipótesis estadísticas — Paso 1: Formulación de hipótesis Se formulan la hipótesis nula H0 en la que el proceso se supone aceptable, y la hipótesis alternativa H1 que señala al proceso como no aceptable.
360
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
Ambas hipótesis se cuantifican con la propiedad elegida escribiéndose el esquema H0: µ R = R = R0 , proceso aceptable
(6.4.1)
H1: µ R = R ≠ R0 , proceso no aceptable
(6.4.2)
Hay que notar que (6.4.2) tal y como se ha formulado implica mR > R0 o mR < R0, lo que se conoce con el nombre de ensayo o contraste bilateral (o de dos colas, o de dos lados). Un caso más simple hubiera sido el ensayo unilateral (o de una cola, o de un lado) si se hubiera exigido sólo una de las dos condiciones (H1 : mR = 具R典 > R0. por ejemplo). Tomar una de las hipótesis como cierta implica necesariamente rechazar la otra. — Paso 2: Fijar el nivel de significación El segundo paso consiste en elegir la probabilidad con la que rechazar H0 lo que se conoce como el nivel de significación y que se denota convencionalmente mediante a. Normalmente se suelen tomar valores a = 0,05, 0,01, 0,001, para realizar los tests de significación (contraste de hipótesis). Por ejemplo, una elección a = 0,05 indica que a) Se aceptará H0 con un 95% de probabilidad b) Se rechazará H0 con un 5% de probabilidad, aún en el caso en que fuera correcta. Se dice entonces que hay un 95% de confianza en que se está tomando la decisión adecuada H0 y que se rechaza esta hipótesis nula con un 5% (0,05) de nivel de significación. Claramente a debe ser fijado antes de la toma de la muestra. — Paso 3: Fijar el tamaño de la muestra El siguiente paso es elegir el tamaño N de la muestra. Aquí intervienen razones muy variadas, como las económicas, el mantenimiento de condiciones constantes, las consecuencias de tomar decisiones incorrectas, etc. No es este el lugar para entrar en estos detalles y en el análisis de la resistencia que se está presentando se va a considerar una muestra grande N ≥ 30 que garantice la distribución normal para la propiedad media estudiada. Una vez
361
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
tomada la muestra y utilizando las relaciones generales (6.2.1) hay que calcu– lar los estimadores R y σ R = sR / N . — Paso 4: Contraste de hipótesis (docimasia) A continuación hay que contrastar las hipótesis para lo que hay que elegir una variable aleatoria con distribución de probabilidades conocida. Tal propiedad recibe el nombre de dócima y a la operación de contraste se la denomina docimasia, términos que proceden de una palabra griega que significa ensayo. La dócima no tiene porqué ser necesariamente la misma magnitud utilizada en la formulación (6.4.1), aunque debe existir una conexión unívoca entre ambas. En el caso que se considera de la resistencia a la rotu– ra puede tomarse cómo dócima la variable tipificada ¯z = (R – mR)/sR–. Si bien – la distinción entre ambas magnitudes ¯z y R es trivial, esta elección facilita el cálculo con las tablas de la distribución Gaussiana. — Paso 5: Determinación de regiones El quinto paso consiste en determinar las regiones de aceptación y de rechazo de H0. Conocidos a, N y ¯z el proceso es directo utilizando la curva Gaussiana universal para la variable ¯z(m = 0, s = 1). Un nivel a bilateral indica las regiones que se muestran en la Fig. 6T.2. Nótese que las áreas de rechazo son de magnitud a/2, que el área de aceptación es 1 – a, y que por tanto estas regiones se consiguen a un valor crítico ¯z = zC que se encuentra en las tablas. Así, en el ensayo bilateral si ¯z < –zC ó ¯z > –zC se rechaza H0 y se dice
Figura 6T2. Regiones de aceptación y de rechazo en un típico ensayo bilateral de hipótesis con la distribución Gaussiana al nivel de significación a = 0,05.
362
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
que los resultados son significativos al nivel a. Por otra parte, si –zC < ¯z < zC se acepta H0 o no se toma decisión alguna en primera instancia (caso dudoso) quedando el problema para ser reanalizado de nuevo con más datos.
Observaciones adicionales a) La docimasia unilateral se realizaría de modo análogo, pero suprimiendo una de las dos colas. Una de las dos situaciones posibles en este caso se resume en la Fig. 6T.3 con un ensayo unilateral a la derecha. Para los tres niveles de significación a habituales los valores normalmente utilizados de los coeficientes críticos zC que se suelen redondear por exceso a dos decimales en muchas aplicaciones, se dan en la Tabla 6.1 para ensayos unilaterales y bilaterales con la distribución Gaussiana como base. Otros valores {a, zC} pueden determinarse con facilidad con las tablas estándar de la distribución Gaussiana.
Figura 6T3. Regiones de aceptación y de rechazo en un típico ensayo unilateral de hipótesis con la distribución Gaussiana (cola de la derecha) al nivel de significación a = 0,05.
Tabla 6.1. Valores {a, zC} para ensayos con la distribución normal a
%
zC – unilateral
zC – bilateral
0,001
99,9
3,091 ª 3,09
3,291 ª 3,29
0,01
99
2,326 ª 2,33
2,576 ª 2,58
0,05
95
1,645
1,960
363
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
b) En la verificación de hipótesis estadísticas hay dos posibilidades de cometer error que se resumen en el rechazo cuando habría que aceptar (tipo I), y aceptación cuando habría que rechazar (tipo II). En concreto y con respecto a la situación estándar con la hipótesis nula como base: — El error tipo I se comete cuando se rechaza H0 y debería aceptarse. Viene cuantificado por a. — El error tipo II se comete cuando se acepta H0 y debería rechazarse. Viene cuantificado por la distribución asociada con H1. En el epígrafe siguiente se elaboran con detalle estos dos importantes conceptos de error que están relacionados con el hecho de que en probabilidad siempre pueden suceder sucesos improbables. c) El siguiente ejercicio ilustra numéricamente lo dicho hasta aquí y presenta una situación de las denominadas dudosas. Después se describe un procedimiento práctico para reanalizar una toma de decisión en tales casos dudosos. EJERCICIO 6.4.2 Contrastar la hipótesis de validez de un proceso bilateral como el descrito en los cinco pasos anteriores para a = 0,05, 0,01, y los datos de una muestra – de N = 50 piezas que lleva a los estimadores R = 16 y sR = 6 (unidades arbitrarias), sabiendo que la especificación exige R0 = 14. ¿Qué diferencias se observan entre los dos niveles de significación y qué repercusiones tienen sobre la toma de decisiones? – La varianza muestral de R es σ R = 6 / 50 ≈ 0, 849 con lo que la tipificación resulta redondeando a dos decimales z=
R − R0 = 2, 36 σR
Como para un ensayo bilateral con a = 0,05 el valor ¯z = 2,36 no cae dentro del intervalo [–1,96, 1,96] hay que rechazar la hipótesis H0 al nivel de significación 0,05. Es decir el proceso de fabricación se decide como no correcto, pero hay un 5% de probabilidad de que se haya cometido un Error del Tipo I (el proceso es en realidad correcto y se ha rechazado); o lo que es lo
364
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
mismo, existe un 95% de confianza de que se ha tomado la decisión adecuada (el proceso no es correcto). El caso a = 0,01 es diferente, pues z¯ = 2,36 cae dentro del intervalo [–2,58, 2,58] de manera que a este nivel de significación hay que aceptar que el proceso es correcto y cumple las especificaciones técnicas. Ahora bien, al disminuir la significación se está forzando la situación a aceptar «casi todo», en este ejemplo todo menos el 1%, y esto puede llevar también a tomar decisiones erróneas. Lo normal podría ser no tomar decisión alguna con base en el resultado a = 0,01 o reanalizar el problema.
Principios de admisión y rechazo de hipótesis A continuación se recapitulan los principios generales de procedimiento en la verificación de hipótesis estadísticas. 1) Admisión de la hipótesis H0 : Si se utiliza a ≥ 0,05 y el ensayo o contraste indica que H0 hay que tomarla como cierta, entonces se concluye que H0 concuerda con los datos muestrales estudiados. Si H0 hay que tomarla como cierta utilizando 0,01 < a < 0,05, entonces H0 puede admitirse o ponerse en duda. Es conveniente repetir la toma de los datos muestrales y efectuar un estudio más completo. Si el contraste se realiza con a < 0,01 no puede admitirse H0. 2) Rechazo de la hipótesis H0 : Si H0 se rechaza con a ≤ 0,01 entonces se concluye que H0 no concuerda con los datos muestrales estudiados. Si H0 hay que rechazarla utilizando 0,01 ≤ a ≤ 0,05, entonces H0 puede rechazarse o ponerse en duda. Es conveniente repetir la toma de los datos muestrales y efectuar un estudio más completo. Si el contraste se realiza con a ≥ 0,05, el rechazo de H0 no está fundamentado. Como puede observarse las situaciones descritas en 1) y en 2) son complementarias.
365
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
6.5. Función de potencia y curva OC Una forma sencilla pero más amplia para visualizar toda la discusión anterior, considerando un ensayo unilateral por simplicidad, se representa en la Fig. 6T.4 superponiendo las funciones de distribución de probabilidades asociadas con cada una de las dos hipótesis del ensayo {H0, f0(z)} y {H1, f1(z)}. Para la situación mostrada existirá un punto intermedio z = zC en el que se localiza la distinción verdadero/falso para las hipótesis — z < zC Æ H0 es verdadera (se rechaza H1). — z > zC Æ H1 es verdadera (se rechaza H0).
Figura 6T4. Explicación gráfica del sentido de un contraste de hipótesis estadísticas. a es el nivel de significación y está asociado con la hipótesis nula H0 con distribución de probabilidades f0 y es la probabilidad de cometer el error del tipo I. b es la probabilidad de cometer un error del tipo II y, estando asociada con la hipótesis alternativa H1 con distribución de probabilidades f1, viene determinada por la posición del valor crítico para a en la distribución f0 relativa a f1.
Ahora bien, tal punto crítico zC es desconocido a priori y lo más que puede hacerse es dar una elección óptima de él. Además, con independencia de la elección zC, dado el solapamiento de las dos distribuciones siempre va a existir una probabilidad no nula de tomar la hipótesis incorrecta como verdadera. Así, si {H0, f0(z)} es verdadera, la probabilidad de rechazarla y tomar incorrectamente {H1, f1(z)} como verdadera o cierta (Error Tipo I) viene dada por el área a encerrada bajo f0(z) siguiente
α = pI = p(Error Tipo I) = p ( zC < z < `
366
)
0
=
∫
` zC
f0 ( z) dz
(6.5.1)
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
Análogamente, si es {H1, f1(z)} la hipótesis verdadera, la probabilidad de rechazarla y tomar incorrectamente {H0, f0(z)} como verdadera (Error Tipo II) estará dada por el área encerrada bajo f1(z) que se escribe a continuación
β = pII = p(Error Tipo II) = p ( − ` < z < zC
)
= 1
∫
zC −`
f1 ( z) dz
(6.5.2)
Con esta distinción puede formularse el siguiente concepto importante en este contexto: la cantidad 1 – pII = 1 – b representa la probabilidad de rechazar {H0, f0(z)} cuando ésta es realmente falsa, y a esta cantidad se la denomina (función de) potencia del criterio estadístico. Recapitulando, se tiene que
a = pI = nivel de significación 1 – b = 1 – pII = potencia del criterio estadístico y es de notar que si se hace disminuir a automáticamente aumentará b disminuyendo así la potencia del criterio estadístico. Este comportamiento da una clave práctica para abordar problemas con funciones de distribución conocidas f0 y f1 vía la optimización de la posición de zC a través de la minimización de una combinación lineal de pI y pII. Cuando estas distribuciones no se conocen se sigue un procedimiento alternativo basado en operaciones que utilizan únicamente una función f0(z) postulada para H0. Estas optimizaciones desbordan los contenidos del curso y no se van a considerar aquí. Los dos conceptos anteriores a y b permiten diseñar herramientas muy útiles en la verificación de hipótesis estadísticas y operaciones de control de calidad (planes de muestreo). Estas son la curva característica de operación (OC) y la curva de potencia. La curva OC se construye representado b frente a la propiedad elegida para realizar el test de significación. La curva de potencia es equivalente a la anterior y en ella se representa 1 – b frente a dicha propiedad elegida. Es claro que las formas de ambas curvas van a resultar «opuestas» una de otra. Un ejemplo de construcción práctica de estas curvas se deja para un problema numérico.
367
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
6.6. Gráficos de control (Shewhart) y aleatoriedad Se va a considerar ahora un método gráfico muy sencillo y práctico que puede utilizarse para diseñar reglas de decisión en el control de calidad y en el estudio de la homogeneidad de conjuntos de datos. Se trata de los denominados gráficos de control o gráficos de Shewhart. Un ejemplo ilus– trativo es el del análisis de la media muestral X de una propiedad X de la que se conoce que la población responde a una distribución normal (m, s). De este hecho es inmediato establecer que para una muestra de tamaño N se tiene
µ−3
σ N
< X < µ+3
σ N
; (99, 73% de probabilidad )
(6.6.1 1)
lo que no es más que el intervalo de confianza «tres sigma» 3s X–. Para una colección de muestras i = 1, 2, ..., n extraídas de la población y fijando un criterio de clasificación que organice los datos en subgrupos racionales (muestras obtenidas en el mismo día y a lo largo de una semana, o por diferentes operarios, u obtenidas en diferentes máquinas, etc.) se puede confeccionar – un gráfico de control con las medias muestrales X tal y como se indica en la Tabla 6.2. El gráfico mencionado es muy detallado y podría limitarse sólo a los límites 3s , pero se da en esta forma la Tabla 6.2 para dar una idea de la complejidad que puede alcanzarse con los gráficos de control. Si los valores – X caen dentro de los límites prefijados (6.6.1), puede aceptarse la hipótesis de que el proceso está «controlado» y que la producción no presenta dudas – razonables sobre su calidad. Si algún X muestral cae fuera de los límites (6.6.1), entonces hay fundamento para pensar que algo pudiera estar funcionando incorrectamente en la producción y habría que investigarlo. Así en – – las máquinas M-2 y M-4 las medias X 21 y X 44 sugieren que algo incorrecto pudiera suceder en aquellas. Claro es que la presencia de estas dos excepciones pudieran ser debidas a fluctuaciones normales del proceso, pero al ser poco probables (0,07%) la comprobación de que todo funciona bien es – necesaria. Por otra parte, si el número de las X i fuera de (6.6.1) resultara ser comparativamente grande, la conclusión de que algo no está bien, con indicación de la fuente del problema (día, máquina, etc.), sería una información muy útil.
368
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
Tabla 6.2. Ejemplo de gráfico de Shewhart M1
Máquina X < µ − 3σ
M2 – X 21
N
µ − 3σ
N < X < µ − 2σ
µ − 2σ
N < X < µ −σ
µ −σ
N < X < µ +σ
µ +σ
N < X < µ + 2σ
µ + 2σ
N < X < µ + 3σ
µ + 3σ
N m2 ó H1 : m1 < m2. En cualquier caso, H0 : m1 = m2 implica que mD = 0 y hay que evaluar si zD = D/sD cae o no dentro del intervalo de confianza que delimita la condición a. El procedimiento a emplear es análogo al ya discutido anteriormente y se va a ejemplificar con un sencillo ejercicio.
371
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
EJERCICIO 6.7.1 Se analizan dos muestras de recipientes llenos de leche procedentes de dos zonas distintas de una comarca en busca del nivel de 90Sr presente, midiéndose la actividad radiactiva en microcuries de 90Sr por gramo de Ca. La primera muestra consta de 55 unidades y el nivel radiactivo se caracteriza con un valor medio de 5,5, con una desviación típica muestral de 0,8. Para la segunda muestra que consta de 68 unidades se obtiene un valor medio de 5,7 con desviación típica 0,6. ¿Existen diferencias significativas entre los niveles radiactivos de ambas muestras al nivel de significación a = 0,05? La hipótesis nula es la igualdad de los valores medios poblacionales y hay que contrastarla frente a la alternativa de que sean diferentes sin importar cuál es mayor o menor. Se trata por tanto de un ensayo bilateral y se tomarán las distribuciones muestrales implicadas como Gaussianas, en concreto – – aquella para D = X 1 – X 2, H0 implica así mD = 0 y la desviación típica mD resulta (resultados redondeados a dos decimales)
σD =
0, 82 0, 62 + = 0,13 55 68
y tipificando se tiene zD =
5, 5 − 5, 7 = −1, 54 σD
El ensayo bilateral con a = 0,05 lleva a considerar el intervalo [–1,96, 1,96]. Como el valor –1,54 cae dentro de este intervalo, las dos muestras no pueden ser consideradas como significativamente diferentes a ese nivel. Hay que aceptar H0 y, por tanto, concluir que las dos poblaciones poseen el mismo valor medio. El caso de la comparación de proporciones ᏼ1 y ᏼ2 procedentes de dos grandes muestras, de tamaños N1 y N2 extraídas de dos poblaciones infinitas con proporciones desconocidas p1 y p2 se analiza de manera análoga. El planteamiento de las hipótesis es el siguiente: H0 : p1 = p2 y las diferencias observadas son fruto del azar. H1 : p1 ≠ p2 y las diferencias observadas son significativas.
372
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
Se ha planteado un ensayo bilateral y se aplica la misma discusión que antes en el caso del ensayo unilateral. La variable diferencia D = ᏼ1 – ᏼ2 se va a distribuir con media y desviación típica dadas por
µ3
1− 32
= 0; σ 3
1−3 2
=
1 N13 1 + N2 3 2 1 p(1 − p) + ; p = N1 + N2 N1 N2
(6.7.4)
en donde se ha utilizado (6.3.2) para estimar p, pues p1 = p2 por hipótesis. La tipificación conduce a zD =
3 1 − 3 2 − µ3
σ3
1−3 2
=
1 −3 2
31 − 3 2 σ 3 −3 1
(6.7.5)
2
y la aplicación práctica discurre a lo largo de las ideas ya vistas. EJERCICIO 6.7.2 Una marca de galletas efectúa un estudio de uno de sus productos en dos ciudades A y B. Se selecciona una muestra de 250 habitantes de A de los cuales el 45% manifiesta que el producto es de su agrado. Para la ciudad B la muestra consiste de 320 individuos de los que el 52% también manifiesta que el producto es de su agrado. ¿Puede decirse que efectivamente el producto gusta más en la ciudad B a un nivel de significación a = 5%? Ahora se tiene un ensayo unilateral con hipótesis: H0 : pA = pB y el producto gusta por igual en ambas ciudades. H1 : pB > pA y el producto gusta más en B. Utilizando la distribución normal para la variable tipificada zD =
3B −3A σ 3 −3 B
A
habrá que rechazar H0 si zD > 1,645 y aceptarla si zD < 1,645. Nótese que pueden presentarse casos (valores calculados de la dócima próximos a los críticos) en los que los redondeos intermedios pueden alterar las conclusiones y esto conviene evitarlo. Como ya se ha indicado, se puede y es lo
373
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
preferible utilizar el resultado de la desviación típica obtenido con la calculadora, tras su almacenamiento en una memoria, para calcular zD. Sin embargo, para ilustrar, aquí van a utilizarse expresiones decimales en los cálculos intermedios, manteniendo un número de ellos alto, pues no resulta gravoso con las calculadoras que se utilizan. El redondeo final sin haber perdido datos significativos por el camino es obligado. Así, se tiene (ᏼA = 0,45; ᏼB = 0,52) que p = 0,489298 Æ 1 – p = 0,510702
sᏼA–ᏼB = 0,042195 y la tipificación con tres decimales de redondeo es zD =
0, 52 − 0, 45 = 1, 659 0, 042195
Como zD está fuera de la zona crítica (1,645 < 1,659 hay que rechazar H0 concluyendo entonces que el producto gusta más en la ciudad B al nivel del 0,05. El lector puede comprobar con cuantos decimales en el denominador de zD se mantiene la conclusión alcanzada. Si se opta por este procedimiento hay que tener cuidado al introducir los datos en los cálculos sucesivos. 6.8. Teoría de pequeñas muestras En todo el desarrollo precedente se han considerado muestras de gran tamaño N ≥ 30 y como consecuencia las distribuciones muestrales de un buen número de (estimadores) estadísticos pueden describirse muy bien mediante distribuciones normales. Sin embargo, para muestras pequeñas N < 30 esta descripción Gaussiana deja de cumplirse, y tanto más cuanto más pequeño es el tamaño N. En estos casos hay que utilizar opciones que pertenecen a la Teoría de Pequeñas Muestras, que suministra alternativas muy útiles para la estimación estadística. Aquí van a revisarse tres distribuciones básicas, cada una adaptada especialmente a una circunstancia diferente. Estas tres distribuciones son por orden de presentación: la t de Student, de utilidad en las estimaciones de medias poblacionales; la c 2 (chi-cuadrado), de utilidad en las estimaciones de desviaciones típicas poblacionales; y por último la F de Fisher, de utilidad en la validación de comparaciones de varianzas muestrales y por ende de la homogeneidad de muestras. En los tres casos se supone que las pequeñas muestras se extraen de poblaciones normales.
374
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
Las operaciones anteriormente mostradas con intervalos de confianza y ensayos de hipótesis y significación tienen su traducción directa en este nuevo contexto de las pequeñas muestras. El punto de relevancia ahora es el concepto de grados de libertad n con el que se ha tomado ya someramente contacto. Para un estadístico este importante parámetro representa la diferencia entre el número de observaciones realizadas N y el número de parámetros poblacionales que, estimados previamente con tales N datos, intervienen en el cálculo del estadístico. En lo que sigue se va a utilizar el estimador s (6.2.8) para la desviación estándar poblacional s procedente del estimador insesgado s2 definido en (6.2.1b). El lector debe estar atento al consultar la bibliografía sobre la notación utilizada para este parámetro. Por otra parte, en los ensayos de hipótesis el número de decimales a mantener en los valores de las dócimas (t, c 2, F), al igual que en el caso Gaussiano visto antes, suele venir impuesto por la precisión con la que están construidas las tablas correspondientes en estos casos (normalmente dos o tres decimales).
Distribución t de Student El estadístico asociado a la media poblacional m de una propiedad X que se quiere estimar utilizando muestras de tamaño N < 30, extraídas de una población normal (o aproximadamente normal), viene dado por la expresión t=
X−µ N; −` < t < ` s
(6.8.1)
– en donde X es la media muestral y s está dado por (6.2.8). La distribución muestral de t está dada por la familia de funciones de distribución densidad fν (t ) =
Γ [(ν + 1)/2]
1
(ν +1)/ 2 νπ Γ [ν /2] (1 + t /ν ) 2
; ν = N −1
(6.8.2)
expresión siempre simétrica en torno a t = 0 (Fig. 6T.5) y que cumple los requisitos generales fn(t) ≥ 0 y normalización
∫
`
−`
fν (t ) dt = 1
(6.8.3)
375
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Figura 6T5. Formas típicas de distribuciones densidad t de Student para algunos valores de los grados de libertad. Nótese que son funciones simétricas en torno a t = 0.
También son de notar las propiedades siguientes a) Media: ·tÒ = 0 b) Varianza: Var (t ) =
ν (ν − 2)
c) Límite Gaussiano: ν → ` ⇒ fν (t) →
1 2π
exp(− t 2 / 2)
d) En ensayos bilaterales con nivel de significación a el valor crítico tC cumple por simetría
∫
tC − tC
fν (t ) dt = 1 − α ; ν = 1, 2, 3, ... Para ensayos unilaterales
se tiene la condición análoga con la integración entre –⬁ < t < tC. En ambas situaciones todo es similar a lo dicho para la distribución Gaussiana. La función Gaussiana tipificada depende de una variable z, pero la distribución de Student depende de dos variables t y n de manera que para diferentes valores de los grados de libertad n se tienen diferentes distribuciones (la familia aludida arriba). Para facilitar su uso estas funciones de Student están tabuladas atendiendo a diferentes criterios de confianza que son los más habituales en la práctica. La definición de intervalos de confianza es similar a la ya mostrada anteriormente, pero utilizando estas tabulaciones con los percentiles t.
376
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
Por ejemplo, para una confianza del 95% bilateral hay que dejar fuera un 2,5% en cada cola y esto implica, por simetría, tomar los percentiles críticos t0,025 = –t0,975 y t0,975 de la tabulación con n grados de libertad. El estadístico tipificado en este caso está contenido en − t0 ,975 < t < t0,975 → − t0 ,975
0) pero para valores crecientes de n se pierde esta característica. Para
n Æ ⬁ se recupera el límite Gaussiano (ν , 2ν ) . Para n ≥ 30 se encuentra que la variable z = 2 χ 2 − 2ν − 1 se distribuye ya aproximadamente de forma normal con (m = 0, s = 1).
Figura 6T6. Formas típicas de distribuciones densidad c2 (chi-cuadrado) para algunos valores de los grados de libertad.
380
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
e) En ensayos unilaterales con nivel de significación a el valor crítico cC2 cumple:
∫
χ C2
0
fν (t ) dt = 1 − α ; ν = 1, 2, 3, ... Para ensayos bilaterales se tiene la
condición análoga, pero sin la simetría que se indicaba en la t de Student. Como antes se pueden definir intervalos de confianza y formular y verificar hipótesis estadísticas, pero ahora el objeto de atención es la desviación estándar poblacional a. De nuevo, las funciones fn(c 2) están tabuladas convenientemente siguiendo los percentiles c 2 más habituales. Por ejemplo, si se quiere obtener el intervalo de confianza del 99% para c 2 hay 2 y que dejar un 0,5% en cada cola de la distribución y los percentiles c 0,005 2 c 0,995 van a tomarse de la tabulación con n grados de libertad, de manera que se tiene
χ02,005 < χ 2 < χ 02,995 → χ 02,005
10. Se toma entonces una muestra de N = 12 ampollas que presentan los siguientes valores para el esfuerzo de rotura (unidades arbitrarias) 250, 272, 281, 240, 251, 261, 268, 275, 257, 242, 245, 266 – a) Determinar la media X y la desviación típica s muestrales para el esfuerzo de rotura. b) ¿Es significativa la diferencia entre procesos a los niveles de significación 0,05 y 0,01? c) ¿Cabe esperar que la nueva desviación estándar del proceso vaya a mantenerse s > 10 a los niveles de significación 0,05 y 0,01? 6.11) Se dispone de dos métodos A y B para determinar la cantidad de Zn en el cuerpo humano. Para una muestra de 11 individuos, con peso 70 Kg cada uno, estos métodos han arrojado un mismo valor medio ·ZnÒ = 2 g, pero con desviaciones típicas muestrales diferentes sA = 0,4 g y sB = 0,7 g. Supuesto que la muestra se ha extraído de una población normal a) Al nivel de significación del 5% ¿es el primer método A mejor que el segundo B? b) Analizar la misma cuestión con niveles del 2,5% y del 1%. c) Discutir la situación cuando se realiza un ensayo bilateral al nivel del 5% buscando sólo si existen diferencias significativas entre ambos C (0,025) = 3,717). (F10,10 6.12) Un proceso de vulcanización de caucho natural produce una tensión de deformación media m = 6,4 Kg/cm2, para elongaciones de las piezas del 100% con una desviación típica s = 0,51 Kg/cm2. Supuesta una distribución Gaussiana se pide – a) Encontrar el valor de la tensión de deformación media X 50 (redondeada a tres decimales) para el que con una muestra de tamaño N = 50 se tiene el percentil del 95% de la distribución.
390
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
b) Utilizando los valores anteriores se formula una regla de decisión sobre una variación del proceso que se destina a aumentar la tensión de deformación. Especificarla. c) Con dicha regla de decisión, ¿cuál es la probabilidad b de cometer un error del tipo II cuando la nueva tensión media es m = 6,55 Kg/cm2 (mantener la desviación típica constante en s = 0,51 Kg/cm2). d) Construir las curvas OC y de potencia para la variación del proceso (mantener constante la desviación típica en el valor anterior). Interpretar estos resultados. NOTA: Efectuar todos los cálculos redondeando los valores de la variable tipificada a tres decimales y las probabilidades a cuatro decimales. 6.13) Del análisis de una muestra N1 = 16 de piezas iguales de una aleación ligera de Mg se obtuvo una desviación típica s = 38 para el contenido en gramos de ese metal por pieza. a) Con una confianza del 95% se quiere determinar el intervalo para la media poblacional del contenido en gramos de Mg de manera que la precisión en esta estima sea ±0,4 ¿Cuántas determinaciones n se van a requerir para lograr esta precisión? b) Con el dato n anterior utilizar las n primeras mediciones de una nueva muestra N2 = 6 para mejorar la estimación de s calculando sˆ. Los contenidos en gramos de Mg son para esta muestra 40,5, 38,6, 39,5, 39,9, 40,1, 40,7 Comentar el resultado. c) Recalcular la semianchura del intervalo de confianza del 95% con la muestra de tamaño n utilizando (N2 + n – 2) grados de libertad y el valor recién calculado sˆ. Comentar el resultado. 6.14) Mediante dos métodos diferentes se analizan porciones de volumen 1 mm3 procedentes de un líquido homogeneizado para determinar su contenido en bacterias. Los resultados obtenidos son Método A: 62, 67, 66, 58, 67, 69 Método B: 59, 63, 63, 65, 66, 60 ¿Son los dos métodos significativamente diferentes a un nivel a = 0,05?
391
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
SOLUCIONES Problema 6.1 Los parámetros poblacionales a2 y a4 son los momentos centrales
α2 = α4 =
∫
`
∫
`
−`
−`
f ( x) ( x − µ )2 dx = X 2 − µ 2 f ( x) ( x − µ )4 dx = X 4 − 4 X 3 µ + 6 X 2 µ 2 − 3µ 4
Estas integrales discretizadas simplemente como una suma sobre puntos se expresan 1 a2 = N 1 a4 = N
N
∑
1 N − ∑ xi N i=1
xi4
1 N 1 N 1 N 1 N 1 N − 4 ∑ xi3 ∑ xi + 6 ∑ xi2 ∑ xi − 3 ∑ xi N i =1 N i =1 N i =1 N i =1 N i =1
i=1
2
N
∑
2
xi2
i =1
4
Obsérvese que no se pretende construir estimadores insesgados de las magnitudes poblacionales, ni definir aproximaciones numéricas precisas a las integrales, sino sólo identificar los promedios que aparecen. En la descripción estadística de conjuntos de datos a2 y a4 encuentran utilidad tal y como se han escrito arriba. Problema 6.2 De acuerdo con las ecuaciones (6.2.1b) y (6.2.5) se tiene N 2 N s2 = s = N −1 N −1
∑ ( xi − µ + µ − X )2 i
N
El sumatorio que corre sobre i = 1, 2, 3, ..., N puede desarrollarse como
∑ ( xi − µ + µ − X )2 = ∑ {( xi − µ )2 + 2( xi − µ )( µ − X ) + ( µ − X )2 } = i
i
∑ ( xi − µ )2 + 2( µ − X ) N ( X − µ ) + N ( µ − X )2 = ∑ ( xi − µ )2 − N ( µ − X )2 i
392
i
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
Por tanto s2 =
N 1 2 2 ∑ ( xi − µ ) − ( µ − X ) N −1 N i
Tomando el valor medio se obtiene la relación pedida N 1 2 2 ∑ ( xi − µ ) − ( µ − X ) = N −1 N i N N N 2 σ 2 2 2 2 ( x µ ) − ( µ − X ) − = =σ σ − N −1 N 1 N 1 N − s2 =
en donde se ha hecho uso de que el valor medio de una suma es la suma de los valores medios y además de la propiedad de simetría ( x1 − µ )2 = ( x2 − µ )2 = ... = ( xN − µ )2 y de
(µ − X )2 =
σ2 N
Problema 6.3 Los estimadores insesgados pedidos para la media y la varianza se obtienen por generalización directa de las relaciones (6.3.1) N X + N2 X 2 + N3 X3 + N4 X 4 Xˆ = 1 1 ; N1 + N2 + N3 + N4 sˆ 2 =
( N1 − 1)) s12 + ( N2 − 1) s22 + ( N3 − 1) s32 + ( N4 − 1) s42 N1 + N2 + N3 + N4 − 4
expresiones que son claramente insesgadas, pues X i = µ;
si2 = σ 2; i = 1, 2, 3, 4
con lo que Xˆ = µ ;
sˆ 2 = σ 2
393
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Problema 6.4 La versión más eficaz del muestreo estratificado se consigue tomando elementos proporcionales según ni n 1500 1, 5 ; i = 1, 2, 3, ..., 10 = = = 6 Ni NP 1000 10 Por ejemplo para el estrato 1 se tiene n1 1, 5 = → n1 = 450 300000 1000 Los demás se encuentran de manera análoga y se tiene Tabla. Problema 4 Estrato
1
2
3
4
5
6
7
8
9
10
ni
450
225
75
150
120
30
150
36
114
150
Problema 6.5 El problema hay que abordarlo en varias etapas. a) La función densidad no está normalizada y hay que normalizarla C
∫
1
0
f ( x) dx =C
∫
1
0
x dx =
C = 1→ C = 2 2
2 x, 0 < x < 1 f ( x) = 0 en otro caso b) Calcular la función integral v = F(x) que está comprendida entre 0≤v≤1 0 x < 0 x v = F ( x) = ∫0 2u du = x2 , 0 ≤ x < 1 1 1 ≤ x
394
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
c) Transformar los números de dos cifras leídos en la tabla al intervalo [0,1]. Esto equivale a la transformación y[0, 99] Æ v[0,1] que se logra con el y . cambio v = 99 d) Hacer v = F(x) = x2 y calcular x = F −1 (ν ) = + v con resultados en 0 ≤ x ≤ 1. La tabla siguiente contiene los resultados pedidos (Fig. 6EP1)
Figura 6EP1. Gráfico para el Problema 5. Obtención de números aleatorios xi no uniformemente distribuidos entre 0 y 1 a partir de números aleatorios ni que sí están uniformemente distribuidos en ese intervalo.
Tabla. Problema 6.5. Números aleatorios y
06
82
98
78
43
v = F ( x)
0,06061
0,82828
0,98990
0,78788
0,43434
x= v
0,24618
0,91010
0,99494
0,88763
0,65905
y
28
19
52
72
79
v = F ( x)
0,28283
0,19192
0,52525
0,72727
0,79798
x= v
0,53182
0,43809
0,72474
0,85280
0,89330
Problema 6.6 La distribución muestral de medias en este caso es tal que
mX– = m = 0,0105 g
σX =
σ N
NP − N 0, 0025 700 − 150 = 700 − 1 NP − 1 150
395
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Un total de 1,5 g en 150 especimenes equivale a decir que la media en – esta muestra es de X = 1,5/150 =0,01 g y el problema se reduce al de la probabilidad de que la cantidad media sea menor que este valor. Dado el tamaño de la población y de la muestra puede utilizarse la Gaussiana y la tipificación, redondeando el resultado para la variable a dos decimales, lleva a z=
X − µ X 0, 01 − 0, 0105 = = −2, 76 σX 0, 0001811
La probabilidad es por tanto p( z < −2, 76) = 0, 5 − p(0 < z < 2, 76) = 0, 5 − 0, 4971 = 0, 0029 9 ≈ 0, 3% El lector puede comprobar con cuantos decimales en el denominador se mantiene el resultado para ¯z con el redondeo utilizado. Problema 6.7 Se comienza analizando un subsistema
µ3 = 3 1 = p = 0, 6; σ 3 =
pq 0, 6 · 0, 4 = NS 500
El uso de una distribución Gaussiana implica tipificar las proporciones utilizando las consabidas correcciones de continuidad, derivadas del paso binomial Æ Gaussiana, y se tiene 31 =
279, 5 325, 5 = 0, 559; 3 2 = = 0, 651 500 500
Tipificando se obtienen z1 =
31 − 3
σ3
=
32 − 3 0, 559 − 0, 6 0, 651 − 0, 6 = −1, 87; z2 = = = 2, 33 0, 02191 0, 02191 σ3
habiéndose utilizado redondeo a dos decimales en la variable tipificada. La probabilidad para un subsistema es pues p(280 ≤ espines ≤ 325) = p(279, 5 < z < 325, 5) = p( −1, 87 < z3 < 2, 33) = p(0 < z3 < 1, 87) + p(0 < z < 2, 33) = 0, 4693 + 0, 4901 = 0, 9594 = 95, 94%
396
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
Para el sistema completo de subsistemas independientes se mantiene el porcentaje señalado para la probabilidad del suceso S(280 ≤ espines ≤ 325), y el número de ellos en los que se cumplirá la relación pedida es n = 0, 9594 · 1000 ≈ 959 Nótese que la probabilidad del suceso S pedido en todo el sistema es p(S) =
1 1 1 N p1 + p2 + ... + pN = p= p N N N N
Este problema podría haberse abordado utilizando la distribución binómica desde el principio.
Problema 6.8 La media de la suma/diferencia viene dada por la suma/diferencia de las medias
µ R + R = µ R + µ R = 150 + 75 = 225 micro-roëntgens/horra 1
2
1
2
µ R − R = µ R − µ R = 150 − 75 = 75 micro-roëntgens/hora a 1
2
1
2
en tanto que la desviación típica es la misma en ambos casos (redondeo a un decimal)
σ R + R = σ R − R = σ R2 + σ R2 = 102 + 82 = 12, 8 ≈ 13 micro--roëntgens/hora 1
2
1
2
1
2
Problema 6.9 Hay que utilizar la distribución t de Student y deben determinarse los valores medios y desviaciones típicas de ambas partidas. Se considera que no hay diferencias significativas entre las dos varianzas muestrales. Los cálculos son automáticos con una calculadora de sobremesa, pero conviene haber hecho alguno en detalle. Para el caso a) redondeando a cuatro decimales el cálculo se organiza así
397
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
i
xi
– (xi – X )
– (xi – X )2
1
124
0,1429
0,0204
2
118
–5,8571
34,3056
3
106
–17,8571
318,8760
4
127
3,1429
9,8778
5
131
7,1429
51,0210
6
132
8,1429
66,3068
7
129
5,1429
26,4494
∑ x = 867; i
X1 = 123, 8571;
∑ (x − X )
2
i
1
= 506, 8571; s1 = 9,1911
i
i (1)
Para la segunda muestra se obtienen los valores
∑ x = 1260; i
X2 = 126;
i( 2)
∑ (x − X )
2
i
2
= 412; s2 = 6, 7659
i
a) Los límites de confianza para la primera muestra se corresponden con n = N1 – 1 = 7 – 1 = 6 grados de libertad y los coeficientes críticos (percentiles) del 97,5% y del 99,5% son t0 ,975 (ν = 6 ) = 2, 45; t0 ,995 (ν = 6 ) = 3, 71 y los límites de confianza en las unidades del problema son 95% X1 ± t0 ,975
99% X1 ± t0 ,995
s1 N1 s1 N1
= 123, 9 ± 8, 5 → 115, 4 < µ1 < 132, 4 → 115 < µ1·1015 < 132 curies/g
= 123, 9 ± 12, 9 → 111 < µ1 < 136, 8 → 111 < µ1·1015 < 137 curies/g
b) Para realizar la comparación de las medias poblacionales hay que formular la hipótesis nula H0 : m1 = m2 y contrastarla vía el estadístico (redondeo a dos decimales) y grados de libertad siguientes t=
398
X1 − X 2 1 1 sˆ + N1 N2
=
123, 8571 − 126 1 1 7, 8267 + 7 10
= −0, 56; ν = 7 + 10 − 2 = 15
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
Entonces se tiene H0 : m1 = m2 y las diferencias son sólo consecuencia del azar H0 : m1 ≠ m2 y las diferencias son significativas al nivel a seleccionado El ensayo es bilateral y para a = 0,05 hay que rechazar H0 si el estadístico calculado t = –0,56 está fuera de los límites comprendidos entre los valores críticos –t0,975(n = 15) = –2,13 y t0,975(n = 15) = 2,13. Como –2,13 < –0,56 < 2,13 hay que aceptar H0 y concluir que las medias reales de la radiactividad debida al 65Zn no difieren significativamente al nivel a = 0,05. El ensayo al nivel a = 0,01 no es ya necesario, pues el intervalo que va a indicar es aún mayor que el obtenido antes [t0,975(n = 15) = 2,95]. Puede concluirse pues que las dos muestras proceden de la misma población. Problema 6.10 a) Los valores pedidos son (redondeos en su caso a cuatro decimales) – X = 259; s = 13,6115; n = 12 – 1 = 11 grados de libertad. b) Hay que utilizar la distribución chi-cuadrado. La formulación de hipótesis es H0 : s = 32 y las diferencias son sólo producto del azar. H1 : s < 32 y las diferencias son significativas al nivel a seleccionado. Aquí hay que fijarse en que H1 está definiendo una región en la parte izquierda de la distribución. Si el estadístico calculado es menor que el valor crítico, es entonces cuando hay que rechazar H0. El estadístico para la muestra redondeado a dos decimales es
χ = ( N − 1) 2
s2
σ
2
=
2038 322
= 1, 99
En un ensayo unilateral a < 0,05 ó a < 0,01 hay que comparar c 2 = 1,99 con 2 2 (n = 11) = 4,57 y c 0,01 (n = 11) = 3,05. En ambos casos se los valores críticos c 0,05 2 2 2 tiene c = 1,99 < c 0,05, c 0,01 y hay que concluir que las diferencias son significativas y que el proceso ha tenido éxito en la reducción de la desviación típica del esfuerzo de rotura. Nótese que si el estadístico calculado hubiera sido mayor que el valor crítico de referencia, se habría aceptado la hipótesis nula.
399
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
c) De nuevo utilizando chi-cuadrado hay que contrastar las hipótesis H0 : s = 10 H1 : s > 10 La situación es ahora la contraria a la anterior desde el punto de vista de la distribución. El estadístico redondeado a dos decimales toma el valor
χ 2 = ( N − 1)
s2
σ
2
=
2038 102
= 20, 38
y los valores críticos para este ensayo unilateral son c 20,95(n = 11) = 19,7 y 2 c 0,99 (n = 11) = 24,7. La regla de decisión para cada nivel de significación es la siguiente 2 2 , c 0,99 hay que rechazar H0 es decir aceptar H1 al — Si c 2 = 20,38 > c 0,95 nivel de significación que se considere. 2 2 , c 0,99 hay que aceptar H0 es decir rechazar H1 al — Si c 2 = 20,38 < c 0,95 nivel de significación que se considere.
En el caso estudiado se tiene que 2 c 2 = 20,38 > c0,95 (n = 11) = 19,7 y hay que aceptar al nivel a = 0,05 que H1 : s > 10 es cierta.
Por otra parte, se tiene también que 2 c 2 = 20,38 < c 0,99 (n = 11) = 24,7 y hay que rechazar al nivel a = 0,01 que s > 10, es decir H1 es falsa.
Nótese la proximidad de valores en el caso a = 0,05 que ya casi anticipa el resultado al nivel a = 0,01. Aunque las circunstancias particulares de la producción y venta del producto pueden llevar a decidir lo contrario, lo más adecuado sería revisar el proceso para garantizar que la disminución en la resistencia de rotura es tal que s > 10. Problema 6.11 a) Hay que utilizar la distribución de Fisher con a = 0,05 y n1 = n2 = 11 – 1 = 10 grados de libertad. Como sB > sA se forma el estadístico F=
400
s2B s2A
=
0, 72 0, 42
= 3, 0625 > 1
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
y comparar unilateralmente con el valor crítico. Éste leído en una tabla C (0,05) = 2,978. Este último valor marca construida con tres decimales es F10,10 la separación entre la región con 95% de probabilidad F < F10,10 (0,05) = 2,978 y que daría como cierta la hipótesis nula, H0 : s A2 = s B2, y la región con 5% de probabilidad F > F10,10 (0,05) = 2,978 y que daría como falsa tal hipótesis. C Como F ª 3,06 > F10,10 (0,05) = 2,978, hay que rechazar con un 5% de nivel de significación que H0 : s A2 = s B2, concluyendo entonces que efectivamente A (que muestra una menor varianza) es más preciso que B. C (0,01) = 4,849. b) Un nuevo ensayo con a = 0,01 lleva a considerar F10,10 C Por el contrario, se tiene ahora F ª 3,06 < F10,10(0,01) = 4,849, y con un 1% de nivel de significación no puede rechazarse H0 : s A2 = s B2. C Un nuevo ensayo con a = 0,025 lleva a considerar F10,10 (0,025) = 3,717. De C nuevo se tiene que F ª 3,06 < F10,10(0,025) = 3,717, y con un 2,5% de nivel de significación puede arriesgarse que H0 : s A2 = s B2, aunque convendría repetir las mediciones para asegurarse.
c) Un ensayo bilateral con a = 0,05 implica que los valores críticos van a delimitar un área central en la distribución de aceptación de la hipótesis nula C (a/2) H0 con valor 1 – a. Esto hace que la comparación deba hacerse con F10,10 C = F10,10(0,025) = 3,717. Como F ª 3,06 < F10,10(0,025) = 3,717, no se debería rechazar la hipótesis nula, al igual que en el segundo ensayo de b) (el otro valor de referencia es F10,10(0,975) = 1/F10,10(0,025) ª 0,269). En este ensayo bilateral no habría diferencias significativas entre A y B. Problema 6.12 a) La variable tipificada z¯0,95 queda definida por el área que encierra p(–⬁ < z < 0,95) = 0,95 y la relación z0 ,95 =
X50 − µ
X50 − 6, 4
= 1, 645 0, 51/ 50 – de donde se obtiene el valor medio buscado X 50 = 6,519 Kg/cm2.
σ/ N
=
b) La formulación al nivel a = 0,05 sería como sigue H0 : m = 6,4 Kg/cm2 y ambos procesos no difieren a este nivel a H1 : m > 6,4 Kg/cm2 y el nuevo proceso es mejor al nivel a
401
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
lo que se traduce en la regla de decisión siguiente – H0 se rechaza si X 50 en 50 ensayos > 6,519 Kg/cm2 (H1 se acepta). c) El error del tipo II consiste en aceptar H0 cuando H1 es efectivamente cierta. Se mide mediante el parámetro b que es el área delimitada en la curva de H1 por el nivel de significación a de H0, desde –⬁ hasta el punto de corte. – Hay que tipificar X 50 = 6,519 Kg/cm2 con respecto a la distribución de H1 y con este valor calcular en esta función el área b. Redondeando a tres decimales se tiene z50 =
6, 519 − 6, 55 0, 51/ 50
= − 0, 430
β = pH (− ` < z < −0, 43) = 0, 5 − pH (0 < z < 0, 43) = 0, 5 − 0,1664 = 0, 3336 1
1
d) La curva OC es la representación de valores (m, b) y la curva de potencia es la representación equivalente de (m, 1 – b). Para obtenerlas hay que dar valores mi a la media poblacional y proceder del mismo modo que en el apartado anterior zi =
X50 − µi
σ/ N
; βi = pH (− ` < z < zi ) 1
Las curvas pueden calcularse tan detalladamente como se desee, pero una selección de valores basta para dar la idea de los comportamientos de ambas. Cuatro cálculos de puntos típicos con redondeos a tres decimales en la variable tipificada son los siguientes
µ1 = 6,1 → z1 = µ5 = 6, 5 → z5 = µ6 = 6, 6 → z6 =
0, 51/ 50
6, 519 − 6, 5 0, 51/ 50
6, 519 − 6, 6 0, 51/ 50
µ8 = 6, 8 → z8 =
402
6, 519 − 6,1
= 5, 809 → β1 = pH (− ` < z < 5, 809 ) = 1 1
= 0, 263 → β5 = pH (− ` < z < 0, 263) = 0, 6037 1
= −1,123 → β6 = pH ( − ` < z < −1,123) = 0,1307
6, 519 − 6, 8 0, 51 / 50
1
= −3, 896 → β8 = pH (− ` < z < −3, 896 ) = 0 1
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
en donde se ha utilizado una tabla Gaussiana dada con precisión de dos decimales para la variable y se han efectuado las correspondientes interpolaciones lineales para determinar las probabilidades con la variable tipificada redondeada a tres decimales. Una tabla representativa se da a continuación Tabla Problema 6.12. Curvas OC y de potencia m
6,1
6,2
6,3
6,4(*)
6,5
6,6
6,7
6,8
z
5,809
4,423
3.036
1,645
0,263
–1,123
–2,510
–3,896
b (OC)
1,0000
1,0000
0,9988
0,9500
0,6037
0,1307
0,0060
0
1–b
0,0000
0,0000
0,0012
0,0500
0,3963
0,8693
0,9940
1
(*) Se han tomado los datos exactos.
Figura 6EP2. Gráfico para el Problema 12. Curvas OC (característica de operación) (a) y de potencia (b). 1 – b es la potencia del criterio estadístico utilizado. Los datos de entrada se han suavizado con splines cúbicos.
De la curva OC (Fig. 6EP.2) se observa que para m = 6,4 la probabilidad de seguir con el proceso original es prácticamente la unidad. En m = 6,4 entra en juego el nivel de significación elegido a < 0,05 y es la zona de decisión. Para m > 6,4 el parámetro b desciende rápidamente y ya para m > 6,7 la probabilidad de seguir con el proceso original es despreciable. De la curva complementaria de potencia se deducen los mismos resultados.
403
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Problema 6.13 a) En este caso se conoce la desviación típica muestral para un tamaño N1 = 16 y se tiene que estimar otro tamaño de muestra menor que cumpla un determinado requisito. Utilizando la t de Student con t0,975(n = 15) = 2,13 el – intervalo bilateral alrededor de X en el cuál se encontrará m es X ± t0 ,975
s N
= X ± 2,13
0, 38 16
= X ± 0, 20
En esta ecuación s(n = 15) y t0,975(n = 15) para N = N1 = 16. Ahora bien, conocido este resultado se puede utilizar una semi-anchura dada l, mayor y menos restrictiva que la anterior, para un intervalo de seguridad práctica y estimar un valor n del número de observaciones a realizar compatible con l l = t0 ,975
s n
= 2,13
0, 38 n
La semi-anchura del intervalo debe ser 0,4 y así se tiene 0, 4 = t0 ,975
s n
= 2,13
0, 38 n
→ n ≈ 4, 09 → n = 5 determinaciiones
en donde se ha redondeado por exceso para mayor seguridad. b) Tomando las cinco primeras determinaciones de la muestra de tamaño 6 se calcula su desviación típica y se obtiene s(n = 4) = 0,7225. Este dato se combina con lo sabido para N1 = 16 en la forma de mezcla («pooling») sˆ 2 =
15 · (0, 38)2 + 4 · (0, 7225)2 → sˆ = 0, 4732 ≈ 0, 47 g 16 + 5 − 2
La diferencia entre las dos varianzas es grande y esta operación de «pooling» no parece tener mucho sentido. c) En esta nueva estimación de la desviación típica se han añadido grados de libertad con la toma de la muestra N2 = 6. De manera que la semianchura final real para el conjunto n = 5 va a ser diferente de la pretendida de 0,4. Para estimarla se puede utilizar la relación original l = t0 ,975 s / n 404
MUESTREO, ESTIMACIÓN Y DECISIÓN ESTADÍSTICA
pero con n = 16 + 5 – 2 = 19 grados de libertad para t0,975. Así se recalcula esta semi-anchura como t0 ,975 (ν = 19)
sˆ 5
= 2, 09
0, 4732 5
≈ 0, 44
La semi-anchura es mayor que la pretendida, como resultado de la diferencia entre varianzas comentada. Parece conveniente revisar la toma de datos. Este tipo de procedimiento es ampliamente utilizado en los planes de muestreo de poblaciones.
Problema 6.14 Primero hay que construir la variable diferencia que toma los valores D = xA − xB = 3, 4, 3, − 7, 1, 9 cuya media y desviación estándar, redondeadas a tres decimales, son D = 2,167; sD = 5, 231 valores con los que se calcula el valor del estimador t=
D sD
N ; ν = N −1= 5
Redondeando a dos decimales la dócima toma el valor t = 1,01 y los valores críticos para el 95% con n = 6 – 1 = 5 grados de libertad son ±t0,975 = 2,57. Como ÔtÔ < 2,57 hay que aceptar la hipótesis nula de que los dos métodos no dan resultados significativamente diferentes al nivel a = 0,05.
405
CAPÍTULO 7 CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
7.1. Experimentos con más de una variable aleatoria, correlación y regresión 7.2. Ecuaciones empíricas típicas en dos variables y su reducción a forma lineal 7.3. El coeficiente de correlación en dos variables 7.4. Aspectos prácticos de la regresión lineal por mínimos cuadrados 7.5. Desestimación de puntos en el análisis de datos 7.6. Correlación lineal múltiple 7.7. Estadística no paramétrica Bibliografía Problemas teóricos y numéricos
Se abordan las cuestiones de correlación, regresión y estadística no paramétrica. Se consideran así los problemas de la cuantificación del grado de relación que presentan una variable dependiente y una o varias variables independientes (correlación simple o múltiple). En el caso general la teoría estadística posee métodos para optimizar expresiones matemáticas empíricas y obtener «la mejor» relación funcional (mínimos cuadrados, por ejemplo) entre las variables, suministrando medidas (coeficientes) para estimar el grado (o grados) de correlación existente. Utilizando estas relaciones funcionales óptimas, que poseen propiedades más suaves que los datos originales, se puede estimar el valor de la variable dependiente para determinados valores de las variables independientes (regresión). Se retoma así la discusión iniciada en el Cap. 1 relativa a los mínimos cuadrados, pero ahora desde la perspectiva estadística. Se analizan también las posibilidades de realizar ajustes de regresión de funciones complicadas (una variable independiente) reduciéndolas a forma lineal mediante los consiguientes cambios de variable. El problema lineal se estudia con detalle, determinando: los coeficientes de la relación, los errores asociados, y el coeficiente de correlación. Aquí se presta especial atención al significado del coeficiente de correlación entre dos variables como ligado a una distribución Gaussiana bivariante y se le relaciona con la transformación z de Fisher, considerándose también algunos aspec-
407
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
tos prácticos de la regresión lineal. Una vez explicados algunos tests sencillos (cuartiles extendidos, y distancia de Cook) para identificar puntos extraños en una muestra, se pasa al caso de la correlación lineal múltiple centrando el problema en el caso de tres variables (plano de mínimos cuadrados) y analizando los diferentes coeficientes de correlación y los errores típicos de la estima que pueden definirse. Finalmente, por su interés como técnicas alternativas del análisis de la correlación, se estudian dos aplicaciones sencillas de la denominada estadística no paramétrica (test de los signos y correlación por rangos de Spearman). Correlación / Regresión Correlación bivariante
Correlación múltiple
Ecuaciones empíricas
Regresión lineal Coeficientes de correlación
Casos con 2, 3 y 4 parámetros Reducción a forma lineal Coeficiente de correlación lineal Covarianza Transformación z de Fisher
Estadística no paramétrica
Regresión lineal por mínimos cuadrados Errores RMS, de la estima, en los parámetros Desestimación de puntos
Test de signos Spearman
Caps. 1, 10
7.1. Experimentos con más de una variable aleatoria, correlación y regresión En este capítulo se retoma la discusión general del ajuste de funciones a series de datos, pero ahora se añadirán los aspectos que están ligados al hecho de que tales datos pueden estar extraídos de distribuciones de probabilidad y venir afectados de errores estadísticos de entrada. En principio hay que distinguir entre dos situaciones: a) cuando la relación funcional entre las variables que intervienen, X, Y, Z, etc., es conocida a priori por argumentaciones teóricas, y = f(x), z = f(x, y), etc.; y b) cuando tal relación no se conoce y hay que buscarla (relación empírica) ensayando tipos o modelos prefijados, bien entendido que pudiera darse el caso de que la relación no existiera o de que incluso resultase producto de una coincidencia no significativa.
408
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
En el caso a) ya existe por definición una correlación teórica entre las variables del problema que puede cuantificarse para dar una idea de la dispersión de los datos de entrada. Para concretar ideas, en el caso de dos variables, si cuando X crece (decrece), la variable Y también crece (decrece), se dice que la correlación es positiva, en tanto que cuando las variaciones de X e Y son contrarias se dice que la correlación es negativa. En el caso b) es claro que el objetivo es justamente determinar si una tal correlación existe y en qué grado, algo que es en general un problema difícil y que puede conducir a situaciones poco significativas y hasta absurdas. Por ejemplo, ante una tabla {(xi, yi)}i=0,M con N = M + 1 parejas de valores (la muestra obtenida) puede ensayarse el ajuste de una relación funcional lineal y˜ = ax + b y esta operación puede llevar a un buen resultado o a un mal resultado (Cap. 1). Si el resultado es aparentemente bueno, en el sentido de una proximidad entre los valores tabulares yi y los valores estimados y˜i = yi,est. = axi + b, se puede seguir adelante e intentar cuantificar el grado de correlación obtenida entre las variables X e Y. Sin embargo, si el resultado es malo, en el sentido de una pobre proximidad entre yi e y˜i, sólo se podrá afirmar que hay mala correlación lineal entre las variables, pero nada impide que puedan existir correlaciones mejores entre ambas (y˜ = ax2 + bx + cx, y˜ = ax/(bx + c), etc.). Todo esto indica porqué determinar «la mejor» correlación es un asunto arduo y con una respuesta unívoca no necesariamente definitiva. Además, en cualquier caso hay que cerciorarse de que una correlación obtenida es significativa y no un mero artefacto matemático. Por ejemplo, una correlación positiva entre la proporción de oro en rocas extraidas de una mina y el contenido en taninos de una producción vinícola no cabe esperar que tenga una significación válida. El ajuste empírico de ecuaciones a fenómenos fisicoquímicos (modelización) es una etapa importante del trabajo científico y técnico. En el mejor de los casos estas ecuaciones empíricas pueden contener verdades científicas de gran calado, como las ecuaciones para las series del espectro del hidrógeno atómico de Balmer (1885) y de Paschen (1908), pero a falta de una teoría que las respalde, como la teoría de Bohr en los dos casos anteriores (1913), su utilidad queda reducida a la de un método de interpolación (en el mejor de los casos también de extrapolación). Como ya se ha mencionado en otros lugares del texto, la utilidad de un esquema de interpolación está limitada al intervalo de definición de los datos y, dentro del contexto presente de correlación de variables, las estimaciones con ecuaciones empíricas de los valores de una variable conocidos los del resto de ellas se denomina regresión.
409
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Antes de lanzarse a calcular conviene realizar una sencilla representación gráfica de los datos de entrada para decidir entre qué tipos de relaciones funcionales conviene ensayar posibilidades. Esto ahorra tiempo y errores de apreciación sobre los datos. Por razones obvias de simplicidad siempre que sea posible conviene rectificar o («linealizar») la forma de la ecuación empírica, es decir convertirla en la de una línea recta y = ax + b. Un diagrama de puntos (diagrama de dispersión) ofrece una gran variedad de posibles líneas rectas (u otras funcionalidades) para ser trazadas a través de ellos, por lo que es necesario seguir algún criterio que permita seleccionar «la mejor». El criterio habitual es el ya conocido (Cap. 1) de mínimos cuadrados, en el que se minimiza la suma de los cuadrados de las desviaciones de cada punto tabular al punto de la línea de ajuste. La regresión hecha así es la denominada regresión de mínimos cuadrados. Existen otros criterios, como la regresión ortogonal en la que se minimiza la suma de las distancias punto tabular – recta de regresión, pero la versión preferida por su sencillez y facilidad de operación es la de mínimos cuadrados. Para cuantificar el grado de correlación entre dos variables se utiliza el denominado coeficiente de correlación, una magnitud que está relacionada con la covarianza de tales variables (Cap. 5). Este nuevo coeficiente es independiente de la regresión mínimo cuadrática, pero da una muy buena idea de la concentración / dispersión de los datos tabulares alrededor de la dependencia lineal de las variables. De aquí se deriva su gran popularidad, así como su uso conjunto con las regresiones lineales para caracterizar la calidad de éstas (calibración de aparatos de análisis químico, selección de ecuaciones empíricas, etc.). Ahora bien, aquí hay que señalar que la fundamentación del coeficiente de correlación no es tan general como se supone, pues, en rigor, su aplicación fiable requiere de una distribución Gaussiana en dos dimensiones como población de la que procedan los puntos de la muestra (xi, yi). Es debido a estas particularidades del coeficiente de correlación que se han diseñado herramientas alternativas que no presuponen distribución alguna en los datos de entrada para caracterizar la correlación entre variables (técnicas de la estadística no paramétrica y de la estadística robusta). A pesar de todo ello, el concepto de coeficiente de correlación es como se ha indicado muy usado y tiene sus generalizaciones en el caso de los experimentos multivariantes en los que intervienen tres o más variables aleatorias. En la realización de los cálculos de regresión pueden presentarse varias circunstancias. Por ejemplo, se puede estar interesado en realizar compara-
410
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
ciones de resultados entre varios aparatos, varios laboratorios, diferentes operarios, etc. Además, los datos de entrada (por simplicidad bivariantes) {(xi, yi)} pueden ser tales que: a) sean uno-a-uno, con un valor yi para cada xi; b) con varios valores yi1, yi2, ..., para alguno o todos los xi; c) con un valor yi para varios xi; d) con errores en uno o en ambos datos de entrada, aunque lo común es considerar que estos errores afectan sólo a los datos yi, estando los xi libres de error; e) haya datos de entrada que deban ser desechados; etc. Existen técnicas adecuadas para tratar con cada uno de estos casos pero por razones de espacio y tiempo no se pueden tratar aquí. En general, los mínimos cuadrados son un buen punto de partida para toda esta casuística y van a considerarse en este capítulo algunas de sus aplicaciones principales. La atención se concentrará principalmente en los experimentos bivariantes que se describen con regresiones lineales mínimo-cuadráticas, y se prestará algo de atención a los experimentos con tres variables aleatorias y a las correlaciones que pueden definirse en ellos. Otros detalles complementarios pueden abordarse con las técnicas no paramétricas o las robustas, de las que se van a dar también algunas ideas aquí, y se dejan algunas aplicaciones más avanzadas para el Cap. 10 (ajustes chi-cuadrado con errores en los datos yi, rectas robustas), remitiendo al lector a la bibliografía especializada para más técnicas (regresión de la media, optimización de Deming para errores tanto en xi como en los datos yi, etc.).
7.2. Ecuaciones empíricas típicas en dos variables y su reducción a forma lineal Al tratar de representar una colección de puntos {(xi, yi)}i=0,M experimentales aparecen con frecuencia en la práctica algunas formas no lineales típicas. Ya se han considerado en el Cap. 1 los tipos básicos en conexión con el ajuste de mínimos cuadrados. El punto importante allí era que con sencillos cambios de variable admisibles la función modelo acababa transformándose en una dependencia lineal tanto en las nuevas variables como en los parámetros incógnita que ayudaban a definir la relación. A su vez, estos parámetros se obtenían a través de la resolución de un sistema lineal de ecuaciones. Antes de considerar situaciones más generales con tres y cuatro parámetros y a modo de resumen, se detallan a continuación los tipos básicos junto a sus cambios de variable para reducirlos al tipo lineal.
411
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Tipos básicos con dos parámetros A = a, B = b y = ax + b → → Y = AX + B X = x, Y = y
(7.2.1)
A = a, B = ln b y = bxa → → Y = AX + B X = ln x, Y = ln y
(7.2.2)
A = ln a, B = ln b y = ba x → → Y = AX + B X = x, Y = ln y
(7.2.3)
A = a, B = b a → → Y = AX + B x X = 1 / x, Y = y
(7.2.4)
y = b+
y=
y=
A = a, B = b 1 → → Y = AX + B ax + b X = x, Y = 1 / y
(7.2.5)
A = a, B = b x → → Y = AX + B bx + a X = 1 / x, Y = 1 / y
(7.2.6)
No se han considerado ajustes polinómicos de grados ≥2 por brevedad. Una vez realizada la oportuna representación gráfica, la técnica de mínimos cuadrados da los coeficientes A y B óptimos para la ecuación empírica más adecuada. Aunque se ha tomado la dependencia y = f(x) pudiera haber casos en los que resultase más ventajoso intercambiar los papeles de las variables y formular la dependencia como x = g(y) [por ejemplo, x = (ay + b)–1. En cualquier caso, hay que prestar atención a las posibles restricciones sobre los valores de entrada {(xi, yi)} de manera que no se presenten operaciones prohibidas, como por ejemplo: en (7.2.2) hay que exigir que x > 0, y > 0; en (7.2.6) hay que exigir y ≠ 0 y que x ≠ 0. No obstante, en determinadas ocasiones pueden manipularse ligeramente los valores de entrada y conseguir tratar situaciones aparentemente imposibles. EJERCICIO 7.2.1 Diseñar una reducción a forma lineal de la relación y= –bxa, b > 0, x > 0.
412
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
Como ln y con y < 0 no está definido en el campo de los números reales, no es posible realizar el cambio (7.2.2) directamente. Sin embargo, notando que las funciones y = –bxa e y = bxa son simétricas con respecto al eje x (Fig. 7T1), redefiniendo el problema original como Y = − y = bxa ( b > 0, x > 0 ) se puede tratar el problema haciendo ln Y = ln b + a ln x de donde la aplicación convencional de mínimos cuadrados da los valores óptimos para a y b, que definirán la ecuación buscada y = –bxa.
Figura 7T1.
Tipos con tres y cuatro parámetros Aquí van a considerarse los tipos especiales siguientes i) y = be ax + c
(7.2.7)
ii) y = bxa + c
(7.2.8)
iii) y = B( x − a) A + c
(7.2.9)
En estos casos, tras la oportuna representación gráfica que indique la viabilidad inicial del modelo, el ajuste directo con mínimos cuadrados de la
413
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
tabla {(xi, yi)} lleva a un sistema no lineal en los parámetros y, aunque existen técnicas rigurosas de minimización, éstas requieren el uso de computación avanzada. En muchas ocasiones puede resultar suficiente proceder de una manera aproximada y se va a mostrar en cada caso una posible ruta elemental de ataque. i) y = beax + c Es fácil ver que si se conociera c la ecuación podría transformarse en lineal sin más que hacer
{
}
y − c = be ax → Y = ln( y − c), X = x → ln( y − c) = ln b + ax; ( y > c)
(7.2.10)
y aplicar aquí mínimos cuadrados para obtener a y b. Ahora bien, si la relación lineal propuesta tiene finalmente sentido para el problema, algo que debe comprobarse a posteriori, entonces los puntos tabulares deben verificarla. En particular esto debe sucederles a los puntos extremos (x0, y0) y (xM, yM) y también a un tercero, convencionalmente aquel en la mitad del intervalo de definición xI =
x0 + xM , yI ≈ valor interpolado en la tabla para xI 2
(7.2.11)
Estos tres puntos deben ser tales que y0 − c = be
ax0
yM − c = be yI − c = be
axI
axM
= be
(7.2.12)
a ( x0 + xM )/ 2
De (7.2.12) es inmediato obtener una estimación para el parámetro c ( y0 − c)( yM − c) = ( yI − c)2 → c =
y0 yM − yI2 y0 + yM − 2 yI
(7.2.13)
Este valor de c puede utilizarse en (7.2.10) para realizar el ajuste lineal de mínimos cuadrados allí expresado y calcular a y b. Una alternativa al procedimiento anterior es utilizar como puntos extremos (x˜0, y˜0) y (x˜M, y˜M), que se leen del gráfico de una curva razonablemente trazada y que estén en las cercanías de (x0, y0) y (xM, yM) y/o se toma como valor yI el leído en tal gráfica para
414
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
el valor intermedio xI. Una vez realizados estos cálculos hay que comprobar la bondad del ajuste y determinar si al menos para efectos prácticos éste es válido (proximidad entre estimaciones y datos de entrada). En este sentido, cualquier mejora en la estimación del valor clave yI es siempre deseable. ii) y = bxa + c De nuevo, si se conociera c el problema de determinar a y b podría hacerse mediante mínimos cuadrados utilizando ln( y − c) = ln b + a ln x; ( y > c, x > 0 )
(7.2.14)
La estrategia general es la misma que antes, pero ahora utilizando los tres puntos en teoría alineados siguientes (ln x0, ln(y0 – c)), (ln xM, ln(yM – c)), (ln xI, ln(yI – c)),en donde el punto intermedio está ahora definido como ln xI =
ln x0 + ln xM → xI = x0 xM 2
(7.2.15)
con yI interpolado en la tabla para la abscisa anterior xI. Se tienen así las relaciones y0 − c = bx0a a yM − c = bxM
yI − c = b
(
x0 xM
)
(7.2.16) a
Procediendo como antes se obtiene para el parámetro c la misma relación formal ya escrita c=
y0 yM − y2I y0 + yM − 2 yI
(7.2.17)
(comparada con (7.2.13) difiere en las coordenadas del punto intermedio (xI, yI)). Las mismas observaciones operativas finales hechas en i) son de aplicación aquí. iii) y = B(x – a)A + c Este es un problema de cuatro parámetros y por tanto más complicado. Si a y c fueran conocidos, entonces el problema de determinar A y B sería
415
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
formalmente equivalente a ii). Para llegar a ese punto hay que hacer un enfoque ligeramente diferente. Primero, nótese que la derivada de la función empírica propuesta permite eliminar el parámetro c z=
dy = BA( x − a) A −1 dx
(7.2.18)
y la reducción a una línea recta se logra con ln z = ln( BA) + ( A − 1) ln( x − a);
( x > a; z > 0 )
(7.2.19)
representando ln z frente a ln(x – a). El problema es ahora doble: por un lado, z es una derivada y sus valores tienen que ser estimados a partir de los datos tabulares de entrada; por el otro, a es desconocida y aparece dentro del logaritmo neperiano de una diferencia. La primera dificultad se puede abordar utilizando los elaborados métodos de derivación numérica del Cap. 3, o utilizando alternativas más sencillas. La segunda puede tratarse visualizando el problema de forma inversa para determinar el punto intermedio (xI, zI). Se considera cada una de ellas a continuación. La determinación de los valores de z se va a realizar de forma aproximada calculando los cocientes de incrementos Dy/Dx en los puntos medios x¯i de cada subintervalo (i, i + 1) tabular, x¯i = (xi+1 + xi)/2, y se tienen las estimaciones zi ≈
∆y yi +1 − yi = ; i = 0,1, 2,..., M − 1 ∆x xi +1 − xi
(7.2.20)
Con ello hay que rescribir (7.2.18) como una nueva función de la variable x¯ z ≈ BA ( x − a
)
A −1
(7.2.21)
función que está definida en los M puntos (x¯i, zi). La elección de (xI, zI), o más propiamente de (x¯I, zI), procede al revés de lo visto anteriormente, en consonancia con el hecho de que (7.2.21) es análoga al tipo (7.2.8) sin más que plantearla en la forma equivalente 1
1 A −1 1/ ( A −1) +a x≈ z BA
416
(7.2.22)
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
Así, se fija el valor intermedio zI como zI = z0 zM −1 y se interpola (o lee del gráfico) el valor correspondiente de x¯I (como antes los valores extremos pudieran leerse del gráfico, etc.). Con todo ello se tienen las relaciones
( ≈ BA ( x ≈ BA ( x
z0 ≈ BA x0 − a zM −1 zI
M −1 I
)
A −1
−a
)
A −1
)
A −1
}
A −1
−a
(7.2.23)
De aquí se obtiene z0 zM −1 − zI2 = ( BA)2 ( x0 − a)( xM −1 − a)
{
{
− ( xI − a)2
}
A −1
= 0
(7.2.24)
resultando la expresión para evaluar el parámetro a a=
x0 xM −1 − xI2 x0 + xM −1 − 2 xI
(7.2.25)
Con este valor se puede trabajar la relación (7.2.21) como ln z = ln( BA) + ( A − 1) ln( x − a);
( x > a, z > 0)
(7.2.26)
y obtener los parámetros A y B por mínimos cuadrados. Queda finalmente la estimación de c que puede hacerse utilizando las diferencias ci = yi − B( xi − a) A , i = 0,1, 2, 3,..., M (7.2.27) y calculando el valor medio de todas ellas c=
1 M +1
M
∑ ( y − B( x − a) ) A
i
i
(7.2.28)
i=0
Como en los dos casos anteriores hay que verificar la bondad del ajuste así obtenido, lo que puede llevar a tener que afinar las estimaciones de las derivadas y del punto intermedio. Es recomendable pretar atención a los signos (+ , –) que vayan obteniéndose durante el cálculo.
417
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Todavía se pueden afinar aún más los ajustes anteriores con tratamientos adicionales de mínimos cuadrados, como es el añadir a las dependencias funcionales propuestas funciones extra que tengan sentido para el problema, pero no se van a considerar en este texto. EJERCICIO 7.2.2 Representar esquemáticamente el comportamiento general de las relaciones funcionales a) y = bxa , 0 < a < 1, b > 0, x > 0 b) y = B( x − a) A + c, B > 0, A < 0, a > 0, c > 0, x > a Las gráficas se dan en la Fig. 7T2.
Figura 7T2.
7.3. El coeficiente de correlación de dos variables Correlación de poblaciones En el Cap. 5 se discutió someramente el concepto de covarianza entre dos variables aleatorias X e Y, y se estableció su definición como la siguiente magnitud independiente del origen tomado para cada variable Cov( X , Y ) =
418
(X −
X
)(Y − Y )
= XY − X Y
(7.3.1)
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
A partir de esta definición es directo interpretar que si las dos variables tuviesen algún tipo de asociación (o correlación), el valor numérico de la covarianza sería en valor absoluto mayor que si no la tuvieran (el caso límite es el de variables independientes para las que Cov = 0). De hecho, el valor absoluto de la covarianza va a resultar tanto mayor cuanto mayor sea el grado de asociación entre ambas variables (el nombre covarianza sugiere la idea de variación conjunta). Si cuando X crece (decrece) Y también crece (decrece), entonces Cov(X, Y) tenderá a ser un número grande y positivo. Se dice así que la correlación es positiva. Si los comportamientos de X e Y son opuestos, Cov(X, Y) tenderá a ser un número grande y negativo, diciéndose que la correlación es negativa. Estas dos situaciones despliegan un abanico de posibilidades muy grande, todas contenidas entre los valores positivosnegativos que puede tomar Cov(X, Y) y dando cada uno de estos valores una medida del grado de correlación entre X e Y. Como siempre, hay que insistir en las salvedades ya mencionadas, como la de que Cov(X, Y) = 0 no implica necesariamente independencia, sino sólo que no hay correlación. Una dificultad que presenta la definición (7.3.1) para su uso generalizado surge cuando se quieren comparar diferentes asociaciones entre pares arbitrarios de variables aleatorias, (X1, Y1), (X2, Y2), …, (Xn, Yn). Así, y todo lo que sigue en valor absoluto, las covarianzas de las parejas de variables que tengan valores (xi, yi) más grandes van a resultar también mayores que las covarianzas de aquellas parejas de variables con valores (xi, yi) más pequeños. En estas condiciones cualquier comparación entre los diferentes grados de asociación va a carecer de significado por un problema de escala en los diferentes datos. Es por ello que se define como medida de la correlación entre dos variables X e Y una magnitud r «normalizada» o «estandardizada» con las respectivas desviaciones estándar sX y sY en la forma
ρ = ρ (X,Y ) =
Cov( X , Y ) ; − 1 ≤ ρ ≤ +1; σ X ≠ 0, σ Y ≠ 0 σ Xσ Y
(7.3.2)
y que se denomina coeficiente de correlación entre X e Y. Nótese que, en particular, r (X, X) = 1 y que, además, esta definición hace de r un número adimensional. Evidentemente, r = 0 indica que no hay correlación. Cuando r = +1 se tiene la asociación o correlación positiva perfecta entre las dos variables, y cuando r = –1 se tiene la asociación o correlación negativa perfecta entre las dos variables. En estos dos últimos casos, r = ±1, la masa total de la distribución bidimensional f(x, y) está concentrada a lo largo de una
419
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
recta en el plano XY. Este es un resultado crucial, pues de hecho r = ±1 es la condición necesaria y suficiente para que la distribución esté en una línea recta, y así contiene la clave de las muchas aplicaciones que se hacen de este parámetro, al que se le suele calificar como de correlación lineal por razones obvias. Hay que señalar, no obstante, que no todas la aplicaciones que se hacen con este concepto están siempre completamente justificadas como se verá más adelante. EJERCICIO 7.3.1 Probar la propiedad –1 ≤ r ≤ +1. La demostración puede hacerse considerando la cantidad no negativa σ Y2 ( X − µ X ) − Cov( X , Y )(Y − µY )
2
≥0
en donde se han utilizado ·XÒ = mX, ·YÒ = mY. Desarrollando la expresión anterior se llega a
)
σ 4 ( X − µ )2 + ( Cov( X , Y ) 2 (Y − µ )2 − 2σ 2 Cov( X , Y )( X − µ )(Y − µ ) = X Y Y X Y Y
σ Y4 ( X − µ X )2 + ( Cov( X , Y )) (Y − µY )2 − 2σ Y2 Cov( X , Y ) ( X − µ X )(Y − µY ) = 2
σ Y4 σ 2X + σ Y2 ( Cov( X , Y )) − 2σ Y2 ( Cov( X , Y )) ≥ 0 2
2
de donde se obtiene la relación pedida
( Cov( X , Y ))
2
( Cov( X , Y )) =
2
≤σ σ → ρ 2 Y
2 X
2
σ Y2 σ 2X
≤ 1 → −1 ≤ ρ ≤ +1
Correlación lineal en muestras bivariantes El concepto anterior de correlación puede aplicarse muy ventajosamente a la caracterización de muestras resultantes de experimentos bivariantes. A continuación va a tratarse con detalle el caso discreto que es el que aparece generalmente en la práctica experimental, notando que las ecuaciones para el caso de variables continuas son formalmente análogas (remplazando
420
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
sumas por integrales sobre la función densidad conjunta, siguiendo el método expuesto en el Cap. 2 pero aquí con dos variables). Para una colección de N datos {(xi, yi)} se define el denominado coeficiente de correlación lineal a través de una discretización adecuada de (7.3.2) como la fórmula productomomento N
∑ ( x − x )( y − y ) i
r=
i
i =1
N
N
; − 1 ≤ r ≤ +1
(7.3.3)
∑ ( x − x) ∑ ( y − y) 2
i
i =1
2
i
i =1
en donde se utilizan las medias muestrales de cada variable con la notación – – más habitual en este contexto: X = x– e Y = y–. La expresión anterior es un estimador muestral consistente de r y conserva sus propiedades. Puede observarse en (7.3.3) la simetría total en el tratamiento de las dos variables. Hay que notar, por otra parte, que si se quiere mantener la estimación de las s 2 mediante la cantidad insesgada s2 habría que definir la covarianza discreta del numerador con un factor correspondiente igual a 1/(N – 1). Convencionalmente, sin embargo, se opta por utilizar el estimador sesgado s˜2 y definir esta covarianza discreta como un promedio normal sobre N datos. A la cantidad r2 se la suele denominar coeficiente de determinación. Al igual que se encontraba con r el coeficiente r es independiente del origen, de las unidades, y adimensional. Además, conviene señalar las siguientes propiedades generales. i) Si r = +1, existe una correlación lineal perfecta y positiva, y = ax + b (a > 0), entre los datos de la muestra. ii) Si r = –1, existe una correlación lineal perfecta y negativa, y = ax + b (a < 0), entre los datos de la muestra. iii) En los dos casos anteriores, i) y ii), también existen rectas de ajuste perfectas con los papeles de las variables intercambiados x ´ y y que, en realidad, son rectas idénticas a las originales (por ejemplo, en el caso i) se tendría también la recta x = a–1(y – b)). Este resultado parece trivial, pero no lo es tanto como se va a ver después. iv) Si r ≈ ±1, entonces se dice que existe una acusada o fuerte correlación lineal entre las variables para los datos muestrales suministrados. Además
421
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
hay que estar precavido contra valores altos de ÔrÔ que pudieran no tener significado alguno. v) Cuanto más apartado esté r de ±1 menor será la asociación lineal entre X e Y, y de hecho hay que estudiar con algún detalle la situación para poder rechazar la hipótesis de correlación lineal, si bien este es un problema complicado. En particular, si r = 0, se va tener un diagrama de puntos con una dispersión muy grande y se puede descartar completamente la existencia de correlación en la muestra. vi) Para evitar la subjetividad en el trazado gráfico de las rectas de regresión que ajusten el conjunto de puntos muestrales se utiliza generalmente el método de mínimos cuadrados para obtener éstas (Fig. 7T3).
Figura 7T3. El principio de mínimos cuadrados para ajustar una recta a una colección de puntos: hacer mínima la suma de los cuadrados de las desviaciones de los puntos a la recta.
vii) Cuando r ≠ ±1 se presentan dos líneas de regresión diferentes conocidas como de regresión de «y sobre x» y = ax + b, y de regresión de «x sobre y» x = a¢y + b¢ (Fig. 7T.4). En el primer caso se toma como variable independiente X en tanto que en el segundo se toma como variable independiente Y. Para un mismo conjunto de N datos con r ≠ ±1 las dos rectas mencionadas se cortan en el punto (x–, y–), el centro de masa (centroide) de la distribución, y el ángulo a que forman ambas está comprendido entre
422
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
0 ≤ a ≤ p/2, siendo a tanto más pequeño cuanto más próximo esté r a ±1, y más cercano a p/2 cuanto más próximo esté r a 0. Recuérdese que para dos rectas cualesquiera de pendientes m1 y m2 el ángulo que forman puede determinarse a partir de su tangente dada por tan a = (m1 – m2)/(1 + m1m2).
Figura 7T4. Rectas de regresión «y sobre x» y = ax + b y de «x sobre y» y = a¢y + b¢, y relación de los dos coeficientes a y a¢ con el coeficiente de correlación lineal r. (xM, yM) = (x–, y–) = centroide de la distribución de puntos (no mostrados).
EJERCICIO 7.3.2 Escribir los sistemas normales de las rectas de regresión «y sobre x» y «x sobre y» para una muestra de N puntos {(xi, yi)} así como las ecuaciones para determinar los coeficientes respectivos. Las ecuaciones normales pedidas se obtienen siguiendo el procedimiento expuesto en el Cap. 1. Ambas son formalmente idénticas sin más que cambiar x por y. Se tienen así «y sobre x» ∑ yi = a∑ xi + Nb i i y = ax + b → 2 ∑ xi yi = a∑ xi + b∑ xi i i i
(7.3.4)
423
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
a=
N ∑ xi yi − ∑ xi ∑ yi i i i N∑ i
xi2
− ∑ xi i
2
b=
;
2 ∑ yi ∑ xi − ∑ xi ∑ xi yi i i i i N∑ i
xi2
− ∑ xi i
2
(7.3.5)
«y sobre x» ∑ xi = a′∑ yi + Nb′ i i x = a ′y + b ′ → 2 ∑ xi yi = a′∑ yi + b′ ∑ yi i i i
a′ =
N ∑ xi yi − ∑ xi ∑ yi i i i N ∑ yi2 − ∑ yi i i
2
b′ =
;
(7.3.6)
2 ∑ xi ∑ yi − ∑ yi ∑ xi yi i i i i N ∑ yi2 − ∑ yi i i
2
(7.3.7)
Ejercicio 7.3.3 Dada una distribución de probabilidad bidimensional con densidad normalizada f(x, y) encontrar el sistema normal de ecuaciones para la recta de mínimos cuadrados y = ax + b que mejor la ajusta. Este es el caso continuo bidimensional y la recta se obtiene minimizando la función S=
`
`
−`
−`
∫ ∫
( y − ax − b) f ( x, y) dxdy 2
Utilizando derivación parcial con respecto a los coeficientes ∂S = 0 → −2 ∂a
`
−`
−`
`
`
−`
−`
∫ ∫
∂S = 0 → −2 ∂b
424
`
∫ ∫
( y − ax − b) xf ( x, y) dxdy = 0 ( y − ax − b) f ( x, y) dxdy = 0
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
lo que conduce al sistema de ecuaciones `
∫ ∫
`
)
xy f ( x, y dxdy =a
−∞ −∞ `
`
−`
−`
∫ ∫
)
`
`
−`
−`
∫ ∫
y f ( x, y dxdy =a
`
`
−`
−`
∫ ∫
)
)
x2 f ( x, y dxdy + b
`
∫ ∫
`
−`
−`
`
`
−`
−`
x f ( x, y dxdy + b
∫ ∫
)
x f ( x, y dxdy
)
f ( x, y dxdy
del que pueden obtenerse los coeficientes a y b. Las analogías de este sistema lineal con el dado en (7.3.4) son claras.
El coeficiente r como estimador estadístico El coeficiente de correlación lineal r (7.3.3) es una herramienta muy utilizada para identificar agrupaciones lineales de datos {(xi, yi)} cuando ÔrÔ ≈ 1. A pesar de ello, r es un estadístico bastante pobre para decidir sobre la significación de las correlaciones observadas en muestras, o para compararlas entre sí. Esto es así debido a que en (7.3.3) no está incluida ninguna información relativa a las distribuciones de probabilidad individuales f(x) y g(y). Hay, sin embargo, dos casos interesantes en los que r puede ser empleado con fiabilidad. 1) Uno de estos casos favorables es el de la verificación de la hipótesis de que no existe correlación, r = 0 entre las dos variables. Se plantea aquí el ensayo para los N datos {(xi, yi)} H0 : r = 0, no hay correlación en la muestra H1 : r ≠ 0, existe correlación en la muestra y se exigen las dos condiciones siguientes a) N > 20. b) f(x) y g(y) decaen con suficiente rapidez al tender x, y Æ ±⬁ (ambas distribuciones tienen suficientes momentos de orden superior convergentes). En estas condiciones r se distribuye aproximadamente de forma normal con media nula y desviación típica N–1/2, (r = 0, sr = N–1/2), y el ensayo se realiza como en el caso Gaussiano estudiado en el Cap. 6. Nótese que en un test a dos colas, si el nivel de significación dado por la probabilidad
425
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
α = p r > rcalculado = erfc v = r
(
)
N 2
2 = π
∫
` v
( )
exp − u2 du
(7.3.8)
toma un valor pequeño, va a indicar una correlación significativa entre los valores de X e Y de la muestra (erfc es la función complementaria de error definida en el Cap. 5). 2) El segundo caso es aquel en el que la distribución poblacional conjunta XY es en sí misma, o aproximadamente, una Gaussiana bidimensional 1 f ( x, y) = Cte ⋅ exp − A11 x2 − 2 A12 xy + A22 y2 2
)
(
(7.3.9)
en donde A11, A12 y A22 son constantes, y para la que se verifica exactamente que el coeficiente de correlación está dado por
ρ=−
A12 A11 A22
; − 1 < ρ < +1
(7.3.10)
Cuando r Æ ±1 la «masa» de esta distribución bidimensional tiende a concentrarse en torno a una línea recta en forma de elipses equiprobables alargadas y estrechas. Los casos r = ±1 se corresponden con las consabidas rectas de correlación perfectas, pero se omiten de lo anterior por simplicidad de presentación, pues su discusión pasa por la consideración de situaciones matemáticas singulares (d de Dirac). Por otra parte, dos variables distribuidas según (7.3.9) son independientes si y sólo sí r = 0. A partir de aquí se pueden abordar situaciones en las que r muestra su utilidad. A continuación se consideran tres de estas interesantes aplicaciones. i) Como primera aplicación, con un número N pequeño de datos {(xi, yi)} la hipótesis nula de ausencia de correlación, H0 : r = 0, puede docimarse con un estadístico t de Student para n = N – 2 grados de libertad y que se calcula como
)
t (ν = N − 2 = r
N−2 1− r2
(7.3.11)
de manera que si para el nivel de significación a (a dos colas) fijado se tiene t(N – 2) > tC1–a /2, entonces se puede rechazar H0 : r = 0 y admitir H1 : r ≠ 0 como cierta. Este es un test que puede utilizarse con tamaños N crecientes, ya que sus resultados tienden asintóticamente a los ligados a (7.3.8).
426
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
ii) Como segunda aplicación, con un número moderado de datos, pero N ≥ 10, se pueden docimar hipótesis de comparación entre dos coeficientes de correlación no nulos r1 y r2 obtenidos con muestras diferentes. Se utiliza aquí un cambio de variable, conocido como la transformación z de Fisher, que define una variable z aproximadamente Gaussiana mediante z=
1 1+ r ln = arc tanh r = tanh −1 r ; 2 1 − r
r = tanh z
(7.3.12)
en donde arc tanh r = arco cuya tangente hiperbólica es r y se recuerda al lector las posibles notaciones para las magnitudes trigonométricas inversas que pueden encontrarse en la literatura científica (tanh–1 es la función inversa de tanh, no el inverso de la función tanh : tanh–1 ≠ 1/tanh). Aquí va a utilizarse la notación tanh–1 que, por brevedad es la comúnmente utilizada en este contexto. La media y la varianza de z vienen dadas por
µz = z =
1 1+ ρ ρ 1 2 + ln ; σz ≈ 2 1 − ρ N − 1 N−3
(7.3.13)
en donde es de notar que s z2 viene dada aproximadamente por un valor independiente de r. La variable Gaussiana tipificada (media nula, varianza unidad) se construye en este caso como zF =
z− z
σz
(
= tanh −1 r − z
)
N−3
(7.3.14)
y la docimasia de hipótesis se efectúa como en el Cap. 6. En muchas aplicaciones se suele despreciar el término r/(N – 1) para operar con mZ (valores suficientemente grandes de N por ejemplo). EJERCICIO 7.3.4 Probar la relación (7.3.12). La relación implica 1+ r exp(2 2z) − 1 → (1 − r ) exp(2 z) = (1 + r ) → r = 2 z = ln exp(2z) + 1 1− r
427
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
de donde es inmediato escribir r=
exp( z) − exp(− z) = exp( z) + exp(− z)
exp( z) − exp(− z) 2 senh z = = tanh z → z = tanh −1 r exp( z) + exp(− z) 2 cosh z
EJERCICIO 7.3.5 Plantear utilizando la z de Fisher un ensayo de hipótesis para investigar si dos coeficientes de correlación, r1 y r2, uno para cada una de dos muestras independientes {(xi, yi)} de gran tamaño, N1 y N2, difieren significativamente a un nivel de significación a bilateral. Las hipótesis a analizar son H0 : ρ1 = ρ2 H1 : ρ1 ≠ ρ2 El análisis conviene hacerlo con la variable combinación de las z de Fisher z1 y z2 siguiente (z1 – z2), que bajo H0 va a ser Gaussiana con media nula y varianza suma de varianzas (Cap. 5) z1 = tanh–1 r1 (N1 datos); z1 − z2 = 0;
z2 = tanh–1 r2 (N2 datos)
σ z2 − z = σ z2 + σ z2 ≈ 1
2
1
2
1 1 + N1 − 3 N2 − 3
(7.3.15)
A continuación hay que docimar bilateralmente (r1 < r2 ó r1 > r2) calculando zF =
z1 − z2 − z1 − z2
σz −z 1
2
=
z1 − z2
σ z −z 1
(7.3.16)
2
y comparando con el valor crítico extraído de la Gaussiana tipificada zC1–a /2 Si zF < zC1–a /2, H0 no puede rechazarse al nivel a, Si zF > zC1–a /2, H0 debe rechazarse y aceptar H1 al nivel a. iii) Como tercera aplicación, la determinación de los límites de confianza para r(N ≥ 10) se puede hacer siguiendo la técnica general discutida en el
428
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
Cap. 6. Como zF es aproximadamente normal con media nula y varianza unidad, éste se trata de un ejercicio conceptualmente simple pero en el que conviene proceder con cuidado debido al uso de la función trigonométrica inversa tanh–1. El siguiente ejercicio muestra los pasos a dar en un caso típico. EJERCICIO 7.3.6 Determinar los límites de confianza del 99% para un coeficiente de correlación calculado con una muestra bidimensional grande extraída de una distribución normal. En este caso se tiene la relación Gaussiana de probabilidad-intervalo z− z p −2, 58 < < 2, 58 = 0, 99 σz o equivalentemente, despreciando r/(N – 1), se tiene 2, 58 2, 58 p tanh −1 r − < tanh −1 ρ < tanh −1 r + = 0, 99 N−3 N−3 que puede reconvertirse en un intervalo para r notando que las funciones tanh y tanh–1 son monótonas crecientes y por tanto se encuentra (r ≠ 1) 2, 58 exp(2u) − 1 exp(2 v) − 1 N−3 −1 = 0, 99 1. Como en un problema de regresión por mínimos cuadrados r2 = aa¢ ≤ 1, estas dos rectas no están relacionadas con este tipo de cálculos. 2 2 4 × = ≤ 1. 3 5 15 Por tanto, es cierto que estas rectas pueden corresponder a un cálculo de c) En este caso, aplicando de nuevo (7.4.13) se tiene aa′ =
regresión con coeficiente de correlación lineal positivo r = +2 / 15 , pues las dos variables crecen a la vez. En este caso se cortan ambas rectas en el centro de masa de la distribución, el centroide con coordenadas 45 , . ( x, y ) = − 15 11 11
7.5. Desestimación de puntos en el análisis de datos Al analizar una muestra monodimensional o multidimensional puede suceder que uno o varios de los puntos de que consta se aparte notablemente de la tendencia general que siguen los demás. El análisis de tales muestras posee un elemento de incertidumbre derivado de la presencia de dichos puntos extraños o fuera de rango («outliers») y que pueden desvirtuar los resultados o conclusiones que se extraigan. Cuando los puntos de la muestra o sus propiedades obedecen a distribuciones conocidas se pueden utilizar criterios claros que permitan identificarlos como no genuinos y descartarlos,
434
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
reevaluándolos o no, para proseguir con el estudio. Ejemplos ya vistos de estos procedimientos son los límites ±3s en distribuciones Gaussianas y los ensayos de hipótesis estadísticas. Una forma alternativa de tratar con este problema es la de dar a estos puntos extraños un peso menor en el análisis, en una forma similar a la que se mostrará en el ajuste c 2 de datos (10.3) pero utilizando un grado de elaboración aún mayor (técnicas robustas). Es fácil entender que la casuística en este terreno es muy amplia y aquí sólo se van a considerar unas sencillas aplicaciones que complementen lo visto anteriormente: el test de los cuartiles extendidos para muestras unidimensionales y dos tests de distancias para datos de una regresión lineal bidimensional. De alguna manera se volverá sobre este asunto al tratar la estadística no paramétrica en el epígrafe 7.7. Se remite al lector a referencias especializadas para otras técnicas y más detalles.
Test de cuartiles con extensión («box-and-whisker plot») Este es un test para muestras {xi} de los denominados robustos, pues está basado en la determinación de los tres cuartiles de la muestra, magnitudes cuyas posiciones son bastante insensibles a los valores particulares xi. El proceso se esquematiza a continuación. Primero se fijan las posiciones de los cuartiles z1(25%), Med(x) = z2(50%), y z3(75%), como se indicó en el Cap.6 (6.2). Hecho esto se calcula el rango intercuartílico z3 – z1 y se identifican los puntos fuera de rango x* (a descartar) como aquellos apartados del cuerpo de la distribución para los que
( (
) )
< ζ1 − 1, 5 ζ3 − ζ1 x* = xj > ζ 3 + 1, 5 ζ3 − ζ1
(7.5.1)
en donde el valor 1,5 es el comúnmente aceptado en este contexto. Este es un criterio útil cuando el número de datos es suficientemente grande y, por otra parte, puede tomar otras elecciones diferentes del factor 1,5. Nótese que una sencilla representación gráfica de la distribución en la que figuren los valores: máximo, mínimo, y los tres cuartiles, ya da una buena idea global de sus características (simetría, anchura, etc.), algo que puede utilizarse muy ventajosamente para comparar dos distribuciones con muy poco esfuerzo.
435
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Tests de distancias Para el análisis de los N datos {(xi, yi)} que intervienen en un cálculo de regresión lineal el método más sencillo de identificación de puntos fuera de rango es posiblemente el que utiliza un criterio de separación para el residuo de la forma ( xj , y j ) * si y j − yj , est. > cte ⋅ sY / X ; cte = 2 o 3
(7.5.2)
Esto obliga a haber realizado primero el ajuste y = ax + b para poder descartar estos puntos fuera de rango y por supuesto a recalcular después la nueva recta de regresión libre de tales puntos. En esta línea un test más elaborado es el denominado CD2 o del cuadrado de la distancia de Cook. Para una regresión lineal y = ax + b esto se expresa a través de la cantidad asociada al potencial punto fuera de rango (xj, yj) que se investiga N
∑( y
) − yi(,jest i , est. .
CD2j =
)
2
i =1
2 sY2 / X
(7.5.3)
en donde yi,est. es el valor habitual estimado para xi con el ajuste de todos los N datos originales yi, est = axi + b;
N datos
(7.5.4)
· jÒ es el valor estimado para xi con un nuevo ajuste en el que se en tanto que yi,est. ha suprimido el punto (xj, yj) sospechoso analizado (N – 1 datos)
) yi(,jest = a′xi + b′ ; N − 1 datos
(7.5.5)
2 se calcula con los N datos originales en la forma habitual (7.4.7). Los y sY/X puntos fuera de rango se identifican dentro de este criterio como aquellos para los que se cumple
( x, y)* = ( xj , yj ) si CD2j > 1
(7.5.6)
Este es un criterio que funciona tanto mejor cuanto más alejado del centro de masa (x–, y–) se encuentre el punto fuera de rango.
436
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
7.6. Correlación lineal múltiple Un problema es de correlación múltiple cuando tres o más variables, X1, X2, X3, …, Xn, pueden ser asociadas mediante una relación matemática del tipo X1 = X1(X2, X3, …, Xn), ecuación que se denomina de regresión de X1 sobre X2, X3, …, y Xn. La complejidad añadida aquí sobre la del caso bidimensional es evidente. En particular, nótese que, además de los coeficientes de correlación totales (o de orden cero) entre cada dos variables rij = rji, que se definen como en (7.3.2), se pueden definir un buen número de diferentes coeficientes de correlación, como por ejemplo los coeficientes de correlación parcial sij,k de la variable Xi con la variable Xj dejando la variable Xk constante, u otros muchos. Un caso especial es el de la correlación lineal, en cuyo caso la relación funcional toma la forma de un plano en n dimensiones (hiperplano). Incluso en esta aplicación la amplitud de posibilidades a considerar es muy grande y hace falta una cierta soltura en el manejo de algunos recursos matemáticos ligados a las formas cuadráticas y sus propiedades. Aunque no se puede entrar aquí en todas estas cuestiones, conviene al menos mencionar una propiedad muy interesante para los coeficientes de correlación totales rij como es la siguiente acotación del determinante simétrico que forman
ρ11
ρ12
ρ13
... ρ1n
ρ21
ρ22
ρ23 ... ρ2 n
0 ≤ ρ31
ρ32
ρ33 ... ρ3 n ≤ 1
... ρn1
... ρn2
... ... ... ρn3 ... ρnn
(7.6.1)
En lo que sigue se van a tratar sólo los aspectos más elementales de la correlación lineal, concentrando la atención en el caso del ajuste por mínimos cuadrados de una tabla de N puntos {(xi, yi, zi)} con tres variables X, Y y Z. La regresión lineal de Z sobre X e Y para la tabla {(xi, yi, zi)} se expresa como el plano z = c + by + ax
(7.6.2)
y, aunque quizá sea innecesario, conviene señalar que esta notación z no tiene conexión alguna ni con la variable Gaussiana estandardizada, ni con la z
437
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
de Fisher. Como método de obtención de los parámetros se toma el de mínimos cuadrados minimizando la suma habitual N
∑ ( z − c − by − ax )
S=
2
i
i
(7.6.3)
i
i =1
con respecto a los parámetros a, b y c. Se obtienen así las ecuaciones normales del plano N
∂S =0→ ∂a
∑
∂S =0→ ∂b
N
N
∑
i =1
∑
xi + b
i =1
i i
i
i =1
∑
N
∑
zi =Nc + b
i =1
(7.6.4a)
N
yi2
∑x y
+a
i =1
N
2 i
i =1
N
∑ z y = c∑ y + b∑
∂S =0→ ∂c
∑x
yi xi + a
i =1
N
i =1
N
N
zi xi = c
i i
(7.6.4b)
i =1
N
∑x
yi + a
i =1
(7.6.4c)
i
i =1
y con ellas se pueden determinar los coeficientes incógnita que definen el plano de mínimos cuadrados. La utilidad de este tipo de ajuste puede ampliarse al caso de relaciones funcionales que, aunque no sean lineales en sí mismas, puedan reducirse a ella mediante cambios de variable adecuados. Como en el caso de la recta la tarea se puede simplificar notando que el centroide (x–, y–, z–) de la nube de puntos que forman la muestra pertenece al plano (7.6.2). Dividiendo por N la ecuación (7.6.4c) se tiene efectivamente para el centroide definido como x=
1 N
∑x; i
i
y=
1 N
∑y; i
i
z=
1 N
∑z
i
(7.6.5)
i
la relación que demuestra este hecho z = c + by + ax
(7.6.6)
Si se definen unas nuevas variables como
438
u = x − x, ui = xi − x (i = 1, 2,..., N )
(7.6.7a)
v = y − y , vi = yi − y (i = 1, 2,..., N )
(7.6.7b)
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
w = z − z , wi = zi − z (i = 1, 2,..., N )
(7.6.7c)
el plano (7.6.2) se rescribe
)
)
z − z = b ( y − y + a ( x − x → w = bv + au
(7.6.8)
La transformación (7.6.7) reduce el sistema (7.6.4) de dimensión (3 ¥ 3) a dimensión (2 ¥ 2) encontrando por minimización, o sustituyendo (7.6.7) directamente en (7.6.4), el nuevo sistema más sencillo ∂S =0→ ∂a ∂S =0→ ∂b
N
N
N
∑ w u = b∑ v u + a∑ u i i
2 i
i i
i =1
i =1
N
∑
N
∑
wi vi = b
i =1
(7.6.9a)
i =1
N
∑uv
vi2 + a
i =1
i i
(7.6.9b)
i =1
del que se obtienen los parámetros a y b y en donde no hay que olvidar c = z– – by– – ax–. En este tipo de ajuste la definición del error aleatorio estándar de la estima z se define vía la expresión
∑ ( zi − zi, est. )
2
sZ / XY =
i
(7.6.10)
N−3
que generaliza (7.4.7) considerando que hay tres grados de libertad menos en la muestra debido a la determinación hecha de los tres parámetros a, b y c. De nuevo, nótese que un factor N en el denominador convertiría (7.6.10) en la expresión del error RMS para el ajuste del plano de mínimos cuadrados. En cuanto a la definición de los diversos coeficientes de correlación se tienen varias posibilidades. Primero están los tres coeficientes de correlación totales (o de orden cero) para cada pareja de variables, rZX, rZY y rXY, de formulación idéntica a la dada en (7.3.3). Así, por ejemplo, para rZX se tiene
∑ ( z − z )( x − x ) ; ∑ (z − z ) ∑ ( x − x) i
rZX =
i
i
2
2
i
i
− 1 ≤ rZX ≤ +1
(7.6.11)
i
i
439
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
y de la misma forma se escriben relaciones equivalentes para las otras dos parejas. Como no puede ser de otra manera: los tres coeficientes de correlación totales están acotados entre –1 y +1 (ambos valores incluídos). Con ayuda de estos coeficientes se construyen los denominados coeficientes de correlación parciales r ZX,Y, r ZY,X y r XY,Z, cuyo significado (ZX, Y) es el de la correlación conjunta entre las dos primeras variables (Z y X) dejando constante la tercera (Y). Las ecuaciones para estas magnitudes presentan simetrías claras a partir de sus definiciones rZX ,Y =
(
rZX − rZY rXY
)(
2 2 1 − rZY 1 − rXY
rXY , Z =
)
; rZY , X =
(
rZY − rZX rXY
)(
2 2 1 − rZX 1 − rXY
)
; (7.6.12)
rXY − rXZ rYZ
(1 − r )(1 − r ) 2 XZ
2 YZ
y verificándose para ellos la misma acotación acotación general ya mencionada –1 ≤ rZX,Y, rZY,X, rXY,Z ≤ +1. En el caso de que las tres variables estén no correlacionadas, entonces todos los coeficientes de correlación parciales y totales son nulos. Finalmente, se define el coeficiente de correlación múltiple de «Z sobre X e Y»
(
)(
)
2 2 RZ ( XY ) = + 1 − 1 − rZX 1 − rZY ; 0 ≤ RZ ( XY ) ≤ 1 ,X
(7.6.13)
Si RZ(XY) = 1, la relación entre las tres variables con los puntos de la muestra proporcionados es «casi con toda seguridad» lineal perfecta y estos puntos están contenidos en el plano calculado. Si RZ(XY) = 0, la relación entre las tres variables puede garantizarse que no es lineal, y esto sucede si y sólo si rZX = rZY = 0. Los casos intermedios marcan la mayor o menor proximidad a estas situaciones límite. En algunas ocasiones, a efectos de comparación y de un análisis más completo, se utilizan los coeficientes RX(YZ) y RY(XZ) que se definen de manera análoga a la hecha en (7.6.13).
7.7. Estadística no paramétrica Ya se ha mencionado que el problema general subyacente a las aplicaciones del coeficiente de correlación lineal es el del desconocimiento de la distribución de probabilidades conjunta f(x, y) que obedecen los puntos de la
440
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
muestra {(xi, yi)}. Aunque r es ampliamente utilizado para caracterizar (y validar) agrupamientos de puntos en torno a líneas rectas, la presuposición de que f(x, y) es doblemente Gaussiana hace que el significado de r no sea siempre claro y, de ahí, que se hayan desarrollado otras herramientas estadísticas para el análisis de correlaciones. Estas otras herramientas pertenecen a dos grandes grupos relacionados: la estadística no paramétrica y la estadística robusta. En la estadística no paramétrica se remplaza el comportamiento real observado por un comportamiento altamente idealizado, en tanto que en la robusta se diseñan estimadores que resultan suficientemente insensibles a «pequeños» cambios en el comportamiento del modelo aplicado. A continuación van a darse las ideas básicas de dos métodos utilizados en la estadística no paramétrica: el test de signos y la correlación por rangos de Spearman. En cierto sentido la correlación de Spearman es también robusta y se deja otra aplicación de tales técnicas robustas para el Cap. 10. Como nota distintiva, hay que indicar que la obtención de una correlación no paramétrica señala que, dentro del nivel de significación elegido, existe verdaderamente una correlación en los datos analizados. La complejidad en lo que sigue no va a pasar del caso bidimensional. Test de signos Este test está basado en la distribución binomial y es muy sencillo de aplicar como una alternativa a la t de Student o para establecer la existencia de tendencias definidas en los datos, entre otras utilidades. El problema se reduce al del estudio de la probabilidad de aparición de determinado número de signos + y – como desviaciones positivas y negativas con respecto a una referencia tomada en la muestra. Generalmente esta referencia se toma como la mediana (un parámetro robusto), ya que este parámetro divide la distribución en dos partes iguales con un 50% de masa de probabilidad a cada lado. Un par de ejemplos servirán para ilustrar esta aplicación. i) El primer ejemplo es el de una muestra {xi} de tamaño N¢ de la que se sabe que la mediana poblacional toma un valor dado Med(x) y se desea saber si los valores extraídos xi «proceden de esa población», con un cierto nivel de significación (normalmente a = 0,05), o dicho de otra manera, si los datos son compatibles con la población tomada. Recuérdese que en la verificación de hipótesis sólo se dan resultados probabilistas, al nivel a y no se garantiza generalmente un resultado absoluto.
441
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
El análisis consiste en estudiar los N¢ valores a los que se les ha restado la mediana {x i – Med(x)}, con la particularidad de que si en algún caso xi = Med(x), entonces tal dato (o datos) xi se elimina del análisis. En la muestra resultante de estas posibles eliminaciones, con un tamaño N ≤ N¢, se establecen cuántos signos + (desviaciones positivas) y cuántos signos – (desviaciones negativas) aparecen como resultado de dichas restas. Sean estos números n(+) y m(–) = N – n(+). Consistentemente con la definición de la mediana se considera que la probabilidad de obtener desviación positiva es la misma que la de obtener desviación negativa en una medida y, por tanto, p(+) = q(–) = 1/2. La hipótesis nula H0 es la de que los datos son consistentes o compatibles con la población que tiene mediana Med(x) de manera que la probabilidad de las desviaciones observadas debe ser menor que el nivel de significación a (se va a seguir un ensayo bilateral). En caso contrario hay que rechazar H0 al nivel de significación a. El cálculo comienza planteando la probabilidad del suceso de los signos observados en la muestra y se completa con la de las situaciones que dan la cola de la distribución. Para n = n(+) se tiene la aplicación binomial N
P (≥ n) =
∑ i= n
N
N
N 1 N 1 N 1 Pi = + + ... + n + 1 2 n 2 N 2
N
(7.7.1)
que es la probabilidad de obtener en N ensayos aleatorios un número de signos + mayor o igual al número observado n(+), en este caso la cola de la derecha. Como se está interesado en el estudio de si hay discrepancias significativas sin más, hay que considerar la situación opuesta en la que haya n(–) signos – y m(+) signos +, así como todo lo que suceda en la cola izquierda de la distribución. Como ambas situaciones son equivalentes la probabilidad total buscada es el doble de (7.7.1) y se obtiene N
∑P
PT (≥ n signos iguales ) = 2
i
(7.7.2)
i= n
Ahora, si PT(≥ n) > a, entonces no se puede rechazar H0 a este nivel de significación, pues la situación analizada cae dentro de la región esperada en una distribución binomial equiprobable. Si, por el contrario, PT(≥ n) < a, hay que rechazar H0 y concluir a este nivel de significación que los datos no proceden de la población con mediana Med(x).
442
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
ii) El segundo ejemplo es el del análisis de una tendencia. Dada una muestra {x¢i} de tamaño N se comienza eliminando el dato central si N es impar (N = 2M + 1). Si N = 2M, la muestra se conserva tal cual es. La discusión sigue con la muestra 2M, reducida en un elemento en su caso, y dividiéndola en dos partes iguales de tamaño M cada una, {x1, x2, ..., xM} y {xM+1, xM+2, ..., x2M}. A continuación se comparan elemento a elemento determinando los signos de las diferencias respectivas obteniendo x1 − xM +1 x2 − xM + 2 0 ), m(− ); n + l + m = M n(+ ), l (0 ... ... ... xM − x2 M
(7.7.3)
El paso siguiente consiste en desechar todos los posibles resultados nulos l(0) quedándose con el análisis de la probabilidad de aparición de n signos iguales o más en un total de M – l(0) ensayos. En un ensayo de significación bilateral se calculará la probabilidad correspondiente y se ensayará la hipótesis nula H0 : no existe tendencia significativa al nivel a y la muestra es al azar, procediendo igual que antes en i).
Correlación por rangos de Spearman Este es un método muy bien adaptado para tratar con situaciones en las que las variables aleatorias consideradas no se pueden expresar fácilmente de manera cuantitativa, pero sí pueden ser sometidas a una ordenación que responda a algún criterio (preferencias de consumidores, sensación de confort, eficiencia del personal de una empresa, etc.). Obviamente, también puede aplicarse a problemas bien definidos en términos cuantitativos no exigiéndoles que sigan una determinada distribución de probabilidad. En cierto sentido este método no paramétrico puede ser calificado también como robusto, del tipo especial conocido como estimación R, ya que suministra un estadístico rS (coeficiente de correlación) suficientemente insensible a pequeñas desviaciones del comportamiento ideal que representa. La idea de este método es remplazar cada valor xi que presenta una variable aleatoria X por el valor correspondiente del número de orden (o rango) que ocupa en la muestra una vez ordenada ésta con un criterio.
443
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Es decir, la muestra {xi} se ordena y resulta una permutación ᏼ de sus elementos originales a la que se asignan correlativamente los números enteros U i = 1, 2, 3, ..., N (se supone que no hay datos iguales), teniendo {xi} Æ ᏼ{xi} = {1, 2, 3, ...}. Por ejemplo, para una muestra de tamaño N = 6 podría ser { x1 , x2 , x3 , x4 , x5 , x6 } → ordenación → { x2 , x5 , x3 , x1 , x6 , x4 } → rangos → {1, 2, 3, 4, 5, 6}U en donde a x2 se le asigna el rango U1 = 1, a x5 se le asigna el rango U2 = 2, a x3 se le asigna el rango U3 = 3, etc. Como se ve la ordenación se extrae de una distribución uniforme: los enteros positivos del 1 al N. Cuando hay dos o más valores xi iguales se tiene una de las denominadas «ataduras» y se asigna a todos ellos el mismo número de orden o rango, que se define como la media de los rangos que hubieran tenido de haber sido ligeramente diferentes. Este orden especial puede resultar entero o semi-entero y se denomina «semi-orden». La suma de todos los rangos siempre debe ser evidentemente N
∑ U = 1+ 2 + 3 + ... + N = 12 N ( N + 1) i
(7.7.4)
i =1
Si la muestra es bidimensional, todo lo dicho para los valores xi se aplica igualmente a los y de manera que {(xi, yi)} Æ {(Ui, Vi)}, en donde tanto U como V toman los valores Ui, Vj = 1, 2, 3, ..., N, pero así como Ui sigue el orden natural con i crecientes, no sucede necesariamente lo mismo con los valores Vj que, en general, siguen una permutación de los anteriores. Se define el coeficiente de correlación lineal de orden de Spearman de una forma análoga a (7.3.3) con las variables enteras U y V y sus valores medios – – U = V = (N + 1)/2
∑ (U − U )(V − V ) ∑ (U − U ) ∑ ( V − V ) i
rS =
i
i
2
i
i
2
; − 1 ≤ rS ≤ +1
(7.7.5)
i
i
es decir, se está analizando la correlación entre 1, 2, 3, ..., N, y una de sus permutaciones (Fig. 7T.5).
444
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
Figura 7T5. Correlación de Spearman por rangos entre la permutación identidad de los números enteros del 1 al N (variable X ordenada según U) y una permutación de estos enteros (variable Y ordenada según V). La línea recta sugerida es sólo una guía para la vista.
La significación de un valor rS ≠ 0 se puede evaluar con un estadístico de Student análogo al expuesto en (7.3.11)
)
t (ν = N − 2 = rS
N−2
(7.7.6)
1 − rS2
y siguiendo el método general ya discutido, siendo la hipótesis nula H0: r = 0 la ausencia de correlación. El parámetro de Spearman está estrechamente ligado a la suma de los cuadrados de las diferencias entre rangos N
D=
∑
N
di2
i =1
=
∑ (U − V )
2
i
i
(7.7.7)
i =1
En el caso sencillo de no existencia de «ataduras» ni en Ui ni en Vi se encuentra la relación rS = 1 −
6D N ( N 2 − 1)
(7.7.8)
445
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
La expresión para rS en presencia de «ataduras» en {xi} e {yi} es bastante complicada y no se va a considerar aquí. Finalmente, también puede ensayarse la significación de la magnitud D anterior utilizando como hipótesis nula H0 : no hay correlación en los datos, y notando que D se distribuiría de forma aproximadamente normal con media y varianza dadas por D =
446
N ( N 2 − 1) N 2 ( N + 1)( N 2 − 1) ; σ D2 = 6 36
(7.7.9)
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
BIBLIOGRAFÍA 1. SPIEGEL, M. R.; SCHILLER, J. y ALU SRINIVASAN, R., Probabilidad y Estadística, 3ª Edición (Serie Schaum), McGraw-Hill, Madrid (2010). (Caps. 8, 10). 2. SPIRIDONOV, V. P. y LOPATKIN, A. A., Tratamiento Matemático de Datos Fisico-químicos, Mir, Moscú, 1973. (Caps. 4, 5). 3. SESÉ, L. M., Métodos Teóricos de la Química-Física (Vol. 1), UNED, Madrid, 1994. (Tema 8). 4. PRESS, W. H.; FLANNERY, B. P.; TEUKOLSKY, S. A. y VETTERLING, W. T., Numerical Recipes, Cambridge University Press, Cambridge, 1986. (Caps. 13, 14). 5. TURNER, J. C., Matemática Moderna Aplicada, Alianza (Madrid), 1993. (Cap. 8). 6. CRAMÉR, H., Elementos de la Teoria de Probabilidades, Aguilar, Madrid, 1968. (Cap. 9). 7. DEMIDOWITSCH, B. P.; MARON, I. A. y SCHUWALOWA, E. S., Métodos Numéricos de Análisis, Paraninfo, Madrid, 1980. (Cap. 2). 8. SPIEGEL, M. R.; LIU, J. y ABELLANAS, L., Fórmulas y Tablas de Matemática Aplicada, McGraw-Hill, 2ª Edición Revisada (Serie Schaum), Madrid (2005).
447
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
PROBLEMAS TEÓRICOS Y NUMÉRICOS
Problemas teóricos 7.1) Probar las relaciones del texto (7.4.7), (7.4.11) y (7.4.13). 7.2) La ecuación general de la densidad de probabilidad de una distribución Gaussiana bivariante (no singular) está dada por f ( x, y) =
1 2πσ X σ Y
1 ( x − µ X B( x, y) = 1 − ρ 2 σ X2
)
2
−
1 exp − B( x, y) 2 1− ρ 2
2ρ ( x − µ X
)( y − µ ) + ( y − µ )
σ Xσ Y
2
Y
Y
σ Y2
≥0
donde r es el coeficiente de correlación entre X e Y y B(x, y) es una forma cuadrática no negativa. a) Calcular las funciones densidad marginales para X e Y. b) Si las variables X e Y son independientes, ¿qué forma toma f(x, y)? c) Si las variables X e Y no están correlacionadas, ¿qué forma toma f(x, y)? d) En el caso de variables Gaussianas, ¿son siempre equivalentes los resultados de b) y c)?¿Y en el caso general de variables no Gaussianas? e) ¿Qué forma geométrica toma f(x, y) proyectada en el plano XY cuando sX = sY? 7.3.) a) Discutir la posibilidad de que en una correlación lineal general de tres variables se tenga la situación rZX = rZY = rXY = –0,8. b) Escribir el sistema normal de mínimos cuadrados para una correlación lineal de tres variables discretas en el que aparezcan de forma explícita los coeficientes de correlación lineal totales rZX, rZY, y rXY. 7.4) Probar que en ausencia de «ataduras» el coeficiente de correlación lineal de Spearman viene dado por la fórmula (7.7.8) del texto.
448
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
Problemas numéricos 7.5) Los siguientes datos corresponden a la relación entre el índice de refracción n y la densidad específica r de un determinado líquido orgánico a una cierta temperatura n
1,33015
1,33922
1,34602
1,34911
1,35688
1,35700
r 0,792692 0,812422 0,827135 0,833799 0,850492 0,850753 Calcular las siguientes líneas de regresión y sus correspondientes coeficientes de correlación (lineales) a) ρ = An + B b) n = A ′ρ + B ′ c)
n2 − 1 n2 + 2
= kρ + C
¿Qué conclusiones se extraen de estos resultados? 7.6) Mediante un método espectrofotométrico se calibra la cantidad x(%) de estireno en una serie de substancias afines que lo contienen (copolímeros) como una función determinada f(y) de la absorción de radiación (y) x(%)
0
5
15
25
45
60
80
100
f(y)
2,801
2,645
2,482
2,229
1,653
1,363
0,781
0,315
Supuesto que la muestra de datos extraídos procede de una población distribuida binormalmente: a) Determinar la línea recta de calibración por mínimos cuadrados, los errores en los parámetros y sus intervalos de confianza del 95%. b) Calcular igualmente el coeficiente de correlación y averiguar si es significativo al nivel a = 0,05. c) Calcular los límites de confianza del 95% para el coeficiente de correlación lineal.
449
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
7.7) Una muestra líquida sometida a ciertas condiciones externas contiene una población de bacterias cuyo número n por unidad de volumen se comporta con respecto al tiempo (horas) según la tabla t(horas)
0
1,5
3
4,5
6
7,5
n
65
80
135
238
420
750
a) Utilizando una estimación razonable de la constante c investigar si este comportamiento puede ajustarse empíricamente mediante la relación n = c + b exp( at) b) Determinar los errores estándar en los parámetros a y B = ln b, así como los límites de confianza del 95% en ambas magnitudes. Discutir igualmente el error estándar que se espera afecte a la constante b. c) Comentar las posibles mejoras que se pueden incorporar al tratamiento de este problema. 7.8) Los siguientes datos polarográficos relacionan la intensidad límite de corriente Il en función de la concentración iónica C y del tiempo t (unidades arbitrarias) Il
0,888
2,000
3,214
4,311
5,654
7,121
C
0,25
0,50
0,75
1,00
1,25
1,50
t
0,5
1,25
2
2,25
2,50
3
a) Ajustar una expresión del tipo Il = ACmtn. b) El modelo teórico de Ilkovich predice para la relación anterior m = 1 y n = 1/6. Tomando este modelo como referencia, ¿qué puede decirse de los resultados anteriores? c) ¿Cabe esperar que un ajuste Il = A + mC + nt represente mejor, desde un punto de vista meramente empírico, que el a) los datos de la tabla? Razonar la respuesta.
450
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
7.9) El nivel radiactivo R en milicuries de 137Cs/km2 de una región se mide durante varios meses obteniendo los resultados siguientes Mes Nivel R.
M1
M2
M3
M4
M5
M6
M7
M8
M9
19,2 21,3 17,2 22,5 22,5 21,9 23,4 24,0 22,9
a) ¿Muestran estos resultados alguna tendencia al nivel a = 0,05 (bilateral) que pueda detectarse con el test del signo? b) Durante un periodo similar anterior se obtuvo que la mediana de las actividades era 23,8 ¿En los datos suministrados, se observa alguna diferencia significativa al nivel a = 0,05 (bilateral) con respecto a aquel dato? 7.10) Ocho versiones de un medicamento que difieren en la cantidad del principio activo se ensayan frente a un determinado tipo de infección con otros tantos grupos de 100 pacientes. La tabla reúne cantidades de principio activo (unidades arbitrarias) frente a la eficacia dada como el número de pacientes que experimentan una notable mejoría Medicamento
M1
M2
M3
M4
M5
M6
M7
M8
Cantidad
1
3
4
5
6
7
8
10
Eficacia
8
12
50
10
60
55
63
61
¿Cabe esperar una correlación positiva entre la cantidad del principio activo y la eficacia del medicamento al nivel de significación a = 0,05? 7.11) Para una disolución se ha obtenido la siguiente tabla de calibración para las transmisiones T = I/I0 en función de la concentración c del soluto, a una longitud de onda de luz incidente dada y con un espesor de célula l = 1 cm T
0,752
0,553
0,505
0,461
0,421
c · 103 mol/l
1,1
1,3
1,5
1,7
1,9
Se sabe que la ley a la que obedece este fenómeno de absorción es T = exp(–ccl) en donde c es el denominado coeficiente de extinción. ¿Habrá que desestimar la medición en c = 1,1 · 10–3 moles/litro?
451
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
SOLUCIONES Problema 7.1 La relación (7.4.7) es
∑ ( yi − yi,est. )2
sY / X =
i
N−2
∑ yi2 − a∑ xi yi − b∑ yi
=
i
i
i
N−2
y operando con el numerador del primer radical se tiene
∑ ( yi − yi,est. )2 = ∑ ( yi − axi − b)2 = ∑ y2 − 2a∑ xi yi − 2b∑ yi + a2 ∑ x2 + 2 ab∑ xi + Nb2 i
i
i
i
i
i
i
i
i
agrupando términos afines
∑ ( yi − yi,est. )2 = ∑ y2 − a∑ xi yi − b∑ yi
i i i + a2 ∑ x2 − a∑ xi yi + ab∑ xi i i i i + − b∑ yi + ab∑ xi + Nb2 = ∑ y2 − a∑ xi yi − b∑ yi i i i i i i i
i
se tiene la relación a demostrar, ya que los dos últimos corchetes son idénticamente nulos (ecuaciones normales igualadas a cero). La relación (7.4.11) es
∑ ( y − y ) =∑ ( y − y 2
i
i
i
i,est.
)2 +
i
∑(y
i ,est.
− y )2
i
cuya demostración se obtiene sumando y restando yi,est. dentro del primer sumatorio
∑ ( y − y ) =∑ ( y − y 2
i
i
i
i, est.
+ yi, est. − y )2 =
i
= ∑ [( yi − yi,est. )2 + ( yi ,est. − y )2 + 2( yi − yi,est. )( yi,est. − y )] i
452
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
y notando seguidamente que la suma implícita del tercer término es idénticamente nula
∑ (y − y
− y) =
i ,est. )( yi ,est.
i
a
∑
xi yi − a2
i
∑ i
∑
xi2 − ab
i
∑ ( y − ax − b)( ax + b − y) = i
i
i
i
i
xi + b
∑
∑
yi − ab
i
i
xi − Nb2 + − y
∑
∑
yi + ya
i
i
xi +Nby = 0
con lo queda demostrada la relación. La relación (7.4.13) es r2 = aa¢ y se demuestra directamente multiplicando las expresiones de los dos coeficientes 2
N ∑ xi yi − ∑ xi ·∑ yi i i i = aa′ = 2 2 2 2 N ∑ xi − ∑ xi N ∑ yi − ∑ yi i i i i 2
−1 ∑ xi yi − N ∑ xi ·∑ yi i i i = 2 2 −1 2 −1 2 ∑ xi − N ∑ xi ∑ yi − N ∑ yi i i i i
∑ ( xi − x )( yi − y ) i
2
2
= r2
∑ ( xi − x )2 ∑ ( yi − y )2 i
i
ya que
∑ ( xi − x )( yi − y ) = ∑ xi yi − N x y ; ∑ ( xi − x ) = ∑ 2
i
i
i
i
xi2
−1
2
− N ∑ xi ; etc. i
Problema 7.2 a) La función marginal de una variable se consigue integrando la densidad conjunta sobre la otra variable. Aplicando las relaciones integrales vistas en el epígrafe 5.6 se obtienen fX ( x) =
∫
` −`
f ( x, y) dy =
1 2πσ 2X
( x − µ )2 X exp − 2 2σ X
453
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
fY ( y) =
∫
` −`
f ( x, y) dx =
( y − µY )2 exp − 2σ Y2 2πσ Y2 1
b) Si las variables son independientes entonces necesariamente r = 0 y por tanto se tiene el resultado f(x, y) = fX(x). fY(y) obviamente lo mismo que cabe esperar aplicando directamente la definición de variables independientes. c) En este caso hay que considerar que para el problema dado r = 0 y se tiene el mismo resultado que en b) al poderse factorizar directamente la densidad conjunta f(x, y) = fX(x). fY(y) d) De los dos resultados anteriores se concluye que en el caso Gaussiano siempre se tiene que las variables son independientes implica r = 0 y viceversa: la condición necesaria y suficiente para que dos variables Gaussianas conjuntas sean independientes es r = 0. Para pares de variables no Gaussianas no se verifica en general esta doble implicación y b) y c) no siempre tienen que ser equivalentes. e) La discusión de esta cuestión puede hacerse considerando la función cuadrática no negativa que define a B(x, y) B( x, y) σ
X =σ Y
=
{
}
1 ( x − µ X )2 − 2 ρ( x − µ X )( y − µY ) + ( y − µY )2 ≥ 0 (1 − ρ 2 )σ 2X
Definiendo las variables auxiliares u = x – mX, v = y – mY, referidas al «centro de masa» como origen de coordenadas de la distribución conjunta, (mX, mY), es fácil comprobar que la cuadrática define elipses para valores fijos c2 de B(x, y) y que son las elipses equiprobables del problema f(x, y) = constante ( x − µ X )2 − 2 ρ( x − µ X )( y − µY ) + ( y − µY )2 = u2 − 2 ρuv + v2 = c2 Se tiene entonces un sencillo problema de diagonalización de una forma cuadrática 1 − ρ u (u, v) = u2 − 2 ρuv + v2 > 0 −ρ 1 v
454
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
que la reducirá a forma diagonal en las nuevas variables transformadas x1 y x2 que se obtienen por rotación de las dos variables anteriores u y v (esta transformación la realizan los autovectores). A efectos de la cuestión presente sólo se va a obtener la forma reducida canónica de las elipses equiprobables, dejando al lector que complete los detalles de los nuevos ejes coordenados (Cap. 9). La diagonalización para obtener los autovalores es 1− λ − ρ = (1 − λ )2 − ρ 2 = 0 → λ = 1 ± ρ −ρ 1− λ Con ello se tiene la reducción
(
)
(
)
1 − ρ ξ12 + 1 + ρ ξ22 = c2 →
ξ12
(
c2 1 − ρ
)
+
ξ22
(
c2 1 + ρ
)
=1
que da la forma canónica de las elipses, con semiejes
(
)
(
a = semieje mayor = c2 1 − ρ ; b = semieje menor = c2 1 + ρ
)
Problema 7.3 a) Para un problema de tres variables se debe satisfacer la condición 1 0 ≤ ρ XY ρ XZ
ρ XY 1 ρYZ
ρ XZ ρYZ ≤ 1 1
Sustituyendo los valores rXY = rXZ = rYZ = –0,8 se obtiene un valor para el determinante de los coeficientes de correlación totales igual a –1,944 < 0 y hay que concluir que el caso planteado no es posible. b) Utilizando la forma reducida z − z = a( x − x ) + b( y − y ) → w = au + bv el sistema normal pedido en forma (2¥2) es rZX sZ = as X + bsY rXY rZY sZ = as X rXY + bsY con s~ denotando las desviaciones típicas sesgadas.
455
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Problema 7.4 El coeficiente de correlación de Spearman con las variables enteras U, V = 1, 2, 3, ..., N y sin «ataduras» se plantea como
∑ (U − U )(V − V ) ∑ (U − U ) ∑ (V − V ) i
rS =
i
; − 1 ≤ rS ≤ +1
i
2
2
i
i
i
i
en donde hay que recordar que si los valores U siguen ordenadamente la secuencia de números enteros desde 1 hasta N, los valores V forman una permutación de tales enteros y no siguen en general tal ordenación. En cualquier caso se tiene que los valores medios de ambas secuencias son idénticos y siempre iguales a U=V = A=
( N + 1) 2
Esto permite rescribir el coeficiente de correlación en la forma más simple
∑ (U − A)(V − A) ∑ U V − NA = = U − A ( ) ∑ U − NA ∑ i
rS
i
2
i i
i
i
2
2 i
i
2
i
i
Utilizando la definición de D puede obtenerse una expresión equivalente para
∑ UiVi i
D=
∑ (U − V ) =∑ U + ∑ V − 2∑ U V = 2∑ U − 2∑ U V 2
i
i
2 i
i
i
2
i
2 i
i i
i
i
i
i i
i
de donde
∑U V = ∑U i i
i
i
2 i
−
D 2
y la tarea queda reducida a evaluar la suma de los cuadrados de los N primeros números enteros. Esta cantidad puede encontrarse en las tablas mate-
456
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
máticas, aunque puede también calcularse de forma muy sencilla empleando conocimientos previos de los polinomios de colocación y tablas de diferencias. Se trata de calcular
∑U
2 i
= 02 + 12 + 22 + 32 + ... + N 2
i
en donde se ha incluido el 02 por comodidad. Si se dan valores a N se puede construir la tabla de diferencias (de avance) con las sumas parciales. Esta tabla presenta diferencias constantes en el tercer orden (el lector puede verificar por inducción que este resultado es válido para cualquier N) y, por tanto, esto revela que la suma de los cuadrados se puede representar exactamente mediante un polinomio de colocación de tercer orden. Este polinomio para un valor arbitrario es pk = 0 + k +
3 2 k( k + 1)(2 k + 1) k( k − 1) + k( k − 1)( k − 2) = 2 6 6
y en particular da la suma de cuadrados buscada para cualquier k = N entero finito
∑U
2 i
= 02 + 12 + 22 + 32 + ... + N 2 =
i
N ( N + 1)(2 N + 1) 6
Sustituyendo todos los resultados intermedios encontrados en la expresión de rS se tiene
∑ U V − NA r = ∑ U − NA
2
i i
i
S
2 i
i
2
1 1 D N ( N + 1)(2 N + 1) − N ( N + 1)2 − 6D 6 4 2 = 1− = 1 1 N ( N 2 − 1) N ( N + 1)(2 N + 1) − N ( N + 1)2 6 4
que es la expresión que se quería demostrar.
457
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Tabla. Problema 7.4. k
Sk
0
0
2
D
D2
D3
1 1
1
3 4
2
5
2 5
9 3
14
2 7
16 4
30
2 9
25 5
55
2 11
36 6
91
2 13
...
...
...
...
...
49 7
140 ...
...
...
Problema 7.5 Los resultados para las líneas de regresión son a) ρ = An + B → ρ = 2,161302 n − 2, 082088; b) n = A′ρ + B′ → n = 0, 462680 ρ + 0, 963352; c)
n2 − 1 n2 + 2
= kρ + C → f ( n) =
r = 0, 999996 r = 0, 999996
n2 − 1 = 0, 257472ρ − 6, 58 ⋅10−8 ; r = +1 n2 + 2
A la vista de estos resultados sólo hay una ligerísima diferencia entre los tres ajustes. Los dos primeros sugieren fuertemente que existe una sencilla dependencia lineal entre n y r, en tanto que el tercer resultado también indica que la dependencia lineal de f(n) con r es en la práctica perfecta (nótese además que el valor de C es despreciable). Podría pensarse en anali-
458
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
zar los comportamientos de los residuos, es decir las diferencias entre los valores tabulares y los estimados por regresión, para decidir entre b) y c), pero hay que notar que ambas relaciones son muy diferentes y se tendrían que resolver complicaciones adicionales. En estas circunstancias no se puede optar por ninguno de los, en definitiva, dos modelos de comportamiento. Tiene que ser la teoría del fenómeno la que diga qué relación es la físicamente significativa. En este caso, y coincidiendo con el estrecho margen que tiene la correlación perfecta c), la correlación físicamente significativa es la c) que constituye la expresión de la ley de Lorentz-Lorenz. n2 − 1 = kρ n2 + 2
Problema 7.6 a) Los cálculos con el sistema normal para obtener la recta y = ax + b producen el siguiente resultado (redondeos a seis decimales) y = ax + b = –0,025009x + 2,815247 El cálculo de los errores en los parámetros dará una respuesta significativa para ellos. Los resultados parciales son
∑ ( yi − yi,est. )2
sY / X =
sa =
sY / X
∑( i
xi − x
)
2
i
N−2
= 0, 041501
= 4, 3064 ⋅10 −4 ; sb = sY / X
en donde N = 8, x– = 41,25,
1 x2 + N ∑ x −x i i
(
)
2
= 0, 023040
∑ ( xi − x )2 = 9287, 5, y los valores estimados para i
yi se han calculado con la relación obtenida yi,est. = axi + b. Estos resultados permiten afinar los de la pendiente y la ordenada en el origen a = −0, 02501 ± 0, 00043; b = 2, 815 ± 0, 023
459
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Todavía se puede ir más lejos en esta dirección determinando los límites de confianza para estos parámetros. Utilizando la distribución t de Student con n = N – 2 = 8 – 2 = 6 grados de libertad y a = 0,05 (el 95%), el coeficiente crítico para esta cuestión es t1C− α / 2 (ν ) = t0C,975 (6 ) = 2, 45 y los intervalos de confianza son (Fig. 7EP. 1) ordenada en el origen:Ç b ± sb t0C,975 (6) = 2, 815 ± 0, 023 ⋅ 2, 45 = 2, 815 ± 0, 056 pendiente: a ± sat0C,975 (6) = −0, 02501 ± 0, 00043 ⋅ 2, 45 = −0, 025 ± 0, 001
Figura 7EP1. Figura para el problema 6 (calibración de una línea recta).
b) El coeficiente de correlación resultante es r = –0,9991 muy próximo a la unidad (negativa) y muestra una pronunciada correlación negativa entre las variables. Para las operaciones del apartado siguiente se va a tomar r = –0,9991116739. El ensayo de si no existe correlación (hipótesis nula) con un nivel a = 0,05 se realiza con el estadístico de Student t=
460
r N−2 1− r2
≈ 58
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
que resulta ser mucho mayor que el valor crítico ya indicado antes tC0,975(6) = 2,45 y hay que concluir que prácticamente con toda seguridad existe correlación (t es también mucho mayor que los valores críticos habituales). c) Los límites de confianza del 99% para el coeficiente de correlación poblacional, supuesta la distribución bivariante Gaussiana, están dados por el intervalo z− z p −2, 58 < < 2, 58 = 0, 99 σz o equivalentemente 2, 58 2, 58 p tanh −1 r − < tanh −1 ρ < tanh −1 r + = 0, 99 N−3 N−3 En donde se ha despreciado el término r/(N – 1) en mZ (7.3.13) aplicando así la aproximación
µz = z ≈
1 1+ ρ ln 2 1 − ρ
Procediendo como en el texto (Ejercicio 7.3.5) u = tanh −1 r −
2, 58
v = tanh −1 r +
2, 58
5
5
=
1 1 + r 2, 58 − ln ; u = −5,, 013248362 2 1 − r 5
=
1 1 + r 2, 58 + ln ; v = −2,, 70562621 2 1 − r 5
exp(2u) − 1 exp(2 v) − 1 ≈ −0, 9999; ≈ −0, 9911 exp(2u) + 1 exp(2 v) + 1 y el intervalo pedido está contenido en la expresión de la probabilidad. p −0, 9999 < ρ < −0, 9911 = 0, 99
461
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Como siempre hay que recordar que conviene mantener el mayor número posible de decimales en los cálculos para evitar redondeos intermedios que desvirtúen el resultado final. El lector puede comprobar con qué número mínimo de decimales puede alcanzar un resultado al redondearlo a cuatro decimales como el obtenido aquí.
Problema 7.7 Siguiendo el procedimiento expuesto en el texto se determina primero una estimación de la constante c. Aquí va a estimarse c de una forma simple y se deja al lector la tarea de ensayar otras posibilidades. Esto es importante, ya que los resultados finales van a depender de la elección que se haga de c y es de interés estudiar este punto, pero por brevedad no va a hacerse aquí. Para obtener los resultados que se dan debajo redondeados a 6 decimales se han utilizado más decimales en las operaciones intermedias. Como se verá al final, la precisión significativa en los parámetros de interés no se vería afectada de haberse utilizado los datos intermedios redondeados ya a 6 decimales. La estimación de c se obtiene con (7.2.13) y M = 5 fijando el punto intermedio en tI =
t0 + tM 0 + 7, 5 = = 3, 75 2 2
con lo que un ajuste de interpolación cuadrático (colocación) utilizando los puntos en t = 1,5, 3, 4,5 (esto puede mejorarse de muchas maneras, obviamente) se obtiene el valor intermedio asociado nI dado por nI = pk =1,5 = 80 + 1, 5 ⋅ 55 +
1, 5 ⋅ 0, 5 48 = 180, 5 2
Con ello la constante c se estima a través de c=
n0 nM − nI2 = 35, 616189 n0 + nM − 2 nI
lo que lleva a la nueva tabla
462
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
Tabla (a1). Problema 7.7 t(horas)
0
1,5
3
4,5
6
7,5
N=n–c
29,383811
44,383811
99,383811
202,383811
384,383811
714,383811
ln N
3,380444
3,792875
4,598989
5,310166
5,951641
6,571420
A partir de aquí se puede proceder a ajustar la dependencia funcional N = b exp( at) → ln N = ln b + at = B + At El ajuste de mínimos cuadrados para la recta resultante de tomar logaritmos neperianos da los resultados B = ln b = 3, 281230 → b = 26, 608492 A = a = 0, 440807 r = 0, 99 977 Una tabla comparativa de valores de entrada y calculados ln Ni,est. = B + Ati es la siguiente Tabla (a2). Problema 7.7 t(horas)
0
1,5
3
4,5
6
7,5
ln N
3,380444
3,792875
4,598989
5,310166
5,951641
6,571420
ln Nest.
3,281231
3,942441
4,603651
5,264861
5,926071
6,587282
N
29,3838
44,3838
99,3838
202,3838
384,3838
714,3838
Nest.
26,6085
51,5442
99,8482
193,4194
374,6796
725,8051
sg(N – Nest.)
+
–
–
+
+
–
En la tabla se muestran los signos de los residuos (valor de entrada – valor calculado) y no dan la impresión de que haya tendencias, aunque son muy pocos datos para intentar analizar la aleatoriedad de aparición de tales signos apropiadamente. En cualquier caso, el coeficiente de correlación lineal obtenido es suficientemente alto como para indicar que existe una fuerte correlación lineal entre los datos analizados.
463
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
b) En cuanto a los errores estándar en los parámetros hay que empezar determinando el error en la estima (se mantiene el redondeo a seis decimales)
sln N / t =
∑ (ln Ni − ln Ni,est. )2 i
6−2
= 0, 093799
con lo que se tienen los valores (t– = 3,75) sln N / t
sA =
∑ ( ti − t )2
= 0, 014948; sB = sln N / t
1 t2 = 0, 067887 + N ∑ (ti − t )2 i
i
Con los resultados anteriores se pueden afinar las estimaciones de los parámetros a = A = 0, 441 ± 0, 015 B = ln b = 3, 281 ± 0, 068 y todavía más con los límites de confianza utilizando la distribución t de Student con n = 6 – 2 grados de libertad, para la que al 95% el coeficiente crítico es tC0,975(4) = 2,78 y se encuentra pendiente a : 0, 441 ± 0, 015 ⋅ 2, 78 ≈ 0, 44 ± 0, 04 ordenada ln b : 3, 281 ± 0, 068 ⋅ 2, 78 ≈ 3, 28 ± 0,19 → b = 26, 608492 El siguiente asunto es de la estimación del error en la constante b, para lo que se conoce ya el error en la magnitud relacionada B = ln b. La regla general es la de manejar la dependencia funcional b = exp(B) y utilizar el desarrollo en serie de Taylor a primer orden (D ⬅ s) 2
∆b = db / dB ∆B ↔ sb2 = db / dB s2B con lo que ∆b = exp( B)∆B = exp(3, 281230) ⋅ 0, 067887 = 1, 806371 ≈ 1, 81 Conviene observar como se comporta esta estimación con órdenes del desarrollo crecientes. Así hasta tercer orden se tiene 2 1 1 ∆b = exp( B)∆B 1 + ∆B + ( ∆B ≈ 1, 8064 + 0, 0613 + 0, 0014 ≈ 1, 87 6 2
)
464
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
con lo que se ve que la estimación a primer orden es bastante razonable. Finalmente la constante b se escribirá b = 26, 61 ± 1, 87 ≈ 26, 6 ± 1, 9 c) Todos los resultados obtenidos lo han sido bajo la elección hecha para el valor c. Es claramente este parámetro el que debe ser tratado con cuidado para mejorar la calidad del ajuste. Hay ciertamente mucho espacio para la creatividad en esta tarea de mejora. Posibles formas para afinar esta estimación pueden ser utilizar una interpolación con un polinomio de colocación de diferencias centrales, o un ajuste de mínimos cuadrados (parábola) a la tabla con el que interpolar el valor nI de forma suavizada en t = 3,75, etc. No obstante, son los resultados finales de proximidad entre el ajuste empírico y la tabla de entrada los que van a decidir sobre este asunto de la calidad interpolatoria de la función empírica propuesta. Por último, una vez utilizada la fórmula empírica encontrada para interpolar valores n ˜ a determinados tiempos habrá que redondear a valores enteros los resultados obtenidos para tales números de bacterias. Problema 7.8 a) La expresión propuesta se corresponde con un ajuste de un plano de mínimos cuadrados, ya que al tomar logaritmos se tiene ln Il = ln A + m ln C + n ln t y se denotarán por simplicidad x1 = ln Il ; x2 = ln C ; x3 = ln t Hay pues que empezar transformando los datos de entrada a la forma de las nuevas variables. Se van a mantener 6 decimales en los cálculos siguientes. La nueva tabla es Tabla (a1). Problema 7.8 x1 = ln Il
–0,118784
0,693147
1,167516
1,461170
1,732363
1,963048
x2 = ln C
–1,386294
–0,693147
–0,287682
0
0,223144
0,405465
x3 = ln t
–0,693147
0,223144
0,693147
0,810930
0,916291
1,098612
465
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Con estos datos conviene determinar los valores medios (centros de masa) de cada nueva variable x1 = 1,149743; x2 = −0, 289752; x3 = 0, 508163 El siguiente paso consiste en utilizar las variables referidas a este centroide de la distribución y se van a denotar como y1 = x1 − x1 ; y2 = x2 − x2 ; y3 = x3 − x3 en función de las cuales el plano de mínimos cuadrados se expresa en la forma y1 = my2 + ny3 ;
ln A = x1 − mx2 − nx3
Las ecuaciones normales para esta reducción son más simples que si no se hubiese hecho tal operación y se convierten en un sistema (2 ¥ 2) que por simplicidad se escribe
∑ y1 y2 = m∑ y22 + n∑ y2 y3 ∑ y1 y3 = m∑ y2 y3 + n∑ y32 en donde las sumas se extienden sobre los seis datos tabulares. Los resultados tras resolver este sistema son A = 4, 252496; m = 1,107723; n = 0, 045658 y la tabla queda ajustada con los datos estimados para Il redondeados a tres decimales, que son con los que vienen dados los datos de entrada, resultando Tabla (a2). Problema 7.8
466
Il
0,888
2,000
3,214
4,311
5,654
7,121
C
0,25
0,50
0,75
1,00
1,25
1,50
t
0,5
1,25
2
2,25
2,50
3
Il, est.
0,887
1,993
3,191
4,413
5,678
7,006
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
La tabla de entrada se reproduce «muy bien» y los coeficientes de correlación relevantes son (redondeados a cuatro decimales) r12
= r (ln Il ,ln C ) = 0, 9998
r13
= r (ln Il ,ln t) = 0, 9828
r23
= r (ln C ,ln t ) = 0, 9815
r13 ,2 = 0, 3960 R1( 23 ) = 0, 9998 El ajuste realizado a los datos tabulares parece pues muy razonable y la técnica de mínimos cuadrados ha cumplido su misión de minimizar desviaciones. b) A pesar de los resultados anteriores, la comparación con la ley teórica de Ilkovich pone de manifiesto que existen problemas en la tabla de entrada. El exponente de la concentración C(m ≈ 1,1) no es una mala estimación del valor teórico, pero el exponente del tiempo n = 1/6 ≠ 0,0457 sugiere que existen errores de entrada. Por otra parte, el número de datos utilizados para este problema de tres variables es bastante escaso, de manera que pequeños errores de entrada pueden originar grandes discrepancias en la comparación con los resultados teóricos de referencia, como consecuencia de la amplificación que produce la ley de tipo potencial en dos variables. Por tanto, todo indica que no sólo hay que revisar las medidas, sino que deben hacerse muchas más para obtener resultados adecuados. c) Desde un punto de vista empírico el ajuste con una expresión Il = A + mC + nt va a presentar los coeficientes de correlación r12
= r ( Il , C ) = 0, 9986
r13
= r ( Il , t ) = 0, 9686
r23
= r (C , t ) = 0, 9760
r13 ,2 = −0, 5164 R1( 23 ) = 0, 9990 Comparando los valores obtenidos en a) con estos nuevos se observa que aquéllos son ligeramente mejores. Por ello es de esperar que la comparación de residuos Ii – Il,est. sea más favorable al ajuste a), pero no de una manera claramente definitiva. No obstante, hay que recordar que si faltara la
467
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
ley teórica de Ilkovich, que no es una simple suma de contribuciones y que justifica la elección de a), la decisión entre ambos modelos pudiera ser dificultosa y habría que revisar toda la investigación y la toma de datos (siguiendo los pasos explicados en b)) para asegurar un resultado final fiable.
Problema 7.9 a) Como el número de datos es impar el dato central (M5, 22,5) se ignora totalmente de las consideraciones siguientes. Los otros ocho datos se dividen en dos grupos, del 1 al 4 y del 6 al 9 y se efectúan ordenadamente las diferencias (dato de nivel radiactivo – dato de nivel radiactivo) observando el signo de éstas Tabla (a). Problema 7.9 19,2
21,3
17,2
22,5
21,9
23,4
24,0
22,9
–
–
–
–
Se tienen así cuatro signos idénticos en cuatro «pruebas» y hay que decidir si esta regularidad es o no consistente con una distribución de signos al azar binomial. Supuesto que es igualmente probable encontrar un signo u otro entonces la distribución está caracterizada por p+ = q– = 1/2. La
Figura 7EP2. Figura para el problema 9 (a). Probabilidades de la distribución binómica con cuatro ensayos.
468
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
probabilidad de conseguir cuatro signos idénticos en cuatro «pruebas» (4+ ó 4–) está dada por 4
4 4 1 2 = 0,125 P = p0 q 4 + p4 q 0 = 2 = 16 2 4 0 A un nivel a = 0,05 bilateral se ve que el resultado anterior obtenido cae dentro de lo esperado con una distribución binomial, pues las zonas críticas a cada lado (4+ ó 4–) están señaladas por el valor a/2 = 0,025 = 1/40 que es ciertamente menor que P/2 = 1/16 = 0,0625 (Fig. 7EP.2). La conclusión es que con los datos analizados no se observa ninguna tendencia significativa. No se puede rechazar pues la hipótesis nula de que no hay tendencia al nivel a = 0,05. El rechazo de la hipótesis nula hubiera sucedido si P/2 < a/2. b) Comparando los datos de la tabla con la mediana del anterior periodo 23,8 se observan los signos de las restas respectivas Tabla (b). Problema 7.9 Radiact.
19,2
21,3
17,2
22,5
22,5
21,9
23,4
24,0
22,9
(–23,8)
–
–
–
–
–
–
–
+
–
Si algún dato fuera igual a la mediana 23,8 se descartaría el valor 0 de las operaciones siguientes.
Figura 7EP3. Figura para el problema 9 (b). Probabilidades de la distribución binómica con nueve ensayos. Se muestra el valor crítico en la verificación bilateral a = 0,05.
469
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Ahora se tienen 9 ensayos y una presencia de 8 signos iguales, lo que sugiere la existencia de diferencias significativas, aunque sin el correspondiente test esto no pasa de ser una apreciación bien fundada. Para un ensayo de hipótesis bilateral hay que evaluar la probabilidad de que aparezcan 8 o más signos iguales, probabilidad que viene dada por 9
9 9 9 9 1 P = p9 q0 + p8 q + pq8 + p0 q 9 = 2 ⋅10 = 0, 0390625 2 9 8 1 0 Utilizando la comparación análoga a la anterior a) se observa que P/2 < a/2: 0,0195 < 0,025,de modo que la pequeña probabilidad asociada a 8 o más signos iguales no es compatible con un nivel de significación bilateral a = 0,05 en una distribución binómica (Fig. 7EP3). Consecuentemente, en este caso hay que rechazar la hipótesis nula H0 y aceptar que existe un cambio significativo en el nivel radiactivo más reciente (todo siempre al nivel a = 0,05).
Problema 7.10 Como hay 8 datos, para establecer la correlación de Spearman hay que ordenar las secuencias cantidad y eficacia siguiendo los números enteros positivos del 1 al 8. Prácticamente la cantidad C se corresponde ya con esta ordenación correlativa, en tanto que la eficacia E va a presentar una ordenación diferente (permutación distinta de la identidad). Ajustando ligeramente los datos (faltan las cantidades C = 2 y 9), asociando cantidad-eficacia y calculando sus diferencias d se tiene la nueva tabla Tabla. Problema 7.10 Medicamento
M1
M2
M3
M4
M5
M6
M7
M8
Cantidad C˜
1
2
3
4
5
6
7
8
Eficacia E˜
1
3
4
2
6
5
8
7
d = C˜ – E˜
0
–1
–1
2
–1
1
–1
1
470
CORRELACIÓN, REGRESIÓN Y ESTADÍSTICA NO PARAMÉTRICA
Dado que no hay «ataduras» el coeficiente de correlación de Spearman es pues
rS = 1 −
6∑ di2 i 3
N −N
= 1−
6 ⋅10 ≈ 0, 881 504
Este es un valor elevado teniendo en cuenta la ausencia de detalles particulares en la evaluación hecha del estadístico, por lo que hace sospechar que efectivamente va a existir correlación. Ahora bien, para determinar si este valor es significativo, al nivel a = 0,05 (bilateral), hay que ensayar la hipótesis nula, H0 : r = 0, con el estadístico de Student t = rS
N−2 8−2 = 0, 881 ≈ 4, 56; 2 1 − rS 1 − 0, 8812
ν = 8 − 2 = 6 grrados de libertad
C Este valor calculado de t resulta ser mayor que el valor crítico t0,975 (6) = 2,45. Se rechaza pues H0 y se concluye que existe correlación al nivel a = 0,5 (bilateral).
Problema 7.11 La ley de Lambert-Beer se puede transformar en una dependencia lineal tomando logaritmos ln T = − χ cl = − χ c que es una recta que pasa por el origen de coordenadas. La tabla a investigar es pues (redondeos a 6 decimales) utilizando C = c · 103 Tabla (a). Problema 7.11 T˜ = ln T C = c · 10
3
–0,285019
–0,592397
–0,683197
–0,774357
–0,865122
1,1
1,3
1,5
1,7
1,9
Una sencilla representación gráfica lineal de estos datos ya indica que el primer punto es extraño y que debería descartarse. Esta idea se refuerza con el ajuste convencional de mínimos cuadrados con los 5 puntos T = −0, 671083 C + 0, 366607 ( r = −0, 9517)
471
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
en el que ya se aprecia una ordenada en el origen bastante apartada del valor teórico nulo al que debería estar próximo este resultado. Realizando además el ajuste por mínimos cuadrados del que se suprime el primer punto, que es el sospechoso, se obtiene T = −0, 454668 C − 0, 001300 ( r ≈ −1) y aquí se observa cómo la calidad es prácticamente perfecta: un coeficiente de correlación negativa unidad y un valor próximo a cero para la ordenada en el origen. Las estimaciones con ambos ajustes se dan a continuación redondeando a 6 decimales Tabla (b). Problema 7.11 T˜ = ln T
–0,285019
–0,592397
–0,683197
–0,774357
–0,865122
C = c · 103
1,1
1,3
1,5
1,7
1,9
T˜ (5 puntos)
–0,371585
–0,505802
–0,640019
–0,774235
–0,908452
T˜ (4 puntos)
–0,501434
–0,592368
–0,683302
–0,774235
–0,865169
De nuevo la tabla muestra la gran proximidad entre el ajuste que desprecia el primer punto y los datos originales. Ahora conviene para asegurar el descarte efectuar el test de Cook para el primer punto y que lleva al valor 5
∑(y
i ,( N = 5, est. )
CD12 =
− yi(,(1)N −1= 4 ,est.)
i =1
2 sY2 / X
)
2
=
0, 02810 ≈ 2, 25 > 1 0, 01249
lo que justifica despreciarlo como fuera de rango (y = T˜, x = C). El lector puede desarrollar el problema considerando de partida que la ordenada en el origen es nula.
472
III ANÁLISIS Y PROPAGACIÓN DE LOS ERRORES EXPERIMENTALES
8. El tratamiento de errores en datos experimentales
CAPÍTULO 8 EL TRAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
8.1. 8.2. 8.3. 8.4. 8.5. 8.6.
Introducción Los errores en la medición experimental Propagación del error de escala del aparato Propagación de los errores sistemáticos Propagación de los errores accidentales Un caso de estudio: cálculo del error total de un índice de refracción
Bibliografía Problemas teóricos y numéricos
El asunto del error cometido en los cálculos numéricos aproximados ya se ha considerado anteriormente en los capítulos del bloque I, así como también se han venido tratando ciertas características del error estadístico en todos los capítulos precedentes del bloque II. Ahora se va a considerar el estudio de la propagación de errores experimentales en los procesos de medición. Se empieza distinguiendo entre las mediciones directas de una magnitud y las indirectas, que son las que resultan de aplicar relaciones matemáticas a la cantidad medida directamente. La siguiente cuestión es la clasificación de errores, haciendo hincapié en las posibles fuentes de error desde el punto de vista experimental: de escala del aparato de medida, sistemáticos de un aparato o proceso de medida, y accidentales derivados de la naturaleza aleatoria de las variables que se miden. Los dos primeros tipos generalmente son constantes en el proceso, pero el tercero tiene una naturaleza casual que hace que las mediciones individuales oscilen alrededor de un determinado valor medio, y esto lleva directamente a la consideración de las características estadísticas que juegan un papel en el proceso de medida. Se continúa con la evaluación de errores absolutos y varianzas en los resultados de mediciones directas e indirectas (operaciones aritméticas, funciones de una y de varias variables), estudiando la propagación de cada tipo de error. Finalmente se considera con detalle el cálculo numérico del efecto global de los errores presentes en un proceso de medida hipotético (un índice de refracción) con una muestra finita: el error total se construye como una suma de
475
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
todos los errores (¡los sistemáticos tienen signo!), y se presta atención especial a los límites de confianza con los que se expresa el error accidental que afecta a la (media de la) medición. Dependiendo del tamaño de la muestra analizada, el uso de la Gaussiana o de la t de Student, estudiadas previamente, sirve perfectamente al anterior propósito. Tipos de error en mediciones Escala del aparato
Sistemáticos
Accidentales
Puramente aditivo Propagación: derivación parcial primer orden (suma de valores absolutos)
Con signo Propagación: derivación parcial primer orden (con suma algebraica). Se inducen por errores accidentales
Estadísticos Puramente aditivos Propagación: derivación parcial primer orden («independencia» suma de cuadrados/varianzas)
Composición: error total Uso de la t de Student Cifras significativas
Cap. 10
8.1. Introducción En capítulos anteriores se ha venido considerando el problema del error en dos contextos diferentes pero relacionados, el numérico y el estadístico, y se han revisado medidas y técnicas para caracterizar tanto sus efectos en los resultados de los cálculos como en la toma de decisiones estadísticas. Ahora se va a tratar con detalle un aspecto importante más como es el problema de las mediciones experimentales derivadas. Este es el problema conocido como de la propagación del error. En todo lo que sigue se excluyen los errores que se producen como consecuencia de una mala comprensión del problema estudiado, manipulaciones matemáticas equivocadas, etc. En general una medición experimental no va a conducir directamente al valor de la magnitud de interés fisicoquímico Y = y, sino que tal medición X = x va a ser utilizada para obtener el valor y a través de una relación matemática y = h(x). Por ejemplo, una medida espectrométrica de una muestra líquida dará el valor de una propiedad óptica como una función de la
476
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
concentración (ley de Lambert-Beer), en una volumetría el resultado del experimento será función del volumen del reactivo, etc. La situación se complica si la propiedad de interés depende de la medición de varias variables independientes (o no), Y = h(X1, X2, ..., Xn), como puede ser el caso de la presión de un fluido puro P = P(V, T), con dependencia del volumen y de la temperatura absoluta, la energía interna de un sistema multicomponente E = E(S, V, c1, c2, ..., cN), con dependencia de la entropía, el volumen y la composición (concentración de cada componente), etc. Es claro que las imprecisiones o errores en las mediciones directas de las variables Xi van a repercutir en el conocimiento que se puede alcanzar de la magnitud «derivada» Y que es vía Y = h(X) medida indirectamente. Atendiendo a la naturaleza de las variables Xi los errores experimentales pueden ser de diferentes tipos y se los clasifica en tres grandes grupos: de escala del aparato de medición, sistemáticos, y accidentales (aleatorios). Los dos primeros están asociados con variables de efecto «fijo» y son constantes e independientes del número de mediciones que se realicen. Sin embargo el tercer tipo, accidental, está asociado con variables aleatorias y puede disminuirse aumentando el número de mediciones. La cuestión está en estimar cómo todos estos errores se propagan a través de la funcionalidad Y = h(X). Parte de esta tarea ya ha sido considerada en el texto, pues en lo que respecta a los errores de escala y sistemáticos la estimación se realiza utilizando básicamente la expresión conocida (3.1.3) que contiene el desarrollo de Taylor truncado a primer orden (con una ligera modificación en el caso sistemático). Por otra parte, se han estudiado también las medidas de dispersión de variables aleatorias (Caps. 5 y 6) como caracterizaciones de los errores estadísticos, estableciendo las relaciones entre las distribuciones de probabilidad original f(x) e inducida g(y) por Y = h(X), o las similares cuando hay más de una variable independiente. Parecería pues, a primera vista, que el cálculo de la dispersión en Y se reduce sencillamente una manipulación matemática que calcule primero g(y) y segundo, vía integración, la varianza asociada con la distribución de la nueva variable Y. Sin embargo, como ya se indicó en el Cap. 5, esta operación puede resultar bastante compleja en la mayoría de los casos con funciones de distribución de partida conocidas, f(x), f(x1, x2, ..., xk), etc., y no es factible cuando tales funciones son desconocidas, como suele suceder en muchos problemas de muestreo. Es pues necesario disponer de un método alternativo que permita estimar de forma sencilla, aunque no sea siempre exacta, el efecto de los errores alea-
477
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
torios en las variables X1, X2, ..., Xk, sobre el resultado Y. La clave general para hacer esta operación está en el teorema de adición de varianzas (5.7.22) y el desarrollo lineal de Taylor de Y = h(X1, X2, ..., Xn). Este capítulo se concentra en el estudio elemental de la propagación de cada tipo de error y de la construcción del error total como una suma de todas las contribuciones que afectan al proceso de medición. Otros asuntos relacionados con el tratamiento de errores experimentales en el análisis de datos se estudiarán en el Cap. 10 (ajustes c2, ANOVA, etc.).
8.2. Los errores en la medición experimental Ya se han mencionado las tres fuentes de error en una medición experimental: de escala del aparato, sistemáticas, y accidentales. El error de escala eesc. viene dado por la construcción del aparato de medida y se identifica con la magnitud de la división (uniforme) más pequeña que presenta: en una regla esta división es de 1 mm, en una probeta graduada en cm3 = cc es de 1 cc, en un aparato digital lo que indiquen las especificaciones técnicas, etc. Se trata de un error constante en todas las mediciones que se efectúen con dicho aparato, siendo por tanto independiente del operario y de las condiciones externas, siempre que estas últimas estén controladas y dentro de los límites técnicos especificados. Por ejemplo, altas temperaturas pudieran hacer que una distancia medida como 1 cm fuese en realidad, por las diferentes dilataciones de la regla y del objeto, diferente. Los otros dos tipos de error, sistemáticos y accidentales, requieren una consideración más detenida y basada en los conceptos de exactitud y de precisión. Ambos pueden deberse, entre otras, a causas humanas y al aparato de medición utilizado, pero son muy diferentes en su naturaleza y en su tratamiento. Los errores sistemáticos esis. son sesgos («bias») con valores constantes que se originan en las mediciones debidos a causas muy diversas. Así pueden estar asociados con el uso de patrones o referencias que se utilizan en los procesos de medición, a contaminaciones ambientales inadvertidas (químicas, electromagnéticas, etc.), a desajustes internos de los aparatos de medición, a los diferentes sesgos humanos en la apreciación de las medidas o de sus cualidades (como el color), y a muchas otras causas que pueden resultar de identificación difícil. La cuestión está en que estos errores producen una pérdida de exactitud en el sentido de que el valor medio de las mediciones
478
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
具X典 diferirá del valor medio teórico m de la población de la que se extraen tales mediciones: 具X典 ≠ m. Se define entonces el error sistemático como
ε sis. ( X ) = B( X ) = X − µ
(8.2.1)
La definición o identificación de estos errores requiere, en primer lugar, de la toma de un valor de referencia (patrón) estandardizado, algo que no siempre va a resultar un asunto directo. Además, estos errores al ser constantes pueden cancelarse si el objeto de interés es una propiedad diferencia X1 – X2, algo que debe tenerse en cuenta a la hora de diseñar un experimento buscando minimizar los errores que le afecten. En consecuencia, la ausencia de errores sistemáticos caracteriza un proceso de medida exacto, para el que 具X典 = m, y que muestra una agrupación de las sucesivas medidas x1, x2, ..., xN, alrededor de la media poblacional m. Los errores accidentales eacc. se deben a la aleatoriedad de la variable que se mide y están ligados a la precisión que tiene el proceso. Un proceso de medición es tanto más preciso (menor error) cuanto menor es la dispersión de los datos y ya es sabido que la precisión puede aumentarse incrementando el número de mediciones. Se caracterizará entonces el error accidental de Y = h(X1, X2, ..., Xn) como una función de las desviaciones típicas asociadas
(
ε acc. (Y ) = ε σ X ,σ X ,...,σ X 1
2
n
)o
(
ε acc. (Y ) = ε sX , sX ,..., sX 1
2
n
)
(8.2.2)
Es muy importante no confundir precisión con exactitud, y el lector debe notar que se puede dar desde la situación ideal muy exacta y muy precisa hasta la menos deseable poco exacta y poco precisa (Fig. 8T.1). A continuación se enumeran algunos de los factores comunes que influyen tanto en la precisión como en la exactitud de un proceso de medición: a) el tamaño del valor que se mide; b) la naturaleza fisicoquímica del sistema; c) las condiciones exactas de realización del experimento; y d) el tipo de comparaciones que se efectúan con las mediciones. Así, la precisión y la exactitud de un método pueden depender críticamente del rango de valores de la propiedad medida (a), de las interferencias presentes en un sistema y que se derivan de la adición de componentes diferentes a la sustancia que se investiga (b), de la presión, temperatura, humedad, etc. (c), o de las comparaciones de una misma propiedad medida con diferentes métodos y/o en diferentes laboratorios. En esta discusión entra la estandardización o normalización de las
479
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Figura 8T.1. Comparación de dos procesos de medición: uno poco preciso (muy disperso) y poco exacto (media muestral y media poblacional muy separadas), y otro más preciso (agrupado) y más exacto (proximidad entre ambas medias).
condiciones y otras cuestiones bastante complejas (diseños anidados, mérito técnico, etc.) que son importantes en el diseño de los experimentos y la validación de métodos, de manera que se pueda garantizar la consistencia de los resultados (repetición y reproducibilidad), pero sobre las que no se puede entrar aquí. En resumen, el error total de una medición se define como una suma de todas las contribuciones señaladas
ε Total = ε esc. + ε sis. + ε acc.
(8.2.3)
en donde se supone que todas las fuentes de error son independientes unas de otras y, además, eesc. > 0, eacc. > 0, pero esis. puede ser positivo o negativo. Siempre se considerará que el error es menor que la magnitud a la que afecta. 8.3. Propagación del error de escala del aparato Para una relación funcional Y = h(X) en la que X se mide directamente con un error de escala eesc.(X) el error propagado en la magnitud indirecta se estima con
ε esc. (Y ) =
480
dh dx
ε esc. ( X ) x = x0
(8.3.1)
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
en donde la derivada se toma particularizada en el valor medido x0 y en valor absoluto. Esta expresión se generaliza sin dificultad en el caso de que se utilice más de un aparato de medida. Así, para una función de varias variables independientes Y = h(X1, X2, ..., Xn) con cada una de ellas medida en un aparato diferente la propagación es
ε esc. (Y ) =
∂h ∂x1
x1 = x10 .......... xn = xn 0
ε esc. ( X1 ) +
∂h ∂x2
x1 = x10 ........... xn = xn 0
ε esc. ( X2 ) + ... +
∂h ∂xn
x1 = x10 ........... xn = xn 0
ε esc. ( X n ) (8.3.2)
en donde las derivadas parciales se toman particularizadas en los valores medidos y en valor absoluto. Estas expresiones pueden ayudar bastante en el diseño de experimentos para minimizar en lo posible los inevitables errores de escala. EJERCICIO 8.3.1 Para determinar la densidad de una disolución homogénea se extraen 3 cc con una pipeta graduada cada 0,5 cc y se determina su masa con una balanza que aprecia hasta el miligramo, resultando 3,182 g. a) Estimar la densidad y su error con estos datos. b) Discutir cómo minimizar los efectos de los errores de escala sobre la estimación de la densidad . a) La densidad calculada con los datos es
ρ=
m 3,182 = = 1, 060667 g/cc V 3
El error propagado debido a los errores de escala eesc.(m) = 1 mg, eesc(V) = 0,5 cc, resulta ser
ε esc. ( ρ ) =
1 V
ε esc. ( m) + − 0
m V2
ε esc. (V ) = 0
0, 001 3,182 + ⋅ 0, 5 = 0,177111 g/cc 3 32
con lo que la densidad se expresa
ρ = 1, 06 ± 0,18 g/cc un resultado en el que el error es importante, aproximadamente del 17%.
481
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
b) Si fuera posible, habría que mejorar la estimación combinando medidas más precisas tanto en la masa como en el volumen, pero observando el error sistemático total se ve que el término de la masa contribuye muy poco al error, en tanto que el término del volumen es el principal responsable de la pobre precisión obtenida (nótese además la dependencia cuadrática inversa). La estimación en primera instancia debería mejorarse en la dirección del volumen, bien utilizando un aparato más preciso [menor eesc.(V)], bien utilizando volúmenes más grandes en la medición, o ambas. El volumen es una propiedad extensiva del sistema, es decir es directamente proporcional a la masa, y esto hace que en definitiva el error en la densidad acabe siendo una función inversamente proporcional al volumen
ε esc. ( ρ ) =
1 ε ( m) + ρ0 ε esc. (V ) V0 esc.
{
}
Claramente, a mayor volumen medido menor error.
8.4. Propagación de los errores sistemáticos En la propagación de errores sistemáticos hay que insistir en que la primera acción es la de identificar todas las posibles fuentes que los producen, determinando sus magnitudes y si fuera posible, eliminándolas o minimizándolas al máximo. Esto reviste una especial importancia, ya que algunas o todas de tales fuentes de error pudieran permanecer enmascaradas dentro de los procesos de medición, llevando así a resultados incorrectos pero que se darían por buenos sin discusión. Puede ser útil aquí señalar un par de detalles. El primero es un test indicativo de que existen errores sistemáticos en un experimento. Supuesto que se conoce el dato estándar de calibración xP, obtenido con un patrón (xP hace el papel de valor medio poblacional), se trata de utilizar el intervalo de confianza con probabilidad 100(1 – a)% alrededor de la media muestral x– obtenida con N mediciones que producen una desviación — típica s: x– ± t(N–1) 1–a/2 s/√ N, en donde t es el estadístico de Student con N – 1 grados de libertad adecuado a la situación estudiada. Si se diera el caso de que el dato estándar xP cayera fuera del intervalo señalado, entonces todo indicaría la probable existencia de errores sistemáticos. El segundo detalle, tiene que ver con el hecho de que los errores sistemáticos pueden dar al traste con la utilidad de los gráficos Shewhart, en los que estos errores pueden permanecer
482
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
sin ser detectados al no superarse las barras de control. Se han diseñado alternativas como los gráficos CUSUM para evitar estos efectos y que consisten en representar las sumas acumuladas de las desviaciones (con sus signos) respecto al valor medio de referencia. Estos dos detalles apuntados son sólo ejemplos de las muchas dificultades a las que hay que enfrentarse en este contexto y es fácil entender que un tratamiento adecuado de los errores sistemáticos es una tarea necesaria pero ardua. No es este el lugar para entrar en una discusión pormenorizada de todos estos asuntos y en lo que sigue se supondrá que esta tarea ha sido adecuadamente realizada. El caso más sencillo de propagación de errores sistemáticos es el de una funcionalidad lineal de variables independientes, como las que aparecen en los procesos analíticos de oxidación-titración que utilizan disoluciones patrón, y que se expresa Y = h( X1 , X 2 ,..., X n ) = a1 X1 + a2 X2 + ... + an X n
(8.4.1)
en donde para cada variable Xi se tiene su valor medio 具Xi典 y su valor poblacional mi, de manera que cada error sistemático está dado por (8.2.1) Bi ( X i ) = X i − µ
(8.4.2)
La propiedad característica del error sistemático de la función lineal (8.4.1) es que resulta ser aditivo (algebraicamente) en los errores sistemáticos de sus términos
ε sis. (Y ) = B(Y ) = a1 X1 + a2 X 2 + ... + an X n − a1µ1 − a2 µ2 − ... − an µ n = n
a1 X1 − µ1 + a2 X 2 − µ2 + ... + an X n − µ n =
∑
(8.4.3) ai Bi ( X i )
i =1
Es interesante notar que los Bi se toman con su signo correspondiente, no habiendo pues en este caso suma de valores absolutos. Esto tiene como consecuencia que pueden darse cancelaciones de diverso grado entre errores sistemáticos. Además, si todos los Bi = 0, entonces B(Y) = 0. La situación general con Y = h(X1, X2, ..., Xn) no lineal es más compleja. De hecho, los errores accidentales per se inducen la aparición de errores sis-
483
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
temáticos en el caso no lineal como se verá más adelante. De momento y por lo que respecta a la propagación de los errores sistemáticos tal y como se han venido considerando la estimación sigue la idea del desarrollo de Taylor a primer orden (8.3.2), pero sin la toma de valores absolutos ∂h ∂h ∂h ε sis. (Y ) = B(Y ) = x = x B1 ( X1 ) + x = x B2 ( X2 ) + ... + x1 = x10 Bn ( X n ) (8.4.4) 1 10 1 10 ∂x1 ........... ∂x2 ........... ∂xn ........... . xn = xn 0
xn = xn 0
xn = xn 0
Aquí también se aprecia como puede existir cancelación entre errores sistemáticos, aunque una anulación global en el caso B ≠ 0 no se va a obtener en general. Dependiendo de las circunstancias puede ser conveniente utilizar el error sistemático relativo dsis. = esis./Y. Hay que señalar también que en la bibliografía pueden encontrarse criterios con la suma estricta de los valores absolutos de los errores sistemáticos. Aunque dan cotas más amplias para el error, y podría pensarse que más seguras, no consideran las cancelaciones que pueden suceder en la práctica, de manera que no van a seguirse aquí tales criterios. EJERCICIO 8.4.1 Obtener la fórmula de la propagación de errores sistemáticos para la ecuación de Lambert-Beer I = I0 exp(–ccl), en donde se supone que I0, c y l vienen afectadas de errores sistemáticos B no nulos. Utilizando (8.4.4) se encuentra
{
}
ε sis. ( I ) = exp − χ cl B( I0 ) − I0 χ l B( c) − I0 χ cB( l )
expresión que se evalúa numéricamente tomando los valores de medición correspondientes a I0, c, c y l, y los signos de los errores sistemáticos B son los que vienen de entrada. EJERCICIO 8.4.2 Se toma una porción de disolución acuosa industrial de NaOH al 25% en peso (25 g de NaOH por cada 100 ml de disolución), de la que se sabe tiene un error sistemático del +0,5%, para preparar por dilución un volumen final
484
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
Vf = 1 l de NaOH de concentración Cf = 2N (normal). Estimar el efecto del error sistemático mencionado sobre la concentración final. Suponer nulo el error en la medida del volumen (peso molecular del NaOH Pm = 40 g/mol). Como la cantidad de NaOH es la misma en la porción extraída (i) que en el preparado final (f) de 1 l se tiene la relación CiVi = CfVf y la concentración normal («valencia» =1) es C = m/(Pm·V) con V expresado en litros. El volumen inicial extraído tiene que ser entonces Vi = Vf
Cf Ci
= 1000
2 = 320 ml (250 / 40)
La concentración final es pues una función lineal de la inicial y el error sistemático se propaga sencillamente como Cf =
Vi V Ci → ε sis. (C f ) = i B(Ci ) Vf Vf
Como el error B(Ci) debe ir referido a 1 litro de disolución es B(Ci) = +5/40 y se tiene entonces que
ε sis. ( Cf ) =
320 ⋅ 5 = 0, 04; C f = 2 ± 0, 04 N 1000 ⋅ 40
8.5. Propagación de los errores accidentales Los errores accidentales tienen naturaleza estadística y son inevitables en cualquier experimento, aunque pueden minimizarse empleando muestras de tamaño creciente (Cap. 6). Su relación con la precisión, es decir con el grado de dispersión de los datos alrededor de su valor medio, hace que se puedan estimar de manera aproximada usando las varianzas de las variables independientes que intervienen. Variables independientes El punto de partida es el mismo que el del caso monodimensional Y = h(X) (Cap. 5). Al considerar una muestra {xi} de tamaño N con media x– y desviación típica sX, se establece en general que
485
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
2
y ≈ h( x );
sY2
dh ≈ s2X dx x = x
(8.5.1)
con los límites de aplicación ya reseñados anteriormente: a) continuidad de h(x) y de dh/dx en un entorno de x– en el que además ambas funciones son no nulas; y b) que sea posible despreciar los términos de orden superior al lineal en el desarrollo de Taylor, para lo que es necesario (pero no suficiente) que sX < x–. Utilizando la distribución t de Student con N – 1 grados de libertad se fija el error accidental como la semi-anchura del intervalo de confianza de probabilidad 100(1 – a) que se considere adecuado (normalmente del 95% ó a = 0,05) y que se escribe de acuerdo con lo visto en el Cap. 6 como
ε acc. (Y ) ≈ t1(−Nα−/12)
sY N
;
y = y ± ε acc. (Y )
(8.5.2)
Nótese que si la función h(X) no es excesivamente complicada, se puede afinar en las estimaciones de y– y de s2Y utilizando los N resultados yi = h(xi). La generalización del cálculo de la varianza accidental para el caso multidimensional Y = h(X1, X2, ..., Xn) con variables independientes es más compleja. Como antes, en el supuesto de que se tuviera una serie de N datos medidos {x1j, x2j, ..., xnj}j=1,N, se pueden calcular los N valores yi asociados y proceder con el cálculo de su valor medio y varianza. Sin embargo, normalmente en el caso general se utiliza el recurso del truncamiento lineal, completándolo con el teorema de adición de varianzas para variables independientes combinadas linealmente. Procediendo así se estiman las medias y varianzas de cada variable independiente, {x–i, s2xi}i=1,n, y se evalúa el valor medio y la varianza de la variable de interés Y como y ≈ h( x1 , x2 ,..., xn ) ∂h ≈ ∂x1 xi = xi
i =1, 2,..., n
2
2
2
sY2
s2X1
∂h + ∂x2 xi = xi
i =1, 2,..., n
(8.5.3)
s2X 2
∂h + ... + ∂xn xi = xi
s2Xn
(8.5.4)
i =1, 2,..., n
– con las derivadas parciales calculadas en los valores medios X i = x–i y siendo las condiciones de aplicabilidad análogas a las reseñadas para (8.5.1). A partir de aquí se puede caracterizar el error accidental con sY, aunque en
486
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
muchos casos resulta preferible utilizar la varianza estimada para la media y– de la muestra, que puede calcularse simplemente dividiendo por el tamaño N. Con esta varianza de la media y afectándola con el coeficiente crítico correspondiente a1–a/2, que suele tomarse con a = 0,05 y va a depender de N, –— –— se construyen los intervalos de confianza Gaussianos (±sY /√ N, ± 2sY /√ N, –— etc.) o de Student (±t(N–1) 1–a/2 sY /√ N), expresando el error accidental alrededor del valor medio calculado como
ε acc. (Y ) = a1− α / 2
sY N
→ y = y ± a1− α / 2
sY
(8.5.5)
N
Por otra parte, la situación puede venir dada ya en forma compacta {x–i, con medias y varianzas de las medias como datos de entrada, en s } cuyo caso sólo hay que utilizar (8.5.4) en la forma indicada antes usando las varianzas en los valores medios 2– X i i=1,n
∂h ≈ ∂x1 xi = xi
i =1, 2,..., n
2
2
2
sY2
sX2 1
∂h + ∂x2 xi = xi
i =1, 2,..., n
s2X 2
∂h + ... + ∂xn xi = xi
s2Xn
(8.5.6)
i =1,2 ,..., n
con lo que los intervalos de confianza marcados arriba habría que modificarlos para acomodar el cambio y así
ε acc. (Y ) = a1− α / 2 sY → y = y ± a1− α / 2 sY
(8.5.7)
Obviamente (8.5.5) y (8.5.7) son intervalos para valores y medios, no valores individuales. Aunque los cálculos anteriores son de naturaleza aproximada, convencionalmente se utiliza el signo de igualdad al escribir y reportar las varianzas y los errores, sustituyendo ≈ por = en fórmulas y resultados numéricos. Al mantener los primeros en el texto se pretende resaltar justamente que hay contenidas aproximaciones. En ocasiones puede resultar muy útil considerar el error relativo de la variable Y para dar la estimación del error como dY = sY /y–. Por ejemplo, esto es lo que sucede con una relación funcional de tipo multiplicativo entre variables independientes Y=
X1. X 2 ... X k X k +1. X k + 2 ... X n
(8.5.8)
487
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
para la que se obtiene s2 s2 s2 s2 2 δ Y2 ≈ Y2 = X21 + X22 + ... + Xn2 = δ X2 1 + δ X2 2 + ... + δ Xn y x x x n 1 2
(8.5.9)
EJERCICIO 8.5.1 Obtener la relación (8.5.9) La aplicación de (8.5.4) necesita de las derivadas parciales. Para una variable xi en el numerador se tiene ∂y x1 x2 ... xi −1 xi +1... xk 1 x1 x2 ... xi −1 xi xi +1... xk = = xk +1 xk + 2 ... xn ∂xi xk +1 xk + 2 ... xn xi en donde se entiende que i ≠ 1, k, en cuyo caso la particularización de la fórmula es obvia. Para una variable xj en el denominador (con similares indicaciones en cuanto al índice j) x1 x2 ... xk x1 x2 ... xk ∂y 1 =− =− 2 ∂xj xj xk +1 xk + 2 ... xj ... xn xk +1 xk + 2 ... xj ... xn Con ello resulta 2
sY2
x1 x2 ... xk ≈ xk +1 xk + 2 ... xn xi = xi
i =1, 2,...., n
2
x1 x2 ... xk + ........ + x x ... x x12 k +1 k + 2 n xi = xi
s2X 1
i =1,2 ,..., n
s2Xn xn2
y de ahí, dividiendo por x1. x2 ... xk y = xk +1. xk + 2 ... xn
2
2
se obtiene la relación pedida.
Variables dependientes Una cuestión adicional es la de la intervención de variables dependientes en el problema, es decir con covarianzas o correlaciones no nulas entre
488
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
ellas. Ahora la situación se complica, si cabe aún más, pues estas covarianzas pueden bien aumentar el error accidental total, bien disminuirlo. Por ejemplo, en un problema con dos variables dependientes Y(X1, X2), Cov(X1, X2) ≠ 0, si ambas variables están correlacionadas positivamente (Cov > 0) y la dependencia funcional es simplemente Y = X1 + X2, entonces cabe esperar que se refuercen los correspondientes efectos individuales de error. Sin embargo, para Y = X1 –X2, con Cov > 0, los efectos combinados de error cabe esperar que se compensen disminuyendo el error total, ya que partes comunes de error deberían cancelarse al calcular la diferencia. Todo esto puede cuantificarse evaluando las varianzas respectivas (Cap. 5) encontrándose las expresiones i) Caso Y = X1 + X 2 , Var (Y ) = Var ( X1 ) + Var ( X 2 ) + 2Cov(X X1 , X 2 )
(8.5.10)
ii) Caso Y = X1 – X 2 , Var (Y ) = Var ( X1 ) + Var ( X 2 ) − 2Cov( X1 , X 2 )
(8.5.11)
ecuaciones que confirman las expectativas señaladas. El lector puede elaborar la discusión para los casos en los que Cov < 0 sin dificultad. Es fácil de entender que los problemas con variables dependientes van a presentar una casuística muy amplia, si bien la discusión formal se puede llevar a cabo utilizando las herramientas mostradas hasta aquí: desarrollo lineal de Taylor más cálculo de la varianza en la forma general Var (Y ) =
(Y − Y )
2
(8.5.12)
Al igual que ocurría con los errores sistemáticos, se desprende de esta discusión anterior que algunas contribuciones al error experimental no siempre se «suman».
La inducción de errores sistemáticos Un hecho muy llamativo asociado con los errores accidentales en las variables que se miden directamente es su capacidad de inducir la aparición de errores sistemáticos en las variables que se determinan indirectamente mediante fórmulas no lineales, incluso cuando hay una total ausencia de errores sistemáticos en la medición de las primeras. Estos sesgos inducidos por la aleatoriedad son normalmente muy pequeños y se pueden despreciar
489
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
frente a los vistos antes en el cómputo final del error total, aunque esto debe comprobarse en casos dudosos. El efecto de inducción que se discute está ausente de las dependencias puramente lineales. Es muy instructivo analizar cómo surgirían estos efectos en un caso sencillo del tipo Y = h(X), como sería la determinación indirecta del calor específico a volumen constante CV de un sólido en el límite de muy bajas temperaturas (ley del cubo de Debye) vía la medición directa de la temperatura absoluta T. El concepto de baja temperatura en este contexto depende del sólido considerado y se expresa como 0 < T(K) ≤ 0,1QD en donde QD es la temperatura de Debye del sólido (QD ≈ 158K para el sodio, 96K para el plomo, etc.) EJERCICIO 8.5.2 Estudiar la inducción de error sistemático en el calor específico CV de un sólido a baja temperatura (absoluta) T que se calcula con CV = aT3 (a = constante) si cada medida directa de la temperatura tiene un error e = T – T0 con respecto al valor real T0· e contiene en principio sólo errores sistemáticos y accidentales. El error exacto cometido en una medición particular de la temperatura se determina sencillamente como la diferencia
ε (CV ) = aT 3 − aT03 = a (T0 + ε
)
3
− T03 = a 3T02ε + 3T0 ε 2 + ε 3
Ahora bien, realizando muchas mediciones se puede calcular el error sistemático en CV como el promedio de los errores anteriores
ε sis. (CV ) = B(CV ) = aT 3 − aT03 = a 3T02 ε + 3T0 ε 2 + ε 3 expresión en la que aparecen fluctuaciones estadísticas de diferente orden relacionadas con la medida de la temperatura. Así se induce el error sistemático en CV, que por otra parte, si se supone que la medición de T está libre de errores sistemáticos, es decir si
ε = B(T ) = T − T0 = 0
490
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
entonces se tiene el resultado mencionado
εsis. ( CV ) = B (CV ) = aT 3 − aT03 = a 3T0 ε 2 + ε 3 en donde se aprecia que los errores accidentales por sí solos inducen errores sistemáticos en la magnitud derivada. Nótese que 具e典 = 0 no implica 具e2典 = 0 ni necesariamente que 具e3典 = 0.
8.6. Un caso de estudio: cálculo del error total de un índice de refracción Un fluido presenta un índice de refracción n que depende de la longitud de onda l de la luz incidente en la forma empírica n = A0 +
A1
(λ − A )
1,3
2
En diversos experimentos realizados a l = 5086 Å se han obtenido los siguientes resultados para los parámetros que intervienen en la fórmula Tabla 1. A0
A1
A2
1,42341
1080
1800
1,43210
1081
1798
1,42400
1082
1802
1,42800
1078
1795
1,42850
1077
1790
Si la medida de la longitud de onda se sabe que viene afectada de un error sistemático B(l) = –3 Å y de una precisión de escala de eesc.(l) = 1 Å, determinar cómo afectan todos los errores presentes en el experimento a la determinación del valor de n a l = 5086 Å. En este caso de análisis se dan los tres tipos de error en una medición indirecta: de escala y sistemático provenientes de l, y accidentales provenientes de los parámetros A0, A1 y A2. Por consiguiente el error total en el
491
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
índice de refracción vendrá dado por
ε Total ( n) = ε esc. ( n) + ε sis. ( n) + ε acc. ( n)
(8.6.1)
Hay que empezar calculando los valores medios y las desviaciones típicas muestrales de los parámetros y estas operaciones dan los resultados, necesarios para todas las evaluaciones siguientes, que se escriben a continuación A0 = 1, 427202; s( A0 ) = 0, 0035687561 A1 = 1079, 6;
s( A1 ) = 2, 073644135
A2 = 1797;
s( A2 ) = 4, 69041576
Aunque no son necesarios todos los decimales escritos, se van a conservar en los cálculos intermedios que siguen, ya que no representan ninguna carga con las calculadoras actuales recordando así que los redondeos, como norma general, se deben efectuar siempre al final. Los errores derivados de escala y sistemáticos se pueden calcular ya de forma directa. El error de escala es A1 ⋅1, 3 ∂n ε esc. (λ ) = × (1) = 1,142771⋅10 −5 2, 3 ∂λ 0 (λ − A
ε esc. ( n) =
2
)
A ⋅ ( −1, 3 ) ∂n ε sis. ( n) = ε sis. ( λ ) = 1 × ( −3 ) = 3, 428314 ⋅10 −5 2 ,3 ∂λ 0 ( λ − A2 )
(8.6.2)
(8.6.3)
El error accidental ligado a los parámetros requiere la evaluación de los cuadrados de las derivadas parciales multiplicadas por las varianzas muestrales, según la ecuación (8.5.6), y resultan ser 2
∂n 2 2 −5 ∂A s ( A0 ) = s ( A0 ) = 1, 27360201 ⋅10 0 0
(8.6.4)
2
∂n 2 1 ∂A s ( A1 ) = 10 (λ − A
)
2 ,6
2
) )
s2 ( A1 ) = 3, 08391489 ⋅10 −9
∂n 2 (1, 3 A1 s2 ( A ) = 2, 87303766 ⋅10−9 2 ∂A s ( A2 ) = 4,6 2 0 (λ − A 2
2
492
(8.6.5)
2
(8.6.6)
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
Ahora, la varianza accidental asociada con es la suma de las tres contribuciones anteriores 2
2
2
∂n 2 ∂n 2 ∂n 2 −5 s ( n) = s ( A0 ) + s ( A1 ) + s ( A1 ) = 1, 274198 ⋅10 ∂A0 0 ∂A0 0 ∂A1 0 2
(8.6.7)
dato que ya indica la preponderancia del error accidental en toda la estimación. Este error accidental con un intervalo de confianza del 95% hay que fijarlo utilizando la distribución t de Student para v = N – 1 = 5 – 1 = 4 gran) (4) dos de libertad, con el coeficiente crítico t(1– a/2 = t 0,975 = 2,78 y dividiendo s(n) – por √ 5 para obtener la desviación típica de la media ) ε acc. ( n) = anchura (95%) = t0( 4,975
s( n) 5
= 2, 78 ×
3, 569591 ⋅10−3 5
≈ 4, 44 ⋅10−3 (8.6.8)
El error total se obtiene ahora sumando las tres contribuciones tal y como se indica en (8.6.1) y se tienen finalmente para el índice de refracción en las condiciones del problema los resultados
ε esc. ( n) = 1.10 −5 ε sis. ( n) = 3 ⋅10−5 ε acc. ( n) = 4, 44 ⋅10 −3 ε Total ( n) = 4, 5 ⋅10 −3
n = 1, 4561 ± 0, 0045
493
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
BIBLIOGRAFÍA 1. SPIRIDONOV, V. P. y LOPATKIN, A. A., Tratamiento Matemático de Datos Fisico-químicos, Mir, Moscú, 1973. (Caps. 4, 5).
494
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
PROBLEMAS TEÓRICOS Y NUMÉRICOS
Problemas teóricos 8.1) Se determina indirectamente una variable aleatoria Y como una función producto de tres variables aleatorias independientes Y = X1X2X3. a) Obtener la expresión de la varianza y la del error relativo de Y en términos de las cantidades análogas de las variables. b) Discutir la aplicación de las expresiones anteriores al caso en el que X1 = X2 = X3. Suponer que sólo existen errores aleatorios. 8.2) Para una dependencia funcional Y = h(X1, X2) obtener la fórmula de la varianza en función de los errores accidentales que afectan a dos variables X1 y X2 correlacionadas, Cov(X1, X2) ≠ 0, y expresarla en términos del coeficiente de correlación. Efectuar el desarrollo con magnitudes poblacionales. 8.3) La ecuación de estado de un gas modelo hipotético que se utiliza en hidrodinámica (gas de Munk) se expresa como una función de la densidad r y se escribe 1 ρ P = A − tan −1 − ρ 1 + ρ2 en donde P es la presión, A una constante, y las unidades tomadas son arbitrarias. Si A está libre de error y la densidad viene afectada únicamente de errores accidentales, estudiar la propagación de estos errores en las estimaciones que se pueden hacer de la presión con esta ecuación calculando la desviación típica de la presión.
Problemas numéricos 8.4) La viscosidad de un gas simple (nitrógeno) se quiere evaluar mediante la fórmula
η = 1, 016
5 16 d 2
mkBT π
495
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
en donde m es la masa en gramos de una molécula (Pm = 28,0134 g/mol), la temperatura absoluta es T = 300 K, y el diámetro molecular d(cm), supuesta la molécula esférica, es una estimación estadística igual a d = 3,5 ± 0,05 Å (ängstroms). a) Si la temperatura se determina con un error sistemático de B(T) = –0,1 K, determinar la viscosidad y su error total resultante de la combinación de este error sistemático y el error accidental en d. Suponer que el diámetro d procede de una población Gaussiana de datos y que el resto de los parámetros están libres de error. b) Si el valor experimental de la viscosidad resulta ser en estas condiciones h ≈ 178 m poises, ¿qué conclusiones se pueden extraer de los resultados? kB = 1, 380658 ⋅10−23 J/ K , N0 = 6, 0221367 ⋅1023 molécculas/mol, 1Å = 10−8 cm =10 –10 m 1 µ poise = 10 −6 g ⋅ cm−1 ⋅ s−1 , 1 J = 1 kg ⋅ m2 ⋅ s−2 = 107 erg = 107 g ⋅ cm2 ⋅ s−2 8.5) El recorrido libre medio de una molécula de un gas simple es una función de la densidad en número r (moléculas por unidad de volumen) y del diámetro molecular d y se calcula como l=
1
1 2 π 2 ρd
Evaluar la propagación de los errores aleatorios en la densidad y en el diámetro molecular, determinando un intervalo de confianza Gaussiano del 95%, si estas magnitudes se conocen con los valores medios y desviaciones típicas que se indican a continuación: r = 0,0032(2) moléculas · Å–3, d = 3,50 ± 0,05 Å (1 Å = 10–8 cm = 10–10 m). 8.6) Un conjunto de cuatro condensadores para un aparato de calibración se montan en serie dando una capacidad total 1 1 1 1 1 = + + + C C1 C2 C3 C4 Los datos sobre las capacidades individuales de cada condensador (valores medios y desviaciones típicas en micro-micro faradios) son: C1 = 180 ± 0,5 mmf, C2 = 300 ± 1 mmf, C3 = 500 ± 1 mmf, C4 = 820 ± 2 mmf. Evaluar la capacidad del montaje y su error aleatorio total (intervalo Gaussiano del 95%).
496
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
8.7) La tensión superficial g de un determinado fluido a presión 1 atm responde a la ecuación
γ VM2 / 3 = (2,12) ( TC − T − 6
)
en donde VM es el volumen molar en cm3/mol, TC la temperatura crítica en Kelvin, T la temperatura a la que se mide en Kelvin y g viene dada en erg·cm–2. a) Detallar la construcción de la varianza de la tensión superficial. b) Evaluar esta última magnitud así como su error para las condiciones: VM = 18,001 ± 0,008 cc/mol, TC = 399,5 ± 0,05 K, T = 223 ± 0,05 K. Dar el intervalo de error como ±1 sigma considerando una distribución Gaussiana de errores. 8.8) La longitud de onda de de Broglie para un electrón acelerado a una alta velocidad v viene dada por la fórmula relativista
λe =
h v2 1− 2 m0 v c
en donde m0 es la masa en reposo del electrón. Calcular el valor de le así como el error total del que viene afectada cuando v = 150·106 ± 300 m·s–1. Tomar los valores c = 299792458 m·s–1, h = 6,6260755(40)·10–34 J·s, m0 = 9,1093897(54)·10–31 kg. A efectos de este problema considerar todos los errores como accidentales y calcular el intervalo de confianza Gaussiano para el error del 95%.
SOLUCIONES Problema 8.1 a) Utilizando la ecuación (8.5.4) es sencillo para y = x1x2x3 llegar a
)
)
σ Y2 = ( x2 x3 0 σ 12 + ( x1 x3 0 σ 22 + ( x1x2 )0 σ 32 = x22 x32σ 12 + x12 x32σ 22 + x12 x22σ 32 2
2
2
en donde los productos entre paréntesis (...)0 se calculan con los correspondientes valores medios de las variables que contienen. El error relativo se obtiene a partir de
497
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
δ Y2 =
σ Y2
σ Y2
=
σ 12
=
+
σ 22
+
σ 32
= δ X2 1 + δ X2 2 + δ X2 3
( y ) (x x x ) (x ) (x ) (x ) 2
0
2
1
2
2
3
1
2
2
2
3
y resulta
δ Y = + δ X2 1 + δ X2 2 + δ X2 3 b) En el caso y = x31 = x3 la aplicación del procedimiento general anterior da las expresiones correctas
( )
2
σ Y2 = 3 x12 σ 12 = 9 x 4σ 2 0
δ Y2 =
σ
2 Y
(y )
2
=
0
9 x4 2 σ = 9δ X2 x6
Sin embargo, la aplicación directa de las fórmulas obtenidas en a) da los resultados erróneos (*)
( )
σ Y2 (*) = 3 x14 σ 12 = 3 x 4σ 2 0
δ Y2 (*) =
σ
2 Y
(y ) 0
2
=
3x4 2 σ = 3δ 2X 6 x
que no coinciden con los basados en el procedimiento general. La razón está en que las ecuaciones obtenidas en a) están diseñadas para aplicarlas a variables independientes, algo que se pierde al igualarlas X1= X2 = X3 (Cov(X1, X1) = s21), y así los resultados b) (*) son totalmente incorrectos.
Problema 8.2 El primer paso es linealizar la dependencia funcional con el desarrollo de Taylor en torno a la media (m1, m2) ∂h ∂h y ≈ h( µ1 , µ2 ) + x1 − µ1 + ( ( x2 − µ2 ∂x1 x1 = µ1 ∂x2 x1 = µ1
)
x2 = µ2
498
x2 = µ 2
)
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
e identificar mY = h(m1, m2), operaciones para las que se supone que se verifican las condiciones de validez correspondientes. Ahora hay que calcular la varianza de Y
σ Y2 = Var (Y ) = (Y − µY
2
∂h ( x1 − µ1 ∂x 1 x1 = µ1
2
( x1 − µ1
)
)
2
2
∂h + ( x2 − µ2 ∂x2 x1 = µ1
)
2
x2 = µ2
∂h ∂x 1 x1 = µ1
∂h ∂h x −µ = x −µ + ∂x x = µ ( 1 1 ∂x x = µ ( 2 2 2 1 1 1 x1 = µ1 x2 = µ2 2 2
)
2
2
∂h + ∂x2 x1 = µ1
)
2
x2 = µ2
(x
2
− µ2
)
x2 = µ2
2
2
∂h ∂h + 2 ∂x1 x1 = µ1 ∂x2 x1 = µ1
)
∂h ∂h ∂h σ12 + σ 22 + 2 ∂x ∂x2 x1 = µ1 1 x1 = µ1 ∂x1 x1 = µ1 x2 = µ2 2
x2 = µ2
x2 = µ2
=
)
x2 = µ2
=
x2 = µ2
x2 = µ2
2
)
)
2
x2 = µ2
2
∂h ∂h +2 ( x1 − µ1 ( x2 − µ2 ∂x1 x1 = µ1 ∂x2 x1 = µ1 x2 = µ2
x2 = µ2
( x − µ )( x 1
1
2
− µ2 =
x2 = µ2
∂h Cov( X1 , X 2 ) = ∂x 2 x1 = µ1 x2 = µ2
∂h ∂h ∂h ∂h σ12 + σ 22 + 2 σ1σ 2 ρ12 ∂x 1 x1 = µ1 ∂x2 x1 = µ1 ∂x1 x1 = µ1 ∂x2 x1 = µ1 x2 = µ2
x2 = µ2
y este es el resultado buscado. Recuérdese que a efectos formales el tratamiento de Xi y de xi es idéntico, siempre que xi no simbolice un valor particular de la variable.
Problema 8.3 En este caso al tratarse sólo con una variable se puede obtener directamente la desviación típica sP como
σP ≈
dP σ dρ 0 ρ
en donde la derivada es
499
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
dP d 2ρ 2 ρ −1 / ρ 2 1 + ρ 2 − 2ρ 2 −1 −1 =− tan ρ + = = − + 2 1 + 1 / ρ2 dρ dρ 2 1 + ρ 2 1 + ρ2 1+ ρ
(
)
(
)
2
y al introducirla en el cálculo de sP debe tomarse en el valor medio de la densidad r = r0 = r–
σP ≈
2ρ 2
(
1+ ρ2
)
2
σρ
Problema 8.4 a) Conviene primero separar los factores variables de los constantes en el cálculo
η = 1, 016
5 16
mkB T 1/ 2 T 1/ 2 cte = ⋅ π d2 d2
Hecho esto se determina la constante cte que se sabe, a efectos de este problema, no va estar afectada de errores de entrada. Utilizando unas de las unidades típicas del trabajo con magnitudes atómicas (sistema cgs: masa en gramos —g—, distancia en centímetros —cm—, tiempo en segundos —s—, energías en ergios —erg—) se tiene cte = 1, 016
5 mkB 5 1 28, 0134 g/mol × 1, 380658 ⋅10−16 erg/K = 1, 016 × 16 π 16 π 6, 0221367 ⋅1023 moléculas/mol
o si se prefiere el sistema internacional cte = 1, 016
mol 5 mkB 5 1 28, 0134 ⋅10−3 kg/m × 1, 380658 ⋅10−23 J / K = 1, 016 × 23 16 π 16 π 6, 0221367 ⋅10 moléculas/mol
con lo que se obtiene cte = 1, 43555375 ⋅10 −20 g ⋅ cm ⋅ s−1 ⋅ K −1/ 2 = 1, 43555375 ⋅10 −25 kg ⋅ m ⋅ s−1 ⋅ K −1/ 2
500
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
dos resultados equivalentes que pueden transformarse sencillamente uno en otro con 1 kg = 1000 g, 1 m = 100 cm. Nótese que las unidades de las magnitudes que intervienen se comportan como «números» con respecto a las operaciones en las que intervienen (análisis dimensional). Si se utiliza el sistema cgs habrá que calcular la viscosidad y su error con d expresado en cm, d = (3,5 ± 0,05) ¥ 10–8 cm, en tanto que con el internacional d debe ir expresado en metros, d = (3,5 ± 0,05) ¥ 10–10 m. El dato experimental final del enunciado está dado en unidades cgs y transformado al sistema internacional resulta 178 µ poises = 178 ⋅10−6 poises = 178 ⋅10 −6
g ⋅ 10 −3 kg / g −1 s = 178 ⋅10 −7 kg ⋅ m−1 ⋅ s−1 −2 cm ⋅10 m / cm
178·10–7 kg·m–1·s–1 = 178·10–7 decapoises Es muy útil manejar estos y otros cambios de unidades y se recomienda al lector que los practique para aumentar su capacidad de respuesta y flexibilidad de cálculo a la hora de abordar cuestiones y problemas. La viscosidad toma el valor
η = cte
T 1/ 2 = 2, 0297568 ⋅10 −4 g ⋅ cm−1 ⋅ s−1 = 2, 0297568 ⋅10 −5 kg ⋅ m−1 ⋅ s−1 = 2 d 202, 97568 ⋅10 −7 kg ⋅ m−1 ⋅ s−1
Repárese en que se está trabajando con el valor medio del diámetro molecular y que por simplicidad en la notación se omite en su escritura la barra superior habitual para indicar este hecho. El error sistemático se propaga como ∂η 5375 ⋅10−25 1, 43555 cte ε sis. (η ) = B(T ) = 2 B(T ) = ( −0,1) = 2 ∂T 0 2d T 2 3, 5 ⋅10 −10 300
(
)
− 0, 0338292793 ⋅10 −7 kg ⋅ m−1 ⋅ s−1 Por lo que respecta a la varianza o directamente a la desviación típica accidental se encuentra
501
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
σ (η ) =
1, 43555375 ⋅10 0 −25 300 ∂η −2cte T 2 σ ( d) = σ ( d ) = × 0, 05 ⋅10 −10 = 3 ∂d 0 −10 d3 3, 5 ⋅10 0
)
(
(
)
5, 79930503 ⋅10 −7 kg ⋅ m−1 ⋅ s−1 Puede verse que la principal contribución al error de la viscosidad del nitrógeno gaseoso procede de la indeterminación en el diámetro molecular. Si se supone ahora que la población de donde se ha extraído el valor del parámetro d es Gaussiana y se quiere un intervalo de confianza del 95% para caracterizar el error, esto lleva a
ε acc. (η )95% = 1, 96 ⋅ σ (η ) = 1, 96 ⋅ 5, 79930503 ⋅10 −7 = 11, 3666379 ⋅10 −7 kg ⋅ m−1 ⋅ s−1 El error total es la suma algebraica
)
ε Total (η ) = ε sis. (η ) + ε acc. (η ) = ( −0, 0338292793 + 111, 3666379 × 10 −7 ≈ 11, 33 ⋅10−7 kg ⋅ m−1 ⋅ s−1 y así, finalmente, se tiene la estimación de la viscosidad siguiente
η = (203 ± 11) × 10 −7 kg ⋅ m−1 ⋅ s−1 = ( 203 ± 11) × 10 −7 decapoises Nótese que se han conservado muchos más decimales de los necesarios para la precisión final del problema. Esto no representa ninguna dificultad práctica con las calculadoras que se utilizan hoy. Sin embargo, la respuesta final sólo contiene cifras significativas para el problema. b) En cuanto a la comparación con el dato experimental hexp = 178·10–7 kg·m–1·s–1 se ve que este valor queda fuera de la franja de errores calculada. Aumentando la confianza al 99% en la estimación eacc-(h) tampoco se consigue incluir el resultado experimental dentro de la banda de errores, si bien esta ampliación es ya cuestionable como se sabe por la técnica de verificación de hipótesis. Al margen de las consideraciones ligadas al hecho de la aproximación de esfericidad para una molécula biatómica, hay que pensar pues que el diseño del experimento previo para determinar d presenta problemas de procedimiento. Claramente, esto era fácil de anticipar, pues una pequeña inspección de la fórmula ya pone de manifiesto que este parámetro debe de ser d > 3,5 Å para poder obtener una estimación mejor de la viscosidad media. No obstante, el objetivo del problema es el de ilustrar técnicas útiles en el contexto de los errores de medición.
502
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
Problema 8.5 El valor del recorrido libre medio está dado por l=
10 −10 = 5, 7418 ⋅10−10 m = 5, 7418 Å 2 π 2 0, 0032 ⋅ 3, 5 1
En este caso la varianza del recorrido libre medio viene dada por 2
2
∂l ∂l σ = σ ρ2 + σ d2 ∂d 0 ∂ρ 0 2 l
siendo las derivadas parciales ∂l 1 1 =− ; 2 2 ∂ρ π 2ρ d
∂l 2 1 =− ∂d π ρ d3
Es interesante observar que las unidades de longitud en las que se puede trabajar en los cálculos intermedios son arbitrarias, en tanto se mantengan las mismas en la densidad (división por una longitud al cubo) que en el cuadrado del diámetro: el resultado es una longitud para l, o el cuadrado de una longitud para si2,en la unidad elegida. Utilizando Å el cálculo se plantea
σ l2 =
1 0, 00022 2 0, 052 + 2π 2 0, 00324 ⋅ 3, 54 π 2 0, 00322 ⋅ 3, 56
El uso de la longitud en m sólo modifica la expresión anterior en que hay que multiplicarla por 10–20. Con ello
σ l = 0, 3946 Å = 0, 3946 ⋅10 −10 m y el valor del recorrido libre medio l estará caracterizado por el intervalo Gaussiano de error al 95% l = 5, 7418 ± 1, 96 ⋅ 0, 3946 ≈ 5, 74 ± 0, 77 Å = (5, 74 ± 0, 77) × 10 −10 m
503
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Problema 8.6 La capacidad media resultante del montaje es 1 1 1 1 1 1117 = + + + = → C = 82, 587287 µµ f C 180 300 500 820 92250 La evaluación de la varianza de esta capacidad se efectúa calculando 2
2
2
2
∂C 2 ∂C 2 ∂C 2 ∂C 2 σ = σ C 3 + ∂C σ C 4 σ C1 + ∂C σ C 2 + ∂C C3 0 ∂C1 0 4 0 2 0 2 C
Como las cuatro variables independientes del problema se comportan de manera completamente simétrica, se tiene que ∂C C 2 = , i = 1, 2, 3, 4 ∂Ci Ci2 y entonces 4
4
4
4
C C C C σ = σ C2 1 + σ C2 2 + σ C2 3 + σ C2 4 = C1 0 C4 0 C2 0 C3 0 2 C
4
92250 0, 52 12 12 22 + + + = = 0, 017978 → σ C = 0,134083 µµ f 1117 180 4 300 4 500 4 820 4 Utilizando el intervalo Gaussiano del 95% se obtiene la estimación para la capacidad media C = 82, 587287 ± 1, 96 ⋅ 0,134083 → C = 82, 59 ± 0, 26 µµ f
Problema 8.7 a) La tensión superficial se expresa como
)
γ = (2,12)VM−2 / 3 ( TC − T − 6 = cte ⋅ VM−2 / 3 ( TC − T − 6
504
)
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
Utilizando el desarrollo de Taylor en torno a los valores medios de las variables y truncando a la parte lineal resulta la aproximación 2 γ − γ ≈ cte. − VM−5/ 3 ( TC − T − 6 VM − VM + VM−2 / 3 TC − TC − VM−2/ 3 T − T 3
)
)(
(
)
(
)
en donde se ha asimilado
γ ≈γ
(V
M
, TC , T
)
La construcción de la varianza es inmediata a partir de la expresión anterior suponiendo variables independientes. Por un lado se tiene el promedio estadístico sg2 = 具(g – 具g典)2典. Por el otro, la suma de las varianzas parciales de cada término de la derecha dan la expresión buscada 2 4 2 σ γ2 ≈ cte2 VM−10 / 3 (TC − T − 6 σ V2 + cte2VM−4 / 3σ Tc + cte2VM−4 / 3σ T2 9
)
b) El valor de la tensión superficial media es
)
γ = (2,12) VM−2 /3 (TC − T − 6 = 2,12 ⋅
(399, 5 − 223 − 6 ) = 5, 262545 ⋅10 (18, 001)
1
3
2
erg ⋅ cm−2
y su varianza resulta
(2,12)
399, 5 − 223 − 6 4 ( σ = 3 18, 0012 18, 0014 9 2
2 γ
)
2
0, 0082 + 0, 052 + 0, 052 = 7,194415 ⋅10 −4
Finalmente el intervalo de confianza Gaussiana del 68,27% (un-sigma)
γ = (52, 625 ± 0, 027 ) ⋅ erg ⋅ cm−2
Problema 8.8 El cálculo del valor medio de la longitud de onda es simple y da
λ e = 4,19861637 ⋅10 −12 m
505
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Como en los problemas anteriores las cifras decimales finales a considerar en la respuesta vienen determinadas por el cálculo de la varianza y de la desviación típica. Hay que calcular las derivadas parciales con respecto a cada factor afectado de error que interviene en la definición de la longitud de onda de de Broglie, encontrándose 1
∂λ e ∂h
0
1 v2 2 = = − 1 m0 v c2 0
)
(
2
150 ⋅106 1 − = 1 = 6, 33650548 ⋅1021 −31 6 2 299 792 458 9,1093897 ⋅10 ⋅150 ⋅10 1
∂λ e ∂m0
0
h v2 2 = − = 1 ( m0 )2 v c2 0
=
(9,1093897 ⋅10 ) ⋅150 ⋅10 −31
∂λ e ∂v
1 6 150 ⋅10
(
2
0
)
2
(150 ⋅10 ) 6
6, 6260755 ⋅10−34
1− 6
299 792 458
1 − h 1 v2 2 1 v2 = 1 − 2 − 2 1 − 2 − m0 v2 c c c
(
)
2
1 2
= 4, 60910830 ⋅1018
2
6, 6260755 ⋅10 −34 × = 9,1093897 ⋅10 −31 0
)
(
2 6 150 10 ⋅ 150 ⋅10 1 + 1− 1− 2997924582 2997924582 299 792 4582 6
2
−
1 2
= 3, 73382728 ⋅10−20
La varianza está dada por 2
σ
506
2 λe
2
2
∂λ 2 ∂λ ∂λ + e σ v2 = 1, 380921 ⋅10 −34 = e σ 2h + e σ m ∂h 0 ∂m0 0 0 ∂v 0
EL TRATAMIENTO DE ERRORES EN DATOS EXPERIMENTALES
y la solución con el intervalo Gaussiano del 95% para el error, calculando la anchura de éste como 1,96sl, finalmente es
λ e = ( 4,198616 ± 0, 000023) ⋅10 −12 m = ( 4,198616 ± 0, 000023 ) ⋅10 −2 Å. El lector puede comprobar cómo la mayor fuente de error en este caso es la indeterminación en la velocidad.
507
IV SIMULACIÓN DE PROCESOS Y VALIDACIÓN DE MÉTODOS
9. Métodos avanzados de cálculo y de simulación numérica 10. Métodos estadísticos de simulación y validación
CAPÍTULO 9 MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
A. La aproximación trigonométrica 9.1. Polinomios trigonométricos B. Simulación numérica de procesos deterministas 9.2. Ecuaciones diferenciales: generalidades 9.3. Ecuaciones diferenciales ordinarias 9.4. Ecuación diferencial de primer orden y primer grado (valor inicial) 9.5. Ecuación diferencial de segundo orden (valores iniciales) 9.6. Problemas de valores de frontera C. Diagonalización de matrices reales y simétricas 9.7. Conceptos generales 9.8. Método del polinomio característico: cálculo de autovectores 9.9. Método de Jacobi 9.10. Tests de diagonalización y técnicas complementarias Bibliografía Problemas teóricos y numéricos
Se tratan cuestiones avanzadas relacionadas con la simulación de procesos haciendo énfasis en los aspectos puramente numéricos, completando así temas vistos en la primera parte del texto. En primer lugar se comienza con la aproximación trigonométrica (o suma de Fourier) que está estrechamente relacionada con los desarrollos en conjuntos ortogonales (Cap. 2). Se continúa después con la resolución numérica de ecuaciones diferenciales ordinarias para simular procesos deterministas y, finalmente, se pasa a la diagonalización de matrices reales y simétricas. En cuanto a las aproximaciones trigonométricas se considerará cómo representar funciones periódicas definidas por una tabla de datos mediante desarrollos polinómicos finitos en la base trigonométrica compuesta por senos y cosenos (sumas trigonométricas). Por lo que respecta a la resolución numérica de ecuaciones diferenciales ordinarias se tratarán, por su impor-
511
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
tancia en las aplicaciones, los casos más sencillos del problema de valores iniciales: primer orden, segundo orden, y el caso asociado de dos ecuaciones diferenciales de primer orden acopladas. Se presentan los esquemas convencionales (Euler y Runge-Kutta), así como los enfoques basados en algoritmos predictorcorrector (Euler y Adams). También se presta algo de atención a las complicadas cuestiones del error y la estabilidad en este campo numérico y se analiza un sencillo ejemplo de problema de valores en la frontera con una ecuación diferencial lineal de segundo orden. La tercera parte de este capítulo se concentra en la diagonalización numérica de matrices cuadradas reales y simétricas, empezando por el método que conecta con el Cap. 4, el método del polinomio característico. De las raíces (todas reales) de este polinomio se obtienen los autovalores (las energías en un cálculo de orbitales moleculares, por ejemplo) y con ellas, a través de la resolución del sistema homogéneo de ecuaciones lineales asociado, los autovectores (los orbitales moleculares propiamente dichos en el ejemplo comentado). Esta es una técnica correcta pero muy poco eficiente a medida que el orden de la matriz a diagonalizar crece. Por ello, se explica también el fundamento del método de diagonalización (iterativa) de Jacobi, que utiliza matrices de rotación parciales para eliminar (hacer cero) los elementos de la matriz simétrica original situados fuera de la diagonal principal. Finalmente, se dan algunos «tests» útiles para detectar errores en la diagonalización.
Aproximación trigonométrica Sumas de Fourier Ortogonalidad (discreta) Suma de senos y cosenos
EC. diferenciales ordinarias Primer y segundo orden Sistemas Euler Runge-Kutta (IV) Métodos Predictor-Corrector Problemas de Valores en Fonteras
Diagonalización de matrices Matrices reales y simétricas Polinomio característico Jacobi (rotaciones) Tests
512
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
A. LA APROXIMACIÓN TRIGONOMÉTRICA Aquí van a tratarse los casos excepcionalmente importantes en las aplicaciones de representación de funciones periódicas utilizando funciones trigonométricas. Este es un paso más en la línea de la aproximación de funciones utilizando desarrollos que involucran conjuntos de funciones ortogonales (Cap. 2), bien en forma de serie o de suma finita. Toda la teoría básica presentada anteriormente se complementa ahora con la discusión de los polinomios trigonométricos que se aplican en el caso discreto. El lector puede encontrar una breve presentación de la base de Fourier para el caso continuo en el Apéndice II, que le servirá como un buen recordatorio para, vía comparación, entender este nuevo asunto en el caso discreto. Así, en el caso continuo las funciones analíticas periódicas y = f(x) se desarrollan utilizando esencialmente la base completa de Fourier estándar formada por las funciones trigonométricas {fm(z)}m=0,⬁ = {1, sen nz, cos nz}n=1,⬁, definidas en 0 ≤ z ≤ 2p (o en –p ≤ z ≤ p). En el caso discreto de funciones tabulares y con periodicidades arbitrarias la base de desarrollo también involucra el mismo tipo general de funciones de base, pero con una adaptación especial a los datos tabulares concretos que presentan periodicidad. Es muy importante insistir en que las aproximaciones trigonométricas en general son cruciales en una gran diversidad de problemas como son: el análisis cristalográfico por rayos X, el análisis de señales con la descomposición en armónicos de una onda, la representación de funciones de onda en Mecánica y Química Cuánticas, la resolución de ecuaciones diferenciales en derivadas parciales típicas de los fenómenos de transporte (la ecuación de transmisión de calor), y otras muchas. Además, todo lo que se trata en esta sección está fuertemente relacionado con las aproximaciones mediante polinomios de Tschebyscheff vistas en el Cap. 2 y con las transformadas de Fourier analítica y numérica, que tienen una amplia aplicación en las técnicas espectroscópicas modernas.
9.1. Polinomios trigonométricos Va a considerarse aquí el problema de la función periódica (o artificialmente hecha periódica por conveniencia) dada por una tabla de M + 1 datos discretos {(xk, yk)}k=0,M. Este es un asunto muy importante por su relación con
513
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
la transformada de Fourier numérica, pues sirve como una buena preparación previa a este tema que se escapa de los objetivos de este curso. En lo que sigue se supondrá la tabla igualmente espaciada, xk+1 – xk = h = constante > 0, en donde como de costumbre k = (x – x0)/h, y el objetivo será encontrar el polinomio trigonométrico que coloque dicha tabla. Ahora hay que prestar atención al hecho de que las relaciones de ortogonalidad (A.II.2)-(A.II.4) para la base continua no son adecuadas para representar esta propiedad cuando se tiene una tabla de datos. Por ejemplo, no toda discretización de aquellas relaciones continuas conduce a la ortogonalidad deseada. Así, para (A.II.4) en un periodo arbitrario xa ≤ x ≤ xb, y con un número arbitrario de puntos tabulares M + 1 es fácil ver que en general se tendrá
∫
xb
M
sen mx ⋅ cos nx dx ≈
xa
∑∆
k
sen mxk cos nxk ≠ 0; xa ≤ xk ≤ xb
(9.1.1)
k=0
con lo que el comportamiento de la suma no va a reproducir exactamente el de la integral y se pierden las muchas ventajas que trae la ortogonalidad. Por ello en este caso discreto hay que afinar más y, aunque se repesquen las propiedades de periodicidad en 0 ≤ x ≤ 2p por razones obvias de comodidad, hay que trabajar con bases adaptadas a cada problema, según que la tabla presente un número impar (M + 1 = 2L + 1) o un número par (M + 1 = 2L) de datos. Así, se tienen las aproximaciones generales a la función tabular {y(xi)}i=0,M y( x) ≈ F
2 L +1
a ( x) = 0 + 2
y( x) ≈ F 2 L ( x) =
a0 + 2
L
∑ ( a cos nx + b sen nx) ; n
n
M + 1 = 2 L + 1 (impar)
(9.1.2)
n =1
L −1
∑ ( a cos nx + b sen nx) + 2 a cos Lx; 1
n
n
L
M + 1 = 2 L (par) (9.1.3)
n =1
Cambios de variable Para simplificar y aprovechar al máximo las propiedades periódicas de las funciones de base se imponen cambios de variable que permitan trabajar, no con el intervalo original x0 ≤ x ≤ xM, sino con el intervalo estándar 0 ≤ z < 2p y la tabla {(zk, yk)}k=0,M. Para el caso impar este cambio es
514
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
z=
)
(
2π x − x0 2π k = ; 2L + 1 h 2L + 1
M + 1 = 2 L + 1; 0 ≤ k ≤ M
(9.1.4)
mientras que para el caso par se tiene z=
)
π ( x − x0 πk = ; M + 1 = 2L; 0 ≤ k ≤ M L h L
(9.1.5)
Esto implica que se trabajará con las aproximaciones en las formas (9.1.2) y (9.1.3) F 2 L +1 ( z) =
F 2 L ( z) =
a0 + 2
a0 + 2
L
∑ ( a cos nz + b sen nz) ; n
n
M + 1 = 2 L + 1 (impa ar)
(9.1.6)
n =1
L −1
∑ ( a cos nz + b sen nz) + 2 a cos Lz; 1
n
n
L
M + 1 = 2 L (par) (9.1.7)
n =1
y que una vez fijados los coeficientes, como se va a ver después, se transformarán a la variable original x, si fuera necesario, con los cambios dados en (9.1.4) y (9.1.5). Hay que señalar que el punto z = 2p se omite, como parte de los puntos tabulares transformados, ya que pudiera no respetarse la continuidad en los valores yk de la función de entrada (y0 ≠ yM) y, además, por razones de ortogonalidad. Del modo indicado arriba z = 2p se visualiza como idéntico a z = 0, y lo que ocurra entre z(k = M) y z = 2p resulta irrelevante a efectos del ajuste de la tabla, ajuste que tiene la periodicidad garantizada por construcción. El beneficio principal de estos cambios de variable es que las funciones base del desarrollo, cos nz y sen nz (n = 0, 1, 2, ...), satisfacen relaciones de ortogonalidad sobre estos conjuntos de puntos discretos {zk}, en una forma similar a lo mencionado en (2.5.23) conectado con los polinomios {Tn(x)}n=0,⬁. Ortogonalidad en el caso de número impar de puntos Para un número impar de datos, M + 1 = 2L + 1, se tiene 0 si n ≠ m, n = m = 0, n = 0 o m = 0 sen nzksen mzk = 2 L + 1 si n = m ≠ 0 k=0 2 2L
∑
(9.1.8)
515
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
2L
∑ sen nz cos mz k
k
= 0; para todo n y m
(9.1.9)
k= 0
0 si n ≠ m 2L + 1 cos nzk cos mzk = si n = m ≠ 0 2 k= 0 2 L + 1 si n = m = 0 2L
∑
(9.1.10)
en donde n y m toman valores = 0, 1, 2, ..., L.
Ortogonalidad en el caso de número par de puntos Análogamente, para un número par de datos, M + 1 = 2L, las relaciones son 2 L −1
∑ sen nz sen mz k
k
k=0
0 = L
si n ≠ m, n = 0 o m = 0 si n = m ≠ 0
(9.1.11)
2 L −1
∑ sen nz cos mz k
k
= 0; para todo n y m
(9.1.12)
si n ≠ m si n = m ≠ 0 si n = m = 0
(9.1.13)
k=0
0 cos nzk cos mzk = L 2 L k=0
2 L −1
∑
en donde n y m toman valores = 0, 1, 2, ..., L (los índices de las funciones seno van de 0 a L – 1).
Relaciones útiles En la demostración de las relaciones anteriores es útil reducir los productos de las funciones trigonométricas a sumas 1 sen A . sen B = − cos( A + B) − cos( A − B) 2
516
(9.1.14a)
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
sen A .cos B =
1 sen ( A + B) + s en ( A − B) 2
(9.1.14b)
cos A .cos B =
1 cos ( A + B) + cos ( A − B) 2
(9.1.14c)
y, además, hay que tener en cuenta las propiedades de simetría de las sumas sobre senos y sobre cosenos que hacen que estas sumas se anulen. Un ejemplo muy conocido de este hecho es la anulación por simetría de la suma de las j raíces complejas de la unidad, que se obtienen como j
1 = cos
2 kπ 2 kπ + i sen ; k = 0,1, 2,..., j − 1 j j
(9.1.15)
y que conducen a las dos relaciones idénticamente nulas j −1
j −1
2 kπ 2 kπ cos = sen =0 j j k= 0 k=0
∑
∑
(9.1.16)
cuyas representaciones gráficas coinciden con la de un conjunto de j vectores en el plano con origen común en (0,0) y con sus extremos repartidos simétricamente sobre la circunferencia unidad.
Cálculo de los coeficientes El polinomio de colocación trigonométrico para la tabla {(zk, yk)}k=0,M toma las formas ya dadas más arriba dependiendo de si M + 1 es par o impar. Si se aplica un criterio de mínimos cuadrados, al ser colocación, el error cuadrático será idénticamente nulo, y esta operación permite determinar los coeficientes incógnita haciendo uso de las relaciones de ortogonalidad sobre los puntos zk concretos que se explicitan en (9.1.4) y (9.1.5) con los valores discretos enteros de k = 0, 1, 2, ..., M. Para el caso M + 1 = 2L + 1 habría que minimizar a0 S2 L +1 = − yk − 2 k=0 2L
∑
L
∑( n =1
an cos nzk + bnsen nzk
)
2
(9.1.17)
517
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Para ello se calculan las derivadas parciales de S2L+1 con respecto a an y bn(n = 0, 1, 2, ..., L) y tras igualar a cero se obtiene 2L
a0 1 y = 2 2 L + 1 k= 0 k
∑
(9.1.18)
2L
aj =
∑
2 y cos jzk 2L + 1 k= 0 k
(9.1.19)
2L
∑
2 bj = y sen jzk 2L + 1 k= 0 k
(9.1.20)
en donde j = 1, 2, 3, ..., L. De igual manera para el caso M + 1 = 2L habría que minimizar S2 L =
2 L −1
∑ k=0
a0 − yk − 2
L −1
∑( n =1
1 an cos nzk + bnsen nzk − aL cos Lzk 2
2
)
(9.1.21)
y tras igualar a cero las correspondientes derivadas parciales se obtiene a0 1 = 2 2L aj = bj = aL 1 = 2 L
1 L
2 L −1
∑
yk cos Lzk =
k=0
en donde j = 1, 2, 3, ..., L – 1.
518
1 L
2 L −1
∑y
(9.1.22)
k
k= 0
2 L −1
∑ y cos jz k
(9.1.23)
k
k=0
2 L −1
∑ y sen jz k
(9.1.24)
k
k= 0
1 L
2 L −1
∑ k= 0
2 L −1
yk cos kπ =
∑
1 ( −1) k yk L k=0
(9.1.25)
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
Expresiones finales En términos de su variable natural x los dos polinomios trigonométricos anteriores son
)
(
)
(
2π x − x0 2π x − x0 + bn sen n (9.1.26) an cos n 2 1 L + h L h 2 1 + n =1 a F 2 L ( x) = 0 + 2 (9.1.27) L −1 π x − x0 π x − x0 1 x − x0 + b sen n + a cos π an cos n h 2 L h h n L L n =1
F
2 L +1
∑
a ( x) = 0 + 2
L
∑ (
)
(
)
(
)
en donde la variable puede tomar cualquier valor en x0 ≤ x ≤ xM. Hay que insistir en que es siempre preferible trabajar con la variable reducida k en el cálculo numérico concreto. La comprobación de que los anteriores son verdaderos polinomios de colocación a la tabla de datos se deja como ejercicio al lector. A partir de las expresiones anteriores es inmediato establecer que el truncamiento de estos polinomios a un cierto orden m < L da una aproximación de mínimos cuadrados a la tabla numérica de entrada. Estos truncamientos presentan propiedades de «suavidad» muy útiles cuando se está interesado en calcular derivadas numéricas de funciones tabulares. Finalmente, las expresiones discretizadas F2L+1(x) (9.1.26) y F2L(x) (9.1.27) guardan una estrecha relación con la forma continua F(x) de las series de Fourier (A.II.5), pues los coeficientes del desarrollo de esta última dados por integrales definidas pueden evaluarse numéricamente como sumas finitas (discretización).
B. SIMULACIÓN NUMÉRICA DE PROCESOS DETERMINISTAS 9.2. Ecuaciones diferenciales: generalidades Un gran número de cuestiones en química y en física admiten y/o necesitan una formulación en términos de ecuaciones diferenciales. Estas cuestiones pueden estar ligadas a procesos dinámicos de evolución temporal o
519
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
a situaciones estáticas que se resumen en campos que actúan sobre los sistemas estudiados, siendo en estos casos conocidas las ecuaciones diferenciales a las que responden. En muchas otras ocasiones el comportamiento de los sistemas bajo estudio debe ser modelizado, siguiendo el comportamiento experimental conocido, por medio de ecuaciones diferenciales. En la mayoría de los casos de interés la obtención de solución es numérica y el conocimiento de los métodos para lograrla es por consiguiente una necesidad. Las ecuaciones diferenciales se clasifican en las ordinarias y las de derivadas parciales. Las ecuaciones diferenciales ordinarias se formulan con dos variables, la variable independiente x y la variable dependiente y, y también pueden aparecer las derivadas y¢(x), y¢¢(x), ..., y(n(x). Ejemplos sencillos son y' =
dy = f ( x, y); (ecuación de primer orden y primerr grado) dx
(9.2.1)
y '' =
d2 y = f ( x, y, y '); (ecuación de segundo orden n y primer grado) dx2
(9.2.2)
y sus soluciones viene dadas por haces de curvas en el plano xy. Cuando se especifican condiciones iniciales, (x0, y0) en el primer caso, o (x0, y0, y¢0) en el segundo, se está interesado en conocer cuál de las soluciones del haz integral cumple tales condiciones. El problema típico aquí es el de la variación temporal de una magnitud, como es utilizando las ecuaciones de movimiento de Newton la determinación de la trayectoria de una partícula clásica en un campo de fuerzas F conocidas su posición y velocidad iniciales (instante t0). En una dimensión esto se formula como m
d2 x = F (t, x, x '); dt 2
( t0 , x0 , x0′ )
(9.2.3)
en donde m es la masa de la partícula y se ha utilizado la nomenclatura habitual x = x(t), con t (tiempo) jugando el papel de variable independiente y x (coordenada) jugando el papel de variable dependiente. Otra magnitud que varía con el tiempo es la concentración c de un componente (reactivo o ÆB producto) de una reacción química, lo que para una reacción del tipo A ¨ (isomerización) se expresa mediante la ecuación cinética
520
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
dc = f (t , c); dt
(t0 , c0 )
(9.2.4)
Dentro de las ecuaciones ordinarias una posibilidad muy interesante en las aplicaciones es la de los problemas de valores de contorno (o de frontera), en los que la solución buscada debe satisfacer condiciones en más de un punto. Para ecuaciones en una dimensión y¢¢ = f(x, y, y¢) estas condiciones toman la forma: y(x = a) = ya, y(x = b) = yb. Este es el caso, por ejemplo, de la ecuación de Schrödinger para la partícula en una caja de potencial monodimensional −
2 d 2ψ = Eψ ; 0 ≤ x ≤ L 2m dx2
(9.2.5)
en donde se exige y(x = 0) = y(x = L) = 0 y se tiene así un problema de valores propios, en el que sólo determinados valores de E (la energía) son compatibles con la existencia de soluciones y aceptables. En realidad este es un caso más sencillo (y que se resuelve exactamente) de lo que puede parecer a primera vista y hay que incluir la condición de normalización de y para fijar las soluciones. En cuanto a las ecuaciones diferenciales en derivadas parciales implican ya a más de una variable independiente y, entre otros fenómenos, están relacionadas con los de transporte en medios, o con las propiedades de un sistema que dependen de la posición. Ejemplos son la ecuación de difusión de materia en una dimensión ∂c ∂2 c = D 2 ; c = c ( t , x) ∂t ∂x
(9.2.6)
o la ecuación de Poisson para el potencial eléctrico F creado por una distribución de cargas r(r) en tres dimensiones ∂2 ∂2 ∂2 ρ(r ) 2 + 2 + 2 Φ = − ; ε0 ∂x ∂y ∂z
Φ = Φ( x, y, z)
(9.2.7)
Las dos ecuaciones anteriores van acompañadas de las correspondientes condiciones que c(x, t) y F(x, y, z) deben satisfacer en cada caso. Todo lo dicho hasta aquí no es más que una muy ligera presentación de las ecuaciones diferenciales para situar al lector en el tema. Para discusiones
521
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
completas puede éste dirigirse a cualquiera de los muchos y buenos textos especializados que se dedican a ello. En este curso van a estudiarse las soluciones numéricas para algunos casos de interés de las ecuaciones diferenciales ordinarias.
9.3. Ecuaciones diferenciales ordinarias Casos de estudio Los tipos de ecuación diferencial que se tratarán aquí van a ser las ecuaciones ordinarias de primer y segundo orden, pues son centrales en muchas aplicaciones de interés. En concreto el estudio se centrará en los casos siguientes a) y ' =
dy = f ( x, y); dx
y0 = y( x0 )
(9.3.1)
b) y '' =
d2 y = f ( x, y, y '); y0 = y( x0 ), y0′ = y ′( x0 ) dx2
(9.3.2)
y la extensión a sistemas de dos ecuaciones diferenciales de primer orden acopladas. c) y '' =
d2 y = f ( x, y, y ') = f1 ( x) y ' + f2 ( x) y + f3 ( x); ya = y( xa ), yb = y( xb ) (9.3.3) dx2
Los casos a) y b) son del tipo de valores iniciales, de primer y segundo orden, y ambos de primer grado. El caso c) es el caso especial lineal de segundo orden y primer grado con valores de frontera. Incidentalmente, nótese que la ecuación de segundo orden b) es equivalente a un sistema de ecuaciones diferenciales de primer orden sin más que definir como variable auxiliar la primera derivada de la función incógnita dy y′ = =z d y dx y '' = 2 = f ( x, y, y ') ⇔ ; dx y '' = dz = f ( x, y, z) dx 2
522
( x , y , z ) = ( x , y y′ ) 0
0
0
0
0 0
(9.3.4a)
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
lo que no es sino un caso particular de un sistema más general como es dy y′ = dx = f ( x, y, z) ; z ' = dz = g( x, y, z) dx
(x , y ,z ) 0
0
0
(9.3.4b)
y el método general de resolución será idéntico para la ecuación de segundo orden b) y los sistemas (9.3.4b).
Existencia y unicidad de la solución Una cuestión importante y previa es la de la existencia y unicidad de la solución que se busca. Hay varias formulaciones de este teorema que pueden encontrarse en textos especializados. En todo lo que sigue se supondrá la existencia de solución a los problemas planteados. No obstante, y por completitud, se da a continuación una formulación muy general para el problema de primer orden y primer grado. Dado el problema de valor inicial y¢ = f(x, y), (x0, y0), con las dos condiciones i) f(x, y) definida y continua en x0 ≤ x ≤ b, –⬁ < y < +⬁, con x0 y b finitos, ii) existe una constante L tal que para cualquier x en x0 ≤ x ≤ b, y cualesquier números reales y1 e y2 se verifica f ( x, y1 ) − f ( x, y2 ) ≤ L y1 − y2
(condición de Lipschitz))
(9.3.5)
entonces existe en x0 ≤ x ≤ b una única función y(x), continua y diferenciable, que es la solución al problema. Otra cuestión también muy importante es la de la evaluación del error cometido al resolver numéricamente una ecuación diferencial. Este es verdaderamente un asunto muy espinoso y difícil, y sólo se discutirá someramente en conexión con los métodos que se presentarán a continuación.
523
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
9.4. Ecuación diferencial de primer orden y primer grado (valor inicial) Este es el caso a) que se resume en y ' = f ( x, y);
y0 = y( x0 )
(9.4.1)
Van a revisarse algunos métodos de resolución: el método de Euler, el método predictor-corrector de Euler, y los métodos de Runge-Kutta. Todos ellos pueden ser utilizados también para resolver ecuaciones de segundo orden y de ahí el interés en su estudio. Además, la consideración de las características del error en este tipo de problemas de primer orden resulta suficientemente ilustrativa para hacerse una idea de lo que sucede en casos más complicados.
Método de Euler Es el método más simple y consiste en discretizar la ecuación (9.4.1) en la forma y¢ ≈ Dy/Dx utilizando un paso de integración h para ir generando, a partir de la condición inicial (x0, y0), puntos sucesivos de la solución buscada de modo que cada punto obtenido sirva como origen para generar el siguiente: (x0, y0) Æ (x1, y1) Æ (x2, y2) Æ ... Æ (xn, yn) Æ ... . Tomando un paso h constante se tiene yk′ ≈
∆yk yk +1 − yk = ; k = 0,1, 2, 3,.... ∆xk h
yk +1 ≈ yk + h yk′ = yk + h f ( xk , yk ); k = 0,1, 2, 3,...
(9.4.2a) (9.4.2b)
La solución aproximada a la curva del plano que pasa por (x0, y0) viene dada por la sucesión de puntos con las abscisas y ordenadas siguientes
524
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
x0
y0
x1 = x0 + h;
y1 ≈ y0 + h f ( x0 , y0 )
x2 = x1 + h;
y2 ≈ y1 + h f ( x1 , y1 )
x3 = x2 + h;
y3 ≈ y2 + h f ( x2 , y2 )
….. xn = xn −1 + h;
….. yn ≈ yn−1 + h f ( xn−1 , yn −1 )
Es fácil ver que este método utiliza un desarrollo en serie de Taylor a primer orden de la función incógnita y(x), utilizando la información disponible del campo de direcciones (pendientes) f(x, y) y centrándose en cada etapa en el punto anterior al que se esté evaluando. El error local de truncamiento (en cada etapa) viene dado por una expresión ya familiar h2y(2(x)/2, xk < x < xk+1, y puede reducirse disminuyendo el paso de integración h. Para h Æ 0 este método es exacto y, de hecho, sirve para dar una demostración constructiva del teorema de existencia y unicidad, pero en la práctica es un método que no puede utilizarse con fines numéricos. Por otra parte, como cada punto calculado sirve para generar el siguiente, la acumulación de los errores en cada determinación con un h dado se va a propagar de manera crítica: nótese que la posición de un determinado yk se calcula con un cierto error, lo que va a inducir un nuevo error en la estimación de la pendiente f(xk, yk), de manera que la evaluación de yk+1 va a estar fuertemente afectada por ambos errores. El cálculo global puede así distanciarse numéricamente mucho del comportamiento real de la solución correcta. Estabilidad y error La discusión anterior indica que los errores típicos del cálculo numérico (truncamiento, entrada y redondeo) se van a ver aquí entremezclados de una forma altamente compleja. El problema se agrava a medida que crece el grado de la ecuación diferencial. En general, el seguimiento del error en estas aplicaciones está severamente limitado y las estimaciones que pueden darse no son finas. Hay que hacer énfasis en que pequeñas variaciones en los datos de entrada, variaciones a veces realmente minúsculas como podrían ser las de redondeos incluso cuidadosos, pueden producir resultados muy dispares entre sí. Este es el problema de la estabilidad del método utilizado y hay que hacer siempre un esfuerzo que permita garantizar la calidad del
525
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
resultado obtenido. Pero es más, pues hay problemas específicos que independientemente del método elegido presentan tal fenómeno, su propia naturaleza es pues esencialmente inestable. Un ejemplo muy gráfico de estas circunstancias es el del choque elástico de dos partículas o bolas esféricas rígidas y perfectas. En un choque frontal perfectamente definido, a lo largo de la línea que une los centros (choque a ángulo cero), el rebote tendría lugar a lo largo de esa misma línea con las dos bolas alejándose en direcciones opuestas. Sin embargo, una pequeñísima imprecisión ±d en el ángulo de impacto sería suficiente para enviar las bolas en direcciones muy diferentes a las mencionadas dependiendo del signo de la imprecisión. A la vista de estas circunstancias conviene realizar comprobaciones para asegurarse de la exactitud de las operaciones realizadas: análisis gráficos del problema (isóclinas, isopolares), la resolución por varios métodos diferentes, la manipulación adecuada del paso de integración h, la verificación de la consistencia de los cálculos yendo en orden inverso una vez obtenida la solución, etc.
Predictor-corrector de Euler Un método sencillo que intenta reducir los errores asociados al método de Euler es el denominado predictor-corrector de Euler. Este método consta de dos etapas, la primera con la predicción (P) del valor yk+1 en la forma habitual (9.4.2), y la segunda con la corrección (C) que efectúa un ciclo iterativo que refina hasta convergencia el valor yk+1 en pasos sucesivos. El algoritmo queda expresado en las dos ecuaciones siguientes
C : yk( i++11) ≈ yk +
P : y(k1+)1 ≈ yk + h f ( xk , yk )
(9.4.3a)
1 h f ( xk , yk ) + f ( xk +1 , yk( i+)1 ) ; i = 1, 2, 3,... 2
(9.4.3b)
En la etapa de corrección C el único dato que debe ser actualizado en cada paso es el valor f(xk+1, y(i) k+1). La corrección termina cuando se alcanza –5 una precisión e prefijada (10 , 10–8, etc.), lo que se evalúa mediante la comparación entre cada dos valores de corrección sucesivos
526
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
yk( i++11) − yk( i+)1 < ε
(9.4.3c)
Una vez alcanzada esta cota de error en un determinado paso, i + 1 = n, se toma yk+1 = y(n) k+1 y, a partir de (xk+1, yk+1), se procede similarmente para determinar yk+2. Todo este procedimiento puede verse esquematizado en la Fig. 9T.1.
Figura 9T.1. Diagrama de aplicación del Predictor-Corrector de Euler para el cálculo de yk+1. Al alcanzar la convergencia prefijada e se abandona el bucle corrector C y utilizando como punto de partida el punto recién calculado (xk+1, yk+1) se puede evaluar el siguiente punto de la solución (xk+2, yk+2).
Este método es más preciso que el simple de Euler basado en la fórmula predictora, pero sigue dependiendo fuertemente del espaciado h, con un error de truncamiento para la corrección que en valor absoluto es h3 | y(3(x) | /12, xk < x < xk+1 (hay una mejora de un orden en h con respecto al método simple de Euler). Existen otros métodos predictor-corrector mucho más elaborados y con mejor comportamiento (Adams, Milne, etc.), pero su aplicación es completamente análoga a la del predictor-corrector de Euler. Más adelante y en conexión con las ecuaciones de segundo orden se revisará brevemente el método de Adams.
Métodos de Runge-Kutta La aproximación simple de Euler toma Dyk = yk+1 – yk ≈ h f(xk, yk) y utiliza así la tangente en el punto k para «anticipar» la posición de yk+1. Una mejora a este procedimiento podría ser tomar la pendiente de la secante que uniese los puntos k y k + 1, pero como la posición yk+1 es desconocida a prio-
527
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
ri una aproximación a esa nueva mejor pendiente puede obtenerse con la que presenta el campo de direcciones f(x, y) en el punto medio del segmento de tangente del método simple de Euler. Esto es lo que se conoce como la primera fórmula de Runge y se expresa (Fig. 9T.2) h h ∆yk ( R − I ) = yk +1 − yk ≈ h f xk + , yk + f ( xk , yk ) ; k = 0,1, 2,... 2 2
(9.4.4)
El error de este algoritmo es de tercer orden, O(h3), es decir aproxima hasta los términos de orden h2 inclusive, similar al del predictor-corrector de Euler.
Figura 9T.2. Comparación entre las estimaciones obtenidas con los métodos de Euler y de Runge (I) para el punto (x1, y1) de la ecuación diferencial y¢ = f(x, y) A observar la mayor proximidad de la solución Runge (I) al valor correcto esperado de la solución y = f(x) con la condición inicial (x0, y0).
El comportamiento del método Runge-I puede comprobarse sin más que utilizar los desarrollos en serie de Taylor, en torno al punto k, de los incrementos Dyk verdadero y Dyk(R – I). Utilizando las simplificaciones de notación f(xk, yk) = fk, f¢(xk, yk) = f¢k, ..., se tiene así para el incremento verdadero ∆yk = yk +1 − yk = h fk + h fk +
1 2 1 h fk′ + h3 fk′′+ .... = 2 6
1 2 d 1 d2 h f ( x, y) + h3 2 f ( x, y) + .... = 2 dx k 6 dx k
528
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
1 2 ∂f ∂f dy 1 d ∂f ∂f dy h + + h3 + + .... = 2 ∂x ∂y dx k 6 dx ∂x ∂y dx k 1 1 h fk + h2 f x + f y f + h3 f xx + 2 fxy f + f yy f 2 + fy ( f x + f y f ) + ... k k 2 6 h fk +
)
(
)
(
(9.4.5)
en donde se ha aplicado la regla de la cadena y se han utilizado las abreviaturas usuales en derivación parcial. De manera análoga se obtiene el desarrollo del incremento de Runge ∆yk ( R − I ) = hf ( x + h / 2, y + hm / 2
) = {m = f ( x , y )} = k
k
k
h ∂f mh ∂f 1 h ∂2 f 1 mh ∂2 f mh2 ∂2 f = + + + + + hf + ... 2 dx 2 dy 2 2 dx2 2 2 dy2 4 ∂x∂y k 2
hfk +
(
h2 f +f f 2 x y
)
k
2
+
(
h3 f + 2 fxy f + f yy f 2 8 xx
)
k
+ ...
(9.4.6)
en donde hay que tener en cuenta que m = f(xk, yk) es un valor concreto y que, sin embargo, la función f a desarrollar es una función de dos variables independientes, x e y, que sufren los incrementos respectivos h/2 y mh/2. La comparación entre (9.4.5) y (9.4.6) indica que hay coincidencia hasta los términos de segundo orden inclusive, error O(h3), habiéndose mejorado así en un orden de aproximación el resultado de Euler. EJERCICIO 9.5.1 Evaluar explícitamente la derivada
d ∂f dy . dx ∂y dx
Se trata de la derivada total de un producto de dos derivadas, una parcial (f con y) y otra total (y con x). Además, hay que tener en cuenta la dependencia y = y(x) dentro de la función f, f(x, y) = f(x, y(x)), por lo que deberá utilizarse la regla de la cadena al derivar con respecto a x. El cálculo puede esquematizarse como sigue
529
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
d ∂f ( x, y) ∂f df ( x, y) d ∂f dy d ∂f ( x, y) = = f ( x, y) = f ( x, y) + ⋅ ∂y dx ∂y dx dx ∂y dx dx ∂y d ∂f ( x, y) df ( x, y) dx f y ( x, y) f ( x, y) + ∂y ⋅ dx = ∂f y ∂f y dy ∂f ∂f ∂f dy + ⋅ f ( x, y) + + ⋅ = fxy f + f yy f 2 + f y fx + f y2 f ∂y ∂x ∂y dx ∂x ∂y dx Todavía se puede aumentar el grado de aproximación de las fórmulas de Runge utilizando este tipo de mejoras en la estimación del incremento Dyk. Se llega así a un método muy popular denominado de Runge-Kutta IV, que da aproximación hasta los términos de cuarto orden en h4 inclusive, es decir presenta un error O(h5). Este método se expresa en el algoritmo de cuatro pasos Ri siguientes ∆yk ( RK − IV ) = yk +1 − yk ≈
)
1 R + 2 R2 + 2 R3 + R4 ; k = 0,1, 2, 3,.... 6 1
(
(9.4.7)
y permite determinar con mucha precisión yk+1 de una sola vez (no hay ciclos iterativos como en los métodos predictor-corrector). Los parámetros de este algoritmo para evaluar yk+1 cambian en cada nuevo paso Ri y vienen dados por las expresiones siguientes R1 = hf ( xk , yk ) = hf1 R h R3 = hf ( xk + , yk + 2 ) = hf3 2 2
R2 = hf ( xk +
R h , yk + 1 ) = hf2 2 2
(9.4.8)
R4 = hf ( xk + h, yk + R3 ) = hf4
El incremento (9.4.7) se construye como una media ponderada de determinadas pendientes del campo de direcciones, {f1, f2, f3, f4}, entre los puntos k y k +1. Su elección se hace para que el desarrollo en serie de (9.4.7) coincida con el desarrollo de Taylor del incremento verdadero hasta los términos de cuarto orden inclusive. La deducción es bastante prolija y no se va a presentar aquí.
530
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
9.5. Ecuación diferencial de segundo orden (valores iniciales) Dada la equivalencia entre la solución de una ecuación diferencial de segundo orden y¢¢ = g(x, y, y¢) con la condición inicial (x0, y0, y¢0) y el sistema de dos ecuaciones diferenciales acopladas que resulta de definir y¢ = z, la solución numérica en ambos casos es formalmente idéntica. Se estudiará entonces el sistema de ecuaciones dy y ' = dx = f ( x, y, z) ; ( x0 , y0 , z0 ) z ' = dz = g( x, y, z) dx
(9.5.1)
aplicando los enfoques de enfoque Runge-Kutta (IV) y del predictor – corrector de Adams. Método de Runge-Kutta (IV) Dado el sistema de ecuaciones diferenciales acopladas (9.5.1) los incrementos Dyk(RK – IV) y Dzk(RK – IV) se calculan en cada punto k + 1 como
(
)
; k = 0,1, 2, 3,....
(9.5.2a)
(
) ; k = 0,1, 2, 3,....
(9.5.2b)
∆yk ( RK − IV ) = yk +1 − yk ≈
1 y R + 2 R2y + 2 R3y + R4y 6 1
∆zk ( RK − IV ) = zk +1 − zk ≈
1 z R + 2 R2z + 2 R3z + R4z 6 1
k
k
en donde los parámetros son la generalización de (9.4.8) R1y = hf ( xk , yk , zk )
R1z = hg( xk , yk , zk )
Ry Rz h , yk + 1 , zk + 1 ) 2 2 2 y z R R h R3y = hf ( xk + , yk + 2 , zk + 2 ) 2 2 2 y y z R4 = hf ( xk + h, yk + R3 , zk + R3 )
Ry Rz h , yk + 1 , zk + 1 ) 2 2 2 y z R R h R3z = hg( xk + , yk + 2 , zk + 2 ) 2 2 2 z y z R4 = hg( xk + h, yk + R3 , zk + R3 ) (9.5.3)
R2y = hf ( xk +
R2z = hg( xk +
Debe notarse cómo el acoplamiento de las ecuaciones influye en el cálculo de los parámetros R: cada pareja {Riy, Riz} necesita del cálculo previo de
531
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
{Ryi–1, Rzi–1} (i = 2, 3, 4). En el caso más sencillo de la ecuación de segundo orden y¢¢ = g(x, y, y¢) los valores Riy se obtienen de manera simple con f(x, y, z) = z. Método predictor-corrector de Adams Este es un método que en general se comporta numéricamente de manera muy estable. Es importante señalar que se necesitan cuatro valores conocidos (xk, yk, zk) para iniciar el cálculo: el primero k = 0 es la condición inicial, y los tres siguientes k = 1, 2, 3, se determinan usualmente mediante aplicación del método Runge-Kutta (IV) visto anteriormente. La aplicación de las fórmulas predictoras (P) se realiza en la misma etapa para las dos variables 1 h 55 y′ − 59 yk′ −1 + 37 yk′ − 2 − 9 yk′ − 3 ; y′ = f ( x, y, z) 24 k k = 3, 4,5,... (9.5.4a) 1 (11) P ( z) : zk +1 ≈ zk + h 55zk′ − 59 zk′ −1 + 37zk′ − 2 − 9 zk′ − 3 ; z′ = g( x, y, z) 24
P ( y) : yk(1+)1 ≈ yk +
y con estos valores se realiza el ciclo iterativo corrector simultáneamente en cada iteración para las dos variables 1 h 9 y′( i) + 19 yk′ − 5 yk′ −1 + yk′ − 2 ; y ' = f ( x, y, z ) 24 k +1 i = 1, 2, 3,... (9.5.4b) 1 ( i + 1) (i) C ( z) : zk +1 ≈ zk + h 9 z′k +1 + 19 zk′ − 5 zk′ −1 + zk′ − 2 ; z ' = g( x, y, z ) 24
C ( y) : yk( i++11) ≈ yk +
Como puede verse en las fórmulas correctoras sólo hay que ir actualizando en la iteración i + 1 el valor de la derivada de la variable que se ha calculado en la iteración precedente i. Este método muestra errores O(h5) en ambas fórmulas P y C, aunque el error global de C es aproximadamente 10 veces menor. Es aplicable al caso de primer orden, pero su verdadera potencia la muestra en las aplicaciones a las ecuaciones de segundo orden y sistemas. Para concluir este apartado hay que señalar que los métodos predictor-corrector forman la base de muchas aplicaciones para el estudio de problemas dinámicos en fases condensadas. 9.6. Problemas de valores de frontera Dada la ecuación diferencial lineal de segundo orden con condiciones de contorno
532
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
y " = f1 ( x) y '+ f2 ( x) y + f3 ( x);
ya = y( xa ), yb = y( xb )
(9.6.1)
se puede resolver reduciéndola a un problema de valores iniciales tomando dos valores arbitrarios y¢a adecuados al problema: y¢a1 e y¢a2. Las soluciones correspondientes a este paso intermedio son dos curvas y1(x) e y2(x) que se expresan como los problemas parciales y1 ( x)Ä conÄ ( x0 , y0 , y0′ ) = ( xa , ya , ya′1 ); y1 ( xb ) = yb1
(9.6.2.a)
y2 ( x)Ä conÄ ( x0 , y0 , y0′ ) = ( xa , ya , ya′ 2 ); y2 ( xb ) = yb 2
(9.6.2b)
y que pueden obtenerse por cualquiera de los métodos señalados arriba. Con la condición de que yb1 ≠ yb2 las ecuaciones (9.6.1)-(9.6.2) pueden combinarse para dar la solución al problema global de valores de frontera que se expresa como y( x) =
)
)
1 y − yb 2 y1 ( x) + yb1 − yb y2 ( x) ; yb1 ≠ yb 2 yb1 − yb2 b
(
(
(9.6.3)
La demostración de esta relación se deja para un problema.
C. DIAGONALIZACIÓN NUMÉRICA DE MATRICES REALES Y SIMÉTRICAS 9.7. Conceptos generales Un gran número de aplicaciones prácticas de la Química Cuántica están basadas en la resolución de problemas de diagonalización de matrices reales y simétricas, y llevan a resultados que representan a los niveles de energía moleculares y los correspondientes orbitales moleculares de las moléculas que se estudien. La diagonalización aparece conectada también con otros problemas como, por ejemplo, la obtención de los momentos principales de inercia de una molécula, que van a formar parte de la definición de sus niveles de energía rotacionales, o la determinación de los modos normales de vibración moleculares. Los cálculos de diagonalización están estrechamente emparentados con la resolución de ecuaciones no lineales (Cap. 4). En ciertos casos muy simples estos cálculos pueden hacerse sin necesidad de recurrir a
533
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
estrategias numéricas, y en otros menos simples existen técnicas algebraicas exactas (Teoría de Grupos) que aligeran mucho los cálculos. El problema general, sin embargo, no va a poderse simplificar mucho y va a necesitar de los recursos que ofrece el cálculo numérico. La diagonalización es pues una operación fundamental y es muy importante estar familiarizado tanto con sus conceptos como con sus manipulaciones numéricas básicas. El problema de diagonalización se resume en el de la resolución de un sistema lineal homogéneo de la forma c1 c1 a11 + c2 a12 + ... + cn a1n = c1 x c c1 a21 + c2 a22 + ... + cn a2 n = c2 x ⇔ Av = xv; v = 2 .... ... ... ... ... ... c a + c a + ... + c a = c x cn n n nn 1 n1 2 n2
(9.7.1)
siendo de interés las situaciones en las que la solución es distinta de la solución trivial v = 0. Se ha utilizado la notación matricial para expresar (9.7.1) de forma compacta, en la que A es la matriz cuadrada (n ¥ n) cuyos elementos son los coeficientes numéricos del sistema A = (aij), y los coeficientes solución ci se disponen en forma de vector columna v(n ¥ 1). Asociado al vector propio (o autovector, o vector característico) v está su valor propio (o autovalor, o valor característico) x, que es aquel que hace que tenga sentido la igualdad matricial escrita en (9.7.1). En adelante se tratará únicamente con matrices A reales y simétricas, es decir con elementos aij que tomen valores reales y que además verifiquen aij = aji para cualquier pareja de índices. Como el sistema es homogéneo la solución (distinta de la trivial) no va a ser única, sino que va a haber infinitas soluciones (sistema compatible indeterminado), todas ellas compartiendo el mismo conjunto de n valores propios {xR}R=1,n y cada una de ellas con su correspondiente conjunto de n vectores propios {vR}R=1,n. Todas estas soluciones son equivalentes y a efectos prácticos se seleccionará sólo una de ellas para describir la situación físico-química bajo estudio.
Teorema básico para matrices reales y simétricas El teorema básico aquí establece que para una matriz real y simétrica A(n ¥ n) todos sus valores propios {x1, x2, ..., xn} son reales y se obtienen de igualar el determinante secular a cero
534
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
a11 − x PS ( x) = A − xI =
a12 ... a1n
a12
...
a1n
a22 − x ...
a2 n
... a2 n
... ... ... ann − x
=0
(9.7.2)
en donde I es la matriz unidad (n ¥ n) y los valores propios son simplemente las raíces del polinomio de grado n PS(x). El teorema se completa con el hecho de que todos los vectores propios {v˜1, v˜2, ..., v˜n} de A son linealmente independientes. Esta segunda condición implica que estos n vectores propios forman una base para el espacio vectorial abstracto n-dimensional asociado al problema y que van a poder ser transformados en una base ortonormal, {v˜1, v˜2, ..., v˜n} Æ {v1, v2, ..., vn}, de manera que se cumpla para cada pareja de estos nuevos vectores v la relación siguiente
v Ti · v j
=
(
ciT1 , ciT2 ,..., ciTn
)
c1 j c2 j = .... cn j
n
∑c
T c im m j
m =1
1 si i = j T =δ ij = = v j · v i ; i, j = 1, 2, 3,..., n (9.7.3) 0 si i ≠ j
que no es más que la conocida definición de producto escalar vi · vj componente a componente (Cap. 2) de los vectores columna. Al ser este un tema ligado directamente al álgebra matricial, por coherencia formal, se ha utilizado la notación de producto de matrices en lugar de la del producto escalar. Así al vector fila vTi se le denota como la matriz transpuesta (T= cambio de filas por columnas) del vector columna vi, y para un mismo vector i se tiene la relación entre las componentes fila y columna cTim = cmi(m = 1, 2, ..., n).
Multiplicidad de raíces y degeneración En conexión con lo anterior, es importante reseñar que si un determinado valor propio xi tiene multiplicidad = g = 1, entonces lleva asociado un vector propio vi que es automáticamente ortogonal a cualquier otro autovector vj correspondiente a un autovalor xj diferente (xi ≠ xj). Sin embargo, si un determinado valor propio xj tiene multiplicidad g > 1, se dice que es g veces degenerado y lleva asociado un subconjunto de g vectores propios {vj1, vj2, ...,
535
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
vjg} que: i) no son automáticamente ortogonales entre sí, pero pueden ortogonalizarse al ser linealmente independientes; y ii) son automáticamente ortogonales a cualquier otro autovector vi correspondiente a un autovalor xi diferente (xj ≠ xi). La ortogonalización de estos subconjuntos degenerados se realiza por el método de Gram-Schmidt, ya estudiado en el Cap. 2, o por otros más elaborados (por ejemplo, el método de Löwdin que ortonormaliza de manera global el conjunto). Evidentemente, la suma de todas las degeneraciones asociadas con cada valor propio, incluidas aquellas en las que g = 1, es igual al orden n. La situación de la multiplicidad de conjuntos de vectores propios asociados con un problema no debería de asombrar, ya que es equivalente a la misma situación de las bases vectoriales equivalentes que se formulan convencionalmente en los espacios {⺢2, ⺢}, {⺢3, ⺢}, etc., en donde se pueden definir bases no ortogonales, conjuntos base que se transforman por rotación de coordenadas unos en otros, etc. Por otra parte, la normalización de cada vector propio vi es un asunto trivial una vez conocidos los coeficientes, c1i, c2i, ..., cni, que lo definen. Si no se cumple la relación (9.7.3) con i = j, se calcula la norma al cuadrado de este vector Ni2 = c21i + c22i + ... + c2ni, y se definen los nuevos coeficientes como c1i Æ c1i/Ni, c2i Æ c2i/Ni, ..., cni Æ cni/Ni, de manera que la suma de los cuadrados de todos estos nuevos coeficientes es ya la unidad y el vector propio está pues normalizado. Observaciones prácticas Para órdenes n pequeños, n ⯝ 6 ó 7, el cálculo de los valores propios xi puede realizarse resolviendo con los métodos ya estudiados (Cap. 4) la ecuación no lineal resultante del polinomio característico igualado a cero, PS(x) = 0, y determinando los coeficientes de los autovectores por sustitución de cada xi en el sistema de ecuaciones (9.7.1). Sin embargo, al crecer n la situación se complica pues hay que efectuar más operaciones e intervienen los errores de redondeo y otras fuentes de error. Además, en muchos casos las dimensiones son realmente tan elevadas, como (500 ¥ 500) o más, que es necesario disponer de un método más poderoso. Con estas posibles situaciones en mente se van a presentar las dos aplicaciones siguientes: a) polinomio característico, concentrándose en la determinación explícita de autovectores; y b) Jacobi, que es un método iterativo matricial que resuelve simultáneamente el problema fijando valores y vectores propios de una vez.
536
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
Finalmente, se considerarán también algunas pruebas útiles que sirven para detectar errores de procedimiento en las diagonalizaciones.
9.8. Método del polinomio característico: cálculo de autovectores Este método consiste en resolver la ecuación (9.7.2) PS(x) = 0 obteniendo los valores propios xi vía la resolución de la ecuación no lineal, para con ellos determinar los autovectores. Se centrará la atención en este último problema, pues el primero ya se trató con detalle en el Cap. 4. Van a distinguirse dos casos según que haya o no haya degeneración en el valor propio correspondiente.
Caso no degenerado Si el valor propio xi es no degenerado, g = 1 (raíz simple), su sustitución en el sistema lineal (9.7.1) lleva necesariamente a que una de las ecuaciones es redundante, es decir es combinación lineal de las n – 1 restantes, y debe ser suprimida del cálculo de los coeficientes. Se eligen pues n – 1 de estas ecuaciones, con la sustitución explícita del valor xi, y se asigna un valor arbitrario a una cualquiera de las incógnitas: sea éste valor c˜1i = 1 por ejemplo (conviene dar valores enteros positivos sencillos). Seguidamente, en función de tal valor arbitrario se resuelve el sistema calculando los valores de las demás incógnitas c˜2i, c˜3i, ..., c˜ni. Hecho esto se utiliza la condición de normalización para fijar el autovector unitario vi asociado a xi haciendo cmi =
c mi = Ni
cmi c12i
+
c22i
+ ... + cn2 i
; m = 1, 2,3 3,..., n
(9.8.1)
y el autovector i solución (traspuesto) es viT = (cTi1, cTi2, ..., cTin).
Caso degenerado Si el valor propio xj es degenerado, g > 1 (raíz múltiple), el proceso para fijar los autovectores {vj1, vj2, ..., vjg} es más complicado. Primero, la sustitución de xj en el sistema lineal (9.7.1) lleva necesariamente a que g de las ecua-
537
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
ciones son redundantes, es decir son combinación lineal de las n – g restantes, y deben ser suprimidas del cálculo de los coeficientes. Por otra parte, hay que determinar g vectores linealmente independientes, lo que puede hacerse tanteando valores en las n – g ecuaciones elegidas. Es más conveniente, sin embargo, forzar las condiciones de ortogonalidad que deben satisfacer para definir este subconjunto de g vectores degenerados. El proceso es constructivo y se esquematiza a continuación para el caso n > g. Para calcular el primero de estos vectores no normalizado v˜j1 se eligen pues n – g de estas ecuaciones, se sustituye xj por su valor y, como en el caso anterior, se dan valores arbitrarios (enteros sencillos) a g incógnitas, por ejemplo c˜1,j1, c˜2,j1, ..., c˜g,j1. A continuación se despejan las n – g incógnitas restantes en función de estos valores y se obtienen las componentes c˜g+1,j1, c˜g+2,j1, ..., c˜n,j1, de v˜j1. El cálculo del segundo autovector no normalizado v˜j2 requiere de nuevo de las n – g ecuaciones anteriores de (9.7.1) y, además, hay que complementarla con la ortogonalidad entre v˜j1 y v˜j2 v Tj1.v j 2 = cTj1,1c1, j 2 + cTj1,2 c2, j 2 + ... + cTj1, n cn, j 2 = 0
(9.8.2)
Hay por tanto n – g + 1 ecuaciones con las que determinar las n incógnitas componentes c˜1,j2, c˜2,j2, ..., c˜n,j2 del vector columna v˜j2. Para ello se dan valores arbitrarios a g – 1 de ellas y se despejan el resto en función de estos valores. El cálculo del tercer autovector no normalizado v˜j3 requiere de nuevo de las n – g ecuaciones de (9.7.1) que se han venido utilizando y ahora hay que complementarlas con la ortogonalidad entre v˜j3 y v˜j1 y con la ortogonalidad entre v˜j3 y v˜j2 v Tj1 ⋅ v j 3 = cTj1,1c1, j 3 + cTj1,2 c2, j 3 + ... + cTj1, n cn, j 3 = 0
(9.8.3a)
v Tj 2 ⋅ v j 3 = cTj 2,1c1, j 3 + cTj 2,2 c2, j 3 + ... + cTj 2, n cn, j 3 = 0
(9.8.3b)
Ahora hay n – g +2 ecuaciones para determinar las n incógnitas c˜1,j3, c˜2,j3, ..., c˜n,j3, componentes del vector columna v˜j3 y análogamente a lo anterior se dan valores arbitrarios a g – 2 de ellas y se despejan el resto en función de estos valores. El proceso se continúa añadiendo condiciones de ortogonali-
538
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
dad entre el nuevo vector a calcular y todos los ya calculados, hasta agotar la determinación del conjunto completo de los g vectores degenerados. Concluido este cálculo de los g vectores columna {v˜jl}l=1,g no normalizados, siguiendo (9.8.1) se obtienen los n vectores columna normalizados (unitarios) {vjl}l=1,g con componentes c1j, c2j, ..., cnj. Es útil e instructivo comprobar que las incógnitas a ser calculadas tienen un determinante asociado ≠ 0. EJERCICIO 9.9.1 Esquematizar el proceso de construcción de autovectores normalizados para el caso n = 5 con dos valores propios simples, x1 y x2, y un valor propio triplemente degenerado x3 = x4 = x5 = l . (aij = aji). El sistema es de cinco ecuaciones y cinco incógnitas c1 c1i c1a11 + c2 a12 + c3 a13 + c4 a14 + c5 a15 = c1 x c1a21 + c2 a22 + c3 a23 + c4 a24 + c5 a25 = c2 x c2 c2 i c1a31 + c2 a32 + c3 a33 + c4 a34 + c5 a35 = c3 x ; v = c3 → v i = c3 i i = 1, 2, 3, 4, 5 c4 i c a + c a + c a + c a + c a = c x c 4 4 1 41 2 42 3 43 4 44 5 45 c a + c a + c a + c a + c a = c x c5 c5 i 5 1 51 2 52 3 53 4 54 5 55 en donde puede ser necesario, como en el caso degenerado, utilizar una notación para los coeficientes que incluya dos índices para poder identificar al vector propio correspondiente. Por otra parte, si el vector se expresa como fila con dos índices vTi = (cTi1, cTi2, ..., cTin), evidentemente se tiene cTi1 = c1i, cTi2 = c2i, ..., cTin = cni. Para los casos x1 y x2 el proceso es idéntico. Sea el caso de x1 en el que al sustituir este valor en el sistema sobra una cualquiera de las ecuaciones, por ejemplo la quinta. Se tiene entonces el sistema para determinar el vector v˜1 c1a11 + c2 a12 + c3 a13 + c4 a14 + c5 a15 = c1 x1 c1a21 + c2 a22 + c3 a23 + c4 a24 + c5 a25 = c2 x1 c1a31 + c2 a32 + c3 a33 + c4 a34 + c5 a35 = c3 x1 c a + c a + c a + c a + c a = c x 4 1 1 41 2 42 3 43 4 44 5 45
(9.8.4)
con cuatro ecuaciones y cinco incógnitas cj en el que por simplicidad de notación las componentes c del vector columna v˜1 se denotan con sólo un
539
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
subíndice. Para calcularlas se da a una de ellas un valor arbitrario entero y sencillo: c˜1 = 1, y para obtener los valores del resto de los coeficientes c˜m, m = 2, 3, 4, 5, referidos a este valor arbitrario, se resuelve el sistema resultante a11 + c2 a12 + c3 a13 + c4 a14 + c5 a15 = x1 a21 + c2 a22 + c3 a23 + c4 a24 + c5 a25 = c2 x1 a31 + c2 a32 + c3 a33 + c4 a34 + c5 a35 = c3 x1 a + c a + c a + c a + c a = c x 4 1 41 2 42 3 43 4 44 5 45
(9.8.5)
Todos los coeficientes se denotan como c˜ porque están referidos a un valor arbitrario c˜1 = 1 y con la normalización final acabarán denotándose como c. Para el vector v˜2 todo es idéntico salvo que ahora hay que realizar la sustitución x = x2 en el sistema (9.8.5). El conjunto triplemente degenerado se obtiene del modo siguiente. Al sustituir el valor propio x = l sobran tres ecuaciones. Empleando ahora por necesidad dos índices por componente para poder hacer referencia completa al vector j (=3, 4, ó 5) correspondiente, el sistema resulta c1 j a11 + c2 j a12 + c3 j a13 + c4 j a14 + c5 j a15 = c1 j λ c1 j a21 + c2 j a22 + c3 j a23 + c4 j a24 + c5 j a25 = c2 j λ
(9.8.6)
Hay dos ecuaciones y cinco incógnitas y para obtener el primer vector, no normalizado, v˜3(j = 3) se dan valores arbitrarios (enteros sencillos) a tres de las incógnitas. Sean estos valores, por ejemplo, c˜13 = c˜23 = c˜33 = 1, con lo que las otras dos incógnitas, c˜43 y c˜53, se calculan del sistema a11 + a12 + a13 + c43 a14 + c53 a15 = λ a21 + a22 + a23 + c43 a24 + c53 a25 = λ y el vector propio es v˜T3 = (1, 1, 1, c˜T34, c˜T35). Para calcular el vector v˜4 se necesita de nuevo (9.8.6) y se añade la ortogonalidad v˜T3·v˜4 = 0. El sistema general resultante es
540
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
c14 a11 + c24 a12 + c34 a13 + c44 a14 + c54 a15 = c14 λ c14 a21 + c24 a22 + c34 a23 + c44 a24 + c54 a25 = c24 λ T T T T T c31c14 + c32 c24 + c33 c34 + c34 c44 + c35 c54 = 0 en el que hay pues tres ecuaciones y cinco incógnitas. Hay que dar valores arbitrarios (enteros sencillos) a dos de las incógnitas. Sean estos valores, por ejemplo, c˜14 = c˜24 = 1, con lo que los valores relativos de las otras tres incógnitas, c˜34, c˜44 y c˜54, se calculan del sistema particularizado a estas condiciones a11 + a12 + c34 a13 + c44 a14 + c54 a15 = λ a21 + a22 + c34 a23 + c44 a24 + c54 a25 = λ T T 1 + 1 + 1⋅ c34 + c34 c44 + c35 c54 = 0 en donde la última ecuación es la ortogonalidad requerida referida a los valores c˜. El vector propio es v˜T4 = (1, 1, c˜T43, c˜T44, c˜T45). El último cálculo es el del vector v˜5 (j = 5). Se necesita de nuevo (9.8.6) hay que añadir las ortogonalidades v˜T3·v˜5 = 0 y v˜T4·v˜5 = 0. El sistema general es ahora c15 a11 + c25 a12 + c35 a13 + c45 a14 + c55 a15 = c15 λ c15 a21 + c25 a22 + c35 a23 + c45 a24 + c55 a25 = c25 λ T T T T T c31c15 + c32 c25 + c33 c35 + c34 c45 + c35 c55 = 0 cT c + cT c + cT c + cT c + cT c = 0 41 15 42 25 43 35 44 45 45 55 Hay pues cuatro ecuaciones y cinco incógnitas y para obtener v˜5 (j = 5) basta con dar un valor arbitrario (entero sencillo) a una de las incógnitas. Sea, por ejemplo, c˜15 = 1, con lo que los valores relativos de las otras cuatro incógnitas, c˜25, c˜35, c˜45 y c˜55, se calculan del sistema a11 + c25 a12 + c35 a13 + c45 a14 + c55 a15 = λ a21 + c25 a22 + c35 a23 + c45 a24 + c55 a25 = c25 λ T T 1 + 1 ⋅ c25 + 1⋅ c35 + c34 c45 + c35 c55 = 0 1 + 1 ⋅ c + c T c + c T c + c T c = 0 44 45 45 55 25 43 35
541
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
en donde las dos últimas ecuaciones son las ortogonalidades requeridas y referidas a los valores c˜. El vector propio (fila) es v˜T5 = (1, c˜T52, c˜T53, c˜T54, c˜T55). Finalmente, una vez obtenidos los cinco vectores propios columna {v˜j}i=1,5 hay que normalizarlos. Se calcula para cada uno la cantidad Ni2 = c˜21i + c˜22i + c˜23i + c˜ 24i +c˜25i, y definiendo los coeficientes de cada vector normalizado i como los cocientes cmi = c˜mi /Ni, m = 1, 2, 3, 4, 5, se obtienen los vectores columna {v˜i}i=1,5 normalizados (unitarios) cada uno con sus componentes c1i, c2i c3i, c4i, c5i.
9.9. Método de Jacobi Este es un método matricial de diagonalización para matrices reales simétricas que suministra una solución global al problema dando los autovalores y un conjunto de vectores ya mutuamente ortonormales. Los resultados son completamente equivalentes a los que se obtendrían con el método del polinomio característico. En las aplicaciones de interés práctico los cálculos que aquí se describen hay que realizarlos con computador, ya que son detallados y largos y, además, las posibilidades de cometer errores en el cálculo manual son muy grandes. No obstante, la comprensión del funcionamiento de esta técnica puede lograrse muy bien analizando casos muy sencillos, como son los de las matrices (3 ¥ 3).
La transformación ortogonal La clave del método está en el teorema que establece que la diagonalización de una matriz cuadrada (n ¥ n) real y simétrica A(aij = aji) puede realizarse mediante una transformación (de semejanza) ortogonal, lo que se expresa como el producto de tres matrices siguiente
542
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
O −1 AO = X ⇔ o11 o12 o 13 ... o1n
o21 o22 o23 ... o2 n
o31 ... on1 o32 ... on2 o33 ... on3 ... ... ... o3 n ... onn
a11 a12 a 13 ... a1n
a12
a13
...
a22
a23
...
a23
a33
...
... a2 n
... ... a3 n ....
x1 0 =0 ... 0
0 x2 0 ... 0
a1n a2 n a3 n ... ann
o11 o21 o 31 ... on1
o12
o13
o22
o23
o32
o33
... on2
... on3
... o1n ... o2 n ... o3 n = ... ... ... onn
0 0 0 ... ... ... 0 ... xn
0 ... 0 ... x3 ...
(9.9.1) en donde O es una matriz ortogonal, es decir que, considerando que la base de vectores subyacente para el problema es ortonormal, O cumple que su inversa es igual a su transpuesta. La condición anterior significa que para el determinante de O se tiene Ôdet(O)Ô = 1, lo que es consistente con la imagen de O como un giro o rotación de ejes, operación en la que se conservan longitudes. Se dice entonces que la matriz A se transforma en (es semejante a) una matriz diagonal X cuyos únicos elementos no necesariamente nulos están situados en la diagonal principal y son justamente los valores propios de A. Los autovectores de A son las columnas de la matriz O, como se deduce de la relación que se obtiene de (9.9.1) AO = OX
(9.9.2)
y que contiene de forma global la definición (9.7.1) para cada vector situado en la columna j de O y que está asociado con el valor propio xj. La construcción de la matriz ortogonal O La construcción de la matriz O se realiza por etapas, buscando en cada una de ellas la anulación de un elemento no diagonal que sea distinto de cero. Parece razonable comenzar por aquél de estos elementos que sea el más grande en valor absoluto. Por ejemplo, sea este elemento el a12 = a21 ≠ 0. Su eliminación se efectúa con la matriz O1 dada por
543
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
cos φ1 −sen φ1 013 cos φ1 0 23 sen φ1 0 032 133 31 O1 = 0 41 0 42 0 43 052 053 051 ... ... ... 0 0 n2 0 n3 n1
014
015
024
0 25
034
0 35
144
0 45
054
155
... 0 n4
... 0 n5
... 01n ... 02 n ... 03 n ... 0 4 n ... 05 n ... .. ... 1nn
(9.9.3)
en la que por claridad para la discusión siguiente se mantienen los índices de los elementos. En esta matriz los elementos (1,1), (1,2), (2,1) y (2,2) configuran una matriz de «rotación» bidimensional de ángulo f1, y el resto de los elementos son: la unidad a lo largo de la diagonal principal, y nulos el resto. La determinación del ángulo f1 viene dada por la anulación de los elementos (1,2) y (2,1) en la matriz A(1) resultante de la transformación ortogonal O1–1AO1 = A(1)
(9.9.4a)
O1−1AO1 = cos φ1 sen φ1 −sen φ1 cos φ1 = 031 032 ... ... 0 n2 0 n1
013 ... 01n 0 23 ... 02n 133 ... 03n ... ... ... 0 n3 ... 1nn
a11 a21 a 31 ... an1
a(1) 11 021 = a(1) 31 ... a(1) n1
a12 a22 a32 ... an2
a13 ... a1n cos φ1 −sen φ1 a23 ... a2 n sen φ1 cos φ1 a33 ... a3 n 031 0 32 ... ... ... ... ... an3 ... ann 0 n1 0 n2
013 ... 01n 023 ... 02 n 133 ... 03 n = ... ... ... 0 n3 ... 1nn
(1) 012 a13 ... a1(1n) (1) a22 a2(13) ... a2(1n) (1 ) (1) (1) a32 a33 ... a3(1n) = A ... ... ... ... a(1) a(1) ... a(1) n2
n3
nn
(9.9.4b)
544
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
Esta reducción se consigue forzando la condición (1) (1) = a21 = (a22 – a11)sen f1 cos f1 + a12(cos2 f1 – sen2 f1) = 0 a12
(9.9.5)
y por tanto el ángulo f1 queda definido por tan 2φ1 =
−2 a12
(a
22
− a11
)
=
β ; γ
β = − a12
(9.9.6)
Definiendo una magnitud x > 0 como x 2 = b 2 + g 2 se obtienen las magnitudes del ángulo f1 ξ+ γ cos φ1 = 2ξ
1/ 2
(
; sen φ1 = ± 1 − cos 2 φ1
)
1/ 2
; φ1 ≤
π 4
(9.9.7)
Nótese que no es necesario obtener el valor de f1, y también que es importante darse cuenta de que: a) se debe tomar Ôf1Ô ≤ p/4 porque esta resulta ser la opción numéricamente más estable; y b) hay que elegir el signo adecuado de sen f1. La prueba de estos detalles se estudia en un problema. La misma operación se repite con el elemento no diagonal distinto de cero y de mayor valor absoluto de A(1), sea éste aij(1) = aji(1) ≠ 0. Se define una nueva matriz de rotación O2 cuyo ángulo f2 se determina de la misma manera que antes tan 2φ2 =
(a
−2 aij(1)
(1) jj
− aii(1)
)
; φ2 ≤
π 4
(9.9.8)
con lo que se construye una nueva matriz ortogonal de rotación O2 con elementos nulos salvo en la diagonal principal (todos iguales a la unidad menos los ii y jj) y en los elementos ij y ji, como se muestra debajo
545
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
1 0 0 1 ... .... 0 i1 0 i2 ... ... O2 = 0 0 ... ... 0 j1 0 j 2 ... ... 0 0
... 0 ... 0 ... ... ... (cos φ2 )ii
... ... ... ...
0 0 ... 0
... 0 ... 0 ... ... ... (− sen φ2 )ij
... ... ... ...
... ... ... 0 ... ... ... (sen φ2 ) ji
... ... ... ...
... 1 ... 0
... ... ... ...
... 0 ... (cos φ2 ) jj
... ... ... ....
... ...
... ... ... ... 0 ...
... 0
... ...
... ...
... . 0 ... 0 jn ... 1 0 0 ... 0 in
(9.9.9)
A continuación se efectúa el producto O2–1A(1)O2 = A(2) y el resultado de este segundo paso presentará elementos nulos en las posiciones ij y ji. El proceso se repite eliminando el elemento distinto de cero y no diagonal de A(2) que sea el de mayor valor absoluto, y así sucesivamente. De esta forma el proceso consiste en la realización de pasos parciales de rotación en los que Ok−1 A( k −1)Ok = A( k )
(9.9.10)
y globalmente se tiene la iteración infinita
(
)
(
lim Ok−1Ok−−11...O2−1O1−1 AO1O2 ...Ok −1Ok = X ; O = lim O1O2 ...Ok −1Ok k→`
k→`
)
(9.9.11a)
El proceso, tal y como se ha presentado arriba, es siempre convergente y lleva a una matriz diagonal X que contiene a los autovalores xii = xi y a una matriz ortogonal O cuyas columnas i son los autovectores vi (nótese la correspondencia de índices). Claramente, en la práctica se realiza un número finito k de rotaciones y se tienen las relaciones X ≈ Ok−1Ok−1−1...O2−1O1−1 AO1O2 ...Ok −1Ok ; O ≈ O1O2 ...Ok −1Ok
(9.9.11b)
con un mejor grado de aproximación global en general cuanto mayor sea k. En este contexto hay que hacer una serie de observaciones desde el punto de vista práctico.
546
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
Observaciones prácticas i) Nótese que el resultado final sería el mismo si se hubiese elegido el sentido de rotación contrario, es decir utilizando oij = –oji = sen f. Ahora bien, una vez elegido un sentido de rotación se debe utilizar consistentemente hasta el final del proceso. ii) Hay dos estrategias generales en la selección de elementos no diagonales aij(k) ≠ 0 a eliminar en cada paso. Si el cálculo va a ser manual (o semimanual con calculadora de escritorio), entonces es siempre más ventajoso ir eliminando primero aquellos elementos que tienen mayor valor absoluto, un proceso que siempre será convergente. Por otra parte, si el proceso va a realizarse con programación en computador, entonces lo más eficiente es proceder en orden secuencial, columna a columna, eliminando ordenadamente los elementos no nulos situados fuera de la diagonal principal que vayan apareciendo con cada paso de rotación. Así, en este segundo caso, se empezaría por el elemento (2,1) de A, se continuaría por el (3,1) de A(1), después con el (4,1) de A(2), y así hasta acabar con la columna 1 en el elemento (n,1) de A(n–2), para continuar con el elemento (3,2) de la matriz A(n–1), y así sucesivamente. Con ello se ahorra tiempo de búsqueda del elemento con mayor valor absoluto y, además, con la elección ÔfÔ ≤ p/4 está garantizada la convergencia de este método. Ahora hay que prestar atención al hecho siguiente. iii) Debe notarse que, en general, los elementos que se han hecho nulos en un paso pueden ser convertidos en diferentes de cero en algún paso posterior, y esto como resultado de los productos matriciales implicados. Estas correcciones no nulas van a ser cada vez más pequeñas en magnitud a medida que aumenta el número de pasos rotacionales k. La cuestión está en que una única secuencia o barrido de los n(n – 1)/2 elementos debajo de la diagonal no va a resultar suficiente y habrá que efectuar un cierto número de estos barridos completos (normalmente cinco ó seis) para garantizar la diagonalización práctica de la matriz A, que vendrá dada por algún criterio de convergencia que se establezca a priori. Para aliviar esta tarea pueden utilizarse selecciones en secuencia con umbral, evitándose la eliminación de elementos cuyo valor absoluto sea ya suficientemente pequeño. iv) Un criterio general de convergencia para el método de Jacobi está basado en alcanzar una determinada cota de error e(~10–8, 10–12, etc.) para la denominada norma no diagonal de la matriz A(k)
547
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
A( k )
1/ 2
=
n
n
2
∑ ∑(a ) ( k) ij
i =1
i≠ j
j =1
1/ 2
n = 2 a( k ) i < j ij
2
∑ ( )
1/ 2
0 como la función de peso del problema. b) ¿Qué relación existe entre el coeficiente final l0(x) de d2y/dx2 y el coeficiente final l1(x) de dy/dx? c) La teoría matemática de Sturm-Liouville garantiza que para estos operadores diferenciales hermíticos los valores propios l son todos reales y que las funciones propias yl(x) forman un conjunto ortogonal y completo en a ≤ x ≤ b. Describir este concepto en el contexto de la aproximación en media. d) Una ecuación de valores propios tiene sentido para determinados valores concretos del parámetro l que conducen a soluciones bien definidas asociadas con ellos. Esta correspondencia l ´ yl puede ser uno-a-uno ó uno-a-varios. En el último caso a un valor lj pueden corresponderle varias funciones asociadas {ylj1, ylj2, ... yljg} y se dice que hay degeneración de orden g para lj. ¿Se da esta circunstancia en alguno de los tres casos mencionados en el enunciado? B. ECUACIONES DIFERENCIALES ORDINARIAS 9.4) Una partícula clásica monodimensional de masa m = 1 se mueve a lo largo del eje x sujeta a las siguientes condiciones iniciales (t0 = 0) de posición x0 y velocidad v0 bajo la acción de un potencial externo W(x) x0 = 0,5; v0 = +1 (sentido x crecientes) W ( x) = B
x2 ; − ` < x < `; B = 1 (osciladorÄ armónico) 2
W(x) es una energía y las unidades de todas las magnitudes son arbitrarias, no haciéndose referencia a ellas por simplicidad. Contestar las siguientes cuestiones: a) Plantear la ecuación de movimiento de Newton dada por
553
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
m
d2 x dW = F ( x) = − Å (t Ä =Ä tiempo) 2 dx dt
y adaptar su forma a una expresión adecuada al cálculo numérico. b) Estimar la posición y velocidad de la partícula en el instante t = 0,1 utilizando el predictor-corrector de Euler con pasos de integración temporales h1 = 0,1 y h2 = 0,05, con una precisión en el resultado de 10–5. c) Lo mismo con el método Runge-Kutta (IV) y un paso de integración h = 0,1. d) Calcular las posiciones y velocidades exactas que pueden obtenerse de la ecuación de movimiento general del oscilador armónico clásico x(t) = A sen(vt + f), en la que v = 1. Comparar todos los resultados obtenidos. Nota: Dar los resultados finales con 5 decimales. 9.5) Para la misma partícula del problema 4 se tienen las condiciones siguientes x0 = –0,5; v0 = –0,1 (sentido x decrecientes) W ( x) = −
C ; − ` < x < `; C = 1Ä Å (pozoÄ atractivo) 1 + x2
a) Plantear primero la ecuación de movimiento de Newton y prepararla para el cálculo numérico. b) Utilizar el método de Runge-Kutta (IV) para estimar la posición y la velocidad en t = 0,15, dividiendo el cálculo en dos intervalos temporales sucesivos h = 0,1 y h¢ = 0,05. c) Como el campo es conservativo comprobar que los resultados son consistentes evaluando la constancia de la energía total de la partícula, que es la la suma de la energía cinética más la energía potencial E =
mv2 + W ( x). 2
Nota: Dar los resultados finales con 5 decimales. 9.6) Para la misma partícula del problema 4 se tienen las condiciones siguientes
554
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
x0 = 1; v0 = +1 (sentido x crecientes) W ( x) = 4 D1x−12 − D2 x−6 ; 0 < x < `; D1 = D2 = 1Å Å (poten ncialÄ Lennard-JonesÄ 6-12) a) Plantear primero la ecuación de movimiento de Newton y prepararla para el cálculo numérico. b) Determinar la posición del mínimo de la función potencial y estimar el tiempo que la partícula tarda en alcanzarla partiendo de (x0, v0) = (1,1). c) Para una energía total de la partícula E = –0,75 encontrar los puntos de retorno (velocidad nula) xR1 y xR2 y el tiempo que invertiría la partícula en ir de uno a otro si tuviera E = 0,5. 9.7) Demostrar que la solución del problema de contorno y(xa) = ya, y(xb) = yb, para la ecuación diferencial lineal de segundo orden y¢¢ = f1(x)y¢ + f2(x)y + f3(x) es y( x) =
)
)
1 y − yb 2 y1 ( x) + yb1 − yb y2 ( x) ; yb1 − yb2 b
(
(
yb1 ≠ yb2
en donde y1 e y2 son dos soluciones particulares de valores iniciales tales que y1 ( x) → ( x0 , y0 , y0′ ) = ( xa , ya , ya′1 ); y1 ( xb ) = yb1 y2 ( x) → ( x0 , y0 , y0′ ) = ( xa , ya , ya′ 2 ); y2 ( xb ) = yb2
C. DIAGONALIZACIÓN DE MATRICES 9.8) La estructura electrónica p de la molécula de ciclopentadieno puede estudiarse mediante el método aproximado de orbitales moleculares de Hückel. En este método las energías orbitales e y los orbitales moleculares Y se obtienen como los autovalores y autovectores respectivamente de la ecuación de valores propios (I = matriz unidad (5 ¥ 5)) ÔH – eIÔ = 0 que se corresponde con el sistema de ecuaciones
555
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
c1α + c2 β +
+ c5β = c1ε
c1β + c2α + c3 β
= c2 ε
c2 β + c3α + c4 β
= c3 ε
c3 β + c4α + c5β = c4ε c1β
+ c4 β + c5α = c5ε
en donde a y b son constantes no nulas (ambas 0, excepto en posibles puntos aislados en los que pudieran ser nulas, y a las funciones yn(x) se les exige que
561
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
satisfagan las condiciones de contorno impuestas en el intervalo de definición correspondiente. b) La relación que se observa entre los coeficientes finales l0(x) y l1(x) de la ecuación transformada que resulta de multiplicar por el factor h(x)
{
}
h( x) L y( x) + λϖ ( x) y( x) = 0 → l0 ( x)
d2 y dy + l1 ( x) + l ( x) y + λϖ ( x) y = 0 2 dx 2 dx
es sencillamente dl0 ( x) = l1 ( x) dx lo cual es siempre la condición necesaria y suficiente para que un operador diferencial L de la forma L y( x) = l0 ( x)
d2 y dy d dy + l1 ( x) + l2 ( x) y = l0 ( x) + l2 ( x) y 2 dx dx dx dx
sea hermítico (o autoadjunto en versión más fuerte). Estos operadores presentan la propiedad de simetría siguiente cuando actúan sobre funciones reales de variable real dentro de su dominio de definición
∫
b a
y1 ( x) L y2 ( x) dx =
∫
b a
y2 ( x) L y1 ( x) dx
que puede visualizarse como una conmutación bajo el signo integral. Si las funciones son complejas, la condición anterior se generaliza (*=conjugación compleja) en la forma
∫
b a
y1 * ( x) L y2 ( x) dx =
∫
b a
y2 ( x) L y1 * ( x) dx
En particular, estas ecuaciones de definición operativa del operador L pueden considerarse como la representación matricial de L en la base de sus funciones propias {yi(x)} y ello está relacionado con la determinación de valores y funciones (vectores) propias por diagonalización de tal matriz. Ésta es una propiedad muy importante en las aplicaciones de la Mecánica Cuántica a átomos y moléculas.
562
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
c) La completitud se refiere al desarrollo de funciones arbitrarias j(x) con el criterio de aproximación en media (mínimos cuadrados) dentro de los intervalos de definición correspondientes. Así una función definida en a ≤ x ≤ b puede expresarse en la base de funciones ortonormalizadas {y˜i}i=0,⬁ como (¡atención a los extremos del intervalo!, Cap. 2, Ap. II)) `
ϕ ( x) =
∑ c y ( x); i i
b
ci = ∫ a ϕ ( x) y i ( x) dx
i=0
de modo que el error cuadrático medio de la representación tienda a cero cuando se utilicen infinitos términos
lim
n→ `
∫
b a
ϕ ( x) −
n
∑ i=0
2
ci y i ( x) dx = 0 ⇒
∫
b a
2
ϕ ( x) dx =
`
∑ c ; (Parseval) 2 i
i=0
Hay que insistir en que este criterio de aproximación en media no implica necesariamente la igualdad entre la función y la serie para todo valor de x del intervalo, ya que ambas pueden ser diferentes en puntos aislados (conjuntos de medida nula). Este criterio define así clases de equivalencia dentro de las funciones de cuadrado integrable, estando cada clase compuesta por funciones que son iguales «casi en todas partes». d) De los tres casos estudiados se da degeneración en el caso de Fourier: para un valor propio n2 ≠ 0 hay dos funciones propias asociadas cos nx y sen nx, hay así degeneración de orden dos. En el caso n = 0 sólo hay una función propia asociada, la función 1, y no hay degeneración para ese valor propio.
B. ECUACIONES DIFERENCIALES ORDINARIAS Problema 9.4 a) Teniendo en cuenta que F ( x) = −
dW = − x, la ecuación de movimiendx
d2 x = − x, y expresada en forma de sistema de ecuaciones acopladas de dt 2 primer orden queda to es
563
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
dx dt = v = f (t, x, v) dv = − x = g(t, x, v) dt b) El PC de Euler se plantea simultáneamente para las dos variables x y v. Las etapas predictora P y correctora C son P:
xk +1 ≈ xk + hf ( tk , xk , vk )
vk +1 ≈ vk + hg(tk , xk , vk )
xk(0+)1 ≈ xk + hvk C : xk( i++11) ≈ xk + vk( i++11) ≈ vk +
(
vk( 0+)1 ≈ vk + h − xk
)
(
h h f (tk , xk , vk ) + f (tk +1 , xk( i+)1 , v(ki+)1 ) → xk( i++11) ≈ xk + vk + vk( i+)1 2 2
(
)
h h g( tk , xk , vk ) + g(tk +1 , xk( i+)1 , vk( i+)1 ) → vk( i++11) ≈ vk + − xk − xk( i+)1 2 2
)
en las que sólo una estimación se realiza en P para la abcisa considerada xk+1, en tanto que para C hay un cálculo iterativo (i + 1) hasta convergencia. Para x0 = 0,5, v0 = +1, y h1 = 0,1 basta un solo paso y los resultados se detallan a continuación k+1=1 x1( 0) ≈ 0, 5 + 0,1⋅1 = 0, 6
v1( 0) ≈ +1 + 0,1⋅ (−0, 5) = 0, 95
0,1 (1 + 0, 95) = 0,5975 2 0,1 x1( 2) ≈ 0,5 + (1 + 0, 945) = 0, 59725 2 0,1 x1( 3) ≈ 0,5 + (1 + 0, 945125) = 0, 59725625 2 0,1 (1 + 0, 9451375) = 0, 597256875 x1( 4 ) ≈ 0,5 + 2
v1(1) ≈ 1 +
x1(1) ≈ 0, 5 +
0,1 (−0, 5 − 0, 6) = 0, 945 2 0,1 v1( 2) ≈ 1 + (−0, 5 − 0, 5975) = 0, 945125 2 0,1 (−0, 5 − 0, 59725) = 0, 9451375 v1( 3) ≈ 1 + 2 0,1 v1( 4 ) ≈ 1 + (−0, 5 − 0, 59725625) = 0, 945137187 2
en donde se observa la convergencia de los cálculos y que una precisión de 5 cifras decimales se alcanza ya en el tercer paso corrector. Estos resultados redondeados a cinco decimales son t = 0,1 Æ x1 = 0,59726, v1 = 0,94514
564
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
Para x0 = 0,5, v0 = +1, y h2 = 0,05 hay que efectuar dos pasos, t0 = 0 Æ t1 = 0,05 Æ t2 = 0,1 y los resultados se detallan a continuación k + 1 = 1, t1 = 0, 05 x1(0 ) ≈ 0, 5 + 0, 05 ⋅1 = 0, 55
v1(0) ≈ 1 + 0, 05 ⋅ (−0, 5) = 0, 975
0, 05 (1 + 0, 975) = 0, 549375 2 0, 05 (1 + 0, 97375) = 0, 54934375 x1(2 ) ≈ 0, 5 + 2 0, 05 x1(3 ) ≈ 0, 5 + (1 + 0, 973765625) = 0, 54934414 2 0, 05 x1( 4 ) ≈ 0, 5 + (1 + 0, 973766406) = 0, 54934416 2 k + 1 = 2, t2 = 0,1
v1(1) ≈ 1 +
x1(1) ≈ 0, 5 +
0, 05 (−0, 5 − 0, 55) = 0, 97375 2 0, 05 (−0, 5 − 0, 549375) = 0, 973765625 v1(2) ≈ 1 + 2 0, 05 (−0, 5 − 0, 54934375) = 0, 973766406 v1(3) ≈ 1 + 2 0, 05 (−0, 5 − 0, 54934414) = 0, 973766396 v1(4 ) ≈ 1 + 2
Aquí las entradas (los valores iniciales) son los resultados obtenidos en el apartado anterior (redondeados a 8 decimales) x2(0 ) ≈ 0, 5493442 + 0, 05 ⋅ 0, 9737664 = 0, 59803252 v2(0 ) ≈ 0, 9737664 + 0, 05 ⋅ (−0, 5493442) = 0, 94629919 x2(1) ≈ 0, 59734584
v2(1) ≈ 0, 94508198
x2(2 ) ≈ 0, 59731541
v2(2 ) ≈ 0, 94509915
x2(3 ) ≈ 0, 59731584
v2(3 ) ≈ 0, 94509991
x2( 4 ) ≈ 0, 59731586
v1( 4 ) ≈ 0, 94509990
en donde de nuevo se observa la convergencia de los cálculos y que una precisión de 5 cifras decimales se garantiza ya en el tercer paso corrector. Estos resultados redondeados a cinco decimales son t = 0,1 → x1 ≈ 0, 59732, v1 ≈ 0, 94510 y las diferencias con las estimaciones anteriores son de órdenes ~10–4 para la posición y 10–5 para la velocidad. Estos segundos cálculos con un espaciado menor son más cercanos al resultado exacto que los primeros y presentan un menor error de algoritmo que, debido a las incertidumbres en la tercera derivada, se comporta como e(0,05)/y(3(x) ~ 10–5, e(0,1)/y(3(x¢) ~ 10–4
565
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
c) La aplicación Runge-Kutta (IV) para t1 = 0,1 con x0 = 0,5 v0 = +1, y h1 = 0,1 necesita un solo paso y los cálculos se detallan a continuación
(
1 x R + 2 R2x + 2 R3x + R4x 6 1 R1x = hf (tk , xk , vk ) = hvk xk +1 ≈ xk +
)
(
1 v R + 2 R2v + 2 R3v + R4v 6 1 R1v = hg(tk , xk ,vvk ) = − hxk vk +1 ≈ vk +
k
)
k
Rx Rv Rv h R2x = hf (tk + , xk + 1 , vk + 1 ) = h vk + 1 2 2 2 2
Rx Rx Rv h R2v = hg(tk + , xk + 1 , vk + 1 ) = − h xk + 1 2 2 2 2
Rx Rv Rv h R3x = hf (tk + , xk + 2 , vk + 2 ) = h vk + 2 2 2 2 2
Rx Rv Rx h R3v = hg(tk + , xk + 2 , vk + 2 ) = − h xk + 2 2 2 2 2
(
R4x = hf (tk + h, xk + R3x , vk + R3v ) = h vk + R3v
)
(
R4v = hg(tk + h, xk + R3x , vk + R3v ) = − h xk + R3x
)
k +1= 1 R1x = 0,1⋅1 = 0,1
R1v = −0,1 ⋅ 0, 5 = −0, 05
−0, 05 R2x = 0,1⋅ 1 + 0975 = 0,0 2
0,1 R2v = −0,1 ⋅ 0, 5 + = −0, 055 2
−0, 055 R3x = 0,1⋅ 1 + = 0, 09725 2
0, 0975 R3v = −0,1 ⋅ 0, 5 + = −0, 054875 2
)
R4x = 0,1⋅ (1 − 0, 054875 = 0, 0945125
)
R4v = −0,1 ⋅ ( 0, 5 + 0, 09725 = −0, 059725
Los resultados finales redondeando a 5 decimales son x1 ≈ 0, 59733542
v1 ≈ 0, 9450875 → x1 ≈ 0, 59734
v1 ≈ 0, 94509
d) La solución exacta x(t) = A sen (v t + f) tiene v = 1, por tener masa y constante de fuerza iguales a la unidad, y hay que determinar los dos parámetros: amplitud A y fase f. Con las condiciones iniciales se obtiene un sistema de ecuaciones del que se pueden calcular estos parámetros t0 = 0, x0 = 0, 5 → x = A sen(ω t Ä +φ ) → 0,5 = A sen φ t0 = 0 , v0 = +1→ v =
566
dx = Aϖ cos(ϖ t + φ ) → 1 = A cos φ dt
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
—— de donde tan f = 0,5 Æ f = 0,463647609 radianes, y A = √ 1,25. Se tiene entonces la tabla siguiente con datos redondeados a siete decimales para mostrar claramente el comportamiento global y en donde se aprecia la mucha mayor potencia del método RK – IV. Con redondeo a 5 decimales la coincidencia entre los resultados exactos y los de RK – IV es completa. Tabla. Problema 9.4 Método PC-Euler (1 etapa) PC-Euler (2 etapas) Runge-Kutta (IV) Exacto
t 0,1 0,1 0,1 0,1
x 0,5972569 0,5973159 0,5973354 0,5973355
v 0,9451372 0,9450999 0,9450875 0,9450875
Problema 9.5 a) Teniendo en cuenta que F ( x) = − 2 vimiento es d x = − 2 x dt 2 1 + x2
(
)
2
2x dW =− dx 1 + x2
(
)
2
, la ecuación de mo-
, y expresada en forma de sistema de ecuacio-
nes acopladas de primer orden queda dx dt = v = f (t, x, v) dv = − 2 x = g(t , x, v) dt (1 + x2 )2 Una representación gráfica de este problema puede verse en la Fig. 9EP.1, en donde se observa que la fuerza es recuperadora, del mismo tipo que la del problema clásico del oscilador armónico. Así, para x < 0 la fuerza es positiva (impedimento a alejarse del mínimo) y por tanto tiende a hacer que la partícula en reposo «caiga» hacia el mínimo situado en x = 0. Para x > 0 la fuerza es negativa (una atracción hacia el mínimo) y el efecto es igualmente hacer que la partícula en reposo se dirija hacia x = 0. Se trata de un problema de campo central. El máximo y el mínimo de esta fuerza son iguales en valor absoluto y marcan los puntos de máxima aceleración en el movimiento hacia el centro x = 0.
567
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Figura 9EP.1. Gráfico explicativo con el potencial y la fuerza para el Problema 6.
b) Procediendo como en el problema anterior se organizan los cálculos del modo siguiente k = 0 x0 = −0, 5 v0 = −0,1 h = 0,1 k +1=1 R1v = −0,1 ⋅
R1x = 0,1 ⋅ (−0,1) = −0, 01
0, 064 = −6, 8 ⋅10 −3 R2x = 0,1 −0,1 + 2 R2v = −0,1 ⋅
2 (−0,5)
(
1 + 0, 52
)
2
= 0, 064
2(−0,5 − 0, 01 / 2)
(1+ (−0,5 − 0,01 / 2) )
0, 064123411 = −6, 793829 ⋅10 −3 R3x = 0,1 −0,1 + 2 R3v = −0,1⋅
2 (−0, 5 − 6, 8 ⋅10 −3 / 2)
(1 + (−0,5 − 6,8 ⋅10
−3
/ 2)
2
)
2
= 0, 064084915
)
R4x = 0,1( −0,1 + 0, 064084915 = −3, 591508 ⋅10 −3 R4v = −0,1⋅
568
2 ( −0, 5 − 6, 793829 ⋅10 −3 )
(1 + (−0, 5 − 6, 793829 ⋅10 ) ) −3 2
2
= 0, 064165463
2
2
= 0, 064123411
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
y se obtienen para la posición y la velocidad de esta primera etapa los valores t1 = 0,1 → x1 ≈ −0, 506796527
v1 ≈ −0, 035902980
La energía total de la partícula es E=
1 0,12 1 mv02 + W ( x0 ) = − = −0, 795 2 2 1 + 0, 52
que es una magnitud que se debe conservar en el movimiento. La energía calculada en t1 = 0,1 con los valores x1 y v1 anteriores es E1 = –0,79499999 ≈ –0,795 y los cálculos realizados pueden considerarse correctos. Hay que evaluar ahora la segunda etapa del movimiento y procediendo de igual modo se encuentran partiendo de k = 1 x1 = −0, 506796527 v1 = −0, 035902980 h ' = 0, 05 los resultados siguientes k +1= 2 R1x = −1, 795149 ⋅10 −3
R1v = 0, 032082762
R2x = −9, 930799 ⋅10 −4
R2v = 0, 032093064
R3x = −9, 928224 ⋅10 −4
R3v = 0, 032088479
R4x = −1, 90725 ⋅10 −4
R4v = 0,0 032094148
y se obtienen para la posición y la velocidad de esta segunda etapa los valores finales t2 = 0,15 → x2 ≈ −0, 507789473
v2 ≈ −3, 81298 ⋅10 −3
Es interesante constatar el papel de frenado que ejerce la fuerza del sistema sobre el movimiento de la partícula que se aleja del centro del sistema: de no existir tal fuerza, la partícula (libre) habría recorrido en el tiempo 0,15 un espacio s = –0,1 · 0,15 = –0,015. Su situación final habría sido entonces –0,5 – 0,015 = –0,515 y se encontraría más alejada del origen del sistema que en las condiciones del problema con la existencia de un potencial (y por tanto de una fuerza).
569
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
El valor de la energía se conserva y es de nuevo E2 = –0,79499999 ≈ –0,795. Puede observarse otra vez la gran potencia del método de Runge-Kutta (IV). En cálculos con doble precisión (16 cifras significativas en todos los datos) en computador el resultado calculado para la energía sería indistinguible del exacto. Redondeando a 5 decimales los resultados son t2 = 0,15 → x2 ≈ −0, 50779
v2 ≈ −0, 00381
Problema 9.6 a) Teniendo en cuenta que F ( x) = −
dW = 24 2 x−13 − x−7 , la ecuación dx
2 de movimiento es d x = 24 2 x−13 − x−7 , y expresada en forma de sistema dt 2
de ecuaciones acopladas de primer orden queda dx dt = v = f ( x, v, t ) dv = 24 2 x−13 − x−7 = g( x, v, t ) dt En la Fig. 9EP.2 se muestra una diagrama de las formas de este potencial y de su fuerza asociada. Este es un tipo de función potencial con una fuerte base teórica que se utiliza profusamente para representar las interacciones entre átomos y moléculas (con simetría esférica) y que tiene muchas aplicaciones en el estudio de agregados moleculares («clusters», fases condensadas, etc.). En estos casos la «partícula» de este problema sería la masa reducida del sistema de dos átomos (o moléculas) y x simboliza la distancia entre los centros de los dos átomos (ó moléculas). b) El mínimo del potencial viene dado por dW/dx = 0 y d2W/dx2 > 0. De la anulación de la primera derivada se obtiene 2x–6 – 1 = 0, y por tanto xm = 6 2 , valor con el que se obtiene una segunda derivada positiva. Esta es la posición del único mínimo de esta función potencial: a su izquierda la fuerza que apa-
570
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
Figura 9EP.2. Gráfico explicativo con el potencial y la fuerza para el Problema 6.
rece es repulsiva F(x < 21/6) > 0, en tanto que a su derecha la fuerza que aparece es de atracción F(x > 21/6) < 0. La fuerza del sistema tiende así a oponerse a desplazamientos de la partícula que la lleven lejos del mínimo del potencial W(x). Para resolver la cuestión del tiempo en el que se alcanza esta posición del mínimo, partiendo de x0 = 1, v0 = 1, podría resolverse la ecuación de movimiento y utilizando una tabulación (t, x, v) identificar el tiempo t en el que x = xm. Sin embargo, puede utilizarse el teorema de conservación de la energía para reducir el problema al del simple cálculo de una integral definida. Nótese, primero, que en ausencia de campos de fuerzas (potenciales) la partícula libre tardaría un tiempo (unidades arbitrarias) asociado con su movimiento uniforme igual a t=
espacio 21/ 6 − 1 = ≈ 0,122462 velocidad 1
En segundo lugar, y de acuerdo con la discusión anterior sobre la fuerza en este sistema, el efecto del campo de fuerzas Lennard-Jones en estas condiciones va a ser el de acelerar el movimiento, en una «caída hacia el mínimo» de energía potencial, de modo que ese tiempo va a ser menor que el anterior. La energía va a conservarse, E = E0 = 0,5, por ser el potencial conservativo (no depende del tiempo), y se tiene
571
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
2
m dx dx E = + W ( x) → = 2 dt dt
2 dx E − W ( x) → dt = ; m =1 ( m 2 ( E − W ( x)
)
)
con lo que el tiempo buscado se determina a partir de la integral definida t=
1
2∫
xm = 21/ 6 x0 =1
dx
(
E0 − 4 x
−12
−x
−6
21/ 6
1
) 2∫ =
1
dx
(
0, 5 − 4 x−12 − x−6
)
Utilizando las reglas del trapecio y de Simpson se obtiene la tabla siguiente con los resultados correspondientes a diferentes espaciados h que implican diferentes números de puntos N Tabla (b1). Problema 9.6 N
h
t (trapecios)
t (Simpson)
5
3,061551·10–2
8,182073·10–2
8,052907·10–2
7
2,041034·10–2
8,094680·10–2
8,028478·10–2
9
1,530776·10–2
8,0611785·10–2
8,021688·10–2
19
6,803447·10–3
8,026030·10–2
8,017161·10–2
–2
–3
39
3,22269·10
8,018933·10
8,016878·10–2
1001
1,224621·10–4
8,016864·10–2
8,016861·10–2
2001
6,123103·10–5
8,016862·10–2
8,016861·10–2
Las integraciones convergen despacio con estas reglas pero dan resultados consistentes y llevan al resultado exacto haciendo h Æ 0. Redondeando a cinco decimales el resultado es t = 0,08017 (unidades de tiempo) que es menor que el tiempo en ausencia de campo t = 0,12246. Otra posibilidad de integración que va a requerir pocos argumentos para dar una respuesta significativa es la de utilizar integración GaussLegendre, para lo que hay que reducir el intervalo original [1,21/6]x Æ [–1, +1]z, lo que se logra con el cambio de variable definido por z +1=
572
21/ 6 + 1 21/ 6 − 1 ( x − 1 ) → x = A + Bz ; A = ; B = → dx = B dz 2 2 21/ 6 − 1 2
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
y la integración Gaussiana se expresa como t=
1
2∫
21/6
B 2
∫
dx
(
)
=
=
B
0, 5 − 4 x−12 − x−6
1
+1
dz
−1
0, 5 − 4 ( A + Bz)−12 − ( A + Bz)−6
(
)
2
N
∑ c f (z ) k
k
k =1
en donde f es la función que se integra en la variable z f ( z) =
1
(
0, 5 − 4 ( A + Bz)−12 − ( A + Bz)−6
)
Utilizando las tablas de coeficientes y argumentos de Gauss-Legendre (Cap. 3) se tienen los resultados para diferentes discretizaciones con N puntos siguientes GL-N =2 c1 = 1 z1 =
0, 57735027
c2 = 1 z2 = −0, 57735027
→ t ( N = 2) ≈ 0, 079186104
GL-N =4 c1 = 0, 34785485 z1 = 0, 86113631 c2 = 0, 34785485 z2 = −0, 86113631 c3 = 0, 65214515 z3 = 0, 33998104
→ t ( N = 4) ≈ 0, 08012921
c4 = 0, 65214515 z4 = −0, 33998104 GL-N=6 c1 = 0,17132449 c2 = 0,17132449 c3 = 0, 36076157 c4 = 0, 36076157 c5 = 0, 46791393 c6 = 0, 46791393
z1 = 0, 93246951 z2 = −0, 93246951 z3 = 0, 66120939 → t ( N = 6 ) ≈ 0, 08016689 z4 = −0, 66120939 z5 = 0, 23861919 z6 = −0, 23861919
La convergencia con el número de puntos utilizados es aquí más rápida y el resultado concuerda con los obtenidos vía las reglas más sencillas.
573
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
c) Los puntos de retorno son aquellos en los que la velocidad de la partícula se hace nula y se invierte el sentido del movimiento. Estos puntos para la energía dada E = –0,75 vienen dados por E = W(x) −0, 75 = 4 [ x−12 − x−6 ] → u = x−6 → u1 = 0, 75 u2 = 0, 25 → xR1 = 0, 75−1/ 6 xR2 = 0, 25−1/ 6 xR1 ≈ 1, 04911506
xR2 ≈ 1, 25992105
Utilizando la relación anterior para el tiempo como una integral definida que puede transformarse a una integral Gauss-Legendre se tiene para el tiempo pedido. t=
=
B 2
∫
1
2∫
xR2
dx
xR1
0, 5 − 4 x−12 − x−6
(
+1
dz
−1
0, 5 − 4 ( A + Bz)−12 − ( A + Bz)−6
(
)
)
=
=
B 2
N
∑ c f (z ) k
k
k =1
en donde ahora A=
xR1 + xR2 x − xR1 ; B = R2 2 2
Los resultados redondeados a 8 decimales para este tiempo utilizando diferentes discretizaciones son t ( N = 2) ≈ 0,12544437, t ( N = 4) ≈ 0,12573874, t ( N = 6) ≈ 0,12574193
Problema 9.7 La demostración puede hacerse en dos pasos: primero comprobar que la solución cumple las condiciones de contorno y(xa) = ya, y(xb) = yb, y segundo que verifica la ecuación diferencial lineal. i) Que y(xa) = ya, y(xb) = yb, se comprueba sustituyendo en la solución los valores de x en la frontera
574
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
y( xa ) =
(
)
(
)
)
1 y − yb 2 ya + yb1 − yb ya = ya yb1 − yb2 b
(
= y( xb ) = =
)
1 y − yb2 y1 ( xa ) + yb1 − yb y2 ( xa ) = yb1 − yb 2 b
(
)
)
1 y − yb2 y1 ( xb ) + yb1 − yb y2 ( xb ) = yb1 − yb 2 b
(
(
)
)
1 y − yb 2 yb1 + yb1 − yb yb2 = yb yb1 − yb2 b
(
(
ii) Que y(x) es solución de la ecuación lineal y¢¢ = f1(x)y¢ + f2(x)y + f3(x) se comprueba verificando la igualdad que la define. Por un lado y "( x) =
)
)
1 y − yb2 y "1 + yb1 − yb y "2 yb1 − yb 2 b
(
(
Por el otro f1 ( x) y '+ f2 ( x) y + f3 ( x) =
f1 y − yb2 y '1 + yb1 − yb y '2 + yb1 − yb2 b
)
(
)
(
f2 y − yb 2 y1 + yb1 − yb y2 + f3 = yb1 − yb2 b
)
(
=
1 y − yb 2 yb1 − yb2 b
(
)
(
){ y" − f } + ( y 1
3
b1
− yb
) { y " − f } + f 2
3
3
=
1 y − yb2 y "1 + yb1 − yb y "2 yb1 − yb 2 b
(
)
(
)
con lo que queda comprobada la igualdad.
575
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
C. DIAGONALIZACIÓN DE MATRICES Problema 9.8 El determinante secular puede escribirse en la forma operativa
α −ε β 0 0 β β α −ε β 0 0 PS (ε ) = 0 β α −ε β 0 = 0 0 β α −ε β β 0 0 β α −ε x 1 α −ε = 0 → x = → PS ( x) = 0 β 0 1
1 0 x 1 1 x 0 1 0 0
0 1 0 0 1 0 =0 x 1 1 x
en donde se ha sacado factor común b en cada fila del determinante original. La ecuación secular es entonces PS(x) = x5 – 5x3 + 5x + 2 = 0 y tendrá cinco raíces todas reales (la matriz es real y simétrica). Estas raíces van a determinarse siguiendo el método de Newton por su rapidez de convergencia cuadrática y lo primero es separar las raíces en intervalos (Cap. 4). a) Separación de raíces Los extremos (máximos y mínimos) de PS(x) se calculan con su derivada primera igualada a cero y con el criterio de signos de la segunda derivada PS′( x) = 5 x4 − 15 x2 + 5 = 0
P "S ( x) = 20 x3 − 30 x
Estos extremos están localizados en x1 ≈ −1, 618034
P "S ( x1 ) < 0 máximo
x2 ≈ −0, 618034 P "S ( x2 ) > 0 mínimo
576
x3 ≈ 0, 618034
P "S ( x3 ) < 0 máximo
x4 ≈ +1, 618034
P "S ( x4 ) > 0 mínimo
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
Hay también tres puntos de inflexión: x5 = 0
x6 ≈ −1, 224745
x7 ≈ 1, 224745
Además se tienen los comportamientos PS(x Æ –⬁) Æ –⬁, y PS(x Æ ⬁) Æ ⬁. Se puede confeccionar entonces una primera tabla de signos x sgn[PS(x)]
–⬁
–3
–1
0
1
3
+⬁
–
–
+
+
+
+
+
de manera que de aquí se identifica que una de las raíces xR está en [–3, –1]. Sin embargo, no hay más indicaciones sobre las cuatro raíces restantes. El estudio de los posibles cambios de signo de PS(x) entre extremos consecutivos no va a ayudar, ya que estos cambios no existen: el signo de PS(x) es positivo alrededor de cada uno de ellos. De manera que los indicios son de que va a haber raíces múltiples y que se van a corresponder con puntos de tangencia horizontal entre PS(x) y el eje x, lo que se detecta como «crecimientos» o «decrecimientos» de la función a ambos lados de la raíz (en un entorno de ésta). La localización de estas raíces y de sus multiplicidades requeriría en principio usar tanteos y cálculos un poco elaborados. No obstante, el problema presente es de resolución muy sencilla por mera inspección de la ecuación secular, pues algunos de los valores que hacen P¢S(x) = 0 son ya soluciones de PS(x) = 0. A pesar de ello, y para ilustrar como proceder en el caso general va a seguirse un método de búsqueda de raíces que no tenga en cuenta este conocimiento. Para ello va a realizarse una tabulación, un tanto más detallada que la anterior, de la función y de sus derivadas. Además, como la función auxiliar j(x) = PS(x)/P¢S(x) está libre de singularidades y se tiene el resultado para su derivada 1 lim ϕ ′( x) = ; j > 1 j
x→ xR
que indica la multiplicidad j de la raíz xR se hará uso de este resultado cuando así proceda. La función j¢(x) es pues
ϕ ′ ( x) = 1 −
PS ( x) P "S ( x) PS′( x)
2
= 1−
( x5 − 5 x3 + 5 x + 2)(20 x3 − 30 x) (5 x4 − 15 x2 + 5)2
577
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
y la tabulación con datos redondeados a 2 decimales se muestra en la tabla correspondiente a este problema.
Tabla. Problema 9.8 x
PS(x)
P¢S(x)
P¢¢S(x)
–3
–121
275
–450
–2,5
–30,03
106,56
–237,5
–1,7
3,87
3,41
–47,26
.......
.......
.......
.......
–1
1
–5
10
–0,9
0,55
–3,87
12,42
–0,8
0,23
–2,55
13,76
–0,7
0,05
–1,15
14,14
0,50
–0,6
0,00
0,25
13,68
0,50
–0,5
0,09
1,56
12,50
0,52
–0,4
0,31
2,73
10,72
.......
.......
.......
.......
1
3
–5
–10
1,1
2,46
–5,83
–6,30
1,2
1,85
–6,23
–1,44
1,3
1,23
–6,07
4,94
1,4
0,66
–5,19
12,88
1,5
0,22
–3,44
22,50
0,58
1,6
0,01
–0,63
33,92
0,51
1,7
0,13
3,41
47,26
0,46
1,8
0,74
8,89
62,64
1,9
1,97
16,01
80,18
2
4
25
100
j¢(x)
Esta tabulación ya indica que habrá dos raíces dobles: una cerca de –0,6 y otra cerca de 1,6. Se observa como la función es «creciente» a ambos lados de estos valores (“mínimos”) y que j¢ ≈ 0,5. Con esta información es ya fácil seguir adelante.
578
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
b) Cálculo de las raíces. En el intervalo [–3, –1,7] puede utilizarse el método de Newton, con garantía de convergencia, partiendo de x0 = –3, pues se tiene PS(x0)P¢¢S(x0) > 0 (las dos derivadas no se anulan y mantienen signo constante). El algoritmo es considerando raíces simples xn +1 = xn −
xn5 − 5 xn3 + 5 xn + 2 5 xn4 − 15 xn2 + 5
y se encuentra la secuencia siguiente redondeando a 8 decimales x0 = −3 x1 = −2, 56 x2 = −2, 25644468 x3 = −2, 07902553 x4 = −2, 01036327 x5 = −2, 00020916 x6 = −2, 00000009 x7 = −2 Esta es pues la primera raíz xR = –2. Vistas las propiedades de la función se puede utilizar x0 = –1 para determinar otra de las raíces. La función mantiene constante el signo de su segunda derivada y es decreciente; hay cambio de signo en la primera derivada, pero el punto de partida está ya pasado el punto de inflexión y la convergencia a la raíz está garantizada. Nótese incidentalmente, además, que PS(–1)P¢¢S(–1) > 0. Utilizando el algoritmo simple (j = 1) se encuentra la secuencia siguiente redondeando a 8 decimales x0 = −1 x1 = −0, 8 x2 = −0, 70896552 x3 = −0, 66367459 x4 = −0, 64092086
579
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
x10 = −0, 61839286 x15 = −0, 61804520 x20 = −0, 61803434 Esta exageradamente lenta convergencia hacia xR2 ≈ –0,6180 está de acuerdo con el carácter doble. Refinando la estimación de esta última raíz corrigiendo el algoritmo de Newton en la forma xn +1 = xn − 2
xn5 − 5 xn3 + 5 xn + 2 5 xn4 − 15 xn2 + 5
y se obtiene, partiendo de x0 = –1 una secuencia rápidamente convergente que en cinco pasos lleva a la raíz mejorada. Esta secuencia se resume en los datos siguientes x0 = −1, x1 = −0, 6, x5 = x6 = −0, 61803399 De las cinco raíces ya se han determinado tres, una simple xR1 = –2 y otra doble xR2 = xR3 ≈ –0,61803399. La otra raíz doble puede obtenerse partiendo de x0 = 2, los argumentos de convergencia a la raíz son análogos a los de la raíz anterior, nótese de nuevo que incidentalmente se tiene PS(2)P¢¢S(2) > 0. Utilizando el algoritmo de Newton sin multiplicidad se obtiene una nueva sucesión de valores con convergencia extremadamente lenta hacia xR ⯝ 1,6180. El uso del mismo algoritmo corregido de Newton expresado antes partiendo de x0 = 2 lleva en seis pasos a la raíz que falta. Los resultados se resumen en los datos siguientes x0 = 2, x1 = 1, 68 , x6 = x7 ≈ 1, 61803399 En resumen, las cinco raíces y las cinco energías orbitales correspondientes son (redondeos a 8 decimales)
580
xR1 = −2
ε1 = α + 2β
xR 2 = xR 3 = −0, 61803399
ε 2 = ε 3 = α + 0, 61803399 β
xR 4 = xR5 = 1, 61803399
ε 4 = ε5 = α − 1, 61803399β
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
Que estos resultados son consistentes lo prueban varios hechos. Primero, que estas raíces verifican la ecuación secular. Segundo, que el problema resuelto es equivalente al de diagonalizar la matriz 0 1 hij = 0 0 1
( )
1 0 0 1 0 1 0 0 = 0 x = − x 1 0 1 0 ; h − xI 0 1 0 1 0 0 1 0
y se observa que en la diagonalización se conservan la traza y el determinante 5
5
5
i =1
i =1
i =1
tr ( h) = ∑ hii = ∑ x i = ∑ ( − xi ) = 0
5
5
i =1
i =1
det( h) = ∏ x i = ∏ (− xi ) =2
Con 8 decimales en las raíces calculadas los errores con respecto a estos resultados exactos son 0 y 10–8 respectivamente.
Problema 9.9 Los valores de e y de x van emparejados así
ε1 = α + 2β → x1 = −2 ε 2 = ε 3 = α → x2 = x3 = 0 ε 4 = α − 2β → x4 = 2 El cálculo de los coeficientes por raíz x se detalla a continuación. a) Raíz simple x1 = –2: el sistema queda reducido a tres ecuaciones c1 x + c2 c1 + c2 x + c3
+ c4 = 0 → =0 →
c2 + c3 x + c4 = 0 →
− 2 c1 + c2 c1 − 2c2 +
+ c4 = 0 c3
=0
c2 − 2 c3 + c4 = 0
Hay libertad para fijar arbitrariamente una incógnita. Sea ésta c˜ = 1, con lo que el sistema resultante y sus soluciones son
581
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
c2 −2c2 +
+ c4 = 2 = −1 → c11 = 1, c21 = 1, Å c31 = 1, Å c41 = 1, Å v 1T = (1,1,1,1)
c3
c2 − 2 c3 + c4 = 0 con los coeficientes utilizando dos subíndices para referir el primer vector y éste expresado en forma de matriz fila. b) Raíz doble x2 = x3 = 0: el sistema queda reducido a dos ecuaciones c1 x + c2
+ c4 = 0 →
c1 + c2 x + c3
+ c4 = 0
c2
=0 →
c1 +
c3
=0
Para obtener el primer vector de este bloque hay libertad para fijar arbitrariamente dos incógnitas, utilizando dos subíndices en los coeficientes c˜n2 por comodidad de identificación dentro del nivel degenerado, sean éstas c˜12 = c˜22 = 1, con lo que la solución es c12 = 1, c22 = 1, c32 = −1, c42 = −1, v T2 = (1,1, −1, −1) El vector degenerado ortogonal al anterior requiere del mismo sistema complementado con la relación v˜2·v3 = 0 (componente a componente) c13 x + c23
+ c43 = 0
c13 + c23 x + c33
=0
c23
→ →
c12 c13 + c22 c23 + c32 c33 + c42 c43 = 0 →
c13 +
+ c43 = 0 c33
=0
c13 + c23 − c33 − c43 = 0
de manera que ahora sólo es necesario dar un valor arbitrario a una de las constantes. Sea éste valor c˜13 = 1 con lo que la solución es c13 = 1, c23 = −1, c33 = −1, c43 = 1, v T3 = (1, −1, −1,1) c) Raíz simple x4 = 2: el sistema queda reducido a tres ecuaciones al igual que en a) c1 x + c2 c1 + c2 x + c3
+ c4 = 0 → =0 →
c2 + c3 x + c4 = 0 →
582
2 c1 + c2 c1 + 2 c2 + c3
+ c4 = 0 =0
c2 + 2 c3 + c4 = 0
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
Hay libertad para fijar arbitrariamente una incógnita, sea ésta c˜1 = 1, con lo que el sistema resultante y sus soluciones son c2
+ c4 = − 2
2 c2 + c3
= − 1 → c14 = 1, c24 = −1, c34 = 1, c44 = −1, v T4 = (1, −1,1, −1)
c2 + 2 c3 + c4 =
0
con el autovector asociado expresado en forma de matriz fila. Realizadas las operaciones anteriores se normalizan los autovectores como sigue
Primer autovector
(
2 2 2 2 N1 = c11 + c21 + c31 + c41
)
1/ 2
= 41/ 2 = 2 → v1T =
1 T v = (1 / 2, 1 / 2, 1 / 2, 1 / 2) N1 1
y el orbital molecular (enlazante, con menor energía e = a + 2b < a) es Ψ1 =
1 (2 pz )1 + (2 pz )2 + (2 pz )3 + (2 pz )4 2
Segundo y tercer autovectores
(
)
= 41/ 2 = 2 → v 2T =
1 T v = (1 / 2, 1 / 2, − 1 / 2, − 1 / 2) N2 2
(
)
= 41/ 2 = 2 → v 3T =
1 T v = (1 / 2, − 1 / 2, − 1 / 2, 1 / 2) N3 3
2 2 2 2 N2 = c12 + c22 + c32 + c42
2 2 2 2 N3 = c13 + c23 + c33 + c43
1/ 2
1/ 2
y los orbitales moleculares (de no enlace e = a) son 1 (2 pz )1 + (2 pz )2 − (2 pz )3 − (2 pz )4 2 1 Ψ 3 = (2 pz )1 − (2 pz )2 − (2 pz )3 + (2 pz )4 2 Ψ2 =
583
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Cuarto autovector
(
2 2 2 2 N4 = c14 + c24 + c34 + c44
)
1/ 2
= 41/ 2 = 2 → v T4 =
1 T v = (1 / 2, − 1 / 2, 1 / 2, − 1 / 2) N4 4
y el orbital molecular (antienlazante, con mayor energía e = a – 2b > a) es Ψ4 =
1 (2 pz )1 − (2 pz )2 + (2 pz )3 − (2 pz )4 2
A observar en las expresiones anteriores son: i) la ausencia de cambios de signo en el orbital enlazante Y1, el más estable, que indica los solapamientos laterales positivos (globales) entre todos los orbitales atómicos 2pz; ii) la alternancia de signos en el orbital antienlazante Y4, y que indica la situación contraria; y iii) la situación intermedia en los dos orbitales de no enlace, en el que hay solapamientos parciales dos a dos de los orbitales atómicos. Además, los cuatro orbitales moleculares son ortogonales dos a dos como se comprueba sin dificultad al realizar los productos escalares (o en forma matricial utilizando traspuestas) de los vectores propios, por ejemplo 1 / 2 1 / 2 = 1/ 4 − 1/ 4 +1/ 4 −1/ 4 = 0 v T4 ⋅ v1 = (1 / 2, − 1 / 2, 1 / 2, − 1 / 2) 1 / 2 1 / 2 Un gráfico ilustrativo de estos resultados para el ciclobutadieno se muestra en la Fig. 9EP.3.
584
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
Figura 9EP.3. Diagrama de la aplicación del método de Hückel a la molécula plana de ciclobutadieno del Problema 9. Se muestran los valores propios de la diagonalización, las energías orbitales en orden de estabilidad decreciente de abajo hacia arriba [más estable e1 = a + 2b (b < 0)], y las disposiciones espaciales de los orbitales atómicos (2pz) aportados por cada uno de los átomos de carbono de la molécula a cada orbital molecular p. A señalar la coincidencia de orientaciones (signos) de los orbitales atómicos por encima y por debajo del plano molecular en el orbital molecular enlazante (más estable) Y1, que posibilitan los solapamientos laterales que originan la deslocalización electrónica que confiere mayor estabilidad a este orbital molecular. La situación opuesta se observa en el orbital molecular antienlazante (más inestable) Y4. Los orbitales de no enlace presentan una situación intermedia.
Problema 9.10 a) Restringiendo la notación a los cuatro elementos implicados el producto O–1 AO se expresa cos φ sen φ aii −sen φ cos φ a ji
aij cos φ a jj sen φ
−sen φ bii = cos φ bji
bij ; a = aji bjj ij
y realizando el producto se encuentra aii cos φ + a jisenφ osφ − aiisen φ + aji co
aij cos φ + ajj senφ cos φ − aij sen φ + ajj cos φ sen φ
− sen φ bii = cos φ bji
bij ; a = a ji bjj ij
585
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
bii = aii cos 2 φ + 2 aij sen φ cos φ + a jj sen2 φ
(
bij = bji = ( ajj − aii )sen φ cos φ + aij cos 2 φ − sen 2 φ
)
bjj = aii sen φ − 2 aij sen φ cos φ + ajj cos φ 2
2
Para conseguir la anulación de bij y bji se necesita un ángulo que verifique
)
(
bij = bji = ( ajj − aii )sen φ cos φ + aij cos 2 φ − sen 2 φ = 0 y utilizando las relaciones del ángulo doble sen 2f = 2 sen f cos f; cos 2f = cos2 f – sen2 f se tiene tan 2φ =
(a
− aij jj
)
− aii / 2
=
β ; γ
β = − aij
Por comodidad se define ahora una cantidad x > 0, tal que x2 = b2 + g2, que evidentemente es x > ÔgÔ. Hay que obtener los valores de cos f y de sen f y para ello se hace x = tan φ =
sen φ γ cos 2φ 1 x → cot 2φ = = = − cos φ β sen 2φ 2 x 2
Resulta así una ecuación de segundo grado con raíces x2 + 2
γ 1 x − 1 = 0 → x = ( −γ ± ξ ) β β
De las dos raíces anteriores la más pequeña en valor absoluto es siempre xr =
(
)
1 ξ − γ ≤1 β
como se puede probar utilizando la desigualdad triangular con la terna de valores (x, b, g) xr =
1 β
(γ
2
+ β2 − γ
) ≤ β1 ( γ + β − γ ) = 1
de manera que al ser ÔxrÔ = Ôtan fÔ ≤ 1, entonces ÔfÔ ≤ p/4.
586
MÉTODOS AVANZADOS DE CÁLCULO Y DE SIMULACIÓN NUMÉRICA
A partir del resultado anterior el cálculo del coseno es directo xr2
ξ + γ sen 2 φ 1 − cos 2 φ cos = = → φ = cos 2 φ cos 2 φ 2ξ
1/ 2
>0
y el seno (¡atención al signo!) es pues ξ− γ sen φ = 1 − cos φ = ± 2ξ
1/ 2
2
> 0 si xr > 0 < 0 si xr < 0
Problema 9.11 Para diagonalizar la matriz 1 0 1 A = 0 1 0 1 0 1 hay que eliminar a13 = a31 = 1. La rotación queda definida por tan 2φ =
(a
33
− a13
)
− a11 / 2
=
−1 = − ` → φ = −π / 4 0
La transformación de semejanza es entonces cos(−π / 4) 0 sen(−π / 4) 1 0 1 cos(−π / 4)) 0 − sen(−π / 4) 0 1 0 = O AO = 0 1 0 0 1 0 − sen(−π / 4) 0 cos(−π / 4) 1 0 1 sen(−π / 4) 0 cos(−π / 4) −1
2 2 0 2 2
0 = 0 2
2 2 0 1 0 1 2 2 0 0 1 0 0 1 1 0 1 2 2 − 0 2 2 2 2 0 0 2 2 0 0 1 0 = 0 1 0 0 0 0 2 2 2 0 − 2 2
0 − 1 0
0 1 0
2 2 0 = 2 2 0 0 = X 2
587
2 2 2 0 − 0 1 0 1 2 2 2 0 0 1 0 0 1 0 1 CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA 2 1 0 1 2 2 0 − 0 2 2 2 2 2 0 0 0 0 2 2 0 0 1 0 = 0 1 = 0 1 0 0 0 0 2 0 2 2 2 − 2 0 2
2 2 0 = 2 2 0 0 = X 2
Este es un caso muy simple en el que con un solo paso de rotación la matriz se diagonaliza. Los valores propios son x1 = 0, x2 = 1, x3 = 2 y los autovectores asociados son las correspondientes columnas de la matriz O v1 = −
; 2 2
2 2 0
0 v 2 = 1 ; 0
v3 =
2 2
2 2 0
como se comprueba verificando la relación Avi = xivi, i = 1, 2, 3. Como indicaciones de la correcta normalización se utilizan los invariantes traza y determinante y la ortonormalidad de los vectores i) traza: tr A = tr X = 3 ii) determinante: det A = det X = 0 iii) hay ortonormalidad automática en el conjunto de los tres vectores propios v1T ⋅ v 2 = v1T ⋅ v 3 = v T2 ⋅ v 3 = 0 ; v1T ⋅ v1 = v 2T ⋅ v 2 = v 3T ⋅ v 3 = 1 Por ejemplo
v1T
588
0 2 2 2 2 , 0, − × 0 + 0 ×1+ − ⋅ v2 = × 0 = 0 ⋅ 1 = 2 2 2 2 0
CAPÍTULO 10 MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
A. Integración numérica multidimensional 10.1. Integración Monte Carlo B. Aplicaciones de los procesos de minimización 10.2. Promedios con pesos muestrales 10.3. Ajuste lineal chi-cuadrado de datos 10.4. Ajuste de datos a distribuciones de probabilidad 10.5. Estadística robusta: ajuste de una línea recta C. Análisis de la varianza 10.6. Homogeneidad de un conjunto de varianzas muestrales 10.7. Homogeneidad de un conjunto de medias (ANOVA-1) 10.8. Análisis de la varianza con dos factores de variación independientes (ANOVA-2) 10.9. Análisis de la varianza en ajustes de regresión Bibliografía Problemas teóricos y numéricos
Se completa aquí el programa teórico con técnicas estadísticas avanzadas de simulación y de análisis de datos. El primer asunto es la integración numérica Monte Carlo para funciones multidimensionales, técnica que utiliza números «aleatorios», describiendo como generarlos mediante algoritmos elementales. La segunda parte continúa con algunas aplicaciones importantes de los procesos de minimización: los promedios con pesos muestrales, el ajuste chi-cuadrado de datos afectados de errores de entrada (una generalización natural de los mínimos cuadrados), y los ajustes de datos a distribuciones teóricas de referencia (Gaussiana y binomial). Estas aplicaciones permiten apreciar el porqué de determinadas elecciones que se han efectuado en otros lugares de la parte estadística del texto (magnitudes como valores medios y varianzas muestrales, etc). Esta segunda parte se concluye con una sencilla discusión de la estadística robusta, analizándose el caso del ajuste lineal a una serie de datos. La tercera y última
589
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
parte se dedica a un tema de gran interés en el tratamiento de datos que está basado en el uso de la distribución F de Fisher: el análisis de la varianza. Se considera el problema previo de la homogeneidad de un conjunto de varianzas muestrales, para estudiar después aplicaciones simples del análisis de la varianza: la identificación de la homogeneidad de un conjunto de medias muestrales, y el análisis de la influencia de dos factores en series de datos (factores de efecto fijo y factores de efecto no controlable). Para finalizar, se trata brevemente la aplicación del análisis de varianza a la selección del ajuste más significativo (lineal versus cuadrático) en un cálculo de regresión.
Integración Monte Carlo Números «aleatorios»: Pseudo-aleatorios Cuasi-aleatorios + Error de integración
Procesos de minimización Promedios con pesos Ajustes chi-cuadrado Ajustes a distribuciones de probabilidad Ajuste de una recta «robusta»
Análisis de la varianza Estudios de muestras: Homogeneidad de varianzas ANOVA-1 ANOVA-2 ANOVA en la regresión
A. INTEGRACIÓN NUMÉRICA MULTIDIMENSIONAL 10.1. Integración Monte Carlo En el Cap. 3 se han estudiado métodos de integración numérica aplicados al caso de una función real, analítica o tabulada, de una variable real y = f(x). Cuando se debe evaluar una integral definida en más de una dimensión (cálculo de áreas, volúmenes, etc.) la aproximación trivial es la generalización de las reglas simples monodimensionales. Así una aplicación de trapecios a la integral de una función bidimensional f(x, y) en un rectángulo, {x0 ≤ x ≤ xN; y0 ≤ y ≤ yN} puede expresarse utilizando N + 1 puntos en cada variable y con espaciados constantes en cada una de ellas, hx y hy de la manera siguiente
590
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
xN
∫ ∫ x0
∫
xN x0
2
∫
x0
f ( x, y) dx dy ≈
y0
hy dx f ( x, y0 ) + 2 f ( x, y1 ) + 2 f ( x, y2 ) + ... + 2 f ( x, yN −1 ) + f ( x, yN ) 2 xN xN hy xN 2 2 ( , ) ( , ) dx f ( x, y2 ) + ... + dx f x y dx f x y + + 0 1 2 x x x
(
∫
xN
yN
∫
0
∫
0
) =
0
hy h dx f ( x, yN ) ≈ x f ( x0 , y0 ) + 2 f ( x1 , y0 ) + 2 f ( x2 , y0 ) + ... + (10.1.1) x0 2 2 2 f ( xN −1 , y0 ) + f ( xN , y0 ) + hx f ( x0 , y1 ) + 2 f ( x1 , y1 ) + 2 f ( x2 , y1 ) + ... +
dx f ( x, yN −1 ) +
∫
xN
{
}
{
}
2 f ( xN −1 , y1 ) + f ( xN , y1 ) +
{
....
....
....
....
....
....
....
....
.... +
}
hx f ( x0 , yN −1 ) + 2 f ( x1 , yN −1 ) + 2 f ( x2 , yN −1 ) + ... + 2 f ( xN −1 , yN −1 ) + f ( xN , yN −1 ) + hx f ( x0 , yN ) + 2 f ( x1 , yN ) + 2 f ( x2 , yN ) + ... + 2 f ( xN −1 , yN ) + f ( xN , yN ) 2
{
}
Esta aplicación bidimensional (D = 2 ó 2D) se generaliza sin dificultad a dimensiones mayores o a otras reglas como la de Simpson. Sin embargo, este tipo de regla producto es muy poco eficiente con dimensionalidades crecientes, pues el número de evaluaciones de la función f(x, y) crece exponencialmente con la dimensionalidad del problema al ser necesaria una «malla» de datos (N + 1)D. Esto puede constituir una limitación muy severa en problemas muy habituales en Química y en Física, incluso con computación, por lo que es necesaria una alternativa práctica. Tal tipo de alternativa es la denominada integración Monte Carlo (MC), que presenta tanto aspectos numéricos como fuertes conexiones estadísticas. Se comenzarán analizando los aspectos numéricos.
Aspectos numéricos: familias multiplicativas congruentes El concepto de integración Monte Carlo (MC) se entiende muy bien analizando el caso D = 1, aunque siempre es preferible en ese caso utilizar en la práctica los algoritmos del Cap. 3. Sea f(x) una función a integrar en a = x0 ≤ x ≤ xN = b, lo que tomando un espaciado infinitesimal constante h = Dx = cte se formula como
591
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
∫
b a
N −1
f ( x) dx = lim
∆x → 0
∑ f ( x )∆x ; i
∆x =
i=0
b− a ; N→` N
(10.1.2)
de manera que para un N finito quedaría una aproximación
∫
b a
b− a f ( x) dx ≈ N
N −1
∑ f (x )
(10.1.3)
i
i=0
que en el límite N Æ ⬁ converge al resultado exacto. De hecho, se está construyendo un modo de estimar el valor medio de la función en el intervalo mediante una colección de N valores 1 µ = f ( x) = b− a
∫
b a
1 f ( x) dx ≈ N
N −1
∑ f (x ) i
(10.1.4)
i=0
y la cuestión ahora es la de elegir N y los correspondientes puntos xi para obtener una buena aproximación a la integral. Como no hay nada en el planteamiento del problema que indique alguna preferencia en la selección de estos puntos, lo que sucedería si hubiese una función de peso dentro de la integral, se puede optar por la selección secuencial uniforme en coincidencia con la definición de integral definida. Sin embargo, para D grandes (y/o con funciones de peso) resulta muy ventajoso proceder de un modo más «desordenado» (aleatorio o al azar) determinando puntos xi en el intervalo de integración mediante algoritmos. Se elimina así el carácter pretendidamente «desordenado» y a tales valores xi se les denomina por ello «pseudo-aleatorios». Por simplicidad se analizará el caso D = 1 sin función de peso y con generación de los xi uniformemente distribuidos en a < x < b. El algoritmo generador básico es el denominado de las «congruencias» y, sin pérdida de generalidad, se referirá al intervalo estándar 0 ≤ x < 1 pues un sencillo cambio de variable permitirá transformarlo en cualquier otro intervalo finito. Este algoritmo queda definido a partir de un número entero grande en magnitud, normalmente de la forma M = 2B ó 10C que dependerá de las posibilidades de la computadora (su arquitectura: B = 16, 32, 64, ...), y de un iniciador (o semilla) z0 tal que 0 ≤ z0 < M. Con estos elementos se construye una secuencia de números enteros zi utilizando la relación de congruencia zi ; λ zi −1 + ν (mód. M)
592
(10.1.5)
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
con l y n enteros entre 0 y M – 1, y que se lee «zi es congruente con lzi–1 + n en módulo M» y que significa que z i es el resto entero de la división (lzi–1 + n)/M. Se producen por tanto números 0 ≤ zi ≤ M – 1 con los que los valores buscados se determinan como xi =
zi ; 0 ≤ xi < 1 M
(10.1.6)
Este tipo de secuencia tiene un periodo máximo M, es decir se repite después de M determinaciones, siempre que los parámetros del cálculo se elijan de manera que a) n y M no tengan divisores comunes (n ≠ 0). b) l ⬅ 1 (mód. P) para todo factor P primo de M. c) l ⬅ 1 (mód. 4) si M es múltiplo de 4. Como las determinaciones tienen una sistemática, las secuencias así calculadas presentan correlaciones y no son tan uniformes como sería deseable. Existen generadores más complejos que muestran grados de correlación menores (Dieter-Ahrens) y otras opciones alternativas como son los números cuasi-aleatorios, pero no se van a detallar aquí. Hay un buen número de tests estadísticos y geométricos para establecer la calidad uniforme de estos algoritmos, como son por ejemplo: i) La comparación de momentos (la media de los xi debería ser 0,5, la varianza debería ser 1/12 etc.). ii) La aparición de acumulaciones regulares de valores xi en hiperplanos (efecto Marsaglia) es un indicador negativo de la calidad, de modo que las distribuciones más dispersas y con menos acumulaciones se consideran mejores. A efectos prácticos, si el periodo M es suficientemente grande con relación a la aplicación que se lleva a cabo, entonces los efectos de correlación no suelen resultar importantes en el sentido de que no distorsionan el resultado final. EJERCICIO 10.1.1 Generar números pseudoaleatorios en el intervalo [0,1] con la congruencia zn ⬅ zn–1l + n (mod. M), con n = 0, M = 16, z1 = l = 5.
593
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
La operación de congruencia significa que hay que quedarse con el resto entero de la división zn/M y se tiene así z1 = 5 → x1 = z1 / M = 5 / 16 = 0, 3125 z2 ≡z1λ ( mód.16) = 5 ⋅ 5(mód.16) = 25(mód.16 ) = 9 → x2 = z2 / M = 9 / 16 = 0, 5625 z3 ≡z2λ (mód.16 ) = 9 ⋅ 5(mód.16 ) = 45(mód.16 ) = 13 → x3 = z3 / M = 13 / 16 = 0, 8125 z4 ≡z3λ (mód.16 ) = 13 ⋅ 5( mód.16) = 65( mód.16) = 1 → x4 = z4 / M = 1 / 16 = 0, 0625 z5 ≡z4 λ ( mód.16) = 1 ⋅ 5( mód.16 ) = 5( mód.16) = 5 → x5 = z5 / M = x1
A partir de aquí se repite la secuencia inicial de cuatro números z6 = x2, z7 = x3, z8 = x4, z9 = x1, etc. Se trata de una secuencia de periodo 2B–2 = 4, pues M = 2B = 16 Æ B = 4. Evidentemente este ejemplo no es útil para simular comportamientos aleatorios en el intervalo pedido. Además en el caso general la restricción n = 0 impuesta no es adecuada. No obstante, el ejercicio muestra la mecánica a seguir en este tipo de cálculos. Si se desea evaluar una integral multidimensional, en la mayoría de las situaciones de interés el único método para lograrlo es justamente el de MC generando secuencias de puntos D-dimensionales adaptadas al problema. Así, por ejemplo, una integral 3D en una región a1 ≤ x ≤ b1, a2 ≤ y ≤ b2, a3 ≤ z ≤ b3, en la que se pueda intercambiar el orden de integración por verificarse el teorema de Fubini (es el caso por ejemplo de las funciones continuas en la región de integración) se aproximaría como 3
b1
b2
b3
a1
a2
a3
∫ ∫ ∫
∏ (b − a ) i
dx dy dz f ( x, y, z) ≈
i =1
N
i
N
∑ f ( x , y , z ) = Vol. × i
i
i
f
(10.1.7)
i =1
en donde Vol. denota el volumen de la región y son necesarias tres secuencias de N números pseudo-aleatorios cada una, a1 ≤ xi ≤ b1, a2 ≤ yi ≤ b2, a3 ≤ zi ≤ b3, i = 1, 2, 3, ..., N, obteniéndose N puntos 3D con los que evaluar f(xi, yi, zi). Todo este proceso puede generalizarse a cualquier número de dimensiones y a regiones de integración en ellas de formas arbitrarias. Un punto muy importante es el del error de esta técnica de integración derivado de emplear un número N de puntos (o ensayos) forzosamente finito. Su análisis está enraizado en la distribución Gaussiana resultante de utilizar el Teorema Central de Límite ya discutido en el Cap. 5. Entran aquí en juego los aspectos estadísticos del problema.
594
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
Aspectos estadísticos: el error de integración Por simplicidad de notación va a estudiarse el comportamiento del error de integración MC en el caso 1D suponiendo que efectivamente las estimaciones son con puntos uniformemente distribuidos e independientes. Cada determinación f(xi) = fi en cada ensayo i es en sí misma una variable aleatoria. Ahora bien, todas las determinaciones {f(xi)}i=1,N tienen la misma media teórica y la misma varianza teórica f1 = f2 = ... = fN
1 = b− a
∫
b a
1 f ( x) dx ≈ N
N
∑ f (x ) i
(10.1.8)
i =1
σ 2 ( f1 ) = σ 2 ( f2 ) = ... = σ 2 ( fN ) = σ 2 ( f )
(10.1.9)
Si se define una nueva variable aleatoria FN como la suma de todas las fi, para un número N suficientemente grande el teorema central del límite garantiza un comportamiento Gaussiano para FN con media y varianza dados por N
FN =
∑f
→
i
FN = N f ; σ 2 ( FN ) = Nσ 2 ( f )
(10.1.10)
i =1
Se sabe que la probabilidad de que FN esté dentro de los límites ±3s, 冬FN冭 ±3s (FN), es del 99,73% y se puede escribir utilizando (10.1.10) la siguiente relación de probabilidad familiar (Cap. 6)
σ ( f ) F p N f − 3 Nσ ( f ) < FN < N f + 3 Nσ ( f ) = p N − f < 3 = N N
{
}
1 p N
N
∑ i =1
σ ( f ) f ( xi ) − f < 3 = 0, 9973 N
(10.1.11)
ecuación para el valor medio que indica que el error de la técnica MC es independiente de la dimensionalidad D del problema, pero que depende críticamente del número N de puntos utilizado en la forma
ε MC ,
1 N
(10.1.12)
595
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Este resultado pone de manifiesto que, aunque aumentando N se va a mejorar con certeza el resultado, la convergencia al valor exacto (N Æ ⬁) va a ser muy lenta: ganar una cifra significativa más en la estimación requerirá multiplicar por 100 el número N de ensayos previo. Para la integral (10.1.7) y similares una expresión que permite estimar el error de integración MC es
∏ (b − a ) i
ε MC ≈
i
N
i
f2 − f
2
(10.1.13)
que involucra también el cálculo MC del valor medio del cuadrado de la función a integrar. La técnica de Monte Carlo es una técnica «exacta» en principio y, grosso modo, resulta mucho más eficiente para integrar que las conocidas reglasproducto en D dimensiones del tipo (10.1.1) en condiciones de (N, D) que se estiman mediante las condiciones N ≥ 3 ; D ≥ 3, 4 N − 0, 2
(10.1.14)
Sus características la hacen muy apreciada en el estudio por simulación con computador de problemas típicamente de interés físico y químico, como las propiedades de las fases condensadas de la materia (estructura de fluidos y sólidos), cuestiones de física e ingeniería nuclear (trayectorias de neutrones), etc. Estos son problemas de imposible solución analítica y su simulación estocástica con números «aleatorios» adecuadamente combinados ha llevado a una comprensión muy profunda de todos estos fenómenos.
B. APLICACIONES DE LOS PROCESOS DE MINIMIZACIÓN 10.2. Promedio con pesos muestrales Las técnicas de minimización pueden utilizarse con ventaja para dar respuesta al problema de determinar la mejor estimación del valor medio y su varianza para una magnitud X cuando se conocen estimaciones parciales de estas cantidades procedentes de diferentes muestras (x–1, s2x–1), (x–2, s2x–2), …, (x–n, s2x–n), en donde las varianzas parciales lo son de cada valor medio. Estas muestras pueden proceder bien de diferentes ensayos con una misma técnica experimental, con diferentes técnicas experimentales, o de resultados
596
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
obtenidos independientemente mediante cálculos directos o indirectos. Recuérdese que si x–i se ha determinado a partir de una muestra de N medidas, entonces conocida la desviación típica poblacional si se tiene sxi = σ i / N . Pero también existen otros estimadores de sx–i como sería, por ejemplo, el caso de la determinación de x–i como una media de un conjunto de k submedias asociadas al mismo proceso de medición {x–i(1), x–i(2), ..., x–i(k)} todas obtenidas con el mismo número de mediciones y con las que se puede calcular el par (x–i, s2x–1) utilizando (6.2.1b) con los k – 1 grados de libertad correspondientes al cálculo de la media global de estas k medias. En lo que sigue se va a considerar que no hay errores sistemáticos, que las estimaciones parciales son independientes, y además que todas las varianzas parciales son Var(x–i) = sx–i ≠ 0. El primer paso es construir una función que defina el valor medio a determinar. Una elección razonable es n
X=
∑a x ; i i
a1 + a2 + ... + an = 1
(10.2.1)
i =1
en donde los coeficientes ai son las incógnitas a determinar y se interpretan como los pesos de cada valor x–i en el cálculo (10.2.1). Además se tiene la relación n
sX2
= Var ( X ) =
∑ a Var ( x ); 2 i
i
a1 + a2 + ... + an = 1
(10.2.2)
i =1
Al no existir errores sistemáticos se tienen también las igualdades con el valor medio poblacional mi X = x1 = x2 = ... = xn = µ X
(10.2.3)
lo que es perfectamente compatible con la restricción a1 + a2 + ... + an = 1. Como (10.2.2) es una suma de valores positivos (forma cuadrática no – negativa), la «mejor» estimación de X será la que haga mínima tal expresión con la restricción indicada. Este es pues un sencillo problema de extremo (mínimo) condicionado que se puede resolver mediante la técnica de multiplicadores de Lagrange construyendo la función auxiliar n
L=
∑ i =1
ai2 Var ( xi ) − λ 1 −
n
∑ i =1
ai
(10.2.4)
597
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
en donde l es el multiplicador de Lagrange para este problema. Minimizando con respecto a los coeficientes ai el proceso esquemáticamente se escribe ∂L = 2 ai Var ( xi ) + λ = 0 ; ∂ai
i = 1, 2, 3,..., n
(10.2.5)
de donde se deduce inmediatamente el sistema de ecuaciones simultáneas a1 Var ( x1 ) = a2 Var ( x2 ) = ... = an Var ( xn )
(10.2.6)
a1 + a2 + a3 + ... + an = 1
que se resuelve de manera sencilla notando que la situación es formalmente simétrica para todas las incógnitas. Así, el cálculo de a1 conduce a a1
Var ( x1 ) Var ( x1 ) Var ( x1 ) Var ( x1 ) ... + a1 =1 + a1 + a1 Var ( x1 ) Var ( x2 ) Var ( x3 ) Var ( xn ) a1 =
1 Var ( x1 ) 1 Var ( x1 ) + 1 Var ( x2 ) + ... + 1 Var ( xn )
(10.2.7)
(10.2.8)
y en general ai =
2 1 sxi
∑( n
j =1
1 sxj2
)
=
1 Var ( xi ) ; i = 1, 2, 3,..., n 1 Var ( x1 ) + 1 Var (x x2 ) + ... + 1 Var ( xn )
(10.2.9)
Con ello la «mejor» estimación del valor medio se expresa
∑ ( xi n
X=
i =1 n
∑ (1 i =1
) =∑ 1s )
2 sxi 2 sxi
n
i =1
1 sxi2
2 x1
2 + 1 s2x 2 + ... + 1 sxn
xi
(10.2.10)
que es una estimación lineal insesgada y por definición posee una varianza mínima e igual a n
Var ( X ) =
∑ i =1
598
2
2 1 s2xi 1 s = 2 2 2 2 2 xi 1 sx1 + 1 sx 2 + ... + 1 s2xn 1 sx1 + 1 sx 2 + ... + 1 sxn
(10.2.11)
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
Denotando para simplificar los pesos como wi = 1/s2x–i, las fórmulas anteriores se escriben X=
1 n
∑ wi
n
∑ wi xi ;
1
Var ( X ) =
i =1
(10.2.12)
n
∑ wi
i =1
i =1
– en donde es fácil apreciar la forma de media ponderada para X en la que los valores x–i con menores varianzas (mayores pesos) van a contribuir más a la estimación final. Todo el proceso anterior es completamente equivalente a una minimización por la consabida técnica de mínimos cuadrados con función suma de cuadrados de residuos n
S=
∑ w (x − X)
2
i
(10.2.13)
i
i =1
– en la que minimizando con respecto a X se corresponde con la solución de varianza mínima anterior. También hay que señalar que el desarrollo anterior puede ser aplicado «mutatis mutandi» al caso de una sencilla evaluación de la media de un conjunto de N medidas individuales {xi} procedentes cada una de un método de medición o determinación diferente, cada uno con su propia varianza s 2i conocida (recuérdese que se supone ausencia de errores sistemáticos). Todas estas aplicaciones surgen de una u otra forma del conocido como principio de máxima verosimilitud sobre el que se volverá más adelante. EJERCICIO 10.2.1 Ciertos cálculos de simulación cuántica Monte Carlo con diferentes modelos de interacción para el helio-4 fluido normal han dado en el estado (T = 8K, p = 3,5 bares) los siguientes valores para la energía interna media y su desviación típica (unidades kJ/kg). Tabla Ejercicio 10.2.1 – E 1 ± s1
– E 2 ± s2
– E 3 ± s3
– E 4 ± s4
18,72 ± 0,30
18,85 ± 0,18
19,99 ± 0,41
18,54 ± 0,25
– Estimar un valor medio mejorado E y su error sE– utilizando estos datos muestrales.
599
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Utilizando las relaciones dadas en (10.2.12) se obtienen los resultados w1 =
1 1 1 1 ≈ 11,11; w2 = ≈ 30, 86; w3 = ≈ 5, 95; w4 = = 16 2 2 2 0, 30 0,18 0, 41 0, 252 w E + w2 E2 + w3 E3 + w4 E4 = 18, 8559 E= 1 1 w1 + w2 + w3 + w4 sE2 =
1 = 0, 01564 → sE = 0,1251 w1 + w2 + w3 + w4
Con esto resulta finalmente la estimación E = 18,86±0,13 kJ/kg en donde hay que notar que se ha rebajado la incertidumbre estadística con respecto a la segunda estimación que era la más precisa de las cuatro. También es interesante observar las siguientes contribuciones de cada promedio muestral al resultado final 1 → 17, 38%; 2 → 48, 28%; 3 → 9, 31%; 4 → 25, 03% comprobándose que el dato con menor varianza contribuye en este ejemplo mayoritariamente al promedio, prácticamente con un 50%.
10.3. Ajuste lineal chi-cuadrado de datos Cuando se tiene una función tabular con N + 1 puntos {xk, yk ± sk}k=0,N en la que los valores de yk vienen afectados de errores estadísticos de entrada controlados, sk, se puede afinar en el ajuste de mínimos cuadrados para tener en cuenta la influencia de estos errores en el resultado. La técnica a emplear se denomina chi-cuadrado (c 2) y es una generalización de la minimización de la suma de los cuadrados de las desviaciones en cada punto xk relativas a cada error correspondiente sk. Esta interesante técnica, aparte de los aspectos puramente numéricos, presenta también muchas conexiones estadísticas, y está en la raíz de los denominados procesos generales de optimización en los que se buscan las «mejores» relaciones funcionales que representen a un fenómeno. Por simplicidad se tratará únicamente el caso del ajuste lineal y = a0 + a1x, siendo su generalización formal a órdenes superiores un asunto directo, si bien las cuestiones ligadas al error en los casos no lineales son bas-
600
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
tante más complejas que las que se van a tratar aquí. A continuación se considerarán tanto los aspectos numéricos como los estadísticos. Aspectos numéricos Dada la tabla con N + 1 puntos {xk, yk ± sk}k=0,N no necesariamente igualmente espaciada, en la que los valores de la variable independiente xk se conocen con toda exactitud, un ajuste lineal óptimo y = a0 + a1x desde la perspectiva de los mínimos cuadrados se obtiene por minimización de la función de mérito siguiente N
yk − a0 − a1 xk χ ( a0 , a1 ) = σk k= 0
∑
2
2
(10.3.1)
El sistema de ecuaciones que conduce a a0 y a1 es similar al ya visto en el Cap. 1 N
yk − a0 − a1 xk ∂χ 2 = −2 =0 ∂a0 σ k2 k=0
∑
)
(
N xk yk − a0 − a1 xk ∂χ 2 = −2 =0 ∂a1 σ k2 k=0
∑
(10.3.2)
(10.3.3)
y puede reescribirse en la forma compacta Sa0 + Sx a1 = Sy
(10.3.4)
Sx a0 + Sxx a1 = Sxy con los coeficientes del sistema dados por S=
N y N x N x2 N x y 1 k k k k = S = ; S = ; S = ; S ; ∑ 2 x ∑ 2 xx ∑ 2 ∑ 2 ∑ k2 y xy σ σ σ σ k=0 σ k k= 0 k k=0 k k= 0 k=0 k k N
(10.3.5)
Los parámetros del ajuste se escriben entonces como a0 =
Sy Sxx − Sx Sxy Sxx S −
Sx2
; a1 =
Sxy S − Sx Sy Sxx S − Sx2
; D = Sxx S − Sx2
(10.3.6)
601
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Nótese que el determinante del sistema (10.3.4) es D > 0, análogamente a lo que sucedía con la magnitud análoga en el Cap.1, pues puede expresarse como
∑
D = Sxx S − Sx2 =
k≠ j
)∑
(
(
1 1 xk2 − xk xj = xk − xj 2 2 2 2 σ kσ j σ kσ j k< j
)
2
> 0;
(10.3.7)
k, j = 0,1, 2,..., N La siguiente cuestión es la de la estimación de las incertidumbres en estos parámetros para lo que debe tenerse en cuenta que ambos son funciones de las variables y˜k que toman los valores concretos yk ± sk. Las dependencias funcionales a0 = a0(y˜0, y˜1, ..., y˜N), a1 = a1(y˜0, y˜1, ..., y˜N), pueden desarrollarse en serie de Taylor en torno a esos valores obteniéndose, a primer orden, las estimaciones de error siguientes N
ε ( a0 ) =
∑ k= 0
N
∂a σk 0 ∂y k
; ε ( a1 ) =
∑σ
∂a1 ∂y k
k
k= 0
y = y
(10.3.8) y = y
en donde se suman los valores absolutos de las contribuciones de cada variable. En detalle se tienen para a0 y a1 ∂a0 ∂ = ∂y k ∂y k
1 S D xx
∂a1 ∂ = ∂y k ∂y k
y j
N
∑σ j=0
2 j
N
− Sx
∑ j=0
N x y j j 1 S − Sx D j = 0 σ 2j
∑
xj y j Sxx − xk Sx ; k = 0,1, 2,...., N = σ 2j Dσ k2
(10.3.9)
y j xk S − Sx ; k = 0,1, 2,..., N = Dσ 2k σ 2j
(10.3.10)
N
∑ j=0
Finalmente, efectuando las sumas indicadas en (10.3.8) se llega a las expresiones N
ε ( a0 ) =
∑ k= 0
Sxx − xk Sx ; Dσ k
N
ε ( a1 ) =
∑ k=0
xk S − Sx Dσ k
(10.3.11)
y el ajuste se representaría en la forma compacta
(
)
)
y = a0 ± ε ( a0 ) + ( a1 ± ε ( a1 ) x
602
(10.3.12)
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
indicando con ello la existencia de una «franja de seguridad» alrededor del resultado «medio», y = a0 + a1x, delimitada por los comportamientos más extremos que puedan obtenerse al combinar los valores de los parámetros de ajuste y sus errores. Sin embargo, las cotas de error para este problema pueden considerarse desde un punto de vista estadístico que va a conducir a expresiones más sencillas.
Aspectos estadísticos Hay que señalar que si se consideran independientes los ensayos de naturaleza estadística que llevaron a los valores de entrada yk ± sk (es decir, variables y˜k independientes), las estimaciones preferidas de los errores en los parámetros son las que surgen de la ley de propagación de errores vía las magnitudes cuadráticas (varianzas) siguientes 2
N
∂a S s ( a0 ) = σ 0 = xx ; D ∂y k y = y k=0 2
∑
2 k
2
N
∂a S s ( a1 ) = σ 1 = ∂ y D k y = y k= 0 2
∑
2 k
(10.3.13)
y los coeficientes se expresan con errores s como a0 ±
Sxx ; D
a1 ±
S D
(10.3.14)
de manera que el ajuste chi-cuadrado es ahora Sxx y = a0 ± +a ± D 1
S x D
(10.3.15)
El lector puede comprobar cómo estas expresiones para los errores en los parámetros son bastante diferentes de las del ajuste convencional de mínimos cuadrados (7.4.8) y (7.4.9) (sk = 1), aunque pueden relacionarse a través de una multiplicación por sY/X y tomando sk = 1 en (10.3.13). Las relaciones (10.3.13) son, no obstante, las empleadas en el contexto presente y necesitan de un parámetro adicional para completar su significado, el cual se verá un poco más adelante.
603
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
De nuevo el desarrollo anterior indica la existencia de una «franja de seguridad» alrededor del resultado «medio», y = a0 + a1x delimitada por los comportamientos más extremos que puedan obtenerse al combinar los valores (10.3.14). Todas estas manipulaciones dan en general muy buenas estimaciones para el error cuando se tienen valores sk ≤ 0,1yk. Una relación útil entre el coeficiente de correlación lineal rXY y el valor c 2 resultante de la minimización para datos sin errores estadísticos explícitos (sk = 1) está dada por
(
χ = 1− 2
N
2 rXY
)∑ ( y
k
−y
)
2
(10.3.16)
k= 0
en donde rXY toma la forma de la expresión (7.3.3) ya vista en el Cap. 7 e y– es el valor medio de los N + 1 datos de entrada yk. Para datos con errores explícitos (sk > 0) la relación es ligeramente más complicada y no se va a considerar aquí. Otra cuestión obligada es la medida de la bondad del ajuste logrado y viene caracterizada por un test c 2 en el que interviene el valor final que toma la variable definida en (10.3.1) una vez obtenidos los dos parámetros óptimos de la recta a0 y a1. El proceso es similar a lo ya estudiado en ocasiones similares: se fija un nivel de significación a y se compara el valor final (10.3.1) con el valor crítico de la distribución c 2 para un número de grados de libertad n = (N + 1) – 2, pues se han tomado N + 1 puntos y se han calculado dos parámetros. Un nivel unilateral de significación habitual en este contexto es a = 0,1, de manera que si c 2 (10.3.1) es menor que 2 c 1– a(a = 0,1), el ajuste se puede considerar aceptable. Aceptaciones de esta hipótesis para niveles 0,001 < a < 0,1 ya requieren consideraciones adicionales sobre la distribución de errores. Finalmente, con niveles a < 0,001 las posibles aceptaciones del modelo son forzosamente dudosas y no deben hacerse, siendo necesario recurrir a otras estrategias (estadística robusta) para evaluar la situación.
Observaciones adicionales Dicho lo anterior hay que indicar ahora las mejoras numéricas en el cálculo de los coeficientes de la recta y de sus errores. Se trata de rescribirlas de
604
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
forma que se controlen los errores de redondeo en los cálculos. Esto se logra con las definiciones de dos cantidades intermedias uk =
S 1 xk − x ; k = 0, 2, 3,..., N σk S
(10.3.17)
N
Suu =
∑u
2 k
(10.3.18)
k= 0
con las que se enuentra a0 =
Sy − Sx a1
a1 =
S 1 Suu
;
N
∑ k= 0
Sx2 1 s ( a0 ) = 1 + S Suu S 2
uk yk ; σk
s2 ( a1 ) =
1 Suu
(10.3.19)
(10.3.20)
Otros detalles interesantes se mencionan a continuación. Dentro de este contexto es necesario, para caracterizar las determinaciones de los parámetros y de sus errores, definir también la covarianza de las dos magnitudes aleatorias a0 y a1 mediante Cov( a0 , a1 ) = −
Sx Suu S
(10.3.21)
con la que se define un nuevo coeficiente de correlación siguiendo la expresión general r ( a0 , a1 ) =
Cov( a0 , a1 ) s( a0 ) s( a1 )
(10.3.22)
que está comprendido entre –1 ≤ r ≤ +1. Valores positivos de este coeficiente de correlación indican que probablemente los errores en a0 y a1 son del mismo signo, en tanto que valores negativos indican que probablemente sucede lo contrario.
605
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
10.4. Ajuste de datos a distribuciones de probabilidad Un problema común es el del ajuste de los datos de una muestra de tamaño N a una función de distribución de probabilidad postulada f(x) de la que se supone se ha extraído la muestra. La distribución puede ser discreta o continua; en el primer caso habrá normalmente valores xi repetidos ni veces con frecuencias fi = ni/N, en tanto que en el segundo va a ser muy infrecuente encontrar dos valores idénticos por lo que la frecuencia de cada dato generalmente va a ser fi = 1/N. Además, un hecho común será la observación de agrupamientos de datos xi en ciertas regiones del dominio de la variable X (regiones más probables). En ocasiones para el caso continuo esto va a permitir definir clases de datos agrupados en intervalos, lo que dependiendo del método elegido puede facilitar la verificación de la bondad del ajuste conseguido con f(x). Es la cuestión de la bondad del ajuste un tema obligado tanto para distribuciones discretas como continuas y un test muy popular para ambos casos está basado en la distribución c 2. Sin embargo, la aplicación de dicho test se restringe fundamentalmente al caso discreto, ya que requiere muestras grandes Ni ≥ 50 para aplicarlo al caso continuo con fiabilidad. Por ello se han desarrollado otras alternativas para el caso continuo. En este epígrafe se van a considerar únicamente dos casos típicos: el ajuste Gaussiano (continuo) y el ajuste binomial (discreto). Claramente, a partir de los datos muestrales habrá que determinar las magnitudes que definen a la distribución correspondiente (m y s en el Gaussiano, p en el binomial). Una de las técnicas más habituales para determinar estimadores de las magnitudes poblacionales es la denominada de máxima verosimilitud y es la que se va a presentar en las dos aplicaciones siguientes, siendo formalmente sencillo generalizarla a otros casos.
Caso continuo: ajuste Gaussiano Para una muestra monodimensional {ni} de tamaño N una primera idea de su posible naturaleza Gaussiana la da una sencilla representación gráfica en un papel especial: el papel de probabilidad normal. Representando en este papel las frecuencias relativas acumuladas en % (con datos agrupados en clases o no) frente a los valores X = xk (centros de las clases, en su caso), si se obtiene una línea recta, entonces puede considerarse que existe un buen
606
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
ajuste Gaussiano. Esta decisión, no obstante, puede tomarse cuantitativamente y a continuación se describe una ruta para ello. La función de máxima verosimilitud se construye aquí como el producto de N factores positivos Λ( x1 , x2 ,..., xN ; µ ,σ ) = f ( x1 ; µ ,σ ) f ( x2 ; µ ,σ )... f ( xN ; µ ,σ ) = N
∏ i =1
( x − µ )2 exp − i 2 2σ σ 2π
(10.4.1)
1
expresión que representa la (densidad de) probabilidad de que sucedan N sucesos independientes distribuidos según la Gaussiana f(x; m, s) con media y desviación típica poblacionales m y s respectivamente. Aceptando como «mejores» estimadores de m y s aquellos que hacen máxima ⌳, se tiene la solución de máxima verosimilitud ∂Λ =0→ ∂µ ∂Λ =0→ ∂σ
N
∑ i =1
N
∑ i =1
(
xi − µ =0 σ
x −µ i 3 σ
)
2
−
(10.4.2)
1 =0 σ
(10.4.3)
que conduce a los estimadores 1 µ≈x= N
N
∑x
i
i =1
1 σ ≈ s = N 2
2
N
∑ ( x − x)
2
i
(10.4.4)
i =1
La comprobación de que estos valores maximizan efectivamente (10.4.1) se deja como ejercicio para el lector. Como se ve los estimadores obtenidos coinciden con las propiedades muestrales análogas, si bien hay que notar que en el caso de la varianza el estimador resultante es el insesgado s˜ 2. Además x– siempre hace mínima la varianza de la muestra, independientemente de su tamaño. Tanto x– como s˜ 2 son estimadores asintóticamente eficientes. Ahora hay que abordar la cuestión de la bondad del ajuste, es decir hasta qué punto es satisfactoria la representación de {xi} mediante f(x; x–, s˜ ). Entre los muchos criterios diseñados para evaluar esta cuestión aquí va a presentarse el denominado test de Kolmogorov-Smirnov (KS) que es el normalmente acep-
607
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
tado para funciones continuas de una variable. Su aplicación se basa en la comparación de las funciones de distribución cumulativas, la observada SN(x; x–, s˜ ) y la Gaussiana tipificada universal F(z). Hay unos pasos previos en este análisis que se detallan debajo. i) Tipificar los N datos de la muestra ordenándolos en orden creciente
{ x } → z = i
i
xi − x → z1, KS < z2, KS < z3, KS < .... < zN , KS s
{
}
(10.4.5)
ii) Construir la función cumulativa que da en cada zi,KS la fracción de datos a su izquierda (con él incluido) y que se obtiene sencillamente sin más que ir añadiendo sucesivamente el salto 1/N SN ( z1, KS ) = 1 / N SN ( z2 , KS ) = 2 / N SN ( Z ≤ zKS ) = SN ( z3 , KS ) = 3 / N ........... SN ( zN , KS ) = N / N = 1
(10.4.6)
iii) Comparar esta distribución con la cumulativa de referencia Gaussiana F(Z ≤ z) obteniendo el estadístico KS como la máxima distancia entre SN y F (Fig. 10T.1) DKS = máx F ( z) − SN ( z) − `< z 0
(10.4.8)
y que está comprendido entre 0 y 1. Pequeños valores de la probabilildad aKS señalan que las dos distribuciones cumulativas, la ajustada a partir de las observaciones y la teórica Gaussiana, son significativamente diferentes. A partir de este dato se pueden formular reglas de decisión sobre la aceptación o rechazo del ajuste (la hipótesis nula es la igualdad de las dos distribuciones). El cálculo con la aproximación (10.4.8) mejora con N crecientes, siendo en general prácticamente exacta para N = 20 (aKS ≤ 0,01). Nótese que aunque la suma sobre k es infinita, la rápida caída de la exponencial hará en bastantes casos que a efectos prácticos sólo sea necesario un número finito de términos. En otras muchas ocasiones estos cálculos requieren computación y este número finito de términos se detecta con las sumas consecutivas en (10.4.8) y la precisión exigida en el resultado (nótese que para DKS = 0 se tiene un ajuste exacto y (10.4.8) no es útil). Por otra parte, existen tabulaciones que permiten al igual que otros casos ya vistos efectuar el ensayo de hipótesis directamente. Caso discreto: ajuste binomial La discusión del caso discreto es similar a la anterior. Si en el caso binomial, con dos posibilidades X = 0, 1, se observa X = 1 un total de n veces en M ensayos, se construye la función de verosimilitud como el producto de N probabilidades independientes Λ( p) = p n (1 − p)M − n
(10.4.9)
en donde p es la probabilidad de aparición de X = 1 en un ensayo. La estimación para p de máxima verosimilitud se obtiene calculando la derivada e igualando a cero ∂Λ = np n−1 (1 − p)M − n − ( M − n) pn (1 − p) M − n −1 = 0 ∂p
(10.4.10)
609
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
de donde se obtiene como estimador de p la frecuencia relativa de apariciones p≈
n M
(10.4.11)
valor con el que se verifica la condición de máximo (d2⌳/dp2) < 0. El estimador obtenido es insesgado, eficiente y asintóticamente normal. Además hace mínima la varianza para cualquier tamaño de la muestra. Aquí la bondad del ajuste se evalúa con un test c 2 (la t de Student no es apropiada por estar reservada para variables continuas). A continuación se indican los pasos sucesivos a tomar en un caso general más complejo que la sencilla situación con dos alternativas. i) Los datos originales {xi} que aparecen en número M están divididos en los N + 1 sucesos de un espacio de estados {n j} que se repiten con frecuencias observadas f0 j cumpliéndose
{x }
i i =1, M
{
→ ν j , φ0 j
}
N
j = 0 ,1,2 ,..., N
N
∑φ = ∑φ = M
;
0j
(10.4.12)
j
j=0
j =0
en donde f j es la frecuencia binomial modelo para el estado n j. Nótese que este espacio de estados no tiene porqué coincidir con el de los dos sucesos elementales del experimento. Así, por ejemplo, utilizando X = 1 como referencia, para N ensayos: n 0 = 0 significa cero repeticiones de X = 1, n 1 = 1 significa una repetición de X = 1, ..., y nN = N significa N repeticiones de X = 1. Se tiene entonces N φ j = Mpν = M p j (1 − p j j
)
N− j
;
νj
= N ⋅ p ≈ ν j =
1 M
N
∑ν φ
j 0j
(10.4.13)
j=0
~ es el estimador de máxima verosimilitud y se construye de una en donde p forma análoga a la de (10.4.11). ii) Se define el estadístico c 2 como N
χ = 2
∑ j=0
(φ0 j − φ j )2
φj
N
=
en donde f j debe ser claramente f j > 0.
610
φ02 j
∑φ j=0
j
−M
(10.4.14)
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
iii) Si c 2 = 0, entonces las dos distribuciones, observada y teórica, son «idénticas» y salvo evidencia adicional en contra hay que tomarlas como completamente compatibles. Lo normal, sin embargo, es que c 2 > 0, y cuanto mayor sea este valor mayores serán las discrepancias entre lo observado y lo (teórico) modelizado. En términos cuantitativos hay que formular la situación con la distribución c 2 pues la distribución muestral del estadístico (10.4.14) es muy próxima a la distribución c 2 del Cap. 6 bajo las condiciones: N + 1 grande, y/o frecuencias modelo también grandes (f j ≥ 5 son ya razonables para este propósito). La aproximación es tanto mejor cuanto mayores son N + 1 y las f j. El número de grados de libertad a considerar en este caso es
ν = N − 1Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç (binomial)
(10.4.15)
ya que, por una parte, se ha estimado un parámetro poblacional (p Æ j) con la muestra y, por otra, las N + 1 frecuencias no son en realidad independientes, pues conocidas N de ellas la restante está ya fijada. De ahí los dos grados de libertad sustraídos del conjunto de N + 1 sucesos. La realización del test c 2 sigue las pautas conocidas. Fijado un nivel de significación a (= 0,05, 0,01, etc.) la regla de decisión es 2 — Si c 2 < c 1– a(n), se acepta el ajuste al nivel unilateral a . 2 — Si c 2 > c 1– a(n), se rechaza el ajuste al nivel unilateral a .
Una salvedad en este tipo de test la constituyen los casos en los que el valor calculado para c 2 esté próximo a cero (esto es, relativo al número de grados de libertad disponibles). Esta cercanía sugiere sospechas y conviene realizar entonces un test complementario con valores 1 – a ≤ 0,05, y decidir con los mismos criterios escritos antes. 10.5. Estadística robusta: ajuste de una línea recta Una aplicación de la estadística robusta es la del ajuste de una línea recta y = ax + b a una muestra de N datos {(xi, yi)} vía minimización de la suma de las desviaciones absolutas N
A=
∑ y − ax − b i
i
(10.5.1)
i =1
611
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
en donde para simplificar se ha supuesto que todos los errores que afectan a los yi son idénticos (si = s). Como en las aplicaciones anteriores de minimización también hay que derivar A con respecto a los parámetros a y b. Hay que tener cuidado con esta operación y conviene que el lector refresque conocimientos con ejercicios sencillos de Análisis Matemático como son calcular la derivada de y = ÁxÁ (y¢ = +1, x > 0; y¢ = –1, x < 0), o de y = Á1 – 3xÁ, etc. Para el problema formulado en (10.5.1) se tiene N
∂A = − 1 ⋅ sgn yi − axi − b = 0 ∂b Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç iÇ N=Ç 1Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç Ç sgn(...) = signo de (...) ∂A =− xi ⋅ sgn yi − axi − b = 0 ∂a i =1
∑ ∑
)
(
(10.5.2)
)
(
Para que ∂A/∂b = 0 la incógnita b debe de estar situada de tal manera que se cancelen los términos +1 y –1 que forman la suma indicada y esto, para un valor a fijo, lo efectúa siempre la mediana de los valores yi – axi. Por tanto
{
}
b = Med yi − axi ; i = 1, 2,..., N
(10.5.3)
Por otra parte, para un valor b fijo, a está contenida en una ecuación no analítica y hay que resolverla mediante un método numérico adecuado. Nótese que la condición indicada ∂A/∂a = 0 pudiera no ser alcanzable, pues esto va a depender de los valores xi, y en ocasiones habrá que contentarse con un valor para ∂A/∂a = –S(a) lo más cercano a cero posible. La opción directa para calcular la solución de (10.5.2) es la de utilizar un método iterativo que parta de valores iniciales (a0, b0). Se pueden señalar las siguientes etapas. i) Obtener una primera estimación de los parámetros (a0, b0) mediante un ajuste convencional de mínimos cuadrados a los datos de entrada. ii) Determinar con a0 y (10.5.3) el primer valor iterado de b
{
b1 = Med yi − a0 xi
612
}
(10.5.4)
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
iii) Sustituir a0 y b1 en ∂A/∂a y observar el valor y el signo resultantes para la magnitud N
S( a) =
∑ x ⋅ sgn( y − a x − b ) i
i
0 i
(10.5.5)
1
i =1
para a continuación variar el parámetro a, a0 + D, hasta conseguir una suma S(a) con signo contrario y/o menor valor absoluto. Hacer entonces el primer valor iterado de a igual a a1 = a0 + D. iv) Volver al paso ii) con el valor a1 recién calculado y efectuar la segunda iteración para b
{
b2 = Med yi − a1 xi
}
(10.5.6)
y así sucesivamente hasta alcanzar la convergencia accesible al problema. La idea es irse aproximando al valor ∂A/∂a = 0 tanto como sea posible, lo que pudiera conseguirse ahorquillándolo entre dos valores de S(a) con signos diferentes (un método de bisección), aunque alguna de las etapas para esta condición no analítica ∂A/∂a = 0 pudiera realizarse por descenso o ascenso monótono (similar al método de gradientes). En la mayor parte de los casos de interés práctico este tipo de ajuste robusto se lleva a cabo con computación. EJERCICIO 10.5.1 Se desea ajustar una línea recta a las siguientes medidas de contaminación superficial por mercurio en un material esférico (unidades arbitrarias) Tabla Ejercicio 10.5.1 y = Cantidad de Hg
1
1,5
2
x = Radio esférico
1
1,5
3
El primer paso es obtener (a0, b0) del ajuste de mínimos cuadrados para la tabla con la relación lineal y = ax + b y se obtiene (redondeos a seis decimales) a0 = 0, 461538
b0 = 0, 653846 → y = 0, 461538 x + 0, 653846
613
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Ahora hay que determinar el primer valor iterado de b y1 − a0 x1 = 0, 538462 b1 = Med yi − a0 xi = y2 − a0 x2 = 0, 807692 = y3 − a0 x3 = 0,6 615385 y − a x = 0, 615385 0 3 3
{
}
Con ambos valores se calcula S(a) N
S( a0 ) =
∑ x ⋅ sgn( y − a x − b ) = 1⋅ (−1) + 1,5 ⋅ (+1) + 3 ⋅ (0) = + 0,5 i
i
0 i
1
i =1
En este problema lo más cercano de cero que puede llegarse para S(a) = –∂A/∂a es bien +0,5 ó bien –0,5 algo que viene determinado por los valores de las abcisas. En realidad este es un ejercicio muy simple y la solución es +0,5 que ya se ha alcanzado con las operaciones realizadas. El lector puede variar el valor de a con a0 + D y comprobar lo que sucede en sucesivas iteraciones. Una comparación de las ordenadas con la solución de mínimos cuadrados (mc) y con la de recta robusta (RR) se da a continuación (redondeos a tres decimales en las estimaciones) mc : y = 0,461538x + 0,653846
RR : y = 0,461538x + 0,615385
xi
yi
yi,est.
yi,est.
1
1
1,115
1,077
1,5
1,5
1,346
1,308
3
2
2,038
2
S(yi – axi – b)2
0,038
0,043
SÔyi – axi – bÔ
0,307
0,269
Puede comprobarse cómo la solución de mínimos cuadrados da una suma de desviaciones cuadráticas menor, en tanto que la solución de recta robusta da una suma de valores absolutos de desviaciones menor.
614
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
C. ANÁLISIS DE LA VARIANZA En esta última sección se consideran cuestiones complementarias importantes en el tratamiento de datos, como son las relacionadas con la homogeneidad y con ellas se generaliza lo ya visto en el análisis de muestras anteriormente. Ya se mencionó al discutir la distribución de Fisher (Cap.6) que ésta constituía la base de una técnica muy poderosa conocida como el análisis de la varianza (ANOVA). Esta es una técnica perfectamente adecuada para realizar comparaciones entre varias series de datos que pudieran haberse obtenido bajo diferentes condiciones, equipamientos, calidades o purezas de los productos empleados, etc. La potencia de ANOVA radica en que permite estudiar simultáneamente estos diversos factores de variación que influyen en los datos obtenidos, separando sus efectos particulares, tanto si son puramente aditivos (efectos independientes) como si interaccionan entre sí. Estos factores de variación se clasifican en controlables (o de efecto fijo) y no controlables (aleatorios). Ejemplos típicos de factores de variación, en principio, controlables son los equipos o máquinas de medición o producción, los operarios que realizan las mediciones, y las determinadas condiciones experimentales seguidas para la obtención de la muestra (los posibles agentes reductores, oxidantes, quelantes, etc.). Por otra parte, ejemplos típicos de factores de variación no controlables son las inhomogeneidades en el sistema del que se toman las muestras y el día en el que se realizan las mediciones (por los cambios aleatorios en la presión, temperatura, etc.). Es interesante aquí fijarse en que además de los factores anteriores siempre va a estar presente el error aleatorio del proceso de medición (factor aleatorio o residual) como un factor o fuente de inevitables variaciones en los datos tomados. ANOVA también permite evaluar el efecto de este último factor. Incluso ANOVA puede utilizarse ventajosamente en la decisión del mejor ajuste de regresión entre varios de ellos. La complejidad que puede alcanzarse con ANOVA es muy grande y de ahí que goce hoy de una popularidad creciente en las ciencias experimentales (¡fue introducida por Fisher entre 1937 y 1950!). Aquí se van a considerar sólo algunas aplicaciones comunes y sencillas de ANOVA, remitiendo al lector, como de costumbre, a la bibliografía especializada para más detalles. La aplicación significativa de ANOVA a un conjunto de datos {xij} procedentes de varias muestras (i = muestra, j = dato) requiere de ciertas condiciones generales:
615
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
— El carácter Gaussiano de la distribución de probabilidad de la que se hayan extraído las muestras, para poder aplicar con fiabilidad el test F de Fisher. — La homogeneidad de las varianzas de todas las medidas analizadas, pues en el análisis se mezclan todas estas medidas. — Las variaciones debidas a factores no controlados deben ser verdaderamente aleatorias. — Los errores aleatorios tienen que distribuirse de forma aproximadamente Gaussiana. Como una parte importante es la homogeneidad de las varianzas se va a comenzar presentando un criterio que la garantiza.
10.6. Homogeneidad de un conjunto de varianzas muestrales Dado un conjunto de k varianzas muestrales {s12, s22, ..., sk2} cada una fijada con un número diferente de mediciones {N1, N2, ..., Nk} extraídas de una población normal, su homogeneidad se puede analizar con el estadístico Bs de Bartlett Bs =
1 N ln S2 − c
k
∑ ( N − 1) ln s 2 i
i
(10.6.1)
i =1
en donde suele exigirse que Ni ≥ 5 y cada símbolo es k
N=
∑ ( N − 1)
(10.6.2)
i
i =1
S2 =
c = 1+
616
k
1 N
∑ ( N − 1)s
−
1 + N
2 i
i
(10.6.3)
i =1
k
∑ N 1− 1 i =1
3( k − 1)
i
(10.6.4)
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
El estadístico B s sigue aproximadamente una distribución c 2 con n = k – 1 grados de libertad. Una vez seleccionado el nivel de significación unilateral a (= 0,05, 0,01, etc.) se ensaya la hipótesis nula como es habitual. Así, para H0 : el conjunto {s12, s22, ..., sk2} es homogéneo y todas las varianzas proceden de una misma población (m, s 2) s12 = s22 = ... = sk2 = σ 2
(10.6.5)
se tiene la regla de decisión siguiente 2 — Si Bs < c 1– a(k – 1), se acepta H0 al nivel a. 2 — Si Bs > c 1– a(k – 1) se rechaza H0 al nivel a.
Este criterio puede aplicarse al caso de diferentes poblaciones con la misma s2.
10.7. Homogeneidad de un conjunto de medias (ANOVA-1) En un experimento con un único factor de variación, controlable o no, cuando se dispone de un conjunto de medias {x–1, x–2, ..., x–k} cada una de ellas fijada con una serie de N mediciones extraídas de una población normal, xij (i = 1, 2, ..., k; j = 1, 2, ..., N), su homogeneidad puede evaluarse con un estadístico F de Fisher definido como
F=
sn2 sd2
=
N k −1 1 k( N − 1)
k
∑ ( x − x)
2
i
i =1 k
N
∑∑(x − x ) ij
2
; sn2 > sd2
(10.7.1)
i
i =1 j =1
en donde x– es la media global de todas las x–i 1 x= k
k
∑x
i
(10.7.2)
i =1
617
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Tabla 1. ANOVA-1 Muestra
Mediciones ......
x1N
Medias x–
x22
......
x2N
x–2
......
......
......
......
xk1
xk2
......
xkN
...... x–
1
x11
x12
2
x21
...... k
Media global
1
k
x–
Este estadístico sigue la distribución de Fisher con nn = k – 1 y nd = k (N – 1) grados de libertad. Fijado el nivel de significación unilateral a la verificación de la hipótesis nula se realiza de la forma habitual. Esquemáticamente H : el conjunto {x– , x– , ..., x– } es homogéneo y todas las medias proceden 0
1
2
k
de una misma población (m, s 2) x1 = x2 = ... = xk = µ
(10.7.3a)
s12 = s22 = ... = sk2 = σ 2
(10.7.3b)
se tiene la regla de decisión siguiente — Si F < FnC1,n2(a), se acepta H0 al nivel a. — Si F > FnC1,n2(a), se rechaza H0 al nivel a. El procedimiento anterior contiene de manera compacta lo que se conoce como la aplicación ANOVA-1 y es muy instructivo analizar la naturaleza de F que debe ser un cociente entre dos varianzas como se indica en (10.7.1). Como la población es común se puede estimar s 2 de dos maneras significativas: entre muestras y dentro de la muestra global. Estos dos cálculos van a dar origen al numerador y al denominador de (10.7.l) respectivamente y se detallan a continuación. i) Estimación entre muestras Ya se vio en el Cap. 6 que la varianza de una media muestral se relaciona con la varianza poblacional como
σ 2X =
618
σ2 N
(10.7.4)
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
Por otra parte, en el supuesto de que H0 fuera cierta es claro que la varianza de las medias muestrales sX2– es también un estimador de s X2– con k – 1 grados de libertad s2X =
1 k −1
k
∑(
xi − x
i =1
)
2
≈
σ2 N
(10.7.5)
De este modo la estimación de s 2 por esta vía es el numerador de (10.8.1) sn2 =
N k −1
k
∑ ( x − x)
2
; ν = k − 1 gradosÉ deÉ libertad d
i
(10.7.6)
i =1
ii) Estimación dentro de la muestra En cada muestra una estimación de la varianza poblacional s 2 está dada por si2 =
1 N −1
N
∑(x − x ) ; 2
ij
i
i = 1, 2,..., k
(10.7.7)
j =1
y promediando los k valores anteriores se tiene otro estimador para s 2 que es justamente el denominador de (10.8.1) sd2 =
1 k( N − 1)
k
N
∑ ∑ ( x − x ) ; ν = k( N − 1) 2
ij
i =1
i
grado osÉ deÉ libertad
(10.7.8)
j =1
en donde hay que notar que hay k muestras cada una con N – 1 grados de libertad. Observaciones adicionales Las dos explicaciones anteriores detallan la construcción de F (10.7.1) y la regla de decisión asociada. Conviene además notar en este contexto las observaciones que se indican a continuación. — Al estar fijada con las diferencias entre valores medios la estimación sn2 no depende explícitamente de las variaciones dentro de cada muestra. — Igualmente, la estimación sd2 al depender de las diferencias xij – x–i no depende de las medias muestrales x–i (ni de x–).
619
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
— Como consecuencia de lo anterior, se pueden simplificar los cálculos ANOVA restando (o sumando) una misma constante C a todos los datos xij. Es decir para estos cálculos no hay diferencias entre los dos conjuntos de datos {xij} y {xij – C}. — Como es habitual en los tests F si sn2 ≈ sd2 probablemente H0 será correcta, mientras que si sn2 >> sd2 probablemente H0 será incorrecta. El ensayo unilateral será no obstante el encargado de discriminar adecuadamente entre las dos situaciones. Esta es la manera de averiguar si las diferencias entre las medias muestrales son explicables (H0 correcta) o no son explicables (H0 incorrecta) como debidas al error aleatorio siempre presente. — En cuanto a la separación de las dos componentes de la varianza cuando el factor es aleatorio (no de carácter fijo) hay que indicar lo siguiente. Si las estimaciones entre muestras y dentro de la muestra global no difieren significativamente, entonces ambas son estimaciones del error del proceso de medición s 2 y no puede hablarse de las dos componentes de la varianza en ese problema. Sin embargo, cuando ambas estimaciones difieren significativamente, entonces la estimación entre muestras sn2 es un estimador de la varianza global, en tanto que la estimación dentro de la muestra global sd2 lo es de la varianza de la medición. Por tanto se demuestra que sn2 = sd2 + Nsr2 = varianza aleatoria medición + N ⋅ varrianza factor aleatorio
(10.7.9)
y la varianza debida realmente al factor aleatorio residual (el propio del muestreo) es sr2 =
(
1 2 2 s −s N n d
)
(10.7.10)
— Algunas manipulaciones algebraicas permiten simplificar aún más los cálculos ANOVA. En este sentido nótese que sn2
620
2 2 k N k N 1 1 1 = x − x ; k − 1 N i=1 j =1 ij kN i=1 j =1 ij ν n = k − 1 gradosÉ deÉ libertad
∑∑
∑∑
(10.7.11)
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
sd2
2 k N k N 1 1 2 = x − x ; k( N − 1) i=1 j =1 ij N i=1 j =1 ij ν d = k( N − 1) gradosÉ deÉ liberttad
∑∑
∑∑
(10.7.12)
en donde se aprecia que sólo hay que determinar tres tipos de sumas diferentes para evaluar F. — Finalmente, el número de grados de libertad totales para la cantidad ∑ ∑ ( xij − x ) 2 es obviamente kN – 1, cantidad consistente con la suma i
j
nn + nd. Esta es una propiedad que puede relacionarse con las sumas de los cuadrados de las desviaciones que aparecen en (10.7.5) y (10.7.7) y con una ligera modificación encontrará aplicación en el apartado siguiente.
10.8. Análisis de la varianza con dos factores de variación independientes (ANOVA-2) En el caso de un experimento con dos factores de variación (más el inevitable factor aleatorio experimental) la técnica ANOVA-2 implica realizar más cálculos, aunque permanece similar en planteamiento a la aplicación ANOVA-1. El uso ha consagrado la nomenclatura y algunos símbolos generales en las aplicaciones de ANOVA-2. En las aplicaciones más sencillas, que son las que se van a tratar aquí, el conjunto total de N mediciones {xij} se clasifica en r bloques (las k muestras de ANOVA-1) y en c niveles de tratamiento, de manera que N = cr. De aquí se deduce que un bloque (cada día, por ejemplo) va a contener una medición por tratamiento (un agente químico diferente, por ejemplo). Por otra parte, para asegurar que los errores aleatorios lo son verdaderamente se recomienda desordenar aleatoriamente la muestra original de manera que se consiga la estructura de bloques anterior, lo que se puede lograr utilizando una tabla de números aleatorios u otro medio, y no se insistirá sobre ello aquí. Los datos {xij} se extraen de una población Gaussiana (m, s 2) y se organizan en forma de tabla como se muestra en la Tabla 2.
621
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Tabla 2. ANOVA-2 Bloque (B)
Tratamiento (T)
Medias B
1
x11
x12
......
x1c
x–B1
2
x21
x22
......
x2c
x–B2
......
......
......
......
......
r
xr1
xr2
......
xrc
Medias T
x–T1
x–T2
......
x–Tc
x–Br
x–
Media global
Los cálculos se basan en la siguiente partición de la suma total de los cuadrados de las desviaciones con respecto a la media global x– r
S=
c
∑ ∑ (x
ij
i =1
j =1
r
c
ij
∑(x
− x) = c
Bi
2
− x) + r
i =1
∑ ∑(x − x i =1
c
r
2
Bi
∑ (x
Tj
− x )2 +
j =1
(10.8.1)
2
− xTj + x ) = B + T + (S − B − T )
j =1
en donde B es el primer término de suma que va sobre los bloques i, T es el segundo que va sobre los tratamientos j, y el tercer término denotado como (S – B – T) es el denominado residuo y es la parte atribuible a los efectos aleatorios residuales del proceso. Suponiendo que cada valor xij estuviera normalmente distribuido con misma varianza s 2 y medias mij que difieren de la global poblacional m en función de las desviaciones por bloque o por tratamiento, se puede escribir
µ ij = µ + ε B i + ε Tj
(10.8.2)
en donde eBi y eTj son tales desviaciones. A continuación se describen someramente los procedimientos a seguir en dos casos simples típicos ANOVA-2 que consideran dos efectos: ambos fijos y ambos no controlables.
622
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
Caso de dos efectos fijos Aquí se supone que eBi y eTj son valores constantes. La hipótesis nula H0 de que todas las medias de bloques {x–Bi} son homogéneas requiere del estadístico F definido como B ( r − 1) F= (S − B − T ) {( r − 1)( c − 1)}
(10.8.3)
Tales medias son estimadores de m + eBi y si H0 es cierta, F debe seguir la distribución de Fisher con n1 = r – 1 y n2 = (r – 1)(c – 1) grados de libertad. Así, una vez seleccionado el nivel de significación a unilateral si F < FnC1,n2(a), entonces hay que aceptar H0 y concluir que r
∑ε i =1
2 Bi
= 0;
xB1 = xB2 = ... = xBr = µ
En el caso contrario, hay que rechazar H0 al nivel a. Del mismo modo se procede con la homogeneidad de las medias de tratamientos x–Tj que son estimadores de m + eTj, pero ahora el estadístico a utilizar es T ( c − 1) F= (S − B − T ) {( r − 1)( c − 1)}
(10.8.4)
con grados de libertad n1 = c – 1 y n2 = (r – 1)(c – 1). Aquí hay que notar los estimadores siguientes
σ2 ≈
(S − B − T ) ( r − 1)( c − 1)
c σ + r −1 2
r
∑ε i =1
2 Bi
≈
B r −1
(10.8.5)
(10.8.6)
623
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
σ2 +
r c −1
c
∑ε
2 Tj
j =1
≈
T c −1
(10.8.7)
Caso de dos efectos aleatorios Ahora se supone que los valores eBi y eTj son variables aleatorias con medias nulas y varianzas s B2 y s T2 respectivamente. El test unilateral de la hipótesis nula para los bloques H0 : s B2 = 0 utiliza el mismo estadístico F dado en (10.8.3), y el correspondiente a los tratamientos con H0 : s T2 = 0 utiliza el mismo estadístico F dado en (10.8.4). Los cálculos y procedimientos son iguales a los de antes. De interés en este caso son los estimadores siguientes
σ 2 ≈ s2 =
(S − B − T ) ( r − 1)( c − 1)
(10.8.8)
σ 2 + cσ B2 ≈ s2 + csB2 =
B ; r −1
σ B2 ≠ 0
(10.8.9)
σ 2 + rσ T2 ≈ s2 + rsT2 =
T ; c −1
σ T2 ≠ 0
(10.8.10)
Con estas relaciones, cuando H0 es falsa, se pueden obtener estimadores para las varianzas por bloques s B2 ≈ s B2 y/o por tratamientos s T2 ≈ s T2, para con ellos efectuar tests F con las parejas: bloque – error aleatorio residual, tratamiento-error aleatorio residual. Como en ANOVA-1 es interesante fijarse en el reparto de grados de libertad y su suma ( r − 1) B + ( c − 1)T + ( r − 1)( c − 1)S− B− T = ( rc − 1)S
(10.8.11)
una propiedad relacionada con la partición (10.8.1). Cuando el análisis es significativo la varianza total de una observación aleatoria se estima con s2 + sB2 + sT2 .
624
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
10.9. Análisis de la varianza en ajustes de regresión Para concluir se va a presentar brevemente una aplicación adicional del análisis de varianza que permite valorar entre dos ajustes de regresión bidimensional por mínimos cuadrados, lineal y cuadrático, cuál es el más significativo. Los dos ajustes modelo a N puntos {(xi, yi)} son lineal ( L): y = a0 + a1 x + ε
(10.9.1)
cuadrático (Q ) : y = b0 + b1 x + b2 x2 + ε
(10.9.2)
en donde se ha incluido el error aleatorio de medición experimental e que es independiente del modelo. Una vez realizados ambos ajustes pueden determinarse sus correspondientes errores cuadráticos de la estima
sY2 / X ( L ) =
sY2 / X (Q )
1 N−2
1 = N−3
N
∑(y − a i
i =1
− a1 xi 0
)
2
=
S2 ( L ) ; ν ( L) = N − 2 ν ( L)
N
∑ i =1
( yi − b0 − b1 xi − b2 xi2 )2 =
S2 ( Q ) ; ν ( Q) = N − 3 ν (Q )
(10.9.3)
(10.9.4)
En este caso el test de Fisher se construye con el estimador F=
[S2 ( L) − S2 (Q )] [ν ( L) − ν (Q )] S2 ( L) − S2 (Q ) = 2 S (Q ) ν ( Q) S2 ( Q ) ν ( Q )
(10.9.5)
que debe seguir la distribución de Fisher con n1 = 1 y n2 = n(Q) grados de libertad si la hipótesis nula es correcta, H0 : no hay diferencias significativas entre los ajustes L y Q. De manera que si para un nivel de significación a se tiene F < FnC1,n2(a), entonces puede aceptarse como suficientemente adecuado (al nivel a) el ajuste lineal (10.9.1). En caso contrario, F > FnC1,n2(a), hay que desechar esta hipótesis y aceptar que el ajuste cuadrático (10.9.2) es de los dos el verdaderamente significativo (al nivel a). Como en toda verificación de hipótesis hay que tener presente que se podrían presentar casos dudosos que se deberían tratar como ya se indicó en el Cap. 6, que se pueden cometer errores de los tipos I y II, etc.
625
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
BIBLIOGRAFÍA 1 SCHEID, F., Análisis Numérico, McGraw-Hill (serie Schaum), 1972. (Caps. 26, 30). 2. SPIEGEL, M.R.; SCHILLER, J. y ALU SRINIVASAN, R., Probabilidad y Estadística, 3ª Edición (Serie Schaum), McGraw-Hill, Madrid (2010). (Cap. 9). 3. SESÉ, L. M., Métodos Teóricos de la Química-Física (Vol. 1), UNED, Madrid, 1994. (Temas 7, 9). 4. PRESS, W. H.; FLANNERY, B. P.; TEUKOLSKY, S. A. y VETTERLING, W. T., Numerical Recipes, Cambridge University Press, Cambridge, 1986. (Caps. 7, 14). 5. CRAMÉR, H., Elementos de la Teoria de Probabilidades, Aguilar, Madrid, 1968. (Caps. 14, 16). 6. SPIEGEL, M. R.; LIU, J. y ABELLANAS, L., Fórmulas y Tablas de Matemática Aplicada, McGraw-Hill, 2ª Edición Revisada (Serie Schaum), Madrid (2005).
626
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
PROBLEMAS TEÓRICOS Y NUMÉRICOS
Problemas teóricos 10.1) Minimizar la función suma de cuadrados de desviaciones de una serie de datos x–i, obtenidos con diferentes métodos, con respecto a un valor óptimo de su media global x– n
S=
∑ w (x − x) i
2
i
i =1
en donde wi > 0 son los pesos relativos que afectan a cada xi tales que wi = 1/s 2i , con s 2i siendo las varianzas de cada método. Estimar también el valor mínimo que toma S y la varianza de x– comprobando la equivalencia de este tratamiento con el dado en el epígrafe 10.2. 10.2) Aplicar el principio de máxima verosimilitud a una muestra de N datos {nj} para una variable discreta que sigue la distribución de Poisson, identificando el parámetro que la define. 10.3) Deducir las expresiones de los errores dadas en (10.3.14) para los parámetros de un ajuste lineal chi-cuadrado. 10.4) Para un conjunto {xij} de kN datos muestrales (k muestras y N datos por muestra) demostrar la relación k
N
∑∑ i =1
j =1
k
( xij − x )2 =
∑∑ i =1
k
N
j =1
( xij − xi )2 + N
∑ ( x − x)
2
i
i =1
en donde x– es la media global y x–i la media de la muestra i. Deducir también las ecuaciones simplificadas (10.7.11) y (10.7.12) para las estimaciones de las varianzas entre muestras y dentro de la muestra. 10.5) Plantear un esquema operativo de integración Monte Carlo para calcular la constante de normalización N de la función de onda de una partícula en una caja de potencial tridimensional de longitudes (unidades arbi-
627
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
trarias) LX = 2, LY = 4 y LZ = 1, en el estado definido por los números cuánticos nX = 4, nY = 1 y nZ = 3, a partir de la condición N2
2
4
1
π y 3π z 4π x =1 ⋅ sen 2 ⋅ sen 2 2 4 1
∫ ∫ ∫ dz sen dx
0
dy
0
2
0
(Nota: Recuérdese que, por defecto, los argumentos de las funciones trigonométricas deben tomarse en radianes). 10.6) Explicar cómo se puede estimar de manera sencilla el área de una figura plana arbitraria y de extensión finita utilizando un flujo de números aleatorios. 10.7) Comprobar que el nivel de significación a de los ensayos en los que interviene la distribución c 2 puede definirse con la denominada función incompleta (complementaria) gamma
α = Q( a, x) =
1 Γ ( a)
∫
∞
ua −1 exp(− u) du ; ( a > 0 )
x
Problemas numéricos 10.8) Generar números pseudoaleatorios en el intervalo [0,1] con la congruencia zn ⬅ zn–1l + n (mód. M), con n = 9, M = 16, z1 = l = 5. Comparar los resultados con los del Ejercicio 10.1.1. 10.9) Una alternativa diferente a la de los números pseudoaleatorios es la de los llamados números cuasi-aleatorios que dan distribuciones de puntos multidimensionales «super-uniformes» y con ellos se obtienen buenos resultados en integraciones numéricas. Un algoritmo simple es el del generador de van der Corput que está basado en utilizar para los números enteros la representación decimal (base 10) y otra base más. Por ejemplo, en la base binaria se tiene que nd = 1 (decimal) Æ nb = 1 (binaria); se construye el reverso binario 0,1 y se expresa en la base decimal como: f(1) = 0 ¥ 20 + 1 ¥ 2–1 = 0,5. Para nd = 2 (decimal) su expresión binaria es nb = 10 ⬅ 1¥21 + 0¥20, se construye su reverso en binario 0,01
628
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
y se expresa en base decimal como: f(2) = 0¥20 + 0¥2–1 + 1¥2–2 = 0,25. Los números f(1) = 0,5 y f(1) = 0,25 son cuasi-aleatorios en 0 < f < 1. Utilizar este algoritmo para generar seis números f en base tres. 10.10) Un sistema cuántico en fase fluida a densidad constante presenta los siguientes valores de su energía interna E dividida por RT (T = temperatura absoluta) en función de la longitud de onda de Broglie reducida lB* l*B
0,116
0,2
0,3
0,4
0,5
0,6
E/RT
1,607(6)
1,710(8)
1,857(8)
2,044(9)
2,278(7)
2,560(9)
en donde los números entre paréntesis indican el error del que vienen afectados los datos de entrada E/RT como una-desviación típica: por ejemplo, 1,607(6) = 1,607±0,006. Sabiendo que para lB* = 0 se tiene el resultado exacto E/RT = 1,5, obtener una función del tipo E/RT = a + blB* + clB*2 utilizando a) Un ajuste de mínimos cuadrados convencional (que tome errores unidad en los datos de entrada). b) Un ajuste c2 que tenga en cuenta los errores particulares en los datos de entrada. c) Comparar ambos resultados. 10.11) Se han tomado las siguientes medidas de la actividad radiactiva conjunta de los isótopos 95Zr y 95Nb en diferentes regiones de un área determinada (unidades milicuries/Km2) Regiones
Mediciones
1
130
134
135
137
2
128
130
126
128
3
126
125
124
131
¿Se pueden atribuir las diferencias observadas entre las medias muestrales por región al error aleatorio normal (nivel de significación a = 0,05)? Si no fuera así, separar las dos componentes de la varianza (efecto del error aleatorio de la medición + efecto factor aleatorio de la región).
629
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
10.12) En diferentes días se han tomado muestras de suelos de una región para medir la actividad radiactiva conjunta de los isótopos 103Ru y 106 Rh. Los resultados de las mediciones se resumen en la siguiente tabla (unidades arbitrarias) Día
Mediciones en muestras de suelo
1
57
59
54
55
2
50
51
49
48
3
51
55
56
57
4
53
50
50
54
Estimar las varianzas asociadas a cada factor aleatorio y ensayar las hipótesis nulas correspondientes (varianza por día nula, varianza por muestra nula) al nivel a = 0,05. 10.13) Para los datos de la tabla del problema 10 efectuar un análisis de la varianza que permita decidir si un ajuste meramente lineal a los datos de entrada (sin condición conocida a priori en lB* = 0) sería significativo al nivel a = 0,05 frente al ajuste cuadrático obtenido allí en el apartado a) por mínimos cuadrados (utilizar (10.9.4) con dicho ajuste).
SOLUCIONES Problema 10.1 Hay que minimizar con respecto al valor que va a ser tomado como óptimo x– y esto lleva a n
n
∑ w (x − x) = 0 → x =
dS = −2 dx
i
i
i =1
∑w x
i i
i =1 n
∑w
i
i =1
La varianza de este valor medio es pues Var ( x ) =
630
n
1 ∑ wi i
2
∑ i =1
wi2Var ( xi )
=
n
1 2 ∑ 1 si i
2
∑s i =1
1 4 i
si2 =
1 2 ∑ 1 si i
=
1 ∑ wi i
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
y el valor mínimo de S es (Cap.1) n
S=
∑
n
wi ( xi )2 − x 2
i =1
∑w
i
i =1
Aquí se trabaja con valores individuales, pero puede comprobarse que los resultados coinciden formalmente con los dados en (10.2.12) para el promedio de valores medios. En este procedimiento se han tenido que fijar los valores wi = 1/s2i algo que el método dado en 10.2 daba como resultado del cálculo con multiplicador de Lagrange, pero puede demostrarse que esta solución es la de mínima varianza.
Problema 10.2 La distribución de Poisson para una variable discreta es Pν =
λν exp(− λ ); ν = 0,1, 2,... ν!
y las N observaciones {nj} hay que clasificarlas en las frecuencias f0i con las que aparece cada uno de los valores registrados ni de la variable (su recorrido es infinito, pero sólo un número finito de ellos estará disponible). Así, organizando la información desde el mínimo valor n0 = 0 hasta el máximo nm = m que haya aparecido se tiene (ν 0 , φ00 ), (ν1 , φ01 ), (ν 2 ,φ02 ), ..., (ν m , φ0 m ); φ00 + φ01 + φ02 + ... + φ0 m = N con lo que la función de verosimilitud, considerando ensayos independientes, se construye como el producto de las probabilidades asociadas a las frecuencias de aparición de cada valor posible entre ni = 0, 1, 2, 3, ..., m λ0 Λ( λ ) = exp(− λ ) 0!
φ00
λ1 − exp( λ ) 1!
φ01
λ2 λ exp( − ) 2!
φ02
λm ... exp(− λ ) m!
φ0 m
en donde posibles frecuencias nulas dan contribuciones unidad al producto y no plantean problemas. Conviene ahora tomar logaritmos en la expresión anterior antes de derivar para obtener el estimador óptimo. Con ello los
631
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
factores unidad desaparecen, al sumar cero, y se tiene la suma de k términos sobre los valores ni = ... que han sido registrados en el experimento λ νi φ0 i ln exp(− λ ) ; νi ! i = ... k
ln Λ( λ ) = d ln Λ(λ ) = dλ
∑
k
∑
φ0 i
i = ...
k
φ0 i ≠ 0;
d λ exp( − λ ) = dλ ν i !
λ νi ν ! exp(− λ ) i
0i
=N
i = ...
νi
1
∑φ k
ν φ0 i i − 1 = 0 λ i = ...
∑
y despejando se obtiene el estimador de máxima verosimilitud como el valor medio muestral k
λ =ν =
∑ φ0iν i
i = ... k
∑ φ0 i
i =...
que es un estimador insesgado. Para evaluar la bondad de este tipo de ajuste se utiliza el test c2 en una forma similar a la mostrada para la distribución binomial. Problema 10.3 Los errores dados como varianzas para los coeficientes a0 y a1 se plantean y operan como sigue (recuérdense las definiciones (10.3.5)) 2
S − x S 1 s ( a0 ) = σ xx 2k x = 2 D k=0 Dσ k N
2
1 D2
∑
2 k
2
S − x S σ xx 2 k x = { D = Sxx S − Sx2 } = σk k= 0 N
∑
2 k
N N N S xk2 xk 1 1 2 2 2 + − 2 S S S S + Sx2 Sxx − 2Sx2 Sxx ) = xx = 2 (Sxx Sxx x x xx 2 2 2 D σk σk σ k D k= 0 k= 0 k= 0
∑
∑
∑ 2
x S − S S 1 s ( a1 ) = σ k 2 x = 2 (S2 Sxx + Sx2 S − 2Sx2 S) = D D Dσ k k=0 N
2
∑
2 k
Nótese que las sumas S son valores fijos e independientes del índice de sumación k en las expresiones anteriores.
632
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
Problema 10.4 Esta ecuación está relacionada con los cálculos ANOVA-1 y su demostración puede lograrse como sigue k
N
k
∑ ∑(x
2
− x) =
ij
i =1
k
j =1
N
∑∑ i =1
j =1
N
i =1
j =1
k
N
i
k
N
i =1
j =1
k
N
i =1
j =1
ij
k
( xi − x )2 +
i =1
i
i
∑ ∑ ( x − x )( x − x) =
− xi ) + 2
j =1
k
∑
=
j =1
2
ij
N
i
∑ ∑ ( x − x )( x − x) =
∑ ( x − x) + ∑ ∑ ( x i =1
i
( xij − xi )2 + 2
2
i =1
2
ij
N
∑∑
k
∑ ∑ (x − x + x − x) i =1
k
( xi − x )2 +
N
ij
i
i
N
∑∑ (x − x )
2
ij
i =1
i
j =1
en donde el primer término está relacionado con lo que se ha denominado entre muestras, el segundo con el dentro de la muestra global, y el tercero es idénticamente nulo. Esto último es fácil de comprobar sin más que tener en cuenta las relaciones xi =
1 N
N
∑
x=
xij ;
j =1
1 kN
k
N
∑∑
xij =
j =1 i =1
1 k
k
∑x
i
i =1
Desarrollando la doble sumatoria del tercer término se encuentra k
N
∑∑ i =1
k
( xij − xi )( xi − x ) =
j =1
N
∑ ∑ x x − kN x i ij
i =1
j =1
k
N
i =1
j =1
∑ ∑ ( x x − xx − x x + x x ) = i ij
k
2
−N
∑ i =1
ij
k
xi2
+ kN x = 2
i i
N
i
k
∑ x ∑ x − N∑ x i
i =1
2 i
ij
j =1
=0
i =1
con lo que queda demostrada la relación pedida. Una extensión trivial de este procedimiento permite obtener la descomposición de la suma de desviaciones globales (10.8.1) que se utiliza en los cálculos ANOVA-2.
633
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
En cuanto a las estimaciones (10.7.11) y (10.7.12) las demostraciones son similares. Basta notar que la suma total se puede expresar como k
N
N
k
∑ ∑ ( x − x) =∑ ∑ ( x − 2 x x + x ) = 2
2 ij
ij
i =1
k
j =1
i =1
N
∑∑ i =1
k
xij2
2
− kN x =
j =1
j =1
N
∑∑ i =1
2
ij
xij2
j =1
1 − kN
k
N
i =1
j =1
∑∑
xij
2
y que la suma entre muestras es k
k
∑ ( x − x ) =∑
xi2
i
i =1
− 2x
i =1
1 N2
k
∑ x + kx =∑ x 2
2 i
i
i =1
j =1
− kx 2 =
i =1
2
N
∑∑ i =1
k
k
2
1 xij − kN 2
k
N
i =1
j =1
∑∑
xij
2
Con ello la suma dentro de la muestra puede obtenerse como diferencia entre el total y la contribución entre muestras de acuerdo con la primera relación básica demostrada, obteniéndose k
N
∑ ∑(x
ij
i =1 j =1
− xi
k
N
) =∑ ∑ 2
i =1 j =1
xij2
1 − N
k
N
∑∑ i =1
j =1
xij
2
De estas relaciones es inmediato establecer (10.7.11) y (10.7.12) cuya ventaja en el cálculo ANOVA-1 está en que sólo hay que evaluar tres tipos de sumas diferentes. Problema 10.5 Este es un cálculo que en la práctica debe realizarse con calculadora programable o programación en computador. No obstante hay que saber qué debe programarse y el problema pretende dar un modo organizado de llevar esto a cabo. Nótese que en la normalización de una función de onda (real) la densidad de probabilidad está dada por el cuadrado de la función de onda, con lo que la constante N aparece elevada al cuadrado en la relación de
634
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
normalización. Se están aquí utilizando conjuntamente nociones del Cap. 2 y del Cap. 5 y conviene no cometer errores de interpretación en cuanto al sentido de las constantes de normalización en ambos contextos. Un sencillo esquema operativo se da a continuación estructurado en varios pasos. i) Llamando I a la integral definida triple se tiene que N = I–1/2. La aplicación Monte Carlo con n puntos tridimensionales para calcular esta integral se formula como I≈
2 ⋅ 4 ⋅1 n
n
π yi ⋅sen 2 (3π zi ) 4
∑ sen (2π x ) ⋅sen 2
2
i
i =1
ii) Para calcular I primero hay que seleccionar un algoritmo de generación de números aleatorios. Por sus propiedades de mayor periodo, y otras de tipo estadístico, el algoritmo puede muy bien ser del tipo congruente ai = λ ai −1 + ν (mód ⋅ M); M = 2 B , ν ≠ 0 con B grande (dependerá de la máquina de cálculo de que se disponga) y parámetros l, n y a1 acordes con las condiciones indicadas en el epígrafe 10.1. Con ello se dispondrá de un máximo de 2B (periodo) de números ai que normalizados con M darán origen a otros tantos números pseudoaleatorios a˜ i entre 0 y 1. iii) Tomando un número n de puntos tridimensionales habrá que determinar 3n números ai y sus correspondientes asociados a˜ i para con agrupamientos (a˜ i, a˜ i+1, a˜ i+2) poder determinar las triplas tridimensionales (xi, yi, zi) adaptadas al problema. Un esquema de este proceso es el siguiente a1 → a1 = a1/ M → x1 = 2 a1 → sen 2 (2π x1 ) 2 a2 → a2 = a2 / M → y1 = 4 a 2 → sen (π y1 / 4 ) producto = p1 a → a = a / M → z = 1a → sen 2 (3π z ) 1 3 3 1 3 3 a4 → a 4 = a4 / M → x2 = 2 a 4 → sen 2 (2π x2 ) 2 a5 → a5 = a5 / M → y2 = 4 a5 → sen (π y2 / 4) producto = p2 a → a = a / M → z = 1a → sen2 (3π z ) 6 6 2 6 2 6 …………………………………………………………………… a3 n− 2 → a3 n − 2 = a3 n− 2 / M → xn = 2 a3 n− 2 → sen 2 (2π xn ) 2 pn a3 n−1 → a 3 n −1 = a3 n −1/ M → yn = 4 a 3 n −1 → sen (π yn / 4) producto =635 a → a = a / M → 2 zn = 1a 3 n → sen (3π zn ) 3n 3n 3 n
a4 → a 4 = a4 / M → x2 = 2 a 4 → sen 2 (2π x2 ) 2 a5 → a5 = a5 / M → y2 = 4 a5 → sen (π y2 / 4) producto = p2 a → a = a / M → z = 1a → sen2 (3π z ) CÁLCULO NUMÉRICO APLICADA 6 6Y ESTADÍSTICA 6 2 6 2 …………………………………………………………………… a3 n− 2 → a3 n − 2 = a3 n− 2 / M → xn = 2 a3 n− 2 → sen 2 (2π xn ) 2 a3 n−1 → a 3 n −1 = a3 n −1/ M → yn = 4 a 3 n −1 → sen (π yn / 4) producto = pn a → a = a / M → zn = 1a 3 n → sen 2 (3π zn ) 3 n 3n 3n iv) Se calcula la suma de los productos anteriores, se multiplica por el volumen de la caja de potencial y se divide por el número de puntos calculados para estimar el valor de la integral y con ella la constante de normalización 2 ⋅ 4 ⋅1 I≈ n
n
∑p
i
→ N≈
1
i =1
I
El resultado exacto en este caso sencillo puede obtenerse analíticamente y es N = 1. La aproximación a este valor es de convergencia lenta ~n–1/2, lo que significa que ganar una cifra decimal más en la precisión requiere realizar 100 veces más ensayos que los hechos en un intento anterior (n2 = 100n1). El lector puede extender las ideas anteriores para incluir en el cálculo MC la estimación del error asociado (10.1.13).
Problema 10.6 El primer paso es enmarcar esta figura dentro de otra regular de área conocida. Sea esta figura de referencia un cuadrado de lado L. Se toma como origen de coordenadas el vértice inferior izquierdo de este cuadrado. A continuación se generan 2n parejas sucesivas de números aleatorios (ai, ai+1) entre 0 y 1 que se transforman seguidamente en n números aleatorios (xk, yk) = (Lak, Lak+1) definidos ambos entre 0 y L. De este total n se cuentan cuántos caen dentro del perímetro del área arbitraria buscada, sean éstos nA, Una estimación MC de este área incógnita está dada por el cociente de «aciertos» entre el total de «intentos» multiplicada por L2. área irregular =
nA 2 L n
Como ya se ha señalado antes en conexión con el error, para mejorar un decimal en la estimación habrá que realizar 100 veces más ensayos que los hechos previamente.
636
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
Problema 10.7 Transformando la variable de integración deberá llegarse a la definición del nivel de significación como una integral sobre la función densidad c2 Q( a, x) =
1 Γ ( a)
∫
` x
χ2 ua−1 exp(− u) du = u = ; dχ 2 = 2 du; u = x → χ 2 = 2 x = χ C2 = 2 1 a 2 Γ( a)
∫
`
χ C2
exp(– χ 2 / 2)( χ 2 ) a−1 dχ 2
y comparando con la expresión conocida (6.8.10) fν ( χ 2 ) =
χ2 1 2 2 (ν − 2 )/ 2 ( χ ) exp − ; ν = 1, 2, 3,...; 0 ≤ χ < ` 2 2ν / 2 Γ (ν / 2)
la equivalencia se completa notando que la constante a > 0 es justamente el ν número de grados de libertad dividido por 2: a = . De manera que en gene2 ral se puede calcular el nivel de significación alcanzado en un ensayo o ajuste calculando a = Q(n/2, cC2/2) lo que va a requerir cálculo con computador y el uso de aproximaciones numéricas a la integral.
Problema 10.8 De acuerdo con la teoría presentada en 10.1 esta secuencia va a tener un periodo M = 2B = 24 = 16 y va a resultar mejor que la vista en el Ejercicio 10.1.1. La construcción de la secuencia es similar a aquella z1 = 5 → x1 = z1 / M = 5 / 16 = 0, 3125 z2 ≡z1λ + ν (mód.16 ) = 5 ⋅ 5 + 9 (mód.16) = 34 (mód.16) = 2 → x2 = z2/M = 2 /16 = 0,125 z3 ≡z2λ + ν (mód.16 ) = 2 ⋅ 5 + 9 ( mód.16) = 19 (mód.16 ) = 3 → x3 = z3 /M = 3 /16 = 0,1875 z4 ≡z3λ + ν (mód.16 ) = 3 ⋅ 5 + 9 ( mód.16) = 24 (mód.16) = 8 → x4 = z4 /M = 8 /16 = 0,5 z5 ≡z4 λ + ν (mód.16 ) = 8 ⋅ 5 + 9(mód.16) = 49 ( mód.16) = 1 → x5 = z5 /M = 1/16 = 0,0625 z6 ≡z5λ + ν ( mód.16) = 1⋅ 5 + 9(mód.16) = 14 (mód.16 ) = 14 → x6 = z6 /M = 14 /16 = 0,875
637
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
z7 ≡z6λ + ν ( mód. 16 ) = 14 ⋅ 5 + 9( mód.16 ) = 79 ( mód.16) = 15 → x7 = z7 / M = 15 / 16 = 0, 9375 z8 ≡z7λ + ν (mód.16) = 15 ⋅ 5 + 9(mód.16) = 84 ( mód.16 ) = 4 → x8 = z8 / M = 4 / 16 = 0, 25 z9 ≡z8λ + ν (mód.16 ) = 4 ⋅ 5 + 9(mód.16) = 29 ( mód.16 ) = 13 → x9 = z9 /M = 13 /16 = 0, 8125 z10 ≡z9 λ + ν (mód.16 ) = 13 ⋅ 5 + 9(mód.16 ) = 74 (mód.16 ) = 10 → x10 = z10 /M = 10 /16 = 0, 625 z11 ≡z10 λ + ν (mód.16 ) = 10 ⋅ 5 + 9(mód.16) = 59 (mód.16) = 11 → x11 = z11/M = 11/16 = 0, 6875 z12 ≡z11λ + ν (mód.16) = 11⋅ 5 + 9(mód.16 ) = 64 (mód.16 ) = 0 → x12 = z12 /M = 0 /16 = 0 z13 ≡z12λ + ν (mód.16) = 0 ⋅ 5 + 9(mód d.16) = 9 (mód.16) = 9 → x13 = z13 /M = 9 /16 = 0, 5625 z14 ≡z13λ + ν (mód.16 ) = 9 ⋅ 5 + 9(mód.16 ) = 54 (mód.16 ) = 6 → x14 = z14 /M = 6 /16 = 0, 375 z15 ≡z14λ + ν ( mód.16) = 6 ⋅ 5 + 9(mód.16) = 39 ( mód.16) = 7 → x15 = z15 /M = 7 /16 = 0, 4375 z16 ≡z15λ + ν ( mód.16) = 7 ⋅ 5 + 9(mód.16) = 44(mód d.16) = 12 → x16 = z16 /M = 12 /16 = 0, 75 z17 ≡z16 λ + ν (mód.16 ) = 12 ⋅ 5 + 9(mód.16 ) = 69 (mód.16) = 5 → x17 = z17/M = 5/16 = x1 repitiéndose la secuencia a partir de aquí. Es interesante observar cómo van apareciendo los 16 números enteros del 0 al 15 en una forma aparentemente al azar (¡están completamente determinados!) de manera que parecen (simulan) un muestreo aleatorio. Es un algoritmo mucho más eficiente que el del Ejercicio 10.1.1 que utilizaba n = 0 en la generación y que sólo daba cuatro números pseudoaleatorios. Es fácil imaginar la potencia del nuevo planteamiento con factores B = 32, 64, o mayores. Recuérdese que para conseguir números pseudoaleatorios en intervalos diferentes del [0,1] basta aplicar un sencillo cambio de variable. Así, si se desean números entre –1 y +1 basta con transformar los xi obtenidos entre 0 y +1 haciendo yi = 2xi –1.
Problema 10.9 Utilizando las representaciones nt = a0 R0 + a1 R + a2 R2 + a3 R3 + ...; nd = a0 R0 + a1R −1 + a2 R−2 + a3 R−3 + ...; ( R = 3) la siguiente tabla, con redondeos a cinco decimales en la última columna, es autoexplicativa
638
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
Tabla. Problema 10.9. Generador van der Corput nd(decimal)
ni(ternario)
f (reverso ternario)
f (decimal)
1
1 ¥ 30 = 1
0,1
0 ¥ 30 + 1 ¥ 3–1 = 0,33333
2
2 ¥ 30 = 2
0,2
0 ¥ 30 + 2 ¥ 3–1 = 0,66667
3
1 ¥ 31 + 0 ¥ 30 = 10
0,01
0 ¥ 30 + 0 ¥ 3–1 + 1 ¥ 3–2 = 0,11111
4
1 ¥ 31 + 1 ¥ 30 = 11
0,11
0 ¥ 30 + 1 ¥ 3–1 + 1 ¥ 3–2 = 0,44444
5
1 ¥ 31 + 2 ¥ 30 = 12
0,21
0 ¥ 30 + 2 ¥ 3–1 + 1 ¥ 3–2 = 0,77778
6
2 ¥ 31 + 0 ¥ 30 = 20
0,02
0 ¥ 30 + 0 ¥ 3–1 + 2 ¥ 3–2 = 0,22222
Problema 10.10 Estos cálculos se pueden reducir a un ajuste meramente lineal sin más que utilizar el dato del enunciado (lB* = 0, E/RT = 1,5) que ya hace a = 1,5 con lo que se puede escribir E /RT − 1,5
λ B*
= b + cλ B* ; λ B* ≠ 0
Definiendo a0 = b , a1 = c , x = λ B* , y = ( E / RT − 1,5)/ λ B* el problema se reformula como y = a0 + a1 x Hay que determinar los nuevos valores y junto con sus errores respectivos. Estos errores vienen dados por
σ ( y) =
σ ( E /RT ) λ B*
pues el dato 1,5 es un resultado exacto. Redondeando a 6 decimales donde proceda la nueva tabla para realizar ajustes es
639
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Tabla (a1). Problema 10.10 x
0,116
0,2
0,3
0,4
0,5
0,6
y
0,922414
1,05
1,19
1,36
1,556
1,766667
s(y)
0,051724
0,04
0,026667
0,0225
0,014
0,015
a) El ajuste de mínimos cuadrados (m.c.) convencional toma si = 1 en todas las ordenadas y los resultados son (sY/X = 0,28353; n = N – 2 = 4) a0 = 0, 697353 ± 0, 027054 → a0 = 0, 697 ± 0, 027 a1 = 1, 730135 ± 0, 069337 → a1 = 1, 730 ± 0, 069 E = 1,5 + 0, 697λ B* +1, 730λ B* 2 RT b) Para el ajuste c 2 se obtiene a0 = 0, 650035 ± 0, 032891 → a0 = 0, 650 ± 0, 033 a1 = 1, 833663 ± 0, 067081 → a1 = 1, 834 ± 0, 067 E = 1, 5 + 0, 650λ B* +1, 834λ B* 2 RT c) Nótese que con un redondeo a dos decimales se perdería el detalle de la comparación de los errores en los parámetros. Una comparación de ambas aplicaciones se da en la siguiente tabla de estimaciones redondeadas a tres decimales Tabla (a2). Problema 10.10 l*B
0,116
0,2
0,3
0,4
0,5
0,6
E/RT(c )
1,600
1,703
1,860
2,053
2,283
2,550
E/RT(m.c.)
1,604
1,709
1,865
2,056
2,281
2,541
E/RT
1,607
1,710
1,857
2,044
2,278
2,560
2
Los errores RMS de ambos ajustes son próximos 7,3 ¥ 10 –3( c 2) y 9,8 ¥ 10–3(m.c.) aunque con una ligera ventaja para el c2. Nótese además que, aunque las expresiones para evaluar los errores en los parámetros son diferentes, están relacionadas: basta multiplicar los errores c2 evaluados tomando todos los si = 1 por la desviación típica de la estima sY/X para obtener los errores m.c.
640
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
Problema 10.11 Los cálculos ANOVA no se alteran por la substracción de una misma cantidad a los datos de entrada. Sustrayendo entonces 130 a todos ellos se tiene la tabla equivalente Tabla. Problema 10.11 Regiones (k)
x–i
Mediciones (N)
1
0
4
5
7
4
2
–2
0
–4
–2
–2
3
–4
–5
–6
1
–3,5 x– = –0,5
i) Estimación entre muestras sn2
N = k −1
k
∑ ( x − x)
2
i
= { N = 4, k − 1 = 2} = 63 ; ν n = 2 grados de libertad
i =1
ii) Estimación dentro de la muestra global sd2
1 = k( N − 1)
k
N
∑∑(x
− xi ij
)
2
= 7 ; ν d = 9 grados de libertad
i =1 j =1
La aplicación del test F para estos cálculos ANOVA-1 es por tanto F2 ,9 =
sn2 sd2
=
63 =9 7
y como el valor crítico para el nivel de significación (unilateral) pedido es C C (0,05) = 4,256 hay que rechazar la hipótesis nula, por ser F2,9 > F2,9 (0,05) y F2,9 concluir que las medias muestrales no son homogéneas y difieren significativamente (al nivel a = 0,05). Al existir estas diferencias significativas entre sn2 y s2d se pueden separar las componentes de la varianza, de manera que el error aleatorio de la medición se estima a partir de la varianza dentro (el denominador del test) de la muestra sd2 = 7 → sd ≈ 2, 65
641
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
mientras que el error aleatorio de la región está contenido en la estimación entre (el numerador del test) y se extrae calculando sr2 =
1 2 2 1 ( sn − sd ) = (63 − 7) = 14 ; sr ≈ 3, 74 4 N
Problema 10.12 Como en el problema anterior se va a comenzar sustrayendo una cantidad igual de todos los datos de entrada; sea ésta 55. Tabla. Problema 10.12 Día/Bloque r=4
Mediciones/Tratamientos c=4
x–B
T1
T2
T3
T4
B1
2
4
–1
0
1,25
B2
–5
–4
–6
–7
–5,5
B3
–4
0
1
2
–0,25
B4 x–
–2
–5
–5
–1
–3,25
–1,5
x– = –1,9375
–2,25
T
–1,25
–2,75
Con estos datos se evalúan las componentes que intervienen en el análisis ANOVA-2 r
∑ (x
B=c
Bi
− x )2 = 109, 6875 ; r − 1 = 3 grados de libertad
i =1 c
T=r
∑ (x
Tj
− x )2 = 5, 6875 ; c − 1 = 3 grados de liberta ad
j =1
r
S=
r
c
c
∑ ∑ ( x − x) =∑ ∑ x − rcx 2
2 ij
ij
i =1
j =1
i=1
2
= 162,9 9375; rc − 1 = 15 grados de libertad
j =1
resid duo = S − B − T = 47, 5625 ; ( r − 1)( c − 1) = 9 grados de libertad
642
MÉTODOS ESTADÍSTICOS DE SIMULACIÓN Y VALIDACIÓN
i) Test para bloques (días), H0 : s B2 = 0. F3 ,9 ( B) =
109, 6875 / 3 B / ( r − 1) = 6, 918528 ≈ 6, 919 = (S − B − T ) / {( r − 1)( c − 1)} 47,5625 / (3 ⋅ 3)
C C C El valor crítico resulta ser F3,9 (0,05) = 3,863 y al ser F3,9 (B) > F3,9 (0,05) hay que rechazar la hipótesis nula entre bloques. Las variaciones observadas entre bloques son demasiado grandes para poder ser explicadas por los efectos aleatorios del proceso de medición.
En este caso entonces se puede obtener una estimación del error debido a la variación día-a-día como s2B =
1 (36,5625 − 5, 2847) = 7, 81944 ≈ 7, 82 → sB ≈ 2, 80 4
ii) Test para tratamientos H0 : s T2 = 0. F3 ,9 (T ) =
5, 6875 / 3 T / ( c − 1) = 0, 358739 ≈ 0, 359 = (S − B − T ) / {( r − 1)( c − 1)} 47, 5625 / (3 ⋅ 3)
En este caso r – 1 = c – 1 y el valor crítico es el mismo de antes C C F (0,05) = 3,863. Al ser F3,9 (T) < F3,9 (0,05) hay que aceptar la hipótesis nula entre tratamientos. Las variaciones observadas entre tratamientos son explicables por los efectos aleatorios del proceso de medición. No tiene sentido aquí pues calcular una estimación para sT2 análoga a la hecha en el caso de bloques. C 3,9
Problema 10.13 El ajuste obtenido para los datos del problema 10 por mínimos cuadrados (si = 1) fue ( E / RT )Q = 1,5 + 0, 70λ B* + 1, 73λ B* 2 Un ajuste meramente lineal en las mismas condiciones de error da ( E / RT )L = 1, 32101 + 1, 95177λ B* ≈ 1, 32 + 1, 95λ B* ( rL = 0, 9890 )
643
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Los valores de entrada y los estimados con estas dos relaciones se resumen en la tabla siguiente Tabla. Problema 10.13 l*B
0,116
0,2
0,3
0,4
0,5
0,6
E/RT
1,607
1,710
1,857
2,044
2,278
2,560
(E/RT)L
1,547413
1,711362
1,906540
2,101717
2,296895
2,492072
(E/RT)Q
1,604174
1,708676
1,864918
2,055763
2,281210
2,541260
Con estos datos se puede evaluar el estadístico F1,3 necesario F1,3 =
S2 ( L) − S2 (Q ) 0, 014309 − 0, 000572 = ≈ 72 0, 000191 S2 ( Q ) / ν ( Q )
C C C El valor crítico es F1,3 (0,05) = 10,13 y, por tanto, al ser F1,3 > F1,3 (0,05) se concluye que el ajuste lineal no es significativo a este nivel y que el ajuste cuadrático es preferible.
644
APÉNDICES
Apéndice I.
Tratamiento de datos experimentales mediante computación (Modelos de Prácticas en Centros Asociados)
Apéndice II. La base ortogonal de Fourier Apéndice III. Tablas estadísticas
APÉNDICE I TRATAMIENTO DE DATOS EXPERIMENTALES MEDIANTE COMPUTACIÓN (Modelos de Prácticas en Centros Asociados)
Las siguientes actividades pretenden ser un modelo de Prácticas a realizar por los estudiantes (bajo supervisión) utilizando las prestaciones básicas que ofrecen los paquetes o programas informáticos de uso común (hojas de cálculo). Estos permiten representar gráficamente datos, realizar ajustes y operaciones matemáticas de diversos tipos, incluyendo en ello cálculos numéricos y determinaciones estadísticas. Los datos necesarios para realizar los análisis pedidos más abajo serían del tipo detallado bien en los Problemas Numéricos de aplicación que acompañan a los Capítulos del texto, o bien en los enunciados siguientes. Todas las Prácticas deben llevar su guión correspondiente, con la formulación del problema, la presentación teórica del método a utilizar, los detalles operativos a seguir, y las cuestiones a responder. 1. Introducción al programa/hoja de cálculo Conceptos básicos: la barra de tareas, entrada de datos desde ficheros del sistema o externos, representaciones gráficas de datos en una y más de una dimensión, salida de datos a ficheros internos o externos. Conocimiento y uso de las funciones matemáticas intrínsecas del programa. 2. Representaciones gráficas Aplicación a la representación de gráficas para datos suministrados y para nuevos datos creados a partir de los primeros en la hoja de trabajo. Redimensionamiento y rotulación de las figuras. Salida a ficheros e impresión en papel. 3. Aplicación a problemas sencillos del cálculo numérico Interpolación, extrapolación, derivación, e integración. Se suministraría una serie de datos y se pediría la discusión de resultados.
647
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
4. Aplicación a la estadística descriptiva Evaluación de valores medios, dispersiones, etc. Se suministrarían dos series de datos y se pediría el análisis de cada una por separado, así como la comparación de sus medias con determinados niveles de significación (t-test) y la discusión de resultados. 5. Análisis de la varianza Realización de un análisis de varianza con una serie de datos, discutiendo los resultados. 6. Cálculos de regresión Lineal, polinómica y múltiple (plano). Realización de gráficas y discusión de resultados. Con vistas al trabajo de laboratorio químico experimental puede ser útil complementar esta práctica con representaciones gráficas en diferentes tipos de papel gráfico (semi-logarítmico, doble logarítmico, milimetrado). 7. Suavización de datos Comparación entre un ajuste de mínimos cuadrados y otro chi-cuadrado a una misma serie de datos con errores de entrada. Discusión de resultados. 8. Ajustes de funciones empíricas generales no lineales Caída y crecimiento exponencial (caída en procesos radiactivos, crecimiento de poblaciones bacterianas, etc.), Gaussiana (datos espectroscópicos de infrarrojo lejano para absorciones inducidas por colisión –gas de Ne-Ar-), Lorentziana (datos espectrocópicos de microondas para el ensanchamiento de líneas por presión –NH3-). Discusión de resultados. 10. Integración numérica de funciones especiales (*) a) Calcular la integral de una función oscilante real (que incluya un factor seno o coseno) de una variable real mediante fórmulas del tipo Filon. b) Efectuar el mismo cálculo mediante una transformada rápida de Fourier. c) Comparar los resultados.
648
APÉNDICE I. TRATAMIENTO DE DATOS EXPERIMENTALES MEDIANTE COMPUTACIÓN...
Esta es una práctica avanzada de interés, entre otras, en cuestiones estadísticas en fluidos (factores de estructura, funciones de correlación temporal). 11. Desarrollo en serie de funciones ortogonales (*) Dada una función real de una variable real desarrollarla analíticamente en diferentes series de funciones ortogonales (Legendre, Tschebyscheff, Fourier, etc.) y, utilizando diferentes órdenes finitos de aproximación, realizar la representación gráfica para observar la proximidad creciente entre la función original y su representación en serie truncada. Comparar los resultados. 12. Integración Monte Carlo con generación aleatoria (*) Generar una secuencia de números aleatorios con los que evaluar una integral definida en una variable y en un número mayor de variables. Un número adecuado de Prácticas se estima que debería ser de alrededor de seis (cinco mínimo). Las marcadas (*) entrañan una dificultad mayor y sólo deberían ser abordadas, en su caso, por estudiantes aventajados o a juicio del Tutor.
649
APÉNDICE II LA BASE ORTOGONAL DE FOURIER
La base que se considera a continuación, {fm(x)}m=0,⬁ = {1, sen nx, cos nx}n=1,⬁ =1, sen x, cos x, sen 2x, cos 2x,..., es la base de Fourier y presenta una buena serie de propiedades interesantes. Primero, todas ellas son periódicas, es decir cumplen (la función 1 es un caso trivial)
φm ( x) = φm ( x + tm ) = φm ( x + 2tm ) = ...; − ` < x < `
(A.II.1)
con tm siendo el menor entero positivo que verifica tal igualdad para cada una de las fm(x). A tal valor mínimo se le llama período fundamental (o simplemente período) de la función fm: para sen x, t1 = 2p; para cos 3x, t3 = 2p/3; etc. Evidentemente los tm son diferentes en general, pero un período t = 2p contiene exactamente a cada uno de los posibles tn = 2p/n un número entero n de veces. Segundo, considerando el intervalo periódico básico para x entre 0 y 2p y evaluando los productos escalares 具fk(x), fj(x)典, es fácil verificar las siguientes propiedades de ortogonalidad que satisfacen (función de peso) v(x = 1)
∫
2π
∫
2π
∫
2π
0
0
πδ ; k ≠ 0 sen kx. sen jx dx = kj 0 ; k = 0 o j = 0
(A.II.2)
πδ ; k ≠ 0 cos kx .cos jx dx = kj 2π ; k = j = 0
(A.II.3)
sen kx. cos jx dx = 0 ; para todo k, j , enteros
(A.II.4)
0
relaciones que de paso indican que los elementos de tal base no están normalizados. Las relaciones anteriores podrían haberse definido entre –p y p con idénticos resultados. En adelante, por brevedad, se hará referencia al caso que sea más conveniente.
651
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
Condiciones suficientes de Dirichlet y cálculo de coeficientes Al igual que sucedía en los polinomios ortogonales, este nuevo conjunto ortogonal puede utilizarse para representar funciones f(x) periódicas 2p, al menos siempre que éstas cumplan en el intervalo de periodicidad las denominadas condiciones suficientes de Dirichlet: a) ser continuas o tener un número finito de discontinuidades de salto finito (primera especie); b) tener además sólo un número finito de máximos y mínimos. Así, el conjunto de Fourier es de los denominados completos (=base de desarrollo) y cualquier f(x) de las recién mencionadas se puede escribir como el desarrollo en serie a f ( x) = 0 + 2
`
∑ ( a cos nx + b sen nx) = F( x); n
n
0 ≤ x ≤ 2π o 0 < x < 2π
(A.II.5)
n=1
en donde hay que notar que la serie F(x) posee un periodo t = 2p y que se hace la salvedad de incluir o no los extremos del intervalo de periodicidad dependiendo de si la función f(x) es continua o no, respectivamente, en tales puntos. Más adelante se precisará aún más esta cuestión considerando la existencia de puntos de discontinuidad adicionales e interiores dentro del periodo. Existen condiciones mucho más generales que garantizan la validez de este tipo de desarrollo en serie bajo circunstancias muy diversas, pero requieren conocimientos de Análisis Matemático (medida de conjuntos de puntos, integral de Lebesgue, etc.) que caen fuera del alcance de este texto. Por otra parte, las condiciones suficientes de Dirichlet mencionadas cubren un buen número de las aplicaciones de interés y serán las que se considerarán aquí. Para conectar con los aspectos estudiados en el Cap. 2, nótese que para (A.II.5) está garantizada la convergencia en media de la serie F(x) hacia f(x) y los coeficientes pueden determinarse en la forma general ya vista (2.3.18b). Así, por ejemplo, para el coeficiente de sen jx se multiplicaría por esta función en ambos miembros de (A.II.5) y a continuación se integraría entre 0 y 2p
652
APÉNDICE II. LA BASE ORTOGONAL DE FOURIER
∫
2π
f ( x) sen jx dx =
0
`
an
∑ ∫ n =1
2π
0
a0 2
∫
cos nx . sen jx dx + bn
2π
sen jx dx +
0
∫
2π
0
sen nx. sen jx dx
(A.II.6)
en donde por ortogonalidad se hacen nulas todas las integrales del segundo miembro, salvo aquélla que acompaña al coeficiente bj, resultando bj =
1 π
∫
2π
f ( x) sen jx dx ; j = 1, 2, 3,...
(A.II.7)
0
Análogamente, multiplicando por cos jx se encuentran a0 1 = 2 2π aj =
1 π
∫
2π
∫
2π
f ( x) dx ;
j=0
(A.II.8)
0
f ( x) cos jx dx; j = 1, 2, 3,...
(A.II.9)
0
Nótese que (A.II.8) representa el valor medio de f(x) en el intervalo. Cuando el problema se formula entre –p y p, se mantienen las mismas expresiones anteriores sin más que cambiar los límites de integración 0 Æ –p, 2p Æ p. Las integrales definidas anteriores existen para funciones f(x) continuas o continuas a trozos (con un número finito de discontinuidades), y el desarrollo en serie F(x) (A.II.5) es único. Convencionalmente siempre se expresa F(x) utilizando las funciones de la base de Fourier no normalizadas, de ahí los factores p ó 2p que aparecen como divisores en los coeficientes aj y bj. Al igual que con los desarrollos en funciones ortogonales vistos en el Cap. 2, de nuevo estos coeficientes pueden interpretarse como las coordenadas de f(x) en el espacio de Hilbert definido por la base de Fourier. Las aplicaciones de la identidad de Parseval y de la desigualdad de Bessel en este contexto son pues directas.
Cuestiones de convergencia Un punto adicional importante a retomar ahora es el comportamiento de la serie funcional F(x) en las posibles discontinuidades de salto finito que muestre f(x). Como las funciones de la base de Fourier son continuas, si exis-
653
CÁLCULO NUMÉRICO Y ESTADÍSTICA APLICADA
te alguna de estas discontinuidades, F(x) no podrá reproducirla, sino que en el punto de discontinuidad x0 la serie tomará el valor medio de f(x) al tender hacia la discontinuidad por la izquierda x0– y por la derecha x0+ F ( x0 ) =
1 f ( x0− ) + f ( x0+ ) 2
(A.II.10)
lo que puede observarse parcialmente en la Fig. AII.1 con los desarrollos truncados, a dos y cuatro términos, de la serie de Fourier para la función pulsada unidad e impar, con periodo –p < x < p, definida como +1 si − π < x < 0 f ( x) = 0< x