317 38 17MB
Spanish Pages [601]
HUBERT M. BLALOCK, JR.
ESTADISTICA SOCIAL
GB ¿0 ANIVERSARIO
FONDO DE CULTURA ECONÓMICA
MÉXICO
Prim era edición en inglés Prim era edición e n español, Segunda edición e n inglés, Segunda edición en español, d e la segunda en inglés, Q uinta reim presión,
1960 1966 1972 1978 1994
T ítulo original:
Social Statistics
© 1960, 1972, Me Graw-Hill, Inc. Nueva York
D . R . © 1966, F o n d o d e C u l t u r a E c o n ó m ic a D. R. © 1986, F o n d o d e C u l t u r a E c o n ó m ic a , S. A. d e C. V. C arretera PicachoA jusco 227; 14200 México, D. F.
ISBN 968-16-0135-1 Im preso e n México
A An n , S u s ie y K atie
E ste lib r o h a sid o e s c rito fu n d a m e n ta lm e n te p a r a aq u e llo s e s tu d ia n te s d e sociología, ta n to los y a titu la d o s c o m o lo s q u e a ú n n o lo e s tá n , q u e se p ro p o n g a n d e d ic a rs e a la in v e stig a ció n social.
D u ran te los doce años tran sc u rrid o s desde que apareció la p ri m era edición, ta n to el nivel de p rep aració n com o la com plejidad de la estad ística ap licad a h a n experim entado u n a m ejo ría consi derable, n o sólo en el cam po de la sociología, sino e n los de la ciencia política, la antropología, la geografía y el tra b a jo social. A p e sa r de ello, u n a ab ru m a d o ra m ayoría de los estudiantes, o de los q ue ejercen en estos terren o s, carecen de la necesaria b ase m atem ática que les p erm ita o b ten er p len a v en taja de la bi blio g rafía técn ica sobre estad ística, m atem ática y econom etría, cuyos m ateriales au m en ta n rápidam ente. T eniendo e n m en te tales dato s básicos h a sido escrito este texto, tra ta n d o de evitar, h asta donde es posible, la s derivaciones m atem áticas, bastan d o u n a rá p id a revisión de ciertos principios algebraicos, listados en el A péndice 1, p a ra q ue el estu d ian te m edio obtenga u n a p re p a ra ción suficiente. Aun cu an d o n o re su lte n ecesario e n u n p rim e r cu rso de estad ística p o n e r de relieve dichas derivaciones m atem á ticas, el a u to r está convencido de la necesidad de en te n d e r p e r fectam en te ciertas ideas básicas y fundam entales so b re las que se asien tan los prin cipios de la deducción estadística. Tal cosa re s u lta ind isp en sab le si h a de lograrse algo m ás que u n conoci m ien to lim itad o a "re c e ta s” estadísticas. H em os pu esto p o r ello especial in teré s en la lógica q u e fu n d a m e n ta la deducción esta dística, incluyendo asim ism o u n capítulo relativo a la p robabili dad, en ta n to se h a p re sta d o m en o r atención a m ateria s m ás o m enos ru tin a ria s estu d iad as e n textos elem entales. Uno de los p roblem as m ás difíciles e n la enseñanza de la esta dística ap licad a es el de lo g rar in c ita r a los estudiantes, de m a n e ra q u e éstos su p eren su te m o r a las m atem áticas y ap ren d an a ap lica r la estad ística e n su s p ro p io s cam pos de in terés. P or e sta ú ltim a razón el a u to r n o h a in te n ta d o c u b rir u n a gam a am p lia de aplicaciones, eligiendo p o r el co n tra rio ejem plos de in te rés fu n d am en tal p a ra los sociólogos. T am bién h a escogido o tro s ejem plos de cam pos fronterizos de la sociología, tom ados de te rren o s tales com o la psicología social, el tra b a jo social y la con d u cta política. E n la m ayoría de los casos cada nuevo tem a h a sido ilu stra d o con u n solo ejem plo, p o r su p o n er que m uchos e stu d ian tes p e rd erían el hilo básico del razonam iento si se u tili zasen m uchos de ellos p a ra ilu s tra r u n punto. Se proporcionan, sin em bargo, ejem plos adicionales b a jo la fo rm a de ejercicios q ue ap arecen al final de cada capítulo. E n general h a tra ta d o
el a u to r de lo g rar u n equilibrio razonable e n tre la conveniencia d e estab lecer los principios básicos e n fo rm a ta n clara y concisa com o re su lte posible, y la necesidad de re p e tir algunas de las ideas m ás dificultosas cada vez que exam ina u n nuevo tem a. H a sta donde es posible, las ideas nuevas h an sid o p resen tad as grad u alm en te y —lo q u e es igualm ente im p o rtan te— se h a n he cho esfuerzos p a ra que cada nuevo tem a quede relacionado con los que h an p reeedido. Al h acerlo así se tuvo p re se n te la m eta fun d am en tal, co nsistente en b rin d a r u n a apreciación de las sem e janzas básicas que fu n d am en tan m uchas de las p ru e b as (te sts) y m ediciones m ás com únm ente usadas. Casi to d as las sugerencias que h e recibido de p erso n as deseo sas de ay u d ar a m e jo ra r la p rim e ra edición se re fería n m ás a la conveniencia de au m en ta r que a la de re d u cir el libro, dando a en ten d e r q ue m uchos de los tem as trata d o s originalm ente debe ría n ser exam inados m ás técnicam ente. E n m i opinión, ta n to los sociólogos com o los estudiosos de ciencias políticas, en p artic u la r, precisan verse m ás expuestos, ta n to a una bibliografía de m ayor nivel técnico so b re diseños experim entales, com o a procedim ien tos p a ra el u so de ecuaciones sim ultáneas relacionadas con la investigación n o experim ental. R esultó claro q u e si se agregaban estos m ateriales al texto original, éste p e rd e ría su atra ctiv o com o in tro d u cció n ad ecuada p a ra los estu d ian tes que asp ira n a la m aes tría en ciencias sociales. Se resolvió, pues, que los diseños expe rim entales, el análisis de facto res y los m étodos de ecuaciones sim ultáneas, así com o o tro s tem as m ás avanzados, serían tra ta dos en u n tex to separado, a cargo de dos de m is colegas: Lewis F. C árter y K rishnan N am boodiri. Se incluye en el texto cierto n ú m ero de secciones, p árrafo s y ejercicios que, o bien son conceptualm ente difíciles o p resupo nen q ue el estu d ian te posee cierta fam iliaridad con tem as cubier to s en cursos acerca de los m étodos de investigación. E stas p a r tes del tex to h a n sido señaladas con asteriscos (* ), y pueden ser leídas sin d eten erse en ellas, o b ien elim inadas del todo. Los in stru cto re s q u e utilicen el tex to en cursos de u n sem estre p o d rá n in d icar a los estu d ian tes la conveniencia de o m itir dichos m ateriales. Se h a llevado a cabo u n a leve revaluación e n los aspectos téc nicos, em p ero sin cam b iar la e stru c tu ra b ásica del texto. Hay ciertas m odificaciones en la sección relativa a la estad ística des criptiva, sección a la que el a u to r h a añadido discusiones sobre supuestos y conceptos básicos, confiando así en a c la ra r la rela ción en tre los m odelos estadísticos y el m undo re al con el que el científico social h a de tra ta r. Además de estos cam bios, la p resen te edición contiene discusiones acerca de diversos proce dim ientos, tests y m ediciones que h an venido siendo usados cada vez m ás d u ra n te la década de 1960-1969.
El cap ítu lo ix, sobre la probabilidad, h a sido am pliado m edian te el exam en de p erm u tas, diagram as e n árbol, T eorem a d e Ba yes y cálculos relacionados con las probabilidades condicionales y la noción de valores previstos. T am bién al capítulo x, q u e in cluye u n a explicación d e la distribución binom ial, h a agregado el a u to r u n a breve discusión de dicha d istribución binom ial, la distrib u ció n h ipergeom étrica y la distribución de Poisson. E stas agregaciones facilitarán la transición a o tro s textos,^orientados específicam ente a la estad ística n o p aram étrica. E l a u to r h a au m entado asim ism o el espacio dedicado a técnicas n o p aram étricas, incluyendo el test de F riedm an p a ra análisis recíprocos de fluctuaciones con o rd e n ; gam m a y dyx, com o m edi das de asociación o rd in a l; u n te st p a ra la interacción relativa a la d iferencia de diferencias de proporciones, y la norm alización en el caso de procedim ientos con escala nom inal. El lecto r encon tr a r á adem ás u n a discusión am pliada acerca de las propiedades de las v arias m edidas ordinales y técnicas d e divisibilidad con escalas ordinales. De m an era análoga h a sido am pliado el com entario de los acer cam ientos p aram étricos p a ra incluir en él la discusión de los supuestos p a ra el m odelo lineal general, cubriendo adem ás el acercam iento de la variab le sim ulada com o perspectiva altern a en el análisis de la covariación. T am bién se h an agregado los principios esenciales básicos d e la teo ría que fu n d am en ta el uso de com binaciones lineales, aplicándola a la discusión del e rro r n o rm al de la m edia, la diferencia de m edias, la diferencia de las diferencias de p roporciones y el em pleo d e com paraciones o rto gonales en el caso de m u estras m últiples. E n u n esfuerzo p a ra a y u d a r al lecto r en la apreciación del cua d ro global, el a u to r h a incluido u n a ta b la resu m en d e tests y m ediciones, tab la que aparece en el in te rio r de la tap a, así com o am plios sum arios al final de los capítulos u , xiv y xx. Son m uchas las personas que h an colaborado e n esta revisión, p ero el a u to r desearía d a r gracias de m an era especial a R ichard G. Ames, E rica B orden y Louis G oodm an p o r sus com entarios en relación con la to talid a d del m anuscrito. P o r su ayuda en la p rep aració n de la p rim e ra edición, deseo d a r gracias de m an era destacada a los estud iantes y colegas de la U niversidad de M ichigan, quienes leyeron varios b o rrad o res del lib ro y sugirieron m ejoras. A R ichard T. LaPierre, S anford D om busch, R obert Ellis, S an to Cam illeri y T heodore A nderson m i ap recio p o r leer y c ritic a r el m an u scrito original. Deseo igual m en te agrad ecer p o r la corrección de pruebas, el m ecanografiado y la revisión de los cálculos, la ayuda p re sta d a p o r Ann Blalock, D iane Etzel, Ann Laux y Doris Slesinger. G racias igualm ente a Daniel O. Price, m erecedor de am plio reconocim iento p o r h ab e r estim u lad o m i in terés e n la estadística.
Quedo en deu d a con el p ro feso r S ir R onald A. F isher, de Cam bridge, con el d o cto r F ran k Yates, de R otham sted y con los se ñores Oliver a n d Boyd, Ltd., de Edim burgo, p o r su autorización p a ra re im p rim ir los cuadros iii, iv y v de su lib ro Cuadros esta d ísticos para investigaciones biológicas y agrícolas. T am bién es toy reconocido a los distin to s editores y autores, m encionados en los lugares adecuados, quienes am ablem ente dieron perm iso p a ra el u so de varios cuadros y form as de com putación. H ubert M. B lalock , Ja.
P rim e ra P a r te
INTRODUCCIÓN
E l cam po d e la estad ística tien e m últiples aplicaciones, com o lo d em u estra el hecho de que se den cursos de ella en m ateria s ta n dispares com o son la odontología y la sociología, la ad m in istra ción de negocios y la zoología, la salud pública y la enseñanza. A p e sa r d e ello, existen to d av ía m uchas concepciones erró n eas acerca de la n atu raleza d e esta disciplina en estad o de rá p id o desarrollo. La id ea que de la estad ística se h ace el lego, puede d ife rir m u ch o de la que tien e de ella el estad íg rafo profesional. A veces se supone q u e el estadígrafo es u n a p erso n a que m ani p u la n ú m ero s p a ra d em o strar s u p u n to d e vista. P o r o tra p a rte , en cam bio, algunos estu d ian tes de sociología o de o tra s ciencias sociales, p ro p en d en a ad m ira rle com o a alguien que, con la ayuda d e su calculadora, p u ed e co n v ertir casi cualquier estu d io en "cien tífico ”. D ebido p osiblem ente al re sp eto q u e m uchas p e rso n as sien ten p o r to d o aquello que en alguna fo rm a se relaciona con las m atem áticas, a m uchos estu d ian tes les re s u lta difícil in scrib irse en u n cu rso d e estad ística sin c ie rta aprehensión. P ese a q u e les in fu n d a te m o r la perspectiva de tra b a ja r con n ú m eros, es posible tam b ién que esp eren dem asiado d e u n a disci p lin a q u e p arece ta n form idable. Antes, pues, de e n tra r dem asia do rá p id a m en te en m ateria , con lo que correm o s el riesgo d e p e rd e r la perspectiva, em pecem os p o r p re g u n ta rn o s q u é e s exac tam en te la estad ística y q u é es aquello q u e p u ed e y aquello que n o p u ed e hacer. T al vez re su lte m ás fácil em pezar indicando aquello q u e la estad ística n o e s .»E n p rim e r lugar, la estad ística n o es en m odo alguno u n m scodo con el q u e u n o p u e d a p ro b a r casi to d o aquello que d esea p ro b a r. V erem os, a n te s bien, q u e los estadígrafos po n en especial em peño e n estab lecer las reglas del juego d e ta l m an era q u e las in terp retacio n es n o vayan m ás allá de los lím ites de los datos. Sin em bargo, n o h ay n ad a en los m étodos estad ís ticos e n sí m ism os q ue sea capaz de ev itar q u e el individuo su perficial o intelectu alm ente poco escrupuloso saq u e sus p ro p ias conclusiones, a p e sa r de los datos, y u n o de los aspectos m ás im p o rtan tes de u n cu rso d e introducción a la estad ística consiste p recisam en te en p o n e r a los estu d ian tes en gu ard ia c o n tra los posibles abusos de esta h erram ien ta. La estad ística no es sencillam ente u n a colección d e hechos. Si lo fu era, n o v ald ría m ucho la p en a estudiarla. Ni constituye ta m poco u n su stitu tiv o del p en sam iento a b stra c to teó rico o del exa m en m inucioso de los casos excepcionales. E n algunos d e los lib ro s de texto m ás antiguos solían e n c o n tra rse p ro lijas discu-
15
siones acerca de los m éritos del estu d io casuístico, fre n te al m é todo estadístico. Ahora, en cam bio, ad m ítese claram en te que los m étodos estadísticos n o se "oponen" en m odo alguno al análisis cualitativo de los casos p artic u la res, sino que am bos m étodos se com plem entan. Y n i siq u iera es exacto que la estad ística sólo sea aplicable en , p resencia de u n gran n ú m ero de casos, o que no p u ed a em p learse en los estudios de exploración. Finalm ente, la estad ística n o es tam poco u n s u s titu to de la m edida, o de la p rep aració n cuidadosa de u n a cédula de investigación o de otros in stru m en to s p a ra la recolección de datos. Se in sistirá con m a y o r detalle en este ú ltim o aspecto al final del p re se n te capítulo y en el siguiente. Y ahora, habiendo indicado lo q u e la estad ística n o es, ¿pode m os acaso a firm a r decididam ente aquello que es? In fo rtu n ad a m ente, los estadígrafos m ism os p arece n d iscre p ar algo e n tre sí en cu an to a la extensión de aquello que deba co m p ren d erse b ajo el apelativo general de "estad ístic a”. A doptando u n p u n to de vista pragm ático, podem os decir p o r n u e stra p a rte q u e la estad ística com prende dos funciones m uy vastas, y que n a d a de aquello que no cum ple dichas $ o s M ic ió ñ é s fo rm a p a rte de ella. L a p rim era es la de la descripción, el resu m en de la info rm ación de tal m odo que se p u ed a em p lear m ejo r. Y la segunda es la de la inducción, con sisten te en fo rm u la r generalizaciones a p ro p ó sito de u n a de term in ad a población sobre la base de u n a m u e stra ex traíd a de la m ism a. E sta s dos funciones se exam inarán a su tiem po. 1.1. Funciones de la estadística La estadística descriptiva. E n la investigación social, u n a persona se e n c o n tra rá a m enudo en la situación de d isponer de tan to s datos, que le re su lte difícil ab so rb e r la inform ación en tera. Puede h a b e r re u n id o 200 cuestionarios y p re g u n ta rse con todo, em ba razosam ente, "¿q ué hago con to d o ello?" Con ta m a ñ a inform ación h a b ría de re s u lta r excesivam ente difícil, excepto tal vez p a ra las m en tes ex tra o rd in aria m e n te fotográficas, ca p ta r intuitivam ente lo que los datos contienen. E n u n a fo rm a u o tra, pues, la infor m ación h a de re d u cirse h a sta un p u n to en que p u ed a verse cla ra m e n te lo que hay en e lla : h a de resum irse^ Con el em pleo de m edidas de cálculo, tales com o po rcen tajes, prom edios, desvia ciones e stán d a r y coeficientes de correlación, re su lta posible re d u cir los datos a proporciones m anuables. Al re su m ir los datos su stituyendo grandes cantidades p o r unas pocas m edidas, cierta inform ación h a de p erd érse necesariam ente y, lo q u e es m ás grave, es posible o b ten er re su ltad o s engañadores, a m enos que pe los in te rp re te con m ucha precaución. De ah í que convenga in d icar claram en te las lim itaciones de to d a m edida resum ida. La estad ística descriptiva es m u y ú til en aquellos casos e n que
el investigador necesita m an eja r relaciones m u tu as en tre m ás de dos variables. Supongam os, p o r ejem plo, que resu lte preciso em p lear ocho o diez variables com o ayuda p a ra explicar las ta sas de delincuencia, y supongam os p o r o tra p a rte que aquellas variables explicativas o independientes e stán altam ente relacio nad as e n tre sí. Si se desea aislar el efecto ocasionado p o r u n a o dos de tales variables, lim itándonos a las consecuencias de las dem ás, ¿cóm o h ab ría que proceder? ¿Qué género de supues tos re su ltarían necesarios? Situaciones de este grado de com plejid ad se p lantean en u n a ram a de la estadística conocida con el n om bre de análisis m ultivariado. E n los capítulos xv, xvi, xix y xx exam inarem os algunos problem as relativam ente sen cillos de análisis m ultivariado, reservando otros casos m ás com plejos p a ra un segundo volum en. La estadística inductivai La estad ística re su lta ría u n a m ateria m uy fácil si la atención p u d iera lim itarse a las m edidas descrip tivas. Tal vez u n a función m ucho m ás im p o rtan te de la estad ís tica, y en todo caso la que re te n d rá la m ayor p a rte de n u estra atención en este texto, es la derla inducción? consistente en infe r ir p ropiedades de u n a población sobre la base de u n a m u estra con resu ltad o s conocidos. La inducción estadística, com o se la aco stu m b ra llam ar, im plica u n razonam iento m ucho m ás com plejo que el de la estad ística descriptiva, pero, si se la com pren de y utiliza bien, se convierte en un in stru m en to m uy im p o rtan te p a ra el d esarrollo de u n a disciplina científica. La estadística in ductiva se b asa d irectam ente en la teo ría de la probabilidad, que es u n a ram a de las m atem áticas. Tenem os, pues, así, una disci plin a p u ram en te deductiva que p ro p o rcio n a u n a b ase racional p a ra el razonam iento inductivo. Que el a u to r sepa, no existe o tra b ase racional alguna p a ra la inducción. E ste p u n to general se exam inará con m ayor detalle en el capítulo vm . E xisten algunas razones de orden práctico en cuya v irtu d re su lta a veces necesario tr a ta r de generalizar sobre la base de una inform ación lim itada. La m ás obvia de ellas es la del facto r tiem po-costo. Sería absolutam ente im practicable, y no digam os ya p ro h ib itiv am en te costoso, p re g u n ta r a cada electo r cóm o se pro pone votar, con objeto de p red ecir en esta form a el resultado d e u n a votación nacional. Ni puede el investigador co rrien te p erm itirse visitar a todos y cada uno de los residentes de una g ran ciu d ad p a ra e stu d ia r sus prejuicios, la m ovilidad social o cu alq u ier o tro fenóm eno p o r el estilo. Lo p rim ero que hace, en efecto, es decidir la n atu raleza exacta del grupo que se propone generalizar ("la población” ). Puede escoger a todos los ciudada nos en edad de votar, o todos los varones blancos de dieciocho años cum plidos, que viven en los lím ites' de la ciudad de D etroit. E n tal caso suele p o r lo reg u lar ex tra er una m u estra consistente
en u n a p ro p o rció n relativam ente pequeña de las p ersonas en cuestión, p e ro in teresándose a n te to d o no en esa m u e stra p a r ticu lar, sino en la población m ás n um erosa de la q u e h a sido ex traída. Puede en co n trar, p o r ejem plo, que, en esa m u estra p a rtic u la r de 200 varones blancos, existe u n a relación negativa e n tre la educación y el prejuicio. Aun adm itiendo que en o tro co n ju n to de 200 individuos m u estread o s el re su ltad o p u d o hab er sid o to talm en te d istinto, p ro p e n d erá sin em b arg o a establecer ciertas in feren cias acerca del c a rá c te r de la relación en el caso de h ab erse estu d iad o la población e n te ra de los varones blancos ad u lto s e n D etroit. O tra razón que lleva a generalizar so b re la base de u n a infor m ación lim itad a es la de que p u ed e se r im posible u tiliza r a toda la población, p o rq u e ésta sea in fin ita o difícil de definir. Al repli c a r u n ex p erim ento en las ciencias n atu ra les o sociales, el obje tivo p arece s e r siem pre c ie rta clase de generalización d e la que se esp era que se v erificará "en circunstancias sim ilares". O bien u n esp ecialista en ciencias sociales puede h a b e r re u n id o datos de todos los casos d e que dispone. P uede h ab erse servido, p o r ejem plo, com o unidades de análisis, en u n estudio so b re la m igración in terio r, d e todos los 50 estados [d e los E stados U nidos], desean d o sin em bargo generalizar acerca d e la m igración e n condicio n es "se m ejan tes”. E n cada u n o de dichos casos, la situación re q u ie re el re cu rso a la estad ística inductiva. Llegados a este pun to , alguien p o n d rá tal vez u n a p reg u n ta p o r el estilo de é s ta : "si la estad ística es ta n im p o rtan te, ¿cóm o es que ciencias com o la física y la quím ica, p o r ejem plo, hayan p o d id o p ro g resar ta n to sin el em pleo extenso de las técnicas es tad ísticas? ¿D ifieren acaso éstas en algo?” Es obvio que sí lo hacen. Algunas d e las ciencias n atu ra les se h an desarrollado, sin duda, p o r espacio de siglos sin el em pleo de la estadística inductiva. P ero esto parece se r an te to d o cuestión d e su erte o, p a ra reco n o cer el m érito de los esfuerzos de los científicos, se d a u n co n tro l relativam ente satisfacto rio de los elem entos p er tu rb a d o re s del m edio. E n efecto, ta l com o se p o n d rá de m ani fiesto en cap ítu lo s ulteriores, en la m edida en que im p era n condi-' ciones de lab o ra to rio escrupulosam ente controladas, la necesidad p rá ctica de las técnicas estadísticas es m enor. E n este sentido, la estad ística es el sustitutivo, p a ra el indigente, d e los experi m entos com plicados de lab o ra to rio en los que se h a n tenido en cu en ta todas las variables re lev an tes1in ip o rtan tes. H ay que sub-. ray ar, con todo, que m uchos de los knismos principios estad ísti cos se aplican a los experim entos de lab o rato rio en m a teria de física, a los experim entos algo m enos precisos en m a te ria de agri c u ltu ra y a las investigaciones sociales. Así, p o r ejem plo, si un ex perim ento en física se h a replicado 37 veces con los m ism os resu ltad o s, es p erfectam en te concebible, sin em bargo, que ensa-
yos subsiguientes den resultados distintos. P or consiguiente, el científico h a de generalizar sobre la b ase de u n nú m ero lim itado de experim entos, y las inferencias que establece son en esencia estad ísticas p o r su carácter. E n fo rm a análoga, el problem a del e rro r de m edición puede concebirse tam bién en térm inos de es tadística. E n efecto, p o r m uy preciso que sea el in stru m en to de m edición, el científico nu n ca obtiene exactam ente el m ism o re sultad o con cada replicación. Puede a trib u ir dichas diferencias ya sea a e rro r de m edición o a efectos p ertu rb ad o re s de algunas variables incontroladas. La estadística se hace especialm ente ne cesaria cuan d o de u n a replicación a o tra las diferencias son ta les, que n i se las puede ig n o rar n i a trib u ir a e rro r de m edición. P or lo tan to , fundam entalm ente, la inferencia estad ística p u n tu a liza todas las generalizaciones científicas, au n q u e la necesidad de u n a p rep aració n estad ística y el em pleo de técnicas estadísticas com plicadas varíe considerablem ente de u n cam po de actividad a otro. 1.2. E l lugar d e la estadística en el proceso de la investigación La im p o rtan cia de la estad ística en el proceso de la investigación se exagera e n ocasiones debido al destacado lugar que ocupa en los planes d e estudios de graduación. La estad ística m ism a no co m prende problem as d e m edición, tales com o la elaboración de índices o la pu ntuación de las preg u n tas d e u n cuestionario. C om prende, an tes bien, u n a m anipulación de cifras, p artiendo del su p u esto que se h a n cum plido determ inados requisitos en el proceso de m edición. De hecho, las consideraciones estadísticas sólo se in tro d u cen en la fase de análisis del proceso de investi gación u n a vez que se h an re u n id o todos los datos, al principio de la m ism a, cuando se pro y ectan los planes iniciales del análi sis y cu an d o se h a de e x tra e r u n a m uestra. M ientras que la indicación que acaba de h acerse en el sentido de que la estad ística sólo e n tra en las fases técnicam ente co rrectas del análisis y del m u estreo del proceso de investigación, p o d ría con to d o in d u cir a e rro r, a m enos que fu e ra preciso. No significa ciertam en te que el científico en m a te ria social pu ed a p lan ea r y llevar a cabo su investigación e n te ra sin conocim ien to alguno de estad ística, y p o n erla luego en m anos del estadígra fo diciéndole: "H e aquí, m i lab o r está te rm in a d a : ahora, analí cela u sted .” Si así lo hiciera, los resultados p robablem ente serán poco satisfactorios, cuando n o inútiles p o r com pleto. Es obvio, e n efecto; que los problem as que h a b rá n de en c o n trarse en el análisis h an de anticiparse e n cada etap a del proceso de inves tigación, y en este sentido las consideraciones estadísticas hallan aplicación a to d o lo largo del m ism o. Un análisis estadístico, p o r m uy elab o rad o que sea, ra ra m e n te o nunca llegará a com pensar
las fallas de u n pro y ecto m al concebido o d e u n in stru m e n to de recolección de datos deficiente. E ste ú ltim o p u n to m erece u n co m en tario especial. Significa, en efecto, que la estad ística pue de ciertam en te c o n stitu ir u n au x iliar valioso de u n ac ertad o dis c u rrir juicioso, p e ro nunca, en cam bio, u n s u stitu to del m ism o. D esde el p u n to de vista del sociólogo n o es m ás q u e u n in stru m ento. Dicho lo a n terio r, agregaré q u e la estad ística re s u lta en los exám enes ex p loratorios u n a h e rra m ie n ta m ucho m ás flexible de lo que p o d ría im aginarse. B uena p a rte de la investigación social se b asa en ideas teóricas sum am ente ten tativ as, las que n o cons titu y en u n a guía p recisa en función de las interrelacxones que cabe esp erar, de las variables que h an de s e r co n tro lad as en el análisis, o incluso de las p rio rid ad e s y secuencias a que h an de s u je ta rs e las etap as del análisis. Con frecuencia se sorprenden los estu d ian tes a n te la com plejidad que ad q u iere el análisis de datos, ta n p ro n to com o se in tro d u cen en el c u a d ro h a sta una m ed ia docena de variables. E s especialm ente e n estos casos cu an d o u n conocim iento de la teo ría estad ística de diseños ex p erim en tales, o de la técnica de la estim ación m ed ian te ecua ciones sim u ltáneas p asa a se r u n in stru m en to valioso, m ediante el cual pu ed en ser clarificadas algunas relaciones de u n a gran com plejidad. Los m étodos verbales o intuitivos re su lta n absolu tam en te inadecuados. E n u n tex to general, tal com o el presente, sólo pu ed en ab o rd arse tem as de diseño experim ental y análisis m u ltiv ariad o , p e ro es im p o rta n te te n e r en cu en ta q u e hay n u m erosas m ateria s m ucho m ás avanzadas, las q u e h a n m o strad o su valía in clu so en aquellas investigaciones ex ploratorias cuyo p ro p ó sito co n siste en d eterm in a r la im p o rtan cia relativ a de n u m erosos facto res, al o b je to de re d u c ir d e m a n e ra sistem ática el m arg en de altern ativ as, crean d o hipótesis m ás p recisas p a ra su u so en investigaciones u lterio res. 1.3. A dvertencia E n p resen cia de u n n ú m ero o de u n a ecuación m atem ática, algu nos estu d ian tes ex p erim en tan u n tem o r que va desde u n a ligera ap reh en sió n h a sta la inhibición m en tal com pleta. Si el lecto r es de éstos, d eb erá tr a ta r especialm ente de deponer to d a idea p o r el estilo acerca de que “la estad ística es algo que ya sé que nunca llegaré a e n te n d e r”. E n efecto, el grado de m atem áticas reque. rid o en este texto es tal, que los cursos de álgebra de la escuela secundaria, añadidos a las pocas operaciones algebraicas elem en tales q u e se exponen en el A péndice 1, constituyen u n a p re p ara ción suficiente. H ay que re c o rd a r, con todo, q u e los textos de m atem áticas y estad ística n o se leen com o u n a novela. P o r lo reg u lar, e n efecto, la m a te ria se p re se n ta en fo rm a m uy conden-
sa d a . D e a h í, p u e s, q u e se re q u ie ra n u n a le c tu r a a te n ta y u n a d isp o sic ió n de e s p ír itu activ a, y n o sim p le m e n te p asiv a , f r e n te al m a te ria l p re s e n ta d o . É s ta es la ra z ó n d e q u e n o se p u e d a p r e s c in d ir de u n tr a b a jo c o tid ia n o y d e la re so lu c ió n d e los p ro b le m a s p rá c tic o s in c lu id o s al fin a l de c a d a ca p ítu lo . B iblio g ra fía
1. Downie, N. M. y R. W. H eath: Basic Statistical Methods, 2- ed. Harper and Row, Fublishers, Incorporated, Nueva York, 1965, caps. 1 y 2. 2. Hagood, M. J. y D. O. Price: Statistics for Sociotogisís, Henry Holt and Company, Inc., Nueva York, 1952, caps. 1 y 2. 3. Hammond, K. R., y J. E. Householder: Introduction to the Statisti cal Method, Alfred A. Knopf, Inc., Nueva York, 1962, cap. 1. 4. Hays, W. L .: Statistics, Holt, Rinehart and Winston, Inc., Nueva York, 1963, pp. 1-12. 5. Tippett, L. H. C .: Statistics, 2? ed., Oxford University Press, Nueva York, 1956. 6. Walker, H. M .: Mathematics Essential for Elementary Statistics, Henry Holt and Co., Inc., Nueva York, 1951. 7. Waliis, W. A. y H. V. Roberts: Statistics: A New Approach, The Free Press of Glencoe, 111., Chicago, 1956, caps. 1-3.
E s t e capítulo tien e p o r objeto esbozar en líneas generales las re laciones existentes e n tre las proposiciones teóricas, las hipótesis em píricas, la m edida y los m odelos m atem áticos. M uchos de los problem as trata d o s en este capítulo no suelen exam inarse en conexión con los cursos de estadística, lo que se debe en p arte a la tendencia poco afo rtu n ad a consistente en dividir la m ateria en cursos con las apelaciones de "te o ría ”, "m étodos de investiga ción” y "estad ística”. E sto ocasiona que las relaciones internas e n tre dichas m aterias resu lten a veces oscurecidas. Con objeto de situ a r a la estad ística en la debida perspectiva, conviene pres ta r atención a las relaciones e n tre las proposiciones teóricas y las hipótesis de investigación p o r u n a p arte, y e n tre estas ú lti m as y los m odelos m atem áticos p o r la otra. Se suele decir con frecuencia que el objeto de la investigación está en v erificar hipótesis desarrolladas teóricam ente y que los m étodos estadísticos capacitan p a ra efectu ar dichas pruebas. Hay que te n e r p resente, sin em bargo, que los procesos im plicados en p asa r de la teo ría a las hipótesis reales de investigación y de éstas a los enunciados de probabilidad del tip o em pleado en la inferencia estad ística no son en m odo,alguno directos. En efecto, en am bos casos hay que to m a r decisiones, las cuales pueden d ar lu g ar a u n grado considerable de controversia. Exam inem os p rim ero el ca rác te r de las decisiones que se req u ieren p a ra des arro llar, a p a r tir de proposiciones teóricas, hipótesis verificables.
*11.1. Teoría e h ip ó te sis: definiciones operativas E n el in stan te en que em pezam os a diseñar u n proyecto de inves tigación enderezado a verificar u n a proposición que puede apa recer en u n tra b a jo teórico, re su lta evidente que h ay que h acer varias cosas an tes de p o d er p ro ced er a la prueba. Tom em os a títu lo de ejem plo concreto la siguiente proposición: "Cuanto m ás elevada es la condición social de u n a persona, tan to m en o res son sus prejuicios en relación con los negros.” Supongam os que la "condición social” se haya definido com o la posición que la p erso n a ocupa en relación con o tras en la je ra rq u ía social, y los "p reju icio s" com o tendencia latente a la discrim inación de * El asterisco que precede una sección, párrafo o ejercicio indica que la materia que contiene o es de comprensión difícil o trata de conceptos con los que probablemente no están familiarizados los estudiantes que sólo disr ponen de una preparación limitada en materia de metodología de investiga ción. El estudiante principiante puede perfectamente omitir dichos pasajes o leerlos superficialmente. Por su parte, el asterisco que precede al título de una sección indica que la sección entera puede omitirse si se quiere.
22
u n a m in o ría o com o a c titu d negativa b a sa d a en juicios preform ados. Aun si sé p re fie re s u stitu ir p o r o tra s las definiciones de esos dos conceptos, se d e sc u b rirá sin d u d a alguna que, cuales q u iera que sean las definiciones escogidas, re su lta im posible s e r v irse d irectam en te de ellas p a ra decidir cuál sea exactam ente la condición de Jones, pongam os p o r caso, o el grado de sus p r e juicios. La razón de ello resid e en que la m ayoría d e las proposiciones son m ás bien teóricas q u e operativas. E n la definición teórica, en efecto, u n concepto se define en térm inos d e o tro s conceptos que se d an p o r com prendidos. E n el m odelo ideal del sistem a co m pletam ente deductivo, se to m arían ciertos conceptos sin d e fin ir (p rim a rio s), y todos los dem ás se definirían en térm inos de aquéllos. E n la g eom etría euclidiana, p o r ejem plo, los con ceptos de p u n to y recta pueden to m arse sin definir, pudiendo luego d efinirse las nociones d e ángulo, triángulo o rectángulo en fu nción de aquellos térm inos. Pese a que la elección de conceptos n o definidos es h a s ta cierto p u n to a rb itra ria , el hecho de que ten g an que ex istir siem pre algunos conceptos p rim ero s o p rim ario s re su lta de la necesidad in h ere n te de definir los con cep to s teóricos en térm in o s unos de otros. P or o tra p arte , las definiciones operativas son definiciones que enuncian efectivam ente los procedim ientos em pleados en la m e dición ([8 ], pp. 58 a 65). La definición op erativ a de "lo n g itu d ”, p o r ejem plo, in d icará exactam ente cóm o deba m ed irse el largo de u n cuerpo. El ejem plo de u n a definición o p erativ a del p re ju icio im p licará u n a p ru e b a com o la de la escala d e la distancia social de B ogardus o, ta l vez, u n a relación de conceptos a n ti negros en u n a lista de 24 puntos, ju n ta m e n te con instrucciones d etallad as p a ra recoger los datos, v alo ra r los puntos, etbétera. Como q u iera que to d a m edición im plica com o re q u isito m ínim o alguna clasificación, la definición o p erativ a p u ed e co n sid erarse com o u n co n ju n to d etallad o de instrucciones q u e p erm iten cla sificar a los individuos en fo rm a inequívoca. De este m odo, la noción del grado d e confianza o g aran tía de seguridad queda in teg ra d a en dicho concepto de la definición operativa. La defini ción h a de se r lo b a s ta n te p recisa p a ra que todas las personas q ue se sirvan del p rocedim iento lleguen a los m ism os resultados. Lo q ue las definiciones teóricas del p reju icio y de la condición, social consignadas m ás a rrib a no lo p erm itirán , p o r supuesto, di rectam en te. S ostenem os, pues, que en to d a ciencia se utilizan dos tipos dis tin to s de definiciones. D iversas m aneras altern ativ as de en fo car la relación e n tre la te o ría y la investigación conducen esencial m en te a la m ism a conclusión. N o rth ro p designa lo que hem os llam ado definiciones teóricas com o "conceptos p o r postu lació n ”, y las definiciones operativas com o “conceptos p o r intuición" [9].
P o r n u estra p a rte nos hem os servido de u n a term inología que p arece im p licar que hay dos m aneras distintas de definir un "m ism o ” concepto, en tanto que N orthrop p re fiere referirse a dos tipos distintos de conceptos. Otros, todavía prefieren pen sar en térm inos de índices, m ás que de definiciones operativas. El concepto de índice im plica p o r lo regular que el procedim iento em pleado da sólo un indicador im perfecto de alguna variable señalada que no es m edible directam ente. De acuerdo con este pu n to de vista, pues, hay dos cosas: u n a variable señalada y un in dicador de esta variable. Pero, independientem ente del punto de vista que cada cual prefiera, es indispensable com prender el carácter del nexo en tre ias dos clases de definiciones, de concep tos o de variables. Podem os p re g u n ta r si existe o 210 un m étodo p u ram en te lógico de ju n ta r las dos clases de definiciones. O tra fo rm a de p lan tea r la cuestión consistiría en p re g u n ta r si existe o no m odo lógico alguno de decidir si una definición operativa d eterm in ad a (o un índice) m ide "realm en te” el concepto o la variable teó ricam ente definidos. La resp u esta a am bas cuestio nes p arece ser negativa. N o rth ro p sostiene esencialm ente que no hay m an era alguna de asociar las dos clases de conceptos o definiciones, excepto p o r vía de convención o de com ún acuerdo. La gente en general está sim plem ente de acuerdo en que debería em plearse u n a determ i n ad a definición operativa como m edida de u n determ inado con cepto, si las operaciones parecen razonables sobre la base de la definición teórica. Puede p resu m irse que, si varias definiciones operativas son posibles, se escogerán aquellas que parecen m ás apropiadas y al m ism o tiem po m ás seguras. El ca rác te r de “apro p iado” h a de juzgarse inevitablem ente sobre la b ase de la com prensión que uno tiene de la definición teórica. Se em plea a veces el térm in o de validez aparente p a ra designar el carácter ap ropiado de u n índice o de una definición operacional ([11], p. 165). Idealm ente, según lo señala B ridgm an, las operaciones y las definiciones teóricas h ab ría n de asociarse sobre la base de u n o a uno ([2 ], pp. 2 3 ss). O en o tro s térm inos, si cam biam os la operación, deberíam os servirnos de o tro concepto. Sin em bargo, sem ejante ideal es tal vez irre al en el estad o actual de desarrollo de las ciencias sociales. Su aplicación conduciría sin du d a alguna ya sea a u n a rigidez capaz de ahogar todo nuevo progreso m etodológico o a u n a proliferación de conceptos teó ricos [1]. ¿Qué puede hacerse, pues? Podem os a d m itir la posibilidad de ten er asociado un núm ero de diversas operaciones o de índices a cada concepto teórico. Pero en tal caso podem os en contrarnos con una dificultad com ún: dichos procedim ientos pueden d ar resu ltad o s d istintos. Uno de los procedim ientos em pleados p a ra m ed ir el p reju icio puede llevar a resultados que indiquen que
n u estra "h ip ó tesis” h a sido confirm ada. E n ta n to que, en otro caso, o tro procedim iento puede conducir a la conclusión opues ta. E n cierto sentido, así es com o se opera el progreso, a condi ción de que no conduzca a u n a disp u ta interm inable acerca de cuál p rocedim iento m ide "realm en te” el p reju icio (cuya esencia se supone co m prendida). Con objeto de prev en ir confusiones im p o rta darse cuenta de que la prueba efectiva se hace en tér m inos de los conceptos tal com o se los ha definido opéracionalm ente. Por lo tanto, ¡as proposiciones que com portan conceptos definidos teóricam ente no son verificadles directam ente. Así, pues, si se dan dos definiciones operativas d istin tas del p reju icio se verificarán dos hipótesis distintas. Se h a adm itido que puede re su lta r deseable ten er asociada m ás de una operación con cualquier concepto teórico dado, y se ha señalado que sem ejantes operaciones pueden conducir a re su lta dos diversos. E stam os ah o ra en condiciones de p ro p o rcio n ar un criterio eficaz, pragm ático, p a ra una definición teórica em pírica m ente satisfacto ria del concepto. Supongam os que tenem os un concepto definido teóricam ente y varias definiciones operativas susceptibles de asociarse con dicha definición teórica. S obre la base de esta ú ltim a definición, la m ayoría de los científicos esta rá n p ro b ablem ente de acuerdo en que algunas de las operaciones d eb erían elim inarse p o r cuanto no se aplican a lo que está con tenido en la definición teórica. Pueden decidir, p o r ejem plo, que las p reg u n tas relativas a las tendencias delictivas o los gustos m usicales no deberían em plearse p a ra m ed ir el prejuicio. Pero puede h ab e r varias operaciones que ocupen m ás o m enos el m is m o lu g ar en la opinión de dichos jueces. E n o tro s térm in o s: sobre la b ase de la definición teórica, los expertos pueden no e s ta r en condiciones de ponerse de acuerdo acerca de que u n de term in ad o p rocedim iento operativo debiera escogerse con p re fe ren cia a otros. Podem os decir en tal caso que, en la m edida &n que dichos diversos procedim ientos dan resultados diferentes (en igualdad de circu n stan cias), la definición teórica es deficiente, en el sentido de que necesita p robablem ente revisión o aclara ción. P o r ejem p lo : el concepto prejuicio p u ed e acaso hab erse de finido de tal m odo que re su lte dem asiado vago. Tal vez se consi d e ra rá necesario d istin g u ir en tre varias clases o dim ensiones del prejuicio, asociando operaciones d istin tas a cada u n a de ellas. En u n a fo rm a p o r el estilo de ésta —que se la reconozca explícita m en te o no—, el proceso de investigación puede utilizarse p a ra ay u d ar a ac la rar los conceptos teóricos. Parece, pues, h ab e r en esta form a, dos lenguajes distintos, re lacionados. p o r u n a especie de diccionario al que se h a llegado p o r consenso, que perm ite asociar los conceptos de u n o de ellos con los del otro. Los científicos piensan en el lenguaje teórico y realizan sus experim entos en el lenguaje operativo. No es ne
cesario aso ciar operaciones con todos los conceptos del lenguaje teórico. Sin em bargo, im p o rta p ercatarse de q u e los conceptos que n o h an sido definidos operativam ente n o deberían p o r lo re g u la r ap a rec er en enunciados que p reten d en co n stitu ir hipóte sis com probadas. E n efecto, si esto ocurre, las cuestiones plan tead as p o r las "hipótesis" carecerán p o r lo re g u lar de sentido desde el p u n to de vista operativo y conducirán probablem ente a u n d eb ate interm inable. II.2. E l nivel de m e d ició n : escalas nom inóles, órdinales y d e intervalo A cabam os de v er que el proceso consistente e n p a sa r de los con ceptos definidos teóricam ente a los definidos o p erativam ente no es en m odo alguno directo. E n efecto, al aso c ia r u n ,tipo de con cepto con el otro , h an de tom arse ciertas decisiones. Y en fo r m a análoga, el proceso enderezado a seleccionar el m odelo m a tem ático o estadístico apro p iad o p a ra em plearlo en u n a técnica de investigación determ in ad a o en un procedim iento operativo co m p o rta asim ism o cierto núm ero de decisiones im portantes. P odría acaso pen sarse que, u n a vez que un fenóm eno h a sido m edido, la elección de u n sistem a m atem ático sería cosa de sim ple ru tin a. E sto depende de lo q u e se en tien d e p o r m edida. Si em pleam os el térm in o p a ra re fe rim o s ún icam en te a aquellos ti pos de m édición usu alm en te em pleados en u n a ciencia com o la física ( v.gr. la m edición d e la longitud, del tiem p o o la m asa), entonces la elección de u n sistem a m atem ático n o constituye p rácticam en te problem a. P ero si am pliam os el concepto de la m edición p a ra incluir en él ciertos procedim ientos m enos preci sos de em pleo co rrien te en las ciencias sociales com o se h a rá en este texto, en to n ces el p roblem a se hace m ás com plejo. Podem os, pues, d istin g u ir e n tre distin to s niveles de m edición, y habrem os de en c o n tra r diversos m odelos estadísticos ap ro p iad o s a cada u n o de ellos.1 Escalas nom inales. La operación básica y a la vez m ás sencilla en toda ciencia es la de la clasificación. Al clasificar trata m o s de sep arar elem entos desde el p u n to de vista de determ inadas ca racterísticas, decidiendo acerca de cuáles son m ás sem ejantes y cuáles m ás distintos. N u e stro p ropósito consiste en agruparlos p o r categorías que sean lo m ás hom ogéneas posible en com pa ración con las diferencias e n tre las categorías. Si la clasificación es ú til, se verá que las categorías son tam bién hom ogéneas con resp ecto a otras variables [10]. Así p o r ejem plo, agrupam os unas p ersonas de acuerdo con sus respectivas religiones (m etodistas, p resb iterian o s, católicos, etc.) y vem os si la religión g u ard a al 1 Para exámenes más detallados de estos distintos niveles de medición véanse [5], [7], [12] y [13].
guna relación con el preju icio o el conservadurism o político. Po dríam os acaso h allar que los p resb iterian o s tienden a se r m ás conservadores que los católicos, siendo las puntuaciones de aquéllos relativam ente altas en com paración con éstos. Si se hu b ie ra n seleccionado los individuos según el color del pelo, criterio de clasificación perfectam ente adecuado, probablem ente n o se h ab ría n en contrado diferencias significativas e n tre las clases en relación con o tras variables estudiadas. E n otros térm in o s: las diferencias en tre las clases de color del pelo h ab rían sido ligeras en com paración con la s diferencias den tro de cada categoría. Así, pues, la clasificación es fundam ental p a ra toda ciencia. Todos los dem ás niveles de m edición, cualquiera que sea su p re cisión, com prenden básicam ente la clasificación com o operación m ínim a. Podem os, pues, considerar la clasificación com o el nivel m ás b a jo de m edición, en el sentido m ás am plio del térm ino. Damos a las categorías nom bres arb itra rio s, a m an era de etique ta s convenientes, sin fo rm u lar supuesto alguno acerca de las relaciones en tre aquéllas. Así p o r ejem plo, colocam os a los p res b iterian o s y a los católicos en c a te g o ría s, distintas p ero n o p re suponem os que los u nos sean "m ayores que" o "m ejores" que los otros. A condición de que las categorías sean exhaustivas (que com prendan todos los casos) y no se superpongan o se excluyan m u tu am en te (q u e ningún caso figure en m ás de u n a categoría), tenem os las condiciones m ínim as necesarias p a ra la aplicación de los m étodos estadísticos. Se h a utilizado la expresión de es cala nom inal con referencia a ese nivel, el m ás sim ple de todos, de m edición. Desde el p u n to de vista form al, las escalas n o m i nales poseen las propiedades de sim etría y transitividad. P or sim etría entendem os q u e una relación q u e sea v erd ad e n tre A y B lo es tam bién e n tre B y A. En ta n to que p o r tran sitiv id ad en tendem os que si A = B y B = C, entonces A — C. R esum ido, esto significa sim plem ente que si A está en la m ism a clase que B, o en una clase distinta, B está en la m ism a clase que A, o en u n a clase distin ta, respectivam ente, y que si A y B están en u n a nism a clase y B y C tam bién en u n a m ism a clase entonces A y C han de e sta r tam bién en la m ism a clase. H ab ría que señ alar que los núm eros pueden asociarse a rb itra riam en te con cada categoría, p ero esto n o autoriza en ningún m odo el em pleo de las operaciones aritm éticas usuales con di chos núm eros. La función de los núm eros, en este caso, gs exac tam en te la m ism a que la de nom bres, esto es la de designar las categorías. E s obvio que no ten d ría sentido alguno adicionar cifras de seguridad social y núm eros de cu arto s e n u n hotel. Pese a que nunca caerem os en la tentación de efectu ar u n a operación tan ridicula com o ésta se dan casos, sin em bargo, en la inves tigación científica social, en que el ab surdo n o re su lta en m odo alguno tan obvio. Así pues, pese a que los valores num éricos
pu ed an a trib u irse a rb itra ria m e n te a diversas categorías el em pleo de ciertas operaciones m atem áticas de las m ás corrientes (sum a, resta, m ultiplicación y división) requiere, con todo, la ejecución de ciertas operaciones m etodológicas en el procedim ien to de clasificación. Tendrem os en breve ocasión de v er cuál deba se r el c a rá c te r de dichas operaciones. Escalas ordinales. R esulta a m enudo posible o rd e n a r las cate gorías según el grado en que poseen u n a carac te rístic a determ i nada, sin que p o r ello estem os en condiciones de decir cuántas poseen. Así pues, nos representam os u n sim ple continuo a cuyo largo pueden o rdenarse los individuos. Tal vez podam os colocar a los individuos de tal m odo que nu n ca estén dos en el m ism o lu g ar del continuo. Sin em bargo, p o r lo re g u lar existirá cierto n úm ero de conexiones. E n tal caso n o estam os en condiciones de distin g u ir e n tre determ inados individuos, y los hem os ag ru p a do ju n to s en u n a m ism a categoría. P ero estam os en condiciones, con todo, es d ecir que todos esos individuos tienen puantuaciones su p eriores a las de o tro s individuos determ inados. Podem os, p o r ejem plo, clasificar fam ilias conform e a su respectivo estado socioeconóm ico, en "su p e rio r”, “m edia superior", “m edia infe rio r" e “in fe rio r”. P odríam os incluso lim itarn o s a dos catego rías, la "su p e rio r" y la "in ferio r”. El tipo de m edición que estam os exam inando se sitú a m ani fiestam en te a u n nivel algo su p e rio r al que em pleam os p a ra obte n e r u n a escala nom inal, ya que con ella podem os n o sólo ag ru p ar a los individuos en categorías separadas, sino o rd e n a r adem ás estás categorías unas con resp ecto a las o tras. D esignam os este nivel de m edición cóm o “escala o rd in al”. A dem ás de poseer las p ropiedades sim étricas de la escala nom inal, la escala ordinal es asim étrica en el sentido de que algunas relaciones especiales pue den ser verd ad e n tre A y B y no serlo, en cam bio, e n tre B y A. Así p o r ejem plo, la relación “m ay o r que" ( > ) es asim étrica, p o r cu an to si A > B , no puede se r cierto que B > A. La transitividad, en cam bio, sigue subsistiendo, ya que si A > B y B > C ,\entonces A > C. Son estas propiedades, p o r supuesto, las que nos perm iten colocar A, B , C . .. a lo largo de u n m ism o continuo. Im p o rta a d v e rtir que el nivel o rd in al de m edición n o nos p ro porciona inform ación alguna acerca de la m agnitud d e las diferen cias e n tre los elem entos. E n efecto sabem os solam ente que A es m ayor que tí, p ero n o sabem os cuánto m ayor sea. Como tam poco podem os decir que la diferencia e n tre A y B sea m en o r que la que hay e n tre C y D.2 P o r consiguiente, n o podem os adicionar o re s ta r d istancias sino en u n sen tid o m uy restrin g id o . Así p o r ejem plo, si tuviéram os las siguientes relaciones 2 Se ha empleado el término métricamente ordenado para designar escalas en las que es posible ordenar la magnitud de las diferencias entre elemen tos. Véase [73.
--------- 1-------------- 1----------------- ¡------ 1---------D
C
B
A
podem os decir que la distancia AD = AB + BC + CD p ero no podem os tr a ta r de co m p arar e n tre sí las distancias AB y CD. E n o tro s térm inos, cuando tran sfo rm am o s relaciones de ord en en operaciones m atem áticas, no podem os p o r lo regular servirnos de las operaciones usuales de sum a, resta, m ultiplica ción y división. E n cam bio, sí podem os em p lear las operaciones "m ayor q u e" y “m e n o r q u e ”, siem pre que esto p re sen te alguna utilidad. Escalas de intervalo y de proporción. E n el sentido restrin g id o de la p alab ra, el térm in o m edida puede em plearse p a ra designar casos en los que n o sólo estam os en condiciones de o rd e n ar o b jeto s según el grado en que poseen u n a carac te rístic a d eter m inada, sino que podem os in d icar asim ism o la distancia exacta e n tre ellos. Si esto es posible, podem os o b ten er lo que se designa com o u n a escala de intervalo. No re su lta difícil co m p ren d er que el nivel de m edición de escala de intervalo req u iere el estableci m ien to de algún tip o de u n id ad física de m edición que pueda co n sid erarse p o r todos com o u n a n o rm a com ún y sea repetible, esto es, que pueda aplicarse in d efin id am en te con los m ism os resu ltad o s. El largo se m ide en térm in o s de pie o m etros, el tiem po en segundos, la te m p e ra tu ra en grados F ahrenheit o cen tíg rad o s, el p eso en lib ras o gram os, y el ingreso en dólares, etcé tera . P o r o tra p arte , n o existen u nidades sem ejantes de inteli gencia, au to rid a d o prestigio, en las que todos los sociólogos p u ed an p o n erse de acu erd o y de las que se pueda su p o n er que perm an ecen co n stan tes d e u n a situación a o tra. D ada u n a unidad de m edida, re su lta posible decir que la d iferencia e n tre dos m a r cas es de veinte unidades, o que u n a d iferencia es dos veces m a y o r que o tra. E sto significa que es posible adicionar o re s ta r m arc as en fo rm a análoga a com o añadim os pesas a u n a balanza o quitam os 6 pulgadas de u n a ta b la con u n a sie rra ([3 ], pp. 296 a 298). Y en fo rm a sem ejan te podem os adicionar los ingresos de m arid o y m u jer, en ta n to que carece d e sen tid o ad icio n ar sus cu o tas de inteligencia (IQ ). Si adem ás es posible situ a r en la escala u n p u n to cero absoluto o n o arb itra rio , entonces tenem os u n nivel de m edición algo m a yor, que suele designarse com o escala de razón ( ratio scale). En ta l caso estam os en condiciones de co m p arar m arcas sirviéndo nos de sus proporciones. Podem os, p o r ejem plo, decir que una m arca es dos veces m ás a lta que o tra. Si el p u n to cero fu era
arb itra rio , com o es el caso en las escalas de grados centígrados y de F ah renheit, aquello n o sería legítim o. Así, p o r ejem plo, no decim os que 70° F ahrenheit son el doble de 35° centígrados si bien podem os decir que la diferencia e n tre dichas tem p eratu ras es la m ism a que en tre 105c y 70° F ahrenheit. S in em bargo, p rác ticam ente en todos los casos que conoce el au to r, e s ta distinción e n tre escala de intervalo y escala de proporción es p u ram en te académ ica, ya que es ex trem adam ente difícil e n c o n tra r u n a es cala legítim a de intervalo que n o sea al propio tiem po u n a escala de proporción. E sto se debe al hecho de que, u n a vez establecida la m ag n itu d de la unidad, es casi siem pre posible concebir cero unidades, p ese a que nunca podam os h a lla r u n cuerpo que no posea largo o m asa, u o b ten er u n a te m p e ra tu ra de cero 'ab so lu to . Así pues, p rácticam en te en todos los casos en que se dispone de una unidad, será legítim o em plear todas las operaciones corrien tes de la aritm ética, incluidas las raíces cuadradas, las potencias y los logaritm os. * S uscítanse algunas im p o rtan tes cuestiones acerca de la legiti m idad de servirse de escalas de intervalo en el caso de cierto n ú m ero d e variables sociológicas y sociopsicológicas. In fo rtu nad am en te, no re su lta posible d iscu tir estas cuestiones e n detalle en u n texto general com o el p resen te, p ese a lo cual vam os a m encionar brevem ente alguna d e ellas. Se sostiene en ocasiones que u n a variab le como, p o r ejem plo, el ingreso n o constituye en realidad, si se calcula en dólares, u n a escala de intervalo ya que u n a diferencia de $ 1 000 posee u n significado psicológico distinto según que se dé e n tre ingresos de $ 2 000 y $ 3 000 o e n tre ingre sos de f 30 000 y $ 31 000. Al parecer, este argum ento confunde la cuestión. P o rq u e lo q u e aquí se dice efectivam ente es que el in greso calculado en dólares y el "ingreso psicológico" (a suponer que se lo p u ed a m ed ir en térm inos de alguna u n id a d ) n o se rela cionan d irectam en te o en fo rm a lineal. Y esto es u n a cuestión de hecho q u e carece d e im p o rtan cia e n relación con la cuestión de sab e r si existe o n o u n a u n id ad legítim a de m edida. * AI llevar a cabo la enum eración de actos de conducta, de p er sonas, de ocupaciones, o de grupos de diversa índole, se obten drán m uchas escalas de razón. La proporción de actos crim ina les, p o r ejem plo, se obtiene co n tan d o el nú m ero re g istrad o de tales actos y com parándolos con la b ase de población. La m a y o r p a rte d e n u estro s datos censales de ciudades, éstados o regiones, se ob tien en contando varias clases de gente y dividiendo las cifras así o b ténidas p o r la b a se de la población: p o r ciento urbano, p o rc en táje d e la fuerza de tra b a jo en situación de desem pleo, tam añ o pro m edio d e las fam ilias, p o rc en taje de n o blancos, etcétera. L a com plejidad de la división del tra b a jo puede ser m edida en función del núm ero de ocupaciones diferentes, o bien puede obten erse u n índice de la com plejidad organizativa contan
do el n ú m ero de oficinas sucursales. E n ocasiones surgen dis cusiones acerca de si tales m ediciones constituyen realm ente "es calas de razón" (v er C olem an [4 ] p ara u n excelente planteam iento de este p ro b lem a). Si se tom a el p u n to de vista estricta m e n te operativo, según el cual la m edida utilizada constituye la defini ción d e la v ariable de in terés, cabrá poca duda de que se h ab rá así o btenido u n a legítim a escala de razón, y a que h an sido con tad as u n id ad es p recisas, y tales unidades h an sido tom adas com o equivalentes (y p o r ta n to in tercam b iab les). De esta, m anera, si añadim os a u n a d eterm in ad a población 1 000 negros y le re sta m os 1 000 blancos, harem os la suposición fun d am en tal de que, en ord en a la m edida usada, n o hay diferencia, b ien sean unos u o tro s los negros o los blancos im plicados. P o r o tra p a rte el p u n to cero está bien definido. La afirm ación de que el porcen ta je de n o blancos en u n a ciudad es igual a cero n o ofrece am bigüedad. * E n cu an tas ocasiones surge u n a discrepancia acerca de la ade cuación de las m edidas enum eradas, o de sí éstas legitim an la adopción de m ediciones relativas al nivel proporcional, experi m en to u n a vehem ente sospecha de que el p ro b lem a básico tiene u n c a rá c te r to talm en te distinto, a s a b e r: el de la relación e n tre la m ed id a u tilizad a y la construcción teó rica q ue in te n ta m edirse. P o r ejem p lo : la pro p o rció n de desem pleados puede s e r utilizada com o indicación del m al funcionam iento d e la eco n o m ía; u n p o r ce n ta je m in o rito rio, com o indicador de u n a am enaza p lan tead a p o r la m inoría, o u n p o rc en taje u rb a n o com o in dicador de la influencia ejercida p o r los valores urbanos. E n tales casos n u n ca p o d rá la estad ística resolver per se u n a controversia, re su l tan d o p o r ello necesario soslayar lo s p ro b lem as básicos, supo niendo, p o r el co n trario , q u e sólo nos in te re sa la variable que in ten tam o s m edir. * P u ed e su scitarse o tra cuestión a p ro p ó sito de si es posible o n o conseguir u n a escala de intervalo en m a te ria de m edición de la actitu d . Se h an efectu ad o varios in ten to s enderezados a con seguir dicho fin. E n el m éto d o T h u rsto n e d e los intervalos de aparien cia igual, se p ide a lo s jueces que agrupen objetos en m on to n es situ ad o s-a distancias iguales a lo largo del continuo de la ac titu d ([1 1 ], pp. 359 a 365). Se d iscu rre esencialm ente diciendo que, si se d a u n alto grad o de consenso e n tre los jueces, puede em p learse legítim am ente u n a escala de intervalo. E ste procedi m iento, así se sostiene, es esencialm ente el m ism o que se em plea p a ra o b te n e r escalas de intervalo en o tra s disciplinas. E ste argu m en to p arece legítim o, a condición q u e se dé efectivam ente u n alto grad o de consenso e n tre los jueces y a condición que éstos dispongan de u n gran n ú m ero de m ontones en los que se pu ed an clasificar los objetos. Así, p o r ejem plo, si se vieran obligados a clasificar los objetos en u n o de tre s o c u a tro m ontones, po d ría
m os c o n tar con u n grado elevado de consenso, debido sim ple m en te a la to squedad del in stru m en to de m edición. H abría, en efecto, tal m argen de variabilidad d en tro de cada m ontón, que difícilm ente p o d ría sostenerse que los objetos de los diversos m ontones estaban a igual distancia unos de otros. P ero aun ad m itiendo u n a concordancia p erfec ta y la m áxim a lib ertad en el ag ru pam iento de los objetos en m ontones, aun así sigue el m étodo de T h u rsto n e p re sen tan d o dificultades p o r lo que se refiere al concepto de la u n id ad de referencia. Se hace necesario p o stu lar que es la existencia de dicha un id ad la que hace posible el acuer do e n tre los jueces. P uede afirm a rse razonablem ente que, en este p u n to del desarrollo de la m edición de la actitu d , la m ayoría de las técnicas dan unas aproxim aciones m uy m ediocres de las escalas de intervalo. P robablem ente de m uchas de ellas no de b iera siq u iera considerarse que proporcio nan escalas ordinales legítim as. Las consecuencias de ello p o r lo que se refiere al aná lisis estad ístico se irá n haciendo m ás claras a m edida que vaya m os avanzando. II.3. M edición y estadística Hem os visto que existen diversos niveles de m edición, con sus p ro piedades peculiares cada uno. Debe observarse que estos dis tin to s niveles fo rm an u n a escala cum ulativa ellos m ism os. En efecto, la escala o rdinal posee todas las p ropiedades de la escala nom inal adem ás de la ordinal. A su vez, la escala de intervalo posee todas las propiedades de las escalas nom inal y ordinal y, adem ás, u n a u n id ad de m edida, en ta n to que la escala de p ro p o r ción p re sen ta el nivel m ás elevado, ya que posee n o sólo una un id ad de m edida, sino, adem ás, u n cero absoluto. El carácter cum ulativo de estas escalas significa que, al analizar nuestros datos estam os siem pre autorizados a descender u n o o m ás gra dos en el nivel de m edición. E n efecto, si tenem os u n a escala de intervalo, tenem os al p ro p io tiem po u n a escala ordinal, y pode m os servirnos de esta circunstancia en n u estro s análisis estadís ticos. E sto re su lta rá a veces necesario, cuando no dispongam os de técnicas estadísticas o éstas sean en algún m odo deficientes en cu an to a m an ip u lar la variable com o escala de intervalo. Sin em bargo, al p ro c ed er así perdem os inform ación. Así, p o r ejem plo, si sabem os que Jones tiene u n ingreso de $ 11 000 y Sm ith un o de $ 6 000 y sólo nos servim os del hecho de que Jones cuenta con el m ayor de los dos ingresos en cuestión, entonces desperdi ciam os la inform ación relativa a que la diferencia de los ingresos es de $ 5 000. P o r lo tanto, en la m ayoría de los casos resu ltará v entajoso servirnos del nivel de m edición m ás alto que podam os legítim am ente adoptar. ¿Y qué pu ed e decirse del proceso inverso consistente en subir
la escala de m edición, pasando, p o r ejem plo, de la ordinal a la de intervalo? E stam os a veces ten tad o s de hacerlo, ya que esta ríam os en condiciones de servirnos de técnicas estadísticas m ás poten tes. Es incluso posible que lo hagam os sin darnos cuenta en ab soluto de lo que h a sucedido exactam ente. Im p o rta p erca ta rs e de que no hay n a d a en los procedim ientos estadísticos o m atem ático s de los que nos servim os en ú ltim a instancia que nos p e rm ita verificar la legitim idad de n u estro s m étodos de in vestigación. E l em pleo de un determ inado m odelo m atem ático supone que se ha alcanzado cierto nivel de m edición. La respon sabilidad en cu anto a decidir si sus procedim ientos operativos p erm iten o no el em pleo de determ inadas operaciones m atem á ticas recae exclusivam ente sobre el investigador. É ste h a de deci dirse en p rim e r lu gar p o r el nivel de m edición adecuado, y esto decidirá a su vez acerca del sistem a m atem ático apropiado. En otro s térm in o s: u n determ inado m odelo m atem ático puede aso ciarse a cierto nivel de m edición conform e a las consideraciones exam inadas en la sección precedente. Así, p o r ejem plo, las ope raciones aritm éticas corrientes sólo pueden em plearse p o r lo re g u lar con las escalas de intervalo y de razón. * Nos en fren tam os aquí u n a vez m ás con el problem a de ten er que tra d u c ir de u n lenguaje a otro. El lenguaje operativo com p o rta determ in ad as operaciones físicas, tales com o el em pleo de u n a u n id ad de m edida. El lenguaje m atem ático, a su vez, im pli ca un sistem a to talm en te ab stra cto de sím bolos y operaciones m atem áticas, y es ú til no sólo porque es preciso y está altam ente d esarrollado1, sino debido tam bién a que su carác te r ab stracto p erm ite la aplicación a u n a gran variedad de problem as em píri cos. Las m atem áticas se sirven del razonam iento deductivo p o r el que se p asa de u n co n ju n to de definiciones, supuestos y reglas de operación a un conjunto de conclusiones m ediante u n razona m iento p u ram en te lógico. En sí m ism as, las m atem áticas n ad a nos dicen acerca de la realidad, ya que todas las conclusiones están contenidas en las definiciones, los supuestos y las reglas originales, no habiéndose determ inado em píricam ente. Así, pues, si h an de ser de alguna u tilid ad p ara el científico las conclusio nes m atem áticas han de trad u c irse inversam ente a los lenguajes op erativ o y teórico [5]. Sostenem os, pues, que n o es legítim o servirse de un sistem a m atem ático que com porta las operaciones de su m ar o re sta r, si esto no está legitim ado p o r el m étodo de m edición. Aunque el sentido de este hecho sólo nos re su ltará plenam ente claro cuando em pecem os a servirnos de las diversas escalas de m edida, esta m os diciendo en realidad que no podem os re m o n ta r legítim am en te en la jera rq u ía de m edición, a m enos que el proceso m ism o de la m edición haya sido m ejorado. Lo que ninguna m anipulación m atem ática puede hacer. ¿Cómo decidim os, pues, cuál nivel de
m edición es el legítim o? In fo rtu n ad am en te , el p ro b lem a no es tan sencillo com o p o d ría suponerse. Unos pocos ejem plos b astarán p a ra d ar u n a id ea de la com plejidad del m ism o. * P ara ilu s tra r u n o de estos problem as es necesario distinguir las escalas ordinales y de in terv alo de la escala parcialm ente or denada que re su lta de la com binación de dos o m ás escalas ord i nales (o de in terv alo ) en u n solo- índice. O curre con frecuencia, en sociología y en las o tras ciencias sociales, que aquello que p o r lo p ro n to p arece ser u n a sim ple escala o rdinal (o de intervalo) es en re alid ad u n a com binación de varias escalas o rd in ale s (o de in terv alo ), con el re su ltad o de que no puede h acerse u n a clasifi cación inequívoca de individuos sin a d o p ta r p rev iam en te ciertas o tra s decisiones. Tom em os, p o r ejem plo, el caso de la condición socioeconóm ica. P or lo regular, solem os d eterm in a r la condi ción de u n a p erso n a exam inando cierto núm ero de crite rio s distin tos, tales com o su ingreso, ocupación, educación, antecedentes fam iliares o la zona de residencia. Si A se clasifica m e jo r que B según todos y cada uno- de dichos criterios, entonces A puede obviam ente clasificarse com o m ás alto que B p o r lo que se refie re a la condición general. Pero, ¿qué o cu rre si A tien e u n ingreso su p erio r al de B , y éste, en cam bio, u n no m b re de fam ilia m ás p ro m in en te? ¿Cuál de los dos ocupa e n este caso el m e jo r rango social? Tenem os aquí v aria s/a lte rn ativ as. La p rim e ra consiste en d e ja r de lado la noción de condición general y p e n sa r en térm inos de dim ensiones sep arad as de la m ism a, cada u n a de las cuales p u ed a acaso a d m itir u n nivel o rd in al de m edición. T erm inam os así n o con una, sino con varias escalas ordinales, y la cuestión em p írica está en sa b e r h a sta qué p u n to las d istin tas dim ensiones pu ed an relacionarse e n tre sí. P o r supuesto, si existe u n a relación p erfec ta e n tre to d as las dim ensiones, la cuestión se convierte en p u ram en te académ ica, y a que A, si es su p erio r a B en cada u n a de las dim ensiones, lo será tam b ién e n todas ellas. E n la p rá c tica, sin duda, e sto no o cu rre nunca. * N u e stra segunda altern ativ a consiste en tr a ta r de " fo rz a r” la aplicación de u n a escala o rdinal a los datos, ad o p tan d o algunas decisiones acerca del peso relativ o de cada dim ensión y de las equivalencias que ello im plica. Así, p o r ejem plo, si podem os ad m itir que u n año suplem entario de in stru cció n equivale a $1 338.49 de ingreso su p lem entario, podem os tra d u c ir las un id ad es educa tivas en u n id ad es de ingreso, llegando así a u n a escala unidim en sional. O bviam ente, el p roblem a de tra d u c ir los antecedentes fa m iliares o el área de residencia es m ás com plicado todavía. El m éto d o de m edición que aquí estam os exam inando co m porta un tip o de con stru cción de índice. B aste decir que sem ejan te cons tru cció n de índice com porta usu alm en te algunas decisiones arb i tra ria s a p ro p ó sito de los pesos relativos que haya que a trib u ir. Si el sistem a d e ponderación se d e ja ju stific ar, entonces puede
em plearse u n a escala o rd in al; en caso contrario, subsiste la duda acerca de si los individuos pueden o no clasificarse legítim am en te en relación con el rango. * U no de los m étodos com únm ente em pleados p a ra obtener una escala ordinal consiste en servirse de uno o m ás jueces p ara clasificar a los individuos conform e a u n criterio como, p o r ejem plo, el del po d er o del prestigio. Supongam os, p a ra sim plificar, que no hay m ás que un juez y que se le ha im puesto la tare a de clasificar a los individuos según su “posición social” en la locali dad. Suponiendo que la p ersona coopere, el m étodo em pleado nos garan tiza la obtención de u n a escala o rdinal independiente m en te de cóm o los individuos se com paren realm en te a los ojos del juez. Es posible que, si se h u b iera em pleado otro m étodo, no se h a b ría obtenido escala ordinal alguna. Si se h u b iera utili zado u n a técnica de com paraciones apareadas, en la que se p ro n u n ciaran juicios en tre cada com binación p o r pares, el juez po d ría h ab er tasado a Sm ith m ás alto que a Brown, a éste m ás alto que a Jones, p ero a este últim o m ás alto que al prim ero, S m ith; violando en esta form a la propiedad de tran sitiv id ad de las esca las ordinales. El investigador h a de proceder ah o ra a u n a elección. Puede llegar a la conclusión de que existe u n a escala parcial m ente o rd en ad a de u n a clase u otra. O puede considerar que el juez es inconsecuente o com ete “e rro r”. Como lo' señala Coombs, este pro b lem a relativo a lo que haya que designar como e rro r de m edición es un dilem a básico1con el que se en cu en tra el sociólofo ([7 ], pp. 485 a 488). E n térm inos generales, éste puede adop ta r u n alto nivel de m edición y considerar las desviaciones del tip o que se acaba de señalar com o erro res de m edición, o puede d escen d er a u n nivel m ás b ajo de ésta. * Puede ilu strarse el m ism o dilem a en el caso de la escala de G uttm an. E n el tipo perfecto de ésta, las preg u n tas tienen una p ro p ied ad cum ulativa que ju stifica la adopción de u n a escala o rd in al [14]. Las preg u n tas pueden o rdenarse de m odo que se vaya pasando de un lím ite in ferio r a u n lím ite superior, de tal m odo que el tipo exacto de re sp u esta de un individuo pueda rep ro d u cirse a p a rtir de su puntuación total. Así, p o r ejem plo, si se tienen cinco problem as aritm éticos que vayan del m ás fácil al m ás difícil, la p ersona que resuelva el m ás difícil e s ta rá tam bién lógicam ente en condiciones de resolver los m ás fáciles. Si resuelve co rrectam ente tre s de los problem as, éstos serán los tres m ás fáciles, fallando en los otros dos. E n u n a escala perfec ta de d istancia social, las preg u n tas relativas al p rejuicio pueden disponerse conform e al grado de la intim idad de contacto con la m inoría considerada. U na persona que esté dispuesta a casarse con un negro, e sta rá dispuesta, p o r supuesto, a vivir en la m ism a calle que uno de ellos; si lo acepta como vecino, no te n d rá in conveniente en sen tarse a su lado en el autobús. Así, pues, pode
m os v er e n la escala p e rfe c ta de G uttm an que la p erso n a que co n teste afirm ativ am en te c u a tro p re g u n ta s h a b rá co n testad o exac tam en te las m ism as que u n a p erso n a con tre s afirm aciones, m ás una. Si la escala sólo estu v iera p arcialm en te ord en ad a, p o d ría decirse que en ciertos aspectos A tien e m ás p reju icio s que B, y en o tro s aspectos m enos, ya que los dos individuos h a n acep tad o com binaciones d istin tas de preguntas. * Sin em bargo, en la p rá ctica ra ra m e n te alcanzam os u n a escala p erfec ta de G uttm an, si es q u e la alcanzam os alguna vez. E n efec to, h ay siem p re algunas p ersonas cuyo tip o de re sp u estas se des vía del tipo ideal. ¿S on éstas acaso inconsecuentes p o rq u e acep ta n a u n neg ro com o vecino p e ro se niegan a se n ta rse a su lado en el au to b ú s? T al vez. Pero, p o r o tra p arte , tal vez no sea así. A m enos que el in vestigador esté d ispuesto a suponer q u e dispone de u n a escala o rd inal legítim a, n o puede so sten er que el individuo consid erad o com eta e rro r. Y si el n ú m ero de e rro re s alim enta, em pezam os a so spechar de n u e stra escala. P or o tra p a rte , siem p re estam o s dispuestos a to le ra r cierto n ú m ero relativam ente p equeño de erro res. Es este p rin cip io el que se h alla a la base de la decisión relativ a a a c e p ta r la escala de G u ttm an com o escala ordinal, si el n ú m e ro de erro res, m edido p o r el coeficiente de rep ro d u ctib ilid ad , es m uy pequeño. Sin em bargo, conviene p er catarse del hecho de que la decisión es h a sta cierto p u n to arb i tra ria , y de que en ú ltim a in stan cia nos en fren tarem o s con el p ro b lem a de d ecidir a qué debam os llam ar erro r. * E sto s ejem plos deberían b a s ta r p a ra in d icar que n o siem pre es cosa fácil d ecidir cuál tip o de escala pueda em p learse legíti m am ente. Desde u n pu n to de vista ideal, h a b ría que servirse de u n a técnica de reu n ió n de datos que p e rm ita los niveles m ás bajos de m edición, si éstos son los únicos que los datos adm iten, antes que re c u rrir a técnicas que ad a p te n violentam ente la escala a los datos. Así, pues, el m étodo de las com paraciones ap aread as sólo d a rá u n a escala ordinal si el juez está efectivam ente en condi ciones de clasificar a los individuos. P or o tra p arte, si se !e in v ita a colocarlos en u n orden preciso de clasificación, h ab rá de hacerlo, así crea o n o que esto puede lograrse legítim am ente. H abiéndose servido de este últim o m étodo de reunión de datos y no estan d o en condiciones de d e m o stra r em píricam ente que los individuos pueden o rd en arse sin vio len tar los datos, h ab rá de suponer la existencia de u n solo continuo. Con o b jeto de in sistir en el hecho de que toda técnica estadís tica co n sid erad a presupone siem pre u n nivel específico de me dición, nos aco stu m b rarem o s a in d icar siem pre el nivel de m edición re q u erid o p o r cada procedim iento. Al elegir e n tre p ro cedim ientos alternativos u n a de las preg u n tas m ás im p o rtan tes a fo rm u lar es é s ta : "¿E s legítim o a c ep tar el nivel de m edición que u n a d eterm in ad a técnica re q u ie re ? ” Si no lo es, ta l vez deba
e n c o n trarse u n pro cedim iento alternativo. S i la ú n ica considera ción fuese el nivel de m edición, se sim plificaría el p roblem a de la elección e n tre pro cedim ientos alternativos. E n co n tram o s con frecuencia, sin em bargo, que ciertos procedi m ientos que n o tien en gran d es exigencias en c u a n to a la m edida, y que p o r ta l razón p arece n preferibles, re su lta n m enos satisfac torios en relación con o tra s ca racterísticas deseables. Así se ve u n o e n fre n ta d o con decisiones difíciles, en las que está im plícita la n ecesidad de so p esar la seriedad relativ a de las diversas cla ses de p resunciones violadas. E n tales casos puede re s u lta r de seable an alizar n u estro s d ato s m ed ian te la aplicación de diferen tes m étodos, observando si las conclusiones así obtenidas difieren e n tre sí en fo rm a considerable. E n este p u n to puede o c u rrir que n u e stro exam en d e estos d iferen tes niveles de m edición y de los problem as de elección e n tre p ru e b as y m ediciones alternativas, no n o s ilu stre gran cosa. Uno de los peligros de la estad ística "de re cetario " consiste e n u n a excesiva sim plificación de los criterios y los problem as im plícitos en la adopción de decisiones relativas al análisis de datos. Es im posible exagerar la im p o rtan cia que tiene, al u tiliza r cualquier técn ica estad ística, el te n e r p re sen te las presunciones im plícitas q u e el p ro ced im ien to requiere. E n el curso del p re sen te exam en, u n a de las p rim era s p reg u n tas a fo rm u larse es la relativ a al nivel de m edición que puede legítim am ente aceptarse. II.4. O rganización del libro La organización de los re sta n te s capítulos viene d eterm in ad a p o r c iertas consideraciones, la p rim e ra de las cuales consiste en p re se n ta r a n te to d o las ideas m ás sim ples, p asan d o gradualm ente a las d e m ay o r com plejidad. Como cada u n a de las secciones p resu p o n e el conocim iento de m ateriales que prev iam en te h an sido tra ta d o s, re su lta conveniente seguir e s ta organización, p a san d o p o r alto solam ente los p árrafo s o secciones precedidos de asterisco. E l capítulo xiv, p o r excepción, p u ed e se r saltad o e n su to talid ad , o bien englobado con las p ru e b a s y procedim ientos "no p aram étrico s" contenidos en los capítulos xvi y x v m . El ca p ítu lo xxi, acerca del m u estreo , puede s e r leído en relación con el cap ítu lo ix relativo a la p robabilidad, a u n cuando el capítulo so b re m u estreo contiene v arias secciones q u e sólo p o d rá n en ten derse cuan d o hayan sido leídos los capítulos xi, x m y xvi. Lo fu n d am en tal del cap ítulo x v n p o d rá se r asim ilado sin h a b e r p re v iam ente ab o rd ad o el cap ítu lo xvi sobre análisis de diferencias. Se recom ienda, en general, que se estu d ien ios distin to s tem as en el o rd en en que se p re sen tan . Los in stru m en to s estad ístico s n o son fácilm ente agrupables b a jo u n o o dos ap artad o s, y p o r ta l razón los títu lo s que o sten tan
las principales divisiones del libro son sólo parcialm ente adecua dos, lim itándose p o r el co n trario a c e n tra r la atención prim aria. La Segunda P arte se lim ita al tem a de la estad ística descriptiva, en tan to que en las p arte s T ercera y C uarta el principal, aunque no el único, foco de atención, se refiere a la inducción, a la p ru eb a de hipótesis y a la estim ación de p arám etro s de pobla ción basad a en datos de m uestreo. E n las p arte s Segunda y T ercera nos lim itarem os casi p o r en tero a los procedim ientos que tra e n im plícita u n a sola variable p o r vez, en ta n to que en la C uarta P arte pasam os a problem as m ás difíciles tales como el m an ejo sim ultáneo de dos o m ás variables. E n trelazad a en estas distinciones e n tre descripción e inducción, así como en tre las estadísticas univariables y bivariables o multivariables, se observa u n te rc e r principio organizativo, a sab er: el relativo a los niveles de m edición p a ra cada u n a de las variables. M uchos de los títulos de los capítulos señalan este nivel de m edición, p ero tal vez el m e jo r m étodo p a ra lo g rar u n a perspec tiva resu m id a del contenido consista en acu d ir al cu ad ro de p ru e bas y m ediciones que aparece en las guardas. E n su p rim era colum na ap arecen los procedim ientos a u sa r con variables sim ples. Vemos allí que en el cap ítu lo m nos ocuparem os de las m ediciones m uy sim ples (p o rcen tajes, proporciones y razones), utilizados ta n to con las dicotom ías como con las escalas genera les nom inales con m ás de dos categorías. Las p ru e b as de hipóte sis relativas a escalas nom inales sim ples serán estu d iad as en los capítulos x, xi y x n . Las m edidas (m ediana, desviación cuadril) adecuadas p a ra ser utilizadas con u n a escala ordinal, sencillas, serán exam inadas brevem ente en los capítulos v y vi, en ta n to que en el capítulo x se d iscutirá u n a m uy sencilla p ru e b a (la bino m ial), aplicable a datos ordinales. D edicarem os algo m ás de nues tra atención a las escalas de intervalos y razones, las que exa m inarem os e n los capítulos iv a v n , relativos a procedim ientos descriptivos univariados, y de nuevo en los capítulos xi y x n de la T ercera P arte, relativos a la estad ística inductiva. Com enzando con el capítulo x m volverem os n u e stra atención a las relaciones e n tre dos o m ás variables, lo que desde luego supone que habrem os de ocuparnos del nivel de m edición de la variable segunda (y adicional), ta n to com o de la prim era. Las colum nas 2 a 5 del cuadro ofrecen varias com binaciones en rela ción con el nivel de m edición de las dos variables. P or ejem plo: la casilla su p erio r de la colum na 2 se refiere a aquellas situacio nes en que se dan dos dicotom ías relacionadas e n tre sí (p o r ejem plo, sexo c o n tra preferencias p olíticas). E n la segunda casi lla de la colum na 2 se tiene en cuenta la posibilidad de que la p rim era escala nom inal tenga m ás de dos categorías (p o r ejem plo: p ro testan tes, católicos y ju d ío s). En la te rc e ra casilla una de las variables es u n a dicotom ía (p o r ejem plo, sexo) e n tan to
que la segunda es u n a escala ordinal, y así sucesivam ente. Hay u n a sola casilla sin ocupar, a s a b e r : aquella e n que u n a variable se m ide en el nivel o rd in al y la segunda en el nivel de intervalo o de razón. Aun cuando tales situaciones p u ed en p o r supuesto s e r resu eltas, carecem os de in stru m en to s realm en te satisfactorios que no re q u ie ran u n a p érd id a de inform ación al re d u cir el nivel de m edición en cu alq u iera de las dos variables. No hay nece sid ad alguna de llen ar las casillas situadas sobre las que ocupan la diagonal del cuadro, ya que las cu b ren aquellas situadas b ajo dicha diagonal. R esu lta p re m a tu ro en estos m om entos p o n er a discusión cada u n a de las posibilidades relacionadas en el cuadro. El pu n to m ás im p o rta n te a señalar es el de que el nivel de m edición afectado co nstituye u n a de las consideraciones m ás im p o rtan tes al llevar a cabo u n a elección e n tre diversos procedim ientos. La elección es relativa, aunque no en teram ente, sim ple, en tan to u n o se en cu e n tre lim itado al uso de sólo dos variables. R esulta m ucho m ás difícil en el caso del análisis m ultivariado, en el que con frecuencia pued e u n o tra b a ja r con cinco o incluso h a sta quince o veinte variables al m ism o tiem po, y donde re s a lta com o sum a m en te im p ro b ab le que todas ellas sean m edidas al m ism o nivel, y donde a m enudo es poco deseable u tiliz a r dem asiados m étodos de p ru e b a y m edición. E n los capítulos xv, xvx, xix y xx se exa m in an estos p roblem as de análisis m ultivariado. E n ciertos luga res, p a rtic u la rm e n te al final de los capítulos xiv y xx, se en co n tra rán , en fo rm a resum ida, algunas de las consideraciones relativ as a la selección e n tre procedim ientos alternativos. Como se observará, n o todas las com binaciones posibles son m an ejad as e n este texto con el m ism o grado de m inuciosidad. O curre así, no sólo p o r lim itaciones de espacio y p o r la necesidad de d eten erse en el exam en de las ideas fundam entales, sino p o r q ue la teo ría estad ística se en cu en tra m ucho m ás avanzada en ciertos aspectos. Se h a tra b a ja d o m ucho m ás, en p artic u la r, en el sec to r de la llam ada “e stad ística p a ra m é tric a ”, relativa a las escalas de in terv alo y de razón, que en el de los procedim ientos ordinales, p o r lo cual n u estro s in stru m en to s p a ra el uso de las escalas de in terv alo y de tiem p o e stán m ucho m ás desarrollados, especialm ente en el caso del análisis m ultivariado. La diferencia e n tre las escalas de in terv alo y razón no h a sido tam poco explo ta d a en la teo ría estadística, p o r lo m enos h a sta el nivel que a n o so tro s nos in teresaría. La razón b ásica e strib a en que los m o delos estad ístico s con los que generalm ente tra b a ja m o s e stán b a sados en u n a ecuación lineal general que es aditiva, en lugar de a b a rc a r razones o variables. P o r tal m otivo, y p a ra todo objetivo p ráctico , no es necesario te n e r p re sen te ta l distinción según se avanza en la lectura. S erá em p ero n ecesario a c u d ir periódica m en te al cu ad ro de las guardas.
G
losario
El lector h a rá bien en acostum brarse a explicar en sus propios té r m inos el significado de los conceptos im portantes. Los nuevos con ceptos introducidos en este capítulo son: la la * la la la
escala de intervalo, escala nom inal, definición operativa, escala ordinal y escala de razón. B iblio g rafía
1. Blalock, H. M .: "The Measurement Problem: A Gap between the Languages of Theory and Research” ; en H. M. Blalock y Ann B. Blalock (E.) Methodology in Social Research, McGraw-Hill Book Company, Nueva York, 1968, cap. 1. 2. Bridgman, P. W .: The Logic of Modern Physics, The Macmillan Co„ Nueva York, 1938, pp. 1-39. 3. Cohén, M. R. y E, Nagel: An Introduction to Logic and Scientific Metkod, Harcourt, Brace and Company, Inc., Nueva York, 1937, caps. 12 y 15. 4. Coleman, James S.: Introduction to Mathematical Sociology, The Free Press, Nueva York, 1964, cap. 2. 5. Coombs, C. H., H. Raiffa y R. M. Thrall: "Some Views on Mathe matical Models and Measurement Theory", Psychological Review, vol. 61, pp. 132-144, marzo de 1954. 6. Coombs, C. H.: A Theory of Data, John Wiley & Sons, Inc., Nue va York, 1964. 7. Coombs, C. H .: "Theory and Methods of Social Measurement”, en L. Festinger y D. Katz (ed.), Research Methods in the Behavioral Sciences, The Dryden Press, Inc., Nueva York, 1953, pp. 471-535. 8. Lundberg, G. A.: Foundations of Sociology, The Macmillan Com pany, Nueva York, 1939, caps. 1-2. 9. Northrop, F. S. C., The Logic of the Sciences and the Humanities, The Macmillan Company, Nueva York, 1947, caps. 5-7. 10. Radcliffe-Brown, A. R.: A Natural Science of Society, The Free Press of Glencoe, 111., Nueva York, 1957, pp. 2842. 11. Selltiz, C., M. Jahoda, M. Deutsch y S. W. Cook: Research Me thods in Social Relations, Henry Holt and Company, Inc., Nueva York, 1959, caps. 5 y 10. 12. Senders, V. L., Measurement and Statistics, Oxford University Press, Nueva York, 1958, cap. 2. 13. Stevens, S. S.: "Mathematics, Measurement, and Psychophysics", en S. S. Stevens (ed.), Handbook of Experimental Psychology, John Wiley & Sons, Inc., Nueva York, 1951, pp. 1-49. 14. Stouffer, S. A., et ai.: Measurement and Prediction, Princeton Uni versity Press, Princeton, N. J., 1950, caps. 1 y 3. 15. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons, Inc., Nueva York, 1968, cap. 2.
S eg u n d a P a rte
E S T A D ÍS T IC A D E S C R IP T IV A UNIVARIADA
I I I . ESCALAS N O M IN A L E S : P R O P O R C IO N E S , P O R C E N T A JE S Y R A ZO N ES E s m u c h o m ás sencillo re su m ir los datos que com portan escalas nom inales que en el caso en que se em plean escalas de intervalo. La operación aritm ética b ásica es, en el p rim e r supuesto, la de c o n tar el n ú m ero de los casos al in te rio r de cada categoría y de a n o ta r sus tam años relativos. Un grupo determ inado puede cons ta r de 36 varones y 24 m u jeres, o de 25 p ro testan te s, 20 católi cos y 15 judíos. Sin em bargo, p a ra p o d er estab lecer com para ciones con otro s grupos, hay que te n e r en cu en ta el n ú m ero de casos en cada un o de los grupos considerados. Las m edidas que se exam inan en el p re sen te capítulo p erm iten establecer com pa raciones e n tre diversos grupos, m ediante norm alización esencial m en te en relación con el tam año. Sin d u d a alguna, dos de las m edidas en cuestión, la de las proporciones y la de los p o rc en ta jes, son ya conocidas de todos. I I I .1. P roporciones Con o b jeto de p o d er servirnos de las proporciones, hem os de p re su m ir que el m éto do de clasificación h a sido ta l que las cate gorías son m u tu am en te exclusivas y exhaustivas. E n o tro s térm i n o s: cada individuo h a sido pu esto en u n a categoría y en u n a sola. Con fines de sim plificación, tom em os u n a escala nom inal q u e co n ste d e c u a tro categorías, con N u N 2, N s y N 4 casos re s pectivam ente. S upongam os que el nú m ero to ta l de los casos sea N. La pro p o rció n de casos en cualquier categoría dada e s tá defi n id a com o el nú m ero en la categoría dividido e n tre el nú m ero to tal de casos. P o r lo ta n to , la proporción de individuos de la p rim e ra categoría se halla d ad a p o r la ca n tid ad N 1/N , y las p ro porciones de las dem ás categorías son respectivam ente de N 2/N , N 3/ N y N J N . Es obvio que el valor de u n a proporción n o puede ser m ay o r que la unidad. .En efecto, com o q u iera que Nj. + N 2 + N 3 + N é = N tenem os que Nx N2 _ J_ + __L + N N
Ns N
Ni N _ L = -------- = i N N
Así, pues, si adicionam os las proporciones de los casos en todas las categorías (m u tu am en te exclusivas), el re su ltad o es la unidad.
43
Es ésta u n a p ro p ied a d im p o rta n te de las p ro porciones que se d eja ex ten d er fácilm ente a cu alq u ier n ú m ero de categorías. Ilu strem o s el em pleo de las proporciones con los datos dados en el cu ad ro I I I .1.
C uadro II I .l.
N ú m ero de delincuentes y de no delincuentes en dos localidades hipotéticas Sujetos
Localidad 1
Localidad 2
Delincuentes Prim er delito Reincidentes No delincuentes
58 43 481
68 137 1081
Total
582
1286
R esulta m ás bien difícil decir cuál de las dos localidades cuenta con m ayor n ú m ero de delincuentes, p o rq u e son diversam ente grandes. E n cam bio, si expresam os los datos en térm in o s de proporciones, podem os establecer u n a com paración directa. E n efecto, la p ro p o rció n de p rim ero s delitos es, en la com unidad 1, de 58/582, o .100; la de la localidad 2, en cam bio, es de 68/1 286 o sea .053. Las dem ás proporciones pu ed en calcularse en form a análoga, resu m ien d o los re su ltad o s en fo rm a de c u a d ro (cu ad ro III.2 ). El cu ad ro en cuestión nos p e rm ite ap re c ia r que los núm e ro s relativos de delincuentes son m u y parecidos en las dos lo calidades, p ero que la segunda de ellas contiene u n núm ero considerablem ente m ás b a jo de p rim ero s delitos y u n a p ro p o r ción m ás a lta de reincidentes.
C uadro
III.2. Proporciones de delincuentes y de no delincuentes en dos localidades hipotéticas Sujetos
Localidad 1
Localidad 2
Delincuentes Prim er delito Reincidentes No delincuentes
.100 .074 .826
.053 .107 .841
Total
1.000
1.001
La sum a de las proporciones d e la localidad 2 n o d a exacta m en te la unidad, debido a los e rro re s de redondeo. E n ocasiones es conveniente p re s e n ta r los dato s de ta l m odo que las sum as
sean ex actam en te igual a 1.000. E sto puede acaso exigir el aju ste de algunas de las proporciones de las categorías, en cuyo caso m odificam os p o r convención las cifras de las categorías que com p re n d en el m ay o r n ú m ero de casos.1 E l argum ento en favor de ese pro ced im ien to está en que u n cam bio en la ú ltim a cifra deci m al de u n a p ro p o rció n m ayor es relativ am en te m enos im por ta n te que el m ism o cam bio en u n a cifra m enor. Así, p o r ejem plo, p o d ría cam b iarse la pro p o rció n de los no delincuentes de la localid ad 2 en .840, d e m odo q u e la su m a re s u lta n te sea igual a la unid ad . El cu ad ro III.2 com prende proporciones del n ú m ero to tal de casos en cada u n a de las com unidades. Supóngase, sin em bargo, que el in terés se c e n trab a sobre to d o en los delincuentes, y que deseábam os conocer la p ro p o rció n de los reincidentes entre los delincuentes. E l n ú m ero to ta l de delincuentes e n las dos localida des es resp ectivam ente de 101 y 205. P o r lo tan to , e n tre los delin cuentes, las pro p orciones de los reincidentes son respectivam ente de 43/101, o .426 y 137/205, o .668. A p rim e ra vista estas cifras p u ed en p ro p o rcio n ar u n a im presión lig eram en te diferente de la del p rim e r co n ju n to de proporciones. H abríam os de g u ard arn o s especialm en te de concluir que el segundo espécim en es “m ás delictivo" que el p rim ero. P o r supuesto, este ú ltim o co n ju n to de p ro p o rcio n es n ad a nos dice en absoluto acerca de las cifras rela tivas de no delincuentes en los dos especím enes considerados. E s obvio q ue no existe su stitu tiv o alguno de la lectu ra a te n ta de los cuadros. C onstituye u n bu en principio aco stu m b rarse a de te rm in a r siem pre las categorías que se hallan com prendidas en el nú m ero to tal de casos que sirve de denom inador de la p ro p o r ción. El lecto r debiera siem pre p re g u n ta r: "¿de qué es esto la p ro p o rció n ?” Y la re sp u esta re su lta rá clara del conjunto. I1I.2 P orcentajes Los p o rcen tajes pueden o b ten erse de las proporciones m ultipli cando sim plem ente p o r 100. La p a la b ra p o rc en taje significa por ciento. P or lo tan to , al servirnos de los p o rc en tajes norm alizam os en relación con el volum en, calculando el n ú m ero de individuos que h ab ría en u n a categoría d eterm in ad a si el to ta l de los casos fu era 100, perm aneciendo in altera d a la p roporción en cada cate goría. Y com o q uiera que las proporciones sum adas dan la uni dad, es obvio que los p o rcen tajes sum arán 100, a m enos que las categorías no sean m u tu am en te exclusivas o exhaustivas. Al re p ro d u cir resultados, los p o rcentajes se em plean con m ucha m ayor frecuencia que las proporciones. Las cifras del cua dro XII.2 h ab ría n podido expresarse lo m ism o e n térm inos de
i Puede utilizarse exactamente el mismo procedimiento en el caso de poroentajes.
p o rcen tajes. M ejor que servirnos de los m ism os datos, tom em os o tro cuadro que puede servir p a ra iiu s tra r otros diversos aspec tos. Supongam os que tenem os tres agencias de servicios dom és ticos con u n a distribución de casos com o la que se indica en el cu ad ro III.3. Como es usual, los p o rcen tajes se h an dado h a sta el p rim er decim al y se h an operado los aju stes de los últim os dígitos, de m odo que los totales den exactam ente 100. Aquí el núm ero de ca sos de cada agencia es lo suficientem ente grande com o p a ra ju s tificar el em pleo de p orcentajes. Sin em bargo, si el núm ero de casos h u b iera sido m enor, el em pleo de aquéllos h a b ría resultado equívoco'. E n efecto, supóngase que la agencia C h ab ía trata d o sólo 25 casos en total. Si h u b iera hab id o cu a tro m ad res solteras y siete p arejas de novios, los po rcen tajes en dichas categorías h ab ría n sido respectivam ente del 16 y del 28 p o r ciento. Y com o q u iera que m uchas personas aco stu m b ran m ira r sólo los p o r cen tajes y no el núm ero efectivo de casos com prendidos, po d ría fácilm ente o btenerse la im presión de que h ab ía m uchas m ás p arejas de novios que de m ad res solteras. Como se verá cuando lleguem os a la estad ística inductiva, la diferencia e n tre cuatro y siete casos p u ed e deberse perfectam en te a factores pu ram en te casuales. El em pleo de los p o rc en tajes y las proporciones com p o rta p o r lo re g u lar u n a estabilidad m ucho m ayor de las cifras. P o r lo tan to , he aquí dos reglas generales im p o rta n te s: 1) indí quese siem pre el núm ero de casos ju n ta m en te con los porcentajes o las proporciones, y 2) n o se calcule nunca u n porcentaje, a m e nos que el n ú m ero d e casos en que está basado se halle a proxiCuadro I I I .3. D istribución de los n úm eros y porcentajes de casos tratados p o r tres agencias hipotéticas de servicios dom ésticos Clase de casos
Matrimonios Divorciados Novios Madres solteras Otros Total
Agencia A
Agencia B
Agencia C
Total
N?
%
Ni
°/0
M
%
N°-
%
63 19 27 13 11
47.3 14.3 20.3 9.8 8.3
88 37 20 32 16
45.5 19.2 10.4 16.6 8.3
41 26 15 21 9
36.6 23.2 13.4 18.8 8.0
192 82 62 66 36
43.8 187 14.2 15.1 8.2
133 100.0
193 100.0
112 1.00.0
438 100.0
m id a d de los 50 o más. Si el núm ero de casos es m uy pequeño, será preferible in d icar el núm ero efectivo de ellos en cada cate goría, sin re c u rrir a los po rcen tajes. En el caso an terio r, por ejem plo, indicaríam os sim plem ente que la agencia C había tra ta d o cu a tro m ad res solteras y siete p arejas de novios.
Véase ah o ra la colum na del to tal que indica la distribución en p o rcen tajes de las tres agencias ju n tas. E sas cifras se han ob tenido sum ando el n ú m ero de casos de cada tipo y el núm ero to tal de casos trata d o s p o r las tres agencias ju n tas. P a ra el cálculo de ios p o rcen tajes totales se utilizó, pues, com o base u n N de 438. Supóngase, sin em bargo, que el núm ero de casos no nos h u b iera sido dado en el cuerpo del cuadro, sino que se h u b iera presentado- com o en el cuadro III.4. E n tal caso po d ría d arse la tentación de o b ten er los po rcen tajes totales to m an d o directam ente la m edia aritm ética de los tres p o rc en ta je s de cad a hilera. S em ejante p rocedim iento n o ten d ría en cuenta el hecho de que las tre s agencias h ab ían tra ta d o núm eros di feren tes de casos; sólo se ju stific aría si los núm eros de éstos fu e ran efectivam ente iguales. El procedim iento correcto consis tiría en p o n d e ra r cada p o rc en taje p o r el núm ero correspondien te de casos. Uno de los m edios p a ra hacerlo consistiría en calcu la r h acia a trá s p a ra o b ten er el nú m ero efectivo de casos de cada casilla. Lo que p o d ría efectuarse m ultiplicando el núm ero to tal de casos tra ta d o s p o r la agencia p o r la proporción de u n a catego ría d eterm in ad a. P or ejem plo, (133)(.473) = 63. Cuadro III.4. D istribución en porcentajes de los casos tratados p o r tres agencias hipotéticas d e servicios dom ésticos, con los porcentajes dispuestos verticalm ente
Clase de casos
Agencia A (N = 133) %
Agencia B (N = 193) Vo
Agencia C (N = 112)
%
Matrimonios Divorciados Novios Madres solteras Otros
47.3 14.3 20.3 9.8 8.3
45.5 19.2 10.4 16.6 8.3
36.6 23.2 13.4 18.8 8.0
Total
100.0
100.0
100.0
O bsérvese que los p o rc en tajes dados en los cuadros III.3 y III.4 tien en p o r objeto- co n te sta r a ciertas p reg u n tas y n o otras. Nos p erm iten ex am inar cada agencia p o r sep arad o y v er la dis trib u ció n de los casos tra ta d o s. P erm iten adem ás la com para ción de las agencias e n tre sí e n relación con los casos trata d o s. Así, p o r ejem plo, las agencias B y C tra ta ro n relativ am en te m ás m ad res solteras y perso n as divorciadas de las que tra tó la agen cia A. Supóngase, sin em bargo, que nos in tere sa b an a n te todo los casos de cierto tip o y el n ú m ero relativo de ellos tra ta d o s p o r cada agencia. Así, p o r ejem plo, p o d ría eventualm ente interesar-
Cuadro
III.5 . D istribución en porcentajes de los casos tratados p o r tres agencias hipotéticas de servicios dom ésticos, con los porcentajes calculados horizontalm ente Clase de casos
Agencia A (N = 133)
Agencia B (N = 193)
Agencia C (N = 112)
32.8 23.2 43.5
45.8 45.1 32.3 48.5 _*
21.4 31.7 24.2 31.8 _*
%
Matrimonios (N= 192) Divorciados (N =82) Novios (N = 62) Madres solteras ( N- 6 6 ) Otros ( N~36) *
19.7
_*
%
%
Total (N = 438)
%
100.0 100.0 100.0 100.0 __ *
Los porcentajes no se calculan cuando la base es inferior a 50.
n o s sab e r el p o rc en taje de todos los m atrim onios que pasaron p o r la agencia B . E n estas condiciones re su lta ría m ás conve nien te calcu lar los p o rcen tajes a través del cuadro. E a efecto, po d ríam o s to m a r el n ú m ero to ta l de m atrim onios y v er cuáles p o rcen tajes de dicha categoría fu e ro n tra ta d o s respectivam ente p o r las agencias A, B y C. Los p o rcen tajes su m arían entonces 100 en el sen tid o horizontal del cuadro, y no en el vertical, y los resu ltad o s se resu m irían com o en el cuadro III.5. De m odo que los p o rcen tajes pueden calcularse tan to en sen tid o vertical com o en sentido horizontal. Por lo tan to , los cua dros h an de exam inarse siem pre cuidadosam ente p a ra ver exac tam en te cóm o se h an calculado aquéllos. P ara los casos en que la p ro p ia teo ría nos dicta cuál es la variable que debe ser tom a da com o cau salm ente dependiente y cuál ha de ser considerada causalm ente p rim a ria o independiente, p o d rá b astarn o s u n a sim ple regla em pírica. Si tenem os la costum bre de s itu a r la varia ble independiente en la p a rte alta del cuadro, y la variable de p endiente al lado izquierdo, los p o rcen tajes su m ará n 100 hacia abajo, y las com paraciones se h a rá n de izquierda a derecha. En el ejem plo relativo a la com paración de niveles de delincuencias en dos localidades, ca b ría n o rm alm en te su p o n er que ciertas ca racterísticas locales pueden te n e r influencia sobre la delincuen cia, m ás bien que a la inversa. Cuando com putam os los p o rcen tajes p ara que sum en 100 hacia abajo, lo que en re alid ad hacem os es norm alizar los tam años de las localidades, ya que reconocem os que los factores que se refie re n a sus tam años relativos, o los m uestreos realizados dentro de cada localidad, no dependen causalm ente de sus niveles de delincuencia. Al co m p u tar hacia ab ajo los po rcen tajes estam os controlando aquellos factores que afectan al tam añ o de los dos m uestreos. E ste p u n to qu ed ará m ás en claro u n a vez que haya m os considerado el concepto de inclinación de u n a línea recta
en la que u n a de las variables fig u ra com o dependiente de la o tra (v e r cap ítu lo xvrr). R esu ltará que los po rcen tajes com putados en la dirección su gerida p u ed en ser considerados com o casos especiales de dichos declives. II I.3. R azones La razón de u n n ú m ero A con respecto a o tro núm ero B se de fine com o A dividido e n tre B . La cantidad que precede se pone en el n u m erad o r, en tan to que la que sigue fo rm a el denom inador. S upóngase que en una elección local se hallan inscritos 365 re p u blicanos, 420 dem ócratas y 130 independientes en calidad de vo tan tes. E n este caso la razón de los republicanos a los dem ócra tas es de 365/420, y la de los republicanos y los dem ócratas a los independientes es de (365 + 420)/130. O bsérvese que, a diferen cia de la proporción, la razón puede to m a r u n valor su p erio r a la unidad. Vemos asim ism o q u e la expresión que precede o que sigue pueden constar, u n a y o tra, de cantidades d istin tas ( v.gr. republicanos y d em ócratas). G eneralm ente la razón se reduce a su expresión m ás sim ple elim inando en el n u m era d o r y el deno m in ad o r los factores com unes. Así, pues, la razón de los dem ó cratas a los independientes se escrib irá com o 42/13 o bien, en fo rm a equivalente, com o 42:13. En ocasiones es conveniente ex p re s a r la razón en térm inos de u n denom inador form ado p o r la unidad. P o r ejem plo, la razón de los dem ócratas a los indepen d ientes pu ed e escribirse com o 3.23 a 1. E s obvio que las proporciones re p resen tan u n tip o especial de razón en la que el denom inador es el nú m ero to tal de los casos y el n u m era d o r u n a cierta fracción de aquél. Sin em bargo, el térm in o de razón se em plea p o r lo re g u lar p a ra re ferirse a casos en los q ue A y B re p re se n ta n categorías separadas y distintas. P odríam os, p o r ejem plo, estab lecer la razón de los delincuentes a los n o delincuentes, o de los m atrim onios a los novios. Es evi d ente que con cu atro o cinco categorías el n ú m ero de razones posibles susceptible de calcularse es m uy grande. En consecuen cia, a m enos que el in terés se cen tre a n te to d o en uno o varios p ares de categorías, será en general m ás económ ico y m enos su je to a confusión p o r p a rte del lecto r servirse de los p o rcentajes y las proporciones. O bsérvese que, si las categorías sólo son dos, será posible calcular la proporción d irectam en te a p a r tir de la razón y viceversa. Así, p o r ejem plo, si sabem os que la razón de los varones a las m u jeres es de 3 :2, entonces en cada cinco p er sonas h a de darse u n prom edio de tres varones y dos m ujeres. La p ro p o rció n de los varones es, pues, de 3/5, o .6. Las razones pu eden ex presarse en térm inos de cualquier b ase que re su lte conveniente. L a base de la razón está indicada p o r la
m ag n itu d del d enom inador. Así, p o r ejem plo, las razones relati vas al sexo se in d ican convencionalm ente en térm in o s del núm ero de varones p o r 100 m u jeres. P o r lo tan to , u n a razó n de 94 en m ateria de sexo in d icará que el n ú m ero de los varones es ligera m en te in fe rio r al de las m u jere s, en ta n to que u n a razón de sexos de 108 significaría u n a ligera p re p o n d eran cia de los p ri m eros. Las bases que co m p o rtan núm eros grandes, tales como 1 000 o 100 000, se em plean a m enudo al calcular cuotas, o tro tipo de razón, cuando el em pleo de las proporcion es o los po rcen tajes co n d u ciría a valores decim ales pequeños. Las cuotas de n atali dad, p o r ejem plo, suelen d arse e n térm in o s del n ú m ero de naci m ien to s vivos p o r 1 000 m u jeres e n ed ad de p ro c rea r. Las cuotas de asesinatos pueden darse en térm in o s del n ú m ero de asesinos p o r 100 000 h ab itan tes. Las cuotas de crecim iento constituyen o tro tip o co rrien te de razón. Al calcu lar u n a de estas cuotas, tom am os el crecim iento efectivo d u ra n te el perio d o considerado, dividido e n tre el volum en al principio del periodo. Así, p o r ejem plo, si la población de una ciu d ad au m en ta de 50 000 a 65 000 e n tre 1940 y 1950, la cuota de crecim iento d u ra n te el decenio en cuestión s e rá de 65 000 - 50 000 ---------- — ---------- = .30 50 000 o 30 p o r ciento. E n el caso de cuotas de crecim iento, es obvio q ue los p o rc en tajes se p re s ta n bien m ás allá del 100 p o r ciento, en ta n to que serán negativos si la ciu d ad h a experim entado un descenso de población. G
losario
Porcentaje Proporción Tasa Razón E j e r c ic io s
1. Supóngase que se da el siguiente cuadro que m uestra la relación entre la asistencia a la iglesia y el año de clase en una determinada universidad: Asistencia a la iglesia
1er. Año
2ü Año
Inferior
Superior
Asistencia regular Asistencia irregular
83 31
71 44
82 61
59 78
295 214
Total
114
115
143
137
509
Año de clase Total
a) ¿Cuál es el porcentaje de asistencia regular en el conjunto? Res puesta, 57.96 %. b ) ¿Cuál es la razón de los estudiantes de primer año a los del año superior? c) E ntre los asistentes regulares, ¿cuál es la razón de los años infe riores a los superiores (de los 1? y 2? años a los años inferior y superior)? Respuesta, 1.09 a 1. d) ¿Cuál es la proporción de los asistentes irregulares entre los es tudiantes del año superior? ¿La proporción de estudiantes de año superior entre los asistentes irregulares? Respuesta .364; .569. e) ¿Hay relativamente más asistentes irregulares entre los estudian tes de 1* y 2° años que entre los de las clases inferior y superior? Exprésense los resultados en porcentajes., f) Resúmanse los datos en varias proposiciones. 2. Al estudiar la relación entre la productividad industrial y el tipo de líder de los grupos, un psicólogo social obtiene los siguientes datos, que m uestran los niveles de productividad agrupados en tres tipos distintos de dirección: Grupos de tipo de líder del grupo Total
Productividad Democrático
Liberal
Autoritario
Alta Mediana Baja
37 26 24
36 12 20
13 71 29
86 109 73
Total
87
68
113
268
a) ¿En qué dirección preferiría el lector calcular los porcentajes? ¿Por qué? b ) Calcúlense los porcentajes y resúmanse los datos en forma breve. c) ¿Cuál es la razón de los productores de nivel alto a los de nivel bajo en cada uno de los grupos? En relación con estos datos par ticulares, ¿resumen las tres razones la situación de modo ade cuado? Expliqúese. 3. Si la razón de los blancos a los no blancos es de 8/5 en una deten minada localidad, ¿cuál es la proporción de los no blancos? Supóngase que la razón de los blancos a los negros fuera de 8/5, ¿podría obte nerse la proporción de negros en la misma forma? ¿Por qué, o por qué no? 4. Si una ciudad tenía una población de 153 468 habitantes en 1940 y de 176118 en 1950, ¿cuál fue la tasa de crecimiento (expresada en porcentaje) entre 1940 y 1950? Respuesta, 14.76%. 5. Si en un determinado condado hay 12160 varones y 11913 mu jeres, ¿cuál es la razón entre los sexos (expresada en términos del número de varones por 100 mujeres)?
B iblio g ra fía
1. Anderson, T. R. y M. Zelditch: A Basic Course in Statistics, 2* ed., Holt, Rinehart and Winston, Inc., Nueva York, 1968, pp. 24 a 31. 2. Freeman, L. C.: Elementary Applied Statistics, John Wiley & Sons, Inc., Nueva York, 1965, cap. 4. 3. Hagood, M. J. y D. O. Price: Statistics for Soeiologists, Henry Holt and Company, Inc., Nueva York, 1952, cap. 7. 4. Weiss, R. S .: Statistics in Social Research, John Wiley & Sons, Inc., Nueva York, 1968, cap. 4. 5. Zeisel, H ans: Say I t w ith Figures, 5? edición, Harper and Row, Publishers, Incorporated, Nueva York, 1968, caps. 1 y 2.
IV . ESCA LAS D E IN T E R V A L O : D IS T R IB U C IO N E S D E F R E C U E N C IA Y R E P R E S E N T A C IÓ N GRÁFICA E n e l p re se n te capítulo nos ocuparem os de m étodos p a ra el re su m en de datos m uy p arecid o s a los del capítulo precedente. V am os a ag ru p a r las escalas de intervalo en categorías, a o rd e n a r éstas y a servirnos de dichos grupos p a ra d a r u n a visión con ju n ta de la d istrib u ción d e los casos. Al p ro c ed er en esta form a, p odem os re d u c ir la in form ación relativ a a u n n ú m ero m uy gran de de casos a u n a fo rm a m uy sim ple, que p e rm ita al le c to r re p re se n ta rse en q u é fo rm a están d istrib u id o s los casos. M ás a d e la n te co m probarem os que ag rupando los datos podem os asi m ism o sim p lificar considerablem ente ciertos cálculos. E n los dos cap ítu lo s siguientes nos ocuparem os de m étodos de resu m en de dato s en fo rm a m ás com pacta, de m odo que p u ed an se r descri to s p o r varios n ú m eros expresando m edidas que re p re se n ta n fo rm as típ icas y grado de hom ogeneidad. IV .l. D istribuciones de frecuencia: agrupam iento de los datos E n el cap ítu lo p reced en te nos hem os en c o n trad o con sólo pocas decisiones im p o rtan tes, si h a h ab id o alguna, en relación con el re su m e n de los datos. E sto se debe al h echo de que, presu m ib le m ente, las clases estab a n y a d eterm inadas y lo único que h abía q ue h a c e r era c o n tar el nú m ero de casos en cada clase y luego n o rm alizar en relación co n el n ú m ero de casos del espécim en co n ju n to , calculando u n a proporción, u n p o rc e n ta je o u n a razón. E n cam bio, si los datos de la escala de in terv alo h an de re su m irse del m ism o m odo, hay que a d o p tar u n a decisión inicial en relación con las categorías q u e se van a u tilizar. Ya que p o r lo re g u la r los datos e sta rá n d istrib u id o s de m odo continuo, sin o con p eq u eñ as lagunas, e n tre cifras contiguas, el esq u em a de clasifi cación p u ed e se r m uy a rb itra rio . S erá m en este r decidir cu án tas categorías se van a u tiliza r y en dónde deban establecerse los 39.2 % 28.1 22.8 44.3 36.3 18.2 27.1 33.6 39.5 21.6 46.1
11.6% 263 33.4 58.1 20.7 37.1 28.8 19.3 32.3 37.9 21.5
36.3 % 27.1 25.6 33.1 9.3 21.6 27.8 43.7 22.4 37.1 13.3
26.3 % 35.1 21.6 13.4 26.3 17.5 33.6 28.2 15.1 24.9
37.1 % 23.0 46.8 27.8 29.9 12.3 26.5 19.9 26.3 10.0 53
15.3 % 26.1 7.1 33.4 39.4 23.6 28.3 83.6 26.1 20.7
27.3 % 31.0 16.8 22.1 5.3 37.2 26,9 47.1 29.2 11.8
23.5 % 36.3 26.9 42.7 24.3 37.1 24.8 4.8 14.3 22.9
13.3 % 27.3 46.6 33.0 17.8 25.1 41.0 9.7 14.6 36.0
pu ntos de intersección. In fo rtu n ad am en te, no- existen reglas sim ples p a ra h acer esto, ya que la decisión depende de los objetivos perseguidos p o r m edio de la clasificación. Sirvám onos, p a ra ilus tr a r el carác te r del problem a, de u n ejem plo sencillo. Supóngase que los núm eros indicados al final de la página a n te rio r re p re sen tan el p o rc en taje de electores elegibles que vo tan en la elec ción de u n consejo escolar, en 93 colegios electorales de u n a de term in ad a ciudad. Los datos b ru to s p resentados en esta fo rm a n o sirven p rá cti cam ente de n ad a en cu an to a p ro p o rcio n ar al lecto r u n a idea cla ra de lo que está sucediendo. Y esto es ta n to m ás así cuanto m ayor sea el n ú m ero de los casos. Supóngase que deseáram os co m p arar dicha localidad con o tra en relación con la p articip a ción electoral. Una rá p id a o jead a echada a los datos indica que la m ayoría de los d istrito s tuvieron u n a participación de 20 a 40 % y que h u b o u no con u n a cifra extrem adam ente alta. R esulta sin em bargo realm ente difícil ob ten er u n a id ea clara de la distribución total. N ú m ero y m a gnitud de los intervalos. Con o b jeto de represen tarn o s dicha d istribución total, será ú til clasificar las cifras ve cinas en u n a m ism a categoría. Sin em bargo, nos encontram os en seguida con un problem a. ¿De cuántos intervalos habrem os de servirnos al a g ru p ar los datos? ¿Cuál ha de se r su extensión? P o r lo pro n to , no tiene o b jeto em plear intervalos de am plitud o lím ites peculiares. Así, pues, escogerem os m ás bien intervalos de am plitud 5, 10 o 20 que u n o de am plitud 4.16, pongam os p o r caso. Y tam bién nu estro s puntos term inales, o lím ites de clase com o se los suele llam ar, serán p o r lo regular núm eros redondos, tales com o 5.0 o 10.0. Si tenem os duda acerca de los intervalos de los que h ab rem os de servirnos definitivam ente es preferible clasificar las cifras sirviéndonos de u n nú m ero m ayor de in ter valos relativam ente pequeños. La razón de ello es obvia: si nos servim os de intervalos pequeños, siem pre podem os agrupar, in m ediatam ente, los casos en intervalos m ayores. E n ta n to que si em pezáram os con u n pequeño nú m ero de intervalos grandes, no podem os luego subdividirlos, com o no sea rehaciendo todos los cálculos. P o r lo tan to , nos decidirem os probablem ente a clasifi ca r los datos en intervalos de am p litu d 5 p o r ciento, com o en el cuadro IV .l. Y si exam inam os ah o ra las frecuencias en cada categoría, ve m os que la im agen que p re sen tan es relativam ente angulosa e irreg u lar. Podem os probablem ente explicarnos las variaciones en tre categorías contiguas en térm inos de fluctuaciones casuales. Si hub iera hab ido m ás casos, habríam os podido c o n tar con u n a distribución m ás suavizada. El razonam iento que se halla a la base de este ju icio intuitivo se d estacará m ás claram en te en ca pítulos u lterio res. B aste de m om ento decir que em píricam ente
Cuadro IV .1. D istribución de la frecuencia, con datos agrupados en intervalos de 5 por ciento Intervalo
Frecuencia, f
0.0-- 4.9 5.0-- 9.9 10.0--14.9 15.0--19.9 20.0--24.9 25.0--29.9 30.0--34.9 35.0--39.9 40.0--44.9
1 4 9 8 16 23 8 14 4
Intervalo
Frecuencia, f
45.0 - -49.9 50.0--54.9 55.0--59.9 60.0--64.9 65.0 - -69.9 70.0--74.9 75.0--79.9 80.0--84.9
4 0 1 0 0 0 0 1 —
93
siem p re p arece o c u rrir así. S in em bargo, dado n u estro N d e 93 d istrito s, lo m e jo r que podem os h a c e r p a ra o b ten er u n a d istri bu ció n de aspecto m ás re g u la r es servirnos de u n nú m ero m en o r de in terv alo s m ás am plios. S irviéndonos de intervalos de 10 en 10, obtenem os el cu ad ro IV.2.
C uadro
IV .2. D istribución de la frecuencia, con datos agrupados en intervalos de 10 por ciento Intervalo
0.0— 9.9 10.0— 19.9 20.0 — 29.9 30.0 — 39.9 40.0 — 49.9 50.0 — 59.9 60.0 — 69.9 70.0 — 79.9 80.0 — 89.9
Frecuencia, f 5
17 39 22 8 1
0 0 1 93
Si hu b iéram o s em pleado intervalos m ayores todavía, digam os, p o r ejem plo, de 20, el c u a d ro se p re se n ta ría com o el cuadro IV.3. Aquí em pezam os a o scu recer ya la m ayor p a rte de n u e stra in fo rm ación inicial. E n efecto, sabem os sólo que aproxim adam en te las dos terceras p a rte s de los casos se sitú an e n tre 20.0 y 39.9, p ero viendo los datos en esta form a, no podem os decir m ucho acerca de dónde se sitú e el grueso de los casos al in te rio r de ese
C uadro
IV.3. D istribución de las f recuencias con datos agrupados en intervalos de 20 por ciento Intervalo
0.0 — 19.9 20.0 — 39.9 40.0 — 59.9 60.0 — 79.9 80.0 — 99.9
Frecuencia, f 22
61 9 0 1 93
in terv alo realm ente m uy grande. E n resum en, hem os de encon tr a r u na fo rm a a m odo de servirnos de gran nú m ero de in tervalos de m odo que la visión n o re su lte dem asiado detallada o irregular, n i servirnos de ta n pocos que se p ierd a dem asiada inform ación. Y dicho sea de paso, observam os que, al resu m ir los datos de la escala de intervalo, se pierde prácticam ente siem pre algo de inform ación im portante. E n ta n to que, p o r o tra p a r te, incluir to d a la inform ación conduce a p re se n ta r ta n to detalle, que la visión re su lta m ás bien oscurecida que aclarada. Pese a que se h an indicado fórm ulas m atem áticas que pueden serv ir de guía p o r lo que se refiere al nú m ero de intervalos a utilizar, esas fórm ulas dan a m enudo la im presión de exactitud, en tan to que la m e jo r decisión se b a sa rá norm alm ente en el sen tid o com ún y en el o b jeto a que se destine la tab la de frecuencia. In d ep endientem ente del n ú m ero de casos o de la reg u larid ad de la línea, lo m ás p ru d e n te consiste en seguir la regla práctica de que el in terv alo n o debería ser m ayor que la m ag n itu d de di ferencia e n tre valores que pueden ignorarse sin perjuicio. Una diferencia de $ 5 e n tre precios de casas, p o r ejem plo, es insignifi cante, en ta n to que no es así si se tra ta de los precios de cam isas. P o r consiguiente, el intervalo d eberá com prender los casos cuyos valores pu ed an considerarse p a ra fines prácticos com o sem e jantes. Los datos indicados m ás a rrib a p resen tan o tro problem a. ¿Qué p asa con el único colegio que o sten ta u n a participación del 83.6 p o r ciento a la vista? Si nos servim os de intervalos de u n a am p litu d de 10, varias clases quedan vacías, con dicho único colegio abandonado, p o r así decir, a sí m ism o. Sin duda, esto es lo que hay que h acer, si es que los datos h an de resu m irse cuidadosa m ente. Dicho colegio es efectivam ente único. P or o tra p arte , en d eterm inadas circunstancias puede se r conveniente ab rev iar la tabla. Si los p o rcentajes fu eran bien m ás allá de 100 y si hubiera varios extrem os que se extendieran p o r sobre de 10 o m ás in ter valos, nos en frentaríam os a u n a decisión m ás difícil todavía. E n
tal caso, en efecto, se p re se n ta n varias alternativas. P rim ero, podem os serv im o s de intervalos de am p litu d es diversas, p erm i tien d o que los intervalos extrem os sean m u ch o m ás grandes que los otro s. Así, p o r ejem plo, podríam os serv im o s de u n solo in terv alo de 50.0 a 89.9, lo que com prendería las dos m arcas m ayo res. P o r supuesto, al p ro c ed er en esta fo rm a perdem os in fo rm a ción, ya que ah o ra tenem os u n a indicación m ucho m enos precisa de las cifras correspondientes a los dos casos extrem os. E n segundo lugar, podríam os servim os de u n intervalo abierto p a ra co m p ren d er los casos extrem os. La ú ltim a categoría po d ría leerse en tal caso com o "50 p o r ciento o m ás". Aquí, sin em bargo, perdem os todavía m ás inform ación que an teriorm ente, au n q u e sabem os que en este ejem plo concreto los po rcen tajes no pued en ir m ás allá de 100. P ero si los datos se re firiera n a ingre sos y que el últim o in terv alo fu e ra de "$ 20 m il o m á s”, el lector n o te n d ría en ab so luto m an era alguna de adivinar, sobre la b ase de la sola tabla, cuáles pu d iero n h a b e r sido los ingresos m ás altos. Conviene observar, con todo, que e n d eterm inadas circuns tancias pued e no re v estir im p o rtan cia alguna sa b e r cuáles sean esos ingresos m ás altos. E n ta l caso, las sim plificaciones in tro ducidas m ed ian te el em pleo de intervalos ab ierto s pu ed en com p e n sa r con v en taja los inconvenientes. Con distribuciones que p re se n ta n xm nú m ero red u cid o de casos m uy extrem os, p u ed e no darse altern ativ a satisfac to ria alguna. Si alguien desea, p o r ejem plo, in d icar los ingresos de los ciudadanos m ás ricos sin desfigu r a r su tab la, le re su lta rá m ás fácil hacerlo e n el tex to de su exposición. Como lo verem os en capítulos sucesivos, no debieran em p learse in tervalos abiertos si el objetivo p rim ero de la ag ru pación de los datos consiste en sim plificar los cálculos y n o en exponer aquéllos de m odo significativo. L ím ite s verdaderos. El lecto r h a b rá observado que, al indicar los intervalos, los lím ites de las clases se h a n establecido de tal m odo que éstas no se en tre co rten . De hecho, existe u n pequeño vacío e n tre u n a y o tra . Los lím ites suelen p o r lo regular fija rse en esta fo rm a p a ra ev itar to d a am bigüedad fre n te al lector. E n efecto, si se h u b iera fijad o com o de 10 a 20, de 20 a 30, etcétera, se h a b ría p lan tead o la cuestión de qué hacem os con u n a m arca de 20 exactam ente. E n realidad, siem pre h a b rá am bigüedad, cual q u ie ra q u e sea la fo rm a e n q u e se fijen los intervalos, com o p o dem os ap reciarlo al p re g u n ta rn o s ah o ra qué h a b rá que h ac er con un caso q ue se sitúe e n tre 19.9 y 20. O bservam os, p o r supuesto, q ue no hay tales casos, p e ro u n poco de reflexión nos convencerá de q ue esto es debido al hecho de que los datos se h an redon deado a la décim a del p o rc en taje m ás próxim o. P or lo tan to , hem os d e co n testa r a la siguiente cuestión: "¿cuáles casos corres ponden en realid ad a un intervalo determ inado, puesto que los datos se h a n red ondeado?” V em os in m ed iatam en te que los ver
daderos lím ites d e las clases n o son los m ism os que los que se h a n fijado. Si hu biéram os seguido las reglas convencionales del redondeo, u n colegio con u n a particip ació n ligeram ente superior a 19.95 se h a b ría redondeado en 20.0, situ án d o lo en el intervalo de 20.0 a 29.9. Y si el p o rc en taje h u b ie ra quedado p o r deb ajo de 19.95, p o r poco que así fuera, lo habríam os red o n d ead o en 19.9, colocando el colegio en cuestión en la categoría inm ediatam ente in ferio r. P o r lo tan to , los verdaderos lím ites efectivam ente em pleados son los sig u ien tes: d e -0 .0 5 a 9.95 de 9.95 a 19.95 de 19.95 a 29.95 etcétera. Vemos que, al servim os de los verdaderos lím ites, cada in ter valo tien e u n a am p litu d exactam ente de 10.0 (m ás bien que de 9.9) y que el lím ite su p erio r de u n intervalo coincide exactam ente con el lím ite in ferio r del siguiente.1 Si la m arc a h u b ie ra sido exacta m en te de 9.95000, h ab ríam o s seguido el p rocedim iento conven cional red o n d ean do hacia arrib a, ya que el n ú m ero dígito que preced e al ú ltim o cinco es im par.2 Podem os, pues, asig n ar a cada caso, de m odo inequívoco, su in terv alo propio. O bsérvese que si el red o n d eo se h a operado h ac ia la cifra próxim a, com o suele se r el caso, el v erd ad ero lím ite co m p o rta rá siem pre la separa ción de la diferencia e n tre los lím ites fijados de dos intervalos contiguos. Así, p o r ejem plo, si p artim o s la d iferencia e n tre 19.9 y 20.0, obtenem os 19.95. La convención consiste e n in d icar las cifras de ta l m odo que se exprese el grado de ex actitu d de la m edición, o sea que 10.45 indica u n a ex actitu d a dos lugares deci m ales, 10.450 a tre s y 10.4 a uno. Dicho grado de ex actitu d debe ind icarse siem pre, d e m odo que el le c to r p u ed a averiguar los lím ites v erdaderos si desea servirse d e ellos en sus cálculos. Así, p o r ejem plo, si se indica que los lím ites son respectivam ente 10.00 a 19.99, sabem os que la m edición es exacta h a s ta dos decim ales, que el red o n d eo se h a operado a la próxim a centésim a d e -----
100
del 1 p o r ciento, y que, en consecuencia, los v erdaderos lím ites van de 9.995 a 19.995. Si los lím ites se h u b iera n indicado com o
1 Si el límite más bajo es cero y que los valores no pueden ser negativos (como en el caso de los porcentajes), consideramos de todos modos que to dos los intervalos son de la misma amplitud, imaginando que el límite in ferior del primer intervalo es en realidad —.05 y que las marcas se han re dondeado en 0.00. 2 Obsérvese que en el caso de los intervalos de los que nos hemos servido habría una desviación muy ligera, ya que los casos que quedan exactamente entre intervalos se situarán siempre en la categoría superior. En la mayoría de los casos prácticos dicha desviación puede ignorarse.
10 a 19, entonces los verdaderos lím ites h ab ría n sido, p o r su puesto, 9.5 a 19.5. E n unos pocos casos, como, p o r ejem plo, el de la edad en re la ción con el ú ltim o aniversario, los datos pueden n o hab erse red o n d ead o en la fo rm a convencional. S in em bargo, si nos pregun tam os a cuál intervalo corresponda u n caso determ inado, la re s p u esta h a b ría de ser siem pre clara. Como q u iera que, en efecto, u n a p erso n a que vaya a cu m p lir 20 años m añ an a cuenta hoy 19, es obvio que el intervalo fijad o com o de 15 a 19 tiene com o ver daderos lím ites los valores 15 y 20. Pese a que p u ed a p arece r que andam os con sutilezas al distinguir e n tre los lím ites indicados y los lím ites verdaderos, verem os, sin em bargo, en los capítulos sucesivos q ue estos últim os h a n de utilizarse en los cálculos, au n que p o r lo reg u lar n o se indiquen explícitam ente al p re sen tarse los dato s en form a de d istribución de frecuencia. D atos discretos y continuos. Los datos de los que nos hem os servido son continuos, en el sentido de que cualquier valor h u b iera p odido obtenerse teóricam ente p a ra u n porcentaje, a con dición que la ex actitud de m edición fu e ra lo suficientem ente p re cisa y q ue los intervalos fu e ran m uy grandes. Así, p o r ejem plo, el v alo r de 17.4531 p o r ciento es ta n posible com o el de 17.0000 p o r ciento. Algunos otros tipos de datos son discretos, ya que no todos los valores son posibles. E n efecto, u n a m u je r puede ten er ex actam ente 0, 1, 2 o inclusive 17 niños, p ero no puede te n e r 2.31 niños. El ingreso y el volum en de u n a ciudad son variables teó ricam en te discretas, y a que n o es posible te n e r u n ingreso de $ 3 219.5618, o que u n a ciudad tenga u n a población de 43 635.7 h a b itan tes. Debido a las lim itaciones de to d o in stru m en to de m e dición y a la necesidad subsiguiente de h ab e r de red o n d ear en u n p u n to u o tro, los datos em píricos vienen siem pre en fo rm a dis c re ta ; p ero en m uchos casos podem os p o r lo m enos concebir u n a distrib u ció n continua susceptible de alcanzarse con un in stru m en to de m edición perfecto. Como lo verem os en el capítulo relativ o a la curva n orm al, los m atem áticos h an de d esa rro llar a m en u d o distribuciones teóricas que ad o p tan u n a variable con tinua. E n algunos casos, com o los del ingreso o n ú m ero de h ab itan tes de u n a ciudad, n o re su lta dem asiado difícil concebir los datos com o continuos, aunque se tra te en realidad de unidades m uy pe queñas (centavos, p erso n as) que no se d ejan subdividir. Pero, ¿qué o cu rre con el n ú m ero de niños en u n a fam ilia? Aquí p a re ceríam os v io len tar excesivam ente los hechos si adm itiéram os continuidad. Al p re s e n ta r los datos en u n a distribución de fre cuencia no se nos o cu rrirá, p o r supuesto, servim os de intervalos que vayan de 0.5 a 2.4 o de 2.5 a 4.4 niños. E m plearem os senci llam en te intervalos com o de 0 a 2, de 3 a 4, etcétera, y no h ab rá am bigüedad alguna p o r lo que se refiere a los huecos e n tre aqué-
líos. E n algunos cálculos, sin em bargo, se rá necesario, p o r razo nes p ragm áticas, tr a ta r los casos com o continuos y d isp o n er m a r cas discretas en in tervalos pequeños. E n efecto, p o r ra ro que se n o s p u ed a a n to ja r, podem os n ec esitar c o n sid erar a las m adres con u n h ijo com o e n u n in terv alo d e 0.5 a 1.5 niños. P a ra la m a y o ría de los o b jeto s obtendrem os lo s m ism os re su ltad o s que o b ten d ríam o s m an teniendo los datos en fo rm a discreta. Con el fin de ad a p ta rse a los m odelos establecidos p o r los m atem áticos, en este y otro s casos será necesario h a lla r u n com prom iso con la realidad. A condición de que nos dem os p erfec ta cu en ta de lo que estam os haciendo, n o re s u lta rá de ello confusión alguna o sólo m uy poca. IV.2. D istribuciones de frecuencia cum ulativa P a ra algunos o b jeto s es conveniente p re se n ta r los d ato s e n u n a fo rm a algo d istin ta. E n lugar de in d icar el n ú m ero d e casos en cad a intervalo, podem os in d icar el n ú m ero de m arc as que son m enores (o m ay o res) que xm v alor determ inado. E n el caso de los intervalos de los que nos hem os estad o sirviendo, n o hay, p o r supuesto, colegios electorales con u n a p articip ació n de votantes in ferio r a cero, hay cinco con m enos del 9.95 p o r ciento, 22 con m enos del 19.95 p o r ciento, y los 93 ju n to s tienen u n a p artic ip a ción in ferio r al 89.95 p o r ciento. Así, pues, podem os p re se n ta r los datos en fo rm a acum ulada, ta l com o se indica en el cuadro IV.4. O bsérvese que podem os acu m u lar lo m ism o h acia a rrib a que h a d a a b a jo p re g u n ta n d o cuántos casos están p o r encim a de u n valor d eterm inado. Las frecuencias cximulativas su elen indi carse p o r lo re g u la r con u n a F m ayúscula, en lu g ar de la miCuadro IV.4. D istribución de frecuencia cum ulativa Acumulación hacia arriba Número de casos por debajo de
0.0 9.95 19.95 29.95 39.95 49.95 59.95 69.95 79.95 89.95
Frecuencia acumulada, Por ciento F
0 5 22 61 83 91 92 92 92 93
0.0 5.4 23.7 65.6 89.2 97.8 98.9 98.9 98.9 100.0
Acumulación h ada abajo Número de Frecuencia casos por acumulada, Por ciento encima de F
0.0 9.95 19.95 29.95 39.95 49.95 59.95 69.95 79.95 89.95
93 88 71 32 10 2 1 1 1 0
100.0 94.6 76.3 34.4 10.8 2.2 1.1 1.1 1.1 0.0
núscula. Si querem os, podem os convertir las frecuencias efecti vas en p o rcen tajes. T endrem os ocasión de servim os d e las distrib u cio n es cum ulativas en el capítulo v al calcular las m edia nas, así com o m ás ad elan te en el capítulo xiv. IV.3. P resentación gráfica: histogram as, polígonos de frecuencia y ojivas H ay p erso n as que sienten re p aro en in te rp re ta r los cuadros y que ca p ta n m e jo r los m ateriales presen tad o s en fo rm a gráfica % -43.0 -32.3 -21.5 -10.8
0
10 20 30 40
50 60 70 80 90 100
F ig . IV .l. H istogram a de intervalos iguales.
o visual. U no de los m odos m ás sencillos y útiles de p re se n ta r los dato s de tal m an era que las diferencias e n tre las frecuencias se d estaq u en fácilm ente consiste en servirse de figuras de áreas o a ltu ra s p roporcionales a las frecuencias en cada categoría. Puede, p o r ejem plo, u tilizarse u n a b a r ra p a ra re p re se n ta r cada categoría, ind icando la a ltu ra de la m ism a s u m ag n itu d relativa. Si la escala es nom inal, la ordenación efectiva de las b a rra s no rev iste im p o rtan cia. P o r lo que se refiere a las escalas ordinales y de in terv alo , las b a rra s pueden disponerse en s u p ro p io orden, con lo q ue d an u n a b u en a indicación visual de la distribución de la frecuencia. La fig u ra re su lta n te se llam a histogram a. La frecu en cia ab so lu ta o la p roporción de los casos pueden indi ca rse a lo larg o de la ordenada, com o en la fig u ra IV .l. H ay que o b serv ar que si las alturas de las b a rra s se tom an com o p roporcionales a las frecuencias en cada intervalo de clase, el c u a d ro visual puede re s u lta r confuso, a m enos q u e todos los in terv alo s sean cerrados y d e am p litu d igual. Supóngase, p o r ejem plo, q u e u n o de los intervalos cen trales h u b iera sido de an cho 20 e n lu g ar de 10. E n co n traríam o s en consecuencia un
m ay o r n ú m ero de casos en el intervalo, y el re su lta d o sería com o e n la fig u ra IV.2. Es obvio que si deseam os o b ten er un h isto g ram a que re p resen te los datos en form a m ás adecuada, debiéram os d a r a la b a rra la m ita d solam ente del alto, ya que het % 40 -43.0
30 -32.3 20 -21.5 10 -10.8 — ..... , t____i— 0 --- --- --------1 —■■ 0 10 20 30 40 50 60 70 80
-- ■ .
90 100
Fig. IV.2. H istogram a de intervalos desiguales y alturas proporcionales a las frecuencias. m os doblado el ancho y, en prom edio, hem os incluido u n doble n ú m ero de casos en el intervalo m ay o r d e lo q u e sería el caso en uno u o tro de los dos intervalos de tam añ o norm al. E sto nos d aría u n h isto g ram a (véase figura IV.3) m ucho m ás sem ejante al % -43.0 -323 -21.5 -10.8
0
10
20
.... i 30 40
________ _
50
60
,
70
_________1
80
j 90 100
Fig. IV.3. H istogram a d e intervalos desiguales y áreas proporcionales a las frecuencias. o btenido inicialm ente. Una breve reflexión nos convencerá de que si hem os de p e n sa r en térm inos de áreas m ás que en altu ras, podrem os m an ip u lar m ás fácilm ente los datos que com por tan intervalos desiguales. E n o tro s térm in o s: dejam os que las
áreas de los rectángulos sean proporcionales al n ú m ero de los casos. E n el caso especial im p o rtan te en que todos los in terv a los sean de ancho igual, las altu ra s serán tam bién, p o r supuesto, prop o rcio n ales a las frecuencias. Si el ancho de cada rectángulo se to m a com o u n id ad y si las altu ra s se re p resen ta n com o p ro f % dnLdxn
1 0
i10
i___ i________ u-« i
20 30
40
50 60
70
80
90 100
F ig . I V .4. Polígono de frecuencia.
porciones, entonces el á re a to ta l com prendida en el histo g ram a será la un id ad . Así, p o r ejem p lo : 1(5/93) + 1(17/93) + 1(39/93) + .......... + 1(1/93) = 1 Al e stu d ia r la curva n o rm al en el capítulo v n , verem os que es necesario' tr a ta r con áreas, antes que con a ltu ra s, y será conve n ien te to m a r el área to ta l b a jo el histo g ram a com o unidad. O tro m odo m uy p arecid o de p re se n ta r g ráficam ente u n a dis trib u ció n de frecuencia es el del polígono de frecuencia. P ara ob ten erlo , u nim os sim plem ente los p u n to s m edios de los lados su p erio res de cada rectángulo p o r m edio de re ctas y b o rram o s luego los rectángulos, com o e n la fig u ra IV.4. O bsérvese q u e los p u n to s extrem os del polígono de frecuencia se h a n colocado so b re la lín ea b ase (e je h o rizo n ta l) en los p u n to s m edios de los intervalos a uno y o tro lad o de los dos intervalos de los extre m os. N o rm alm en te n o nos serviríam os de los dos tipos de figu ras, p ero, su p erp oniendo el polígono de frecuencia sobre el h isto gram a, vem os que el á re a delim itada p o r las dos figuras h a de ser igual. E sto es así p o rq u e p o r to d o trián g u lo que queda al in te rio r del polígono de frecuencia, p ero ex terio rm en te al h isto gram a, hay u n trián g u lo idéntico debajo del histogram a, p ero fu e ra del polígono d e frecuencia. Así, pues, podem os tam bién co n sid erar com o u n id ad el á re a delim itada p o r dicho polígono. Obsérvese, sin em bargo, q u e n o hem os hecho m ás q u e conectar
p o r m edio de re ctas cierto n ú m ero de puntos. Los puntos m is m os pu ed en re p re s e n ta r el n ú m ero de casos en cad a intervalo, p ero hem os de guardarnos de in fe rir que hay cierto nú m ero de casos en cu alq u ier o tro p u n to a lo largo del trazo continuo. Así, p o r ejem plo, no hem os d e in fe rir que hay aproxim adam ente 28 casos con m arcas de 20 exactam ente. Los polígonos de frecuencia pueden em plearse asim ism o p ara re p re se n ta r d istribuciones de frecuencia cum ulativa. La figura F
%
93.00 -100
,
, '
,
-
69.75 -75 -------------,
/
46.50 -50 23.25 -25 0, —-"i 0 10
/ i
i
20
30
40
50
60
70
80
90 100
Fig. IV.5. Ojiva que representa una distribución d e frecuencia acum ulativa. q ue en ta l caso re su lta se designa com o ojiva. A lo largo de la o rd en ad a o eje Y podem os in d icar frecuencias o porcentajes. Co locam os, en cam bio, las m arcas de la variable de escala de in tervalo a lo larg o del e je de las X (a b scisa), lo m ism o que an terio rm en te, e n el b ien en tendido de que las frecuencias re p resen tad as in dican el n ú m ero d e casos de valor inferior al eje de la X . P o r ejem plo, en la fig u ra IV.5 vem os q u e aproxim ada m en te el 75 % de las m arc as son m enores que 34. P or lo tanto, las ojivas se pueden u s a r com o u n m étodo gráfico de determ i n a r el n ú m ero de casos p o r encim a o p o r deb ajo de u n cierto valor. E s obvio que la fo rm a d e la ojiva h a b rá de se r siem pre o creciente o decreciente según que se acum ule hacia a rrib a o h acia ab ajo . La curva será, e n cam bio, horizontal e n los in te r valos vacíos. Si la distrib u ció n de frecuencia es del tip o de nues tro s datos anterio res, con el nú m ero m ayor de casos en los in te r valos que quedan cerca del cen tro de la distribución, la ojiva te n d rá fo rm a de S, con la inclinación m ás rá p id a a proxim idad de los in tervalos que contienen el m ayor nú m ero de casos.
Glosario Datos continuos y datos discretos Distribución cumulativa Distribución de frecuencia Polígono de frecuencia Histograma Ojiva Límites verdaderos E j e r c ic io s
1. Supóngase que las cifras a continuación representan los ingresos anuales de un grupo de residentes de una localidad: $3 850 4 360 2140 3330 7 810 5 340 2 970 4140 3 000 1610 4 570 1940 2 780
$ 2 760 4340 5210 3410 4570 9300 3 320 1790 4560 3 800 13 460 5 210 2 690
$ 2 860 4 350 7 310 3 550 4210 5 490 2110 23 400 3 760 4170 6170 2 350 8 340
$ 3 890 11740 3 560 2740 7110 10300 4440 3 370 5170 3160 2 800 3180 4 240
$ 3 340 4350 2610 8190 4250 3 460 19310 2 670 3 100 5130 1710 4320 9 830
a) Constrúyase una distribución de frecuencia y una distribución cumulativa. b) ¿Cuáles son los verdaderos límites? c) Trácese un histograma, un polígono de frecuencia y una ojiva. 2. En un examen de tipos de visita entre amigos íntimos y parien tes, 81 interrogados son invitados a indicar el número de los amigos y parientes que visitan por lo menos una vez al mes. Los resultados son los siguientes (las cifras indican el núm ero efectivo de personas regularmente visitadas): 3 2 5 4 9 4 5 3 4
5 4 6 14 4 3 4 11 3
2 2 4 3 1 5 2 4 14
3 5 3 5 4 7 3 5 5
3 3 2 6 2 3 6 19 2
4 3 2 3 4 5 1 4 1
1 3 6 4 3 6 3 5 4
8 0 3 2 5 2 16 2 3
4 3 5 4 0 2 5 2 4
a) Constrúyase una distribución de frecuencia y una distribución cumulativa.
b) Justifiqúese lo m ejor que se pueda la elección de los intervalos. c) Trácese un histograma, un polígono de frecuencia y una ojiva. 3. Indíquense los límites verdaderos en cada uno de los siguientes intervalos: a) 1000 — 1900 2000 — 2 900 b) 1000 — 1 999 2000 — 2 999
c) 1.000— 1.999 (Respuesta, 2.000 — 2.999 0.9995 — 1.9995) d) .010— .019 .020— .029
¿Qué se ha supuesto en cada uno de los casos a propósito del méto do de redondeo? B
ibliografía
1. Anderson, T. R. y M. Zelditch: A Basic Course in Statistics, 2- edv Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 4. 2. Downie, N. M. y R. W. H eath : Basic Statistical Methods, 2' ed., Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 3. 3. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry Holt and Company, Inc., Nueva York, 1952, caps. 4 y 5. 4. McCollough, C., y L. van A íta: Introduction to Descriptive Statis tics and Correlation, McGraw-Hill Book Company, Nueva York, 1965, cap. 1. 5. Mueller, J. H., K. Schuessler y H, L. Costner: Statistical Reasoning in Sociology, 2‘ ed. Houghton Mifflin Company, Boston, 1970, cap. 4. 6. Weiss, R. S .: Statistics in Social Research, John Wiley & Sons, Inc., Nueva York, 1968, cap. 5.
i m o s que las escalas nom inales pueden resu m irse fácilm ente en térm inos de porcen tajes, proporciones o razones, y que dichas m edidas de resum en son fundam entalm ente intercam biables. En o tro s térm in o s: b asta u n tipo determ inado de m edida p a ra des c rib ir los datos. E n el caso de las escalas de intervalo, a su vez, vimos que los datos pueden describirse p o r m edio de u n a distri bución de frecuencia. Podem os servirnos tam bién de tipos dis tin to s de m edidas, siendo las m ás im p o rtan tes de ellas las de tipism o o de tendencia central y las de heterogeneidad o dis persión. Verem os que existe en cada caso cierto núm ero de m e didas d istin tas e n tre las que podem os elegir, cada u n a de las cuales reú n e propiedades, ventajas e inconvenientes aigo diferen tes. P o r lo tan to , el resu m en de las escalas de intervalo es algo m enos directo que en el caso de las nom inales. E n el p resen te capítulo nos ocupam os de las m edidas de tipism o, en ta n to que en el siguiente exam inarem os las de dispersión. Tom ados ju n tos, dichos dos tipos de m edidas re su ltarán norm alm ente ade cuados p a ra la descripción de los datos de escala de intervalo. La idea que tiene el lego a p ropósito del térm in o prom edio pro pende a ser m ás bien vaga o am bigua. E n efecto, puede n o darse cu en ta de que existen varias m edidas diversas del tipism o y que, en d eterm inadas circunstancias, dichas m edidas dan resultados m uy d istintos. El hecho de que sea posible o b ten er tales m edi das diferen tes de tendencia central supone que es necesario co m p ren d er las v en tajas y los inconvenientes de cada u n a de ellas. Im p o rta, pues, sab e r en cuáles circunstancias cada u n a sea adecuada. ¿P o r qué la Oficina del Censo indica ingresos m e dianos y n o ingresos m edios? ¿T endría algún sentido in d icar al lego que la fam ilia "m ed ia” tiene 2.3 hijos y vive en u n a casa de 4.8 cu arto s? ¿E n cuáles circunstancias es de poca im portancia la m ed id a que se em plee? É stas son algunas de las num erosas cuestiones que p o d rían p lan tearse acerca del tip o de prom edio que hem os de calcular.
V
V .l. La m edia aritm ética H ay dos m edidas im p o rtan tes de tendencia cen tral em pleadas en la investigación sociológica: la m edia aritm ética (designada a continuación sim plem ente com o m e d ia ) y la m ediana. La m edia es con m ucho la m ás com ún de las dos y se define com o la sum a de las m arcas dividida p o r el núm ero to tal de los casos com pren didos. P a ra in d icar la m edia se utiliza p o r convención el sím bolo 67
X, au n q u e a veces se em plee tam b ién la le tra M. P o r lo tanto, la fó rm u la de la m ed ia aritm é tic a es la sig u ie n te : N 2 X' —■
X-± -V*X%“1"..........
x = —
------- — ----------------- — = ------------N
N
'
( V .l )
en la que X x re p re se n ta la p u n tu ació n del p rim e r individuo, X 2 la del segundo, y X t la del individuo general.1 Si no existe am bi güedad, podem os p re sc in d ir de los subíndices y e sc rib ir sim ple m en te -
2X
X = ------M
en donde se en tien d e que to d as las cantidades se sum an. La m ed ia posee la p ro p ied a d algebraica de que la sum a de las desviaciones de cada m arc a con re sp ecto a la m ed ia será siem p re cero. S im bólicam ente esto pu ed e exp resarse m ed ian te la ecuación sig u ien te: 2 (X «-X ) = 0 «=*i E ste hecho n o h a de so rp re n d e r en absoluto si tenem os e n cuen ta la definición de la m edia. La p ru e b a es sencilla. Como quiera que tenem os u n a sum a de n ú m ero s cada u n o de los cuales, es en realidad, u n a diferencia, podem os descom poner la expresión in d icad a en la diferencia d e dos sum as. E n la siguiente fo rm a : y — 2 (Xt - X ) = N/ 2, em pezam os a te n e r algunos térm in o s que aparecen ta n to en el n u m e ra d o r com o en el deno m in ad o r y, p o r consiguiente, se elim inan recíprocam ente. P or ejem plo, si r = 6, tenem os: 10
(1 0 )(9 )(8 )(7 )
(6 )(5 )
6 /
(Í)(2 )(3 )(4 )
(5 )(6 )
210 / 10 \
lo que nos d a el m ism o re su lta d o obtenido que al c a l c u l a r ! - j - 1 E n general p u ed e d em o strarse que
de m odo que p u ed e u tilizarse lo m ism o r que N — r, según cuál de ellos sea m enor. Si ah o ra querem os sa b e r la p ro b ab ilid ad de o b ten er exacta m e n te r éxitos e n N p ru e b as y no nos in teresam o s p o r el orden en que o cu rran , podem os m u ltip licar la p ro b a b ilid ad de o b ten er / N \ u n a secuencia p a rtic u la r cu alq u iera p o r I ----- I . D esignando la p ro b ab ilid ad deseada p o r P( r) , tenem os: p(t-)
=
P ro b ab ilid ad de r éxitos ex actam ente
=
N ( “7 " J N? d e m an eras de o b te n e r r X éxitos
rrnX-r prq' P robabilidad (X .3) de u n a sucesión d ad a cualquiera
Si la m oneda fu e ra perfectam en te correcta, esto es, si p = q = 1/2, la p ro b ab ilid ad de o b ten er exactam ente cu a tro caras en diez p ru eb as sería d e : 210 210
/ 1 0 \ / l \ ' , í/ l \ 6
=
)(t ) (?)
= 210114>“ V024 = '205-
Y en fo rm a análoga podem os calcular las probabilidades de o b ten er exactam ente 0, 1, 2, . . . , 10 caras en 10 pruebas. Ni de caras
0 1 2
3 4 5
6
7 8
9 10
Probabilidades (con p
1/1024= 10/1024= 45/1024= 120/1024= 210/1024= 252/1 024 = 210/1024= 120/1 024 = 45/1024= 10/1024= 1/1024=
= Va)
.001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001 1.000
O bsérvese que siendo r cero, la m agnitud y la fó rm u la falla. Vemos, sin em bargo, que, siendo r = 0, sólo hay u n o rd en posible (to d o cruces). E n este ejem plo, la d istri bu ción de p ro babilidades es perfectam en te sim étrica. Sirviéndose del hecho de que vencerse p o r sí m isi
el lecto r debería conserá siem pre sim étrico,
p ero que el fa c to r prqN~ r sólo será exactam ente sim étrico si p — q — Vi. E n el ejem plo an terio r, las probabilidades se h an asociado con cad a un o de los 11 resultados posibles del experim ento. E n di cho sencillo ejem plo, sólo' se daba u n pequeño nú m ero de resul tad o s concebibles, dado el supuesto de que en cada lanzam iento sólo dos de ellos era n posibles. En o tro s experim entos, en cam bio, el núm ero de re su ltad o s posibles puede ser m uy grande y au n infinito, y puede se r necesario a g ru p a r ciertos resultados y aso ciar u n a p ro b ab ilid ad con la serie en te ra de los m ism os. Así, p o r ejem plo, si la m oneda se h u b iera lanzado al aire 1 000 veces, pudim os h a b e r calculado las probabilidades de o b ten er de 400 a 449, de 450 a 499 o de 500 a 549 caras.
Cuando asociam os probabilidades co n cada resultado posible de u n exp erim ento, ¡o con grupos d e resultados, designam os la d istrib u ció n resultante d e probabilidades com o d istrib u ció n de m u estreo . R ecordando que utilizam os el concepto de probabili dad p a ra d esig n ar el lím ite de la razó n de los éxitos al nú m ero to ta l de las p ru e b as, vem os q u e la d istribución de m u e stre o se refiere al n ú m ero relativo de veces que esperam os o b ten er cier tos resultados e n u n n ú m ero m u y grande d e experim entos. E n el ejem p lo nu m érico considerado, cad a experim ento consis te en lan za r la m oneda 10 veces al aire y a n o ta r el nú m ero de caras. N u estros cálculos nos dicen que si efectuáram os el expe rim en to 1 024 000 veces, podríam os e sp e ra r o b ten er aproxim ada m en te (p e ro no ex actam ente) 1 000 casos en que n o saliera u n a sola cara, 10 m il en que saliera exactam ente u n a cara, 45 m il casos con dos caras, etcétera. Adem ás, esp eraríam o s q u e cuanto m ay o r n ú m e ro de veces se efectu ara el experim ento, ta n to m ás cerca q u ed a ran las pro p o rcio n es em píricas de estas p robabilida des teóricas. E n realidad, el investigador nunca obtiene u n a distribución de m u estreo p o r m edios em píricos, y a que p o r lo> re g u la r sólo efec tú a u n ex p erim ento o extrae u n a m u e stra u n a sola vez o, a lo sum o, unas pocas veces. Im p o rta d arse cu en ta de que la d istri bu ció n de m u estreo es u n a d istrib u ció n hip o tética, teórica, que sólo se o b te n d ría si u n experim ento se efectu ara u n n ú m ero m uy gran d e de veces. La d istrib u ció n de m u estreo se obtiene aplican do razo n am ientos m atem áticos o deductivos, com o se hizo en el ejem p lo an terio r. Como q u iera que las distribuciones de m u estreo n o son el tipo de d istrib u cio nes q u e el investigador ve realm en te de su s datos, las p erso n as que n o sien tan afición p o r las m atem áticas ten d rá n p ro b ab lem en te alguna dificultad en co m p ren d er el papel que ju eg an estas distribuciones h ip o téticas en la inducción estadís tica. Pero, a m enos que la noción de d istrib u ció n d e m u estreo se co m p ren d a claram ente, el estu d ian te se e n c o n tra rá p ráctica m en te en la im posibilidad de conseguir de la estad ística u n a co m prensión q u e vaya m ás allá de la de u n m ero "recetario". De ahí q ue convenga ex am in ar aquí en fo rm a m ás sistem ática los p aso s q ue se d an al v erific ar u n a hipótesis estad ística y ver exactam en te cóm o se em plean dichas distribuciones de m uestreo. X.2. Pasos en las pruebas estadísticas T odas las p ru e b as estad ísticas co m p o rtan cierto n ú m ero de pasos específicos. H ay que re c a lc a r u n a vez m ás q u e cada uno de di chos pasos h a d e efectu arse con a n te rio rid a d a la inspección de los datos. P u eden en u m erarse com o s ig u e : 1. F o rm ulación de supuestos.
2. O btención de la d istrib u ció n de m uestreo. 3. Selección de u n nivel de significación y de u n a región crítica. 4. C álculo de la esta d ístic a de la pru eb a. 5. T o m ar u n a decisión. C ada u n o de esto s pasos se exam inará con cierto detalle en el p re se n te capítulo y luego, u n a vez m ás, en el capítulo xi, de m odo que el le c to r p u ed a fam iliarizarse con los procesos generales que co m p o rtan las p ru e b as estadísticas. 1. Form ulación d e supuestos. Con o b jeto de ap licar la teo ría de pro b ab ilid ad es a la obtención d e u n a d istrib u ció n d e selec ción, el investigador h a d e fo rm u la r ciertos su p u esto s acerca de la población re sp ecto de la cual v a a estab le cer conclusiones g enerales y de los p ro cedim ientos de m u e stre o a em plear. E sto s su p u esto s relativos a la población y a los p ro cedim ientos suelen c o rresp o n d er p o r lo re g u la r a u n a de las dos categorías siguien te s : 1 ) la de aquellos de los que el investigador e stá relativ am en te seguro o está d ispuesto a acep tar, y 2 j la d e los q u e le p arece n m ás p ro b lem ático s y en los que, p o r lo ta n to , e s tá m ás in teresado. Los su p u esto s de la p rim e ra categoría podem os ponerlos todos ju n to s en lo q ue llam arem os el m odelo. E n cu an to a los de la o tra categoría, son los q u e el investigador desea verificar y se desig n an com o hipótesis. P o r lo regular, p o r lo m enos en las verificaciones m ás sencillas de que nos ocuparem os en los próxim os capítulos, sólo h a b rá u n a h ip ótesis. Im p o rta d arse cu en ta de q u e desde el p u n to de vista d e la pru eb a estadística m ism a , todos los supuestos poseen el m ism o carácter lógico. Si los re su ltad o s de la p ru e b a aconse ja n d e sc a rta r los supuestos, to d o lo que p u ed e decirse, sobre la base de la prueba m ism a , es que p o r lo m enos u n o de los supues tos, y a u n p o siblem ente todos ellos, son p ro b ab lem en te falsos. Com o q u iera q u e la p ru e b a elló m ism a n o p u ed e su m in istra r in fo rm ació n acerca de cuál de los su p u esto s sea erróneo, es in dispensable, si los re su ltad o s h a n de te n e r algún sentido, que sólo u n o d e ellos sea re alm en te dudoso. E n estas condiciones será po sib le d e sc a rta r el su p u esto en cuestión (la h ip ó tesis) com o erróneo. Los estu d ian tes fo rm u lan a m enudo el siguiente tip o de p re g u n ta : "¿so b re qué b ase se escoge u n a d eterm in a d a p ru e b a esta d ística con p referen cia a o tra ? ” U no de los criterios que p u ed e d a rse a estas altu ra s es el de u n m odelo apropiado. E n o tro s té rm in o s : el in v estigador h a de seleccionar u n a p ru e b a q u e sólo co m p o rte u n su p u esto dudoso (su h ip ó tesis). E n efecto, si u n a d eterm in ad a p ru e b a re q u ie re dos o m ás supu estos dudosos, será difícil, p o r no decir im posible, decidir cuál de ellos d eb a d escar tarse . E n tal caso, el estu d ian te d eb erá tr a ta r de e n c o n tra r u n a p ru e b a altern ativ a q u e n o traig a consigo tan to s supuestos d u dosos.
P ara ilu s tra r lo que precede con n u estro ejem plo de la m one da, la p ru e b a binom ial req u iere el supuesto de que 10 lanzam ien tos constituyen tina m u estra al az ar de todos los lanzam ientos posibles con la m ism a m oneda, y que todos ellos son indepen dientes u n o de otro. Suponem os, pues, que la m oneda es correcta. E sto ú ltim o sería p o r lo re g u la r n u e s tra hipótesis, en tan to que lo p rim ero co n stitu iría n u estro m odelo, ya que el in terés se con cen traría p ro bablem ente en sa b e r si la m oneda es o no correcta. Se concibe, sin em bargo, que podam os sospechar de la persona que efectúa los lanzam ientos. Si estuviéram os relativam ente se guros a p ro p ó sito de la m oneda, p o r h a b e r com probado previa m en te que d ab a aproxim adam ente caras la m ita d de las veces, entonces p odríam os cam biar el problem a y verificar u n a hipó tesis relativ a al^ m étodo del lanzam iento ( o sea el m étodo de m u estreo ). Supóngase que no estuviéram os dispuestos a ac ep tar com o m odelo la corrección de la m oneda o la corrección de la p ersona que efectúa el lanzam iento. En tal caso, si salen 50 ca ras consecutivas, decidiríam os que p o r lo m enos u n o de nu estro s supuestos e ra indudablem ente erróneo, p ero no estaríam os en con diciones de d ecidir cuál de ellos. E n general, p o r supuesto, pone m os to d a la atención necesaria en n u estro s m étodos de m uestreo p a ra te n e r u n a seguridad razonable de que los supuestos relativos a los m ism os son ciertos. P ara ilu s tra r el m ism o aspecto con u n ejem p lo de carácter sociológico, supongam os que se nos invita a fo rm u la r sólo dos supuestos en u n a p ru e b a estad ística determ inada, esto e s : 1 ) que en la población seleccionada las proporciones de personas de las clases m edia e in ferio r con grandes deseos de cam bio de situación son las m ism as, y 2 ) que se h a obten id o u n a m u estra aleato ria de todas las personas. Supóngase asim ism o que dichos supuestos conducen a d eterm inadas conclusiones qúe n o concuerdan con los hechos. Tal vez, p o r ejem plo, los datos de la m u estra señalan u n p o rc en taje m ucho m ás alto de personas de la clase m edia con grandes deseos de cam bio. Concluimos, pues, que u n o u o tro de los dos supuestos es p robablem ente erróneo. P ero ¿cuál de ellos habrem os de d escartar? Nos g u staría sacar la conclusión ^de que el falso e ra el p rim ero, p ero tal vez nos hayam os servido de m étodos de m u estreo sujetos a alguna in fluencia ajena. E n resum en, necesitam os datos adicionales, ap ar te de lo que indica la p ru e b a m ism a. . este ejem plo p articu lar, si hem os tom ado to d as las precau ciones p a ra aseg u rar la selección de u n a m u estra al azar, pode m os to m ar com o m odelo el su p u esto 2 ) y fo rm u lar la conclusión de que el supuesto falso e ra p robablem ente el 1). Aquí n u estra propensión a a c ep tar el su p u esto 2 ) se b asa en n u e stro conoci m iento acerca de los m étodos de selección em pleados, o sea de n u estra m etodología. E n o tro s casos, en cam bio, podem os acep
ta r ciertos sup u estos so b re la b ase de hallazgos de investigacio nes an terio res. El p u n to im p o rtan te, sin em bargo, es q u e la prueba m ism a n o sirve para identificar el su p u esto o los supues tos erróneos. E n este sentido, todos los supuestos poseen el m ism o ca rác te r o grado lógico. P a ra p o n e r este hecho de m a n ifiesto y p a ra llam ar la atención del lecto r sobre los supues to s del m odelo, tra ta m o s la hipótesis exam inada com o u n a sola, sim plem ente, e n tre cierto nú m ero de supuestos exigidos p o r la pru eb a. Com o y a se d ijo an terio rm en te, el investigador tien e p o r lo re g u lar in terés en fo rm u la r u n a hipótesis q u e en realid ad le gus ta ría p o d er d escartar. La hipótesis efectivam ente exam inada se designa a m enudo com o hipótesis nula (sim bolizada p o r H 0), p o r c o n tra ste con la hipótesis de investigación ( H x), que se fo rm u la com o altern ativ a de H 0. P o r lo regular, au n q u e no siem pre, la h ipótesis n u la enuncia que no existe d iferencia e n tre varios gru pos o que no se d a relación alguna e n tre variables, en ta n to que la hipótesis de investigación puede a n tic ip a r u n a relación, ya sea positiva o negativa. E l investigador p u ed e e sp e ra r e n reali dad que la h ipótesis negativa sea e rró n ea y se deje d e sc a rta r en fav o r de la altern ativ a H t . N o ob stan te, con o b jeto de calcular u n a d istribución de m u estreo , h a de p ro c e d e r com o si H 0 fu e ra efectivam ente correcta. S upondría, p o r ejem plo, que la m oneda no está sesgada. O bsérvese q ue el su p u esto de tina m o neda co rre c ta p ro p o r ciona u n a m an era de calcular probabilidades exactas sirviéndose de la fó rm u la binom ial. E n efecto, si se fo rm u lara la h ip ó te sis de q ue la m oneda es "sesgada”, nos en co n traríam o s con que no podíam os o b ten er u n a d istribución de selección h a sta después de h a b e r especificado la hipótesis de m odo m ás preciso. H a b ría m os de re m itim o s a u n valor específico de p, digam os d e .75, p o r ejem plo. R ara vez estarem o s en condiciones de hacerlo. Y en fo rm a análoga, la hipótesis de investigación de que hay e n tre la clase m edia una p ro p o rció n m ay o r de p erso n as con grandes de« seos d e cam bio n o es ta n específica com o la hipótesis n u la en el sen tid o de que n o h ay en absoluto diferencia alguna e n tre las dos clases. 2. O btención de la distribución de m uestreo. H abiendo fo rm u lado los supuestos necesarios, estam os ah o ra en condiciones de serv im o s del razonam iento m atem ático p a ra o b ten er u n a d is tri bución de m u estreo a la que asociam os pro b ab ilid ad es con re su l tado s. S em ejante d istrib u ció n de pro b ab ilid ad es nos d irá sim plem en te cuán p ro b a b le sea cada u n o de los resu ltad o s posibles, si los su p u esto s adoptados son efectiva m en te correctos. S i los su p u esto s an terio res a p ro p ó sito de la m o n ed a y de los lanza m ientos fu eran realm en te correctos, ya vim os que a la larga sólo p o d ríam o s e s p e ra r o b te n e r todas las c a ra s u n a sola vez sobre
1 024, sólo 10 veces sobre 1 024 o b ten er nueve caras, etcétera. El conocim iento de la p ro b ab ilid ad de u n re su ltad o p a rtic u la r cualquiera, al pro d u cirse p o r azar si n u estro s supuestos fu eran efectivam ente ciertos, nos p e rm ite ah o ra to m a r u n a decisión racional a p ro p ó sito de las condiciones en las que podríam os arriesg am o s a d esc artar los supuestos en cuestión. Supóngase, p o r ejem plo, que obteníam os 10 caras en 10 lanzam ientos. Exis ten dos posibilidades: a) o bien los supuestos son correctos, y éste es uno de los casos en que se produce u n acontecim iento m uy raro , o bien b ) u n o p o r lo m enos de los supuestos (p ro b a blem ente la hipótesis n u la) es falso. P or desgracia, no podem os sab er n u n ca cuál de las dos alternativas sea la correcta. Si lo supiéram os, en efecto, h ab ríam o s sabido de an tem an o acerca de los supuestos, y ya no ten d ría o b jeto alguno e fectu ar el experi m ento. P ero podem os decir que la p rim era altern ativ a es m uy im probable. Establezcam os, pues, la regla de que cada vez que obtenem os 10 caras en 10 pru eb as sucesivas podem os llegar a la conclusión d e que u n o p o r lo m enos de los supuestos es falso y debería descartarse. A la larga podrem os eventualm ente com eter erro res ad h irien d o a dicha regla estricta, ya que sabem os que inclu so con u n a m oneda sesgada podem os e sp e ra r o b ten er 10 caras u n a vez so b re 1 024, sim plem ente p o r casualidad. S em ejante re gla no nos ay u d ará a d eterm in a r la corrección de n u e stra deci sión en relación con u n experim ento p a rtic u la r cualquiera, p ero las leyes de las probabilidades nos dicen exactam ente qué pro porción de veces podem os e sp e ra r to m a r decisiones correctas a la larga. E n cierto sentido, n u e stra fe se fu n d a m ás en el p ro cedim iento q ue seguim os que en la decisión q u e form ulam os en cada ocasión p artic u la r. Y dicho pvoc&d&fiti&ttto nos proporcion a rá decisiones correctas la m ayoría de las veces, aunque no podam os e sta r absolutam ente seguros de decidir co rrectam ente en u n a ocasión concreta cualquiera. 3. Selección d e u n nivel d e significación y de una región crítica. Désete u n p u n to d e vista ideal, las decisiones del investigador deberían to m arse con an terio rid ad al experim ento o al análisis efectivos de los datos. A p a r tir de su conocim iento de la d istri bución de m uestreo, selecciona u n grupo de altern ativ as las cua les, caso de p roducirse, le obligarían a d esc artar su s supuestos. E stos resu ltad os im probables se designan com o la región crítica. Asi, pues, divide los resultados posibles en dos c a te g o ría s: a ) aquellos en cuyo caso d esc artará (la región crítica ), y b ) aq u e llos que, de p roducirse, no le p e rm itirán d escartar. Con objeto de p o d er estab lecer u n a región crítica, h a de decidir dos aspectos adem ás de la elección de u n m odelo y u n a hipótesis. P rim ero ha de d ecidir los riesgos que está dispuesto a asu m ir d e in c u rrir en los erro res de tipos I y II. Y en segundo lu g ar h a de decidir si
desea o no que su región crítica incluya am bas colas de la dis trib u ció n de m uestreo. Según se indicó en el capítulo v m , se h a n de to m a r en consi deración dos tipos de erro res posibles. El p rim ero consiste en d e sc a rta r u n g rupo de supuestos en re alid ad correctos. El tipo de e rro r II, en cam bio, im plica el no d e sc a rta r supuestos en re a lid ad falsos. S obre la b ase de la distribución de m u estreo pueden d eterm in a rse ex actam ente las probabilidades de que se p ro duzcan determ inados resultados si los supuestos son efectiva m en te correctos. Si el investigador decide que d esc artará cada vez que se produzca u n d eterm inado n ú m ero de resultados im p ro b ab les (digam os cero caras o diez c a ra s), entonces, si los supuestos son correctos, com eterá u n e rro r de tipo I cada vez que obtenga u n o de los resultados en cuestión. La p ro b ab ilid ad de com eter u n e rro r de ese tip o es igual a la sum a de pro b ab ilid ades de cada u n o de los resultados _en el in te rio r d e la región. Así, p o r ejem plo, si la región crítica consta de cero a diez caras, la p ro b ab ilid ad de e r ro r de tip o I será de 2/1 024, o sea .002. Si se escogiera u n a región crítica m ás am plia, el riesgo de dicho tip o de e rro r sería m ayor. S upóngase que se d ecid iera d e sc a rta r los supuestos si se o b ten ían cero, u n a, nueve, o diez caras. E n este caso la pro b ab ilid ad del e rro r del tip o I sería de (1 + 1 + 10 + 10)/1 024, o sea .022. La p ro b ab ilid ad de co m eter u n e rro r de tip o I se designa com o nivel de significan cia y p u ed e p o n erse a cu alq u ier valor deseado. Antes de exam inar los criterio s posibles p a ra decidir acerca del nivel de significancia, hay que decir algo a p ro p ó sito de los erro re s d e tip o II. E n vista de n u e stro exam en a n te rio r de la falacia consistente en a firm a r el consecuente, es m anifiestam ente in co rrecto sacar la conclusión de que si determ inados supuestos no se d ejan d e sc a rta r h a n de ser, e n consecuencia, ciertos. E n efecto, o tro g rupo de supuestos p u d o h a b e r llevado igualm ente a u n a distrib u ció n de m u estreo con la que se p o d ría h a b e r llega do a conclusiones sim ilares. P or ejem p lo : si la v erd ad era p ro bab ilid ad de caras fu e ra de .51 en lu g ar de .50, entonces la dis trib u ció n de m u estreo sería casi id én tica a la^ que calculam os. P o r consiguiente, p ro b ab lem en te se h a b ría elegido la m ism a re gión, y la decisión en cu an to a d e sc a rta r o no h a b ría sido la m ism a. Y sin em bargo, en rigor, la hipótesis de p = .5 sería falsa y d ebería en realid ad descartarse. Y si n o estuviéram os en con diciones de hacerlo, n o estaríam os sin em bargo dispuestos a co n sid erarla com o la ú n ica h ip ó tesis co rrecta, y a que hay u n n ú m ero adicional d e hipótesis que tam poco p o d ría descartarse. D ecidim os sim plem ente que "no debiéram os d e sc a rta r” n u e stra hipótesis. In clu so si en u n p lan conservador rechazam os a c e p ta r u n a hipótesis, nos g u staría, con todo, e sta r en condiciones de elim i
n a r cu an tas falsas hipótesis h ubiera. E n este sentido com etem os u n e rro r siem p re q u e dejam os de d e sc a rta r u n a hipótesis falsa. ¿Y qué pued e decirse a p ro p ó sito de la p ro b ab ilid ad de in c u rrir en u n e rro r de tip o II? D esgraciadam ente n o es ta n fácil calcu la r los erro res de tip o I I com o es el caso con los de tipo I. Nece sitam os, pues, ap lazar n u e stro exam en de los m ism os h a sta el cap ítu lo xiv. Conviene, sin em bargo, o bservar u n hecho im por ta n te . Y es que, p a ra cualquier p ru e b a dada, las probabilidades de e rro res de los tipos I y I I son inversam ente proporcionales. E n o tro s té rm in o s: cuanto m e n o r es el riesgo d e u n error de tipo I, ta n to m ayor es la probabilidad de uno de tipo I I . E sto p u ed e verse en n u e stro ejem plo de los lanzam ientos. El lector h a de convencerse p o r sí m ism o que, si se elige u n a región crítica pequeña (digam os cero caras y diez c a ra s), te n d rá m enos p ro babilidades de d e sc a rta r cualquier su p u esto q u e si se sirviera de u n a región m ás com prensiva ( digam os cero, u n a, nueve y diez ca ras). E n el p rim e r caso, si b ien está m enos expuesto a descar ta r su p u esto s ciertos, tiene tam b ién m enos probabilidades de d e sc a rta r los falsos. De ahí que c o rra m ayor riesgo de com eter u n e rro r d e tipo II. Es, pues, im posible reducir sim ultáneam ente los riesgos d e los dos tipos de errores, a m enos que se vuelva a d isponer el estu d io en o tra fo rm a y se seleccionen casos adicionales o u n a pru eb a estad ística d istin ta. E n la p rá c tic a ponem os la p ro b ab ilid ad de e rro r de tip o I a u n nivel determ in ad o (digam os .05) y escoge m os la p ru e b a estad ística q u e m ás reduce el riesgo de e rro r de tip o II. Al elegir e n tre p ru e b as altern ativ as, escogem os aquella q ue tien e u n m odelo apro p iad o y red u ce m e jo r el riesgo de e rro r de tip o II.2 La decisión e n cu an to al nivel de significación a escoger depen de de los costos relativos re su ltan te s de co m eter u n o u otro tip o de e rro r y d eb ería ap reciarse de acuerdo con ello. E n oca siones h ay q ue a d o p ta r u n a decisión p rá ctica conform e al resu l ta d o del experim ento. Un fa b rican te puede decidir in sta la r u n equipo costoso, u n investigador p u ed e decidir e x tra e r o tra m ues tr a y re p e tir su estudio, o las au to rid ad es san itarias pueden decidir si deben o n o in te n ta r u n a vacunación en m asa con u n nuevo suero. E n o tro s casos n o se re q u ie re decisión p rá c tica alguna. U n sociólogo, p o r ejem plo, p u ed e p u b licar sim ple m en te los resu ltad o s de su estu d io e n u n periódico, sin ten er que s o p o rta r las consecuencias d e e r ro r d e u n tip o o del otro. E n situaciones e n las que h ay que to m a r decisiones de carác te r p ráctico la elección de u n nivel de significación re su lta p a r ticu larm en te difícil. E n el ejem plo del lanzam iento, supóngase que la decisión co m p o rta ra el d e ja r de seguir jugando con una m oneda de cuya perfección se sospecha. Si n u e stro ju g ad o r hipo2 Para el examen más a fondo de esta cuestión, véase la sec. XIV.l.
tético tu v iera la perspectiva de u n a esposa regañona caso de vol v er a la casa con ios bolsillos vacíos, h a rá bien en d e ja r el juego si existe siq u iera la m ás leve duda a p ro p ó sito de la m oneda. E n tal caso elegiría u n a región crítica am plia, y a que las consecuen cias de un e rro r de tip o I I (e sto es, de seguir ju g an d o si la m o n ed a estab a realm ente sesgada) serían m uy lam entables. Por o tra p a rte , si co rriera el riesgo de in s u lta r a su je fe sosteniendo q u e la m o n ed a estab a sesgada, d esearía e s ta r perfectam en te se guro de ello an tes de a d o p ta r su decisión. E n este últim o caso escogería u n a región crítica m uy pequeña, reduciendo así al m í nim o el riesgo de e rro r de tip o I. Y en fo rm a análoga, si el costo de la vacunación en m asa fu e ra considerable o el suero eventual m en te peligroso, se d esearía e s ta r absolutam ente seguro antes de aplicarlo. D esearíase h a c e r m uy difícil d e sc a rta r la hipótesis n u la de que el suero no p ro d u ce efecto benéfico alguno. Si n o h ay m ás decisión p rá ctica a to m a r que la de publicar o n o los resu ltados de u n estudio, d eb ería seguirse o tra regla general. E n este caso, en efecto, el investigador debería aplicar se a d em o stra r a sí m ism o que está en error o a obtener resulta dos que en realidad no desea obtener. P o r lo regular, p e ro n o siem pre, se establece u n a hipótesis n u la que en realid ad se desea d escartar. Y com o q u iera que al investigador le g u staría e s ta r en condiciones de d escartarla, debería h a c e r la obtención del re su ltad o deseado m uy difícil, sirviéndose p a ra ello de u n a re gión crítica m uy pequeña. H ay ocasiones, en cam bio —y llam am os la atención del lecto r al resp ecto —, en que n o se desea realm en te d e sc a rta r la hipótesis nula. Así, p o r ejem plo, la hipótesis n u la p u ed e a d o p ta r la fo rm a d e u n a p redicción en el sen tid o de que n o hay diferencias reli giosas o de clase en cuanto a la ta sa de fecundidad. Si se desea realm en te estab lecer tales diferencias, debería escogerse u n a re gión crítica m uy pequeña, haciendo el d escarte de la hipótesis n u la m uy difícil. P ero supóngase que el investigador desea real m en te d em o strar que tales diferencias n o existen. Tal vez tra te de d em o strar que algunas teorías en boga a p ro p ó sito de dife ren cias en m ateria de fecundidad son in co rrectas o inadecuadas. O pued e e sp e rar que dichas diferencias n o existen, de m odo que n o ten g a q ue investigar desde los p u n to s d e vista d e clase o de religión al re fe rir las ta sa s de fecundidad a o tras variables. E n los casos que se acaban de m encionar, el investigador se h alla en cierto sentido del lado falso de la hipótesis y debería e s ta r e n consecuencia in teresad o a n te to d o en re d u cir el riesgo d e e rro r de tip o II. E n o tro s térm inos : debería p reo cu p arse a n te to d o de n o re te n e r la hipótesis n u la de la ausencia de di ferencias si e n re alid ad es falsa. De ahí que al escoger u n a región crític a p eq u eñ a n o siem pre se peque de conservador, haciendo a sí difícil d esc artar u n a hipótesis n u la q u e en realidad se desea
reten er. Los niveles de significación com únm ente em pleados en la in v e stig a d o s estad ística son los de .05, .01, y .001. E n vista de lo que se acab a de exponer, el lecto r se h a b rá p ercatad o de que dichos niveles n ad a tienen de sagrado o absoluto. A unque u n a p erso n a fu e ra n o rm alm en te conservadora en el em pleo de los niveles en cuestión, e s ta ría de to d o s m odos en te rre n o m ás fírm e, si realm en te n o deseaba d e sc a rta r la h ip ó tesis nula, adop tan d o ta l vez los niveles .10, .20 o incluso .30, red u cien d o así el riesgo de e rro r de tipo II. Procede h ac er u n a ad v erten cia en relación con la in te rp re ta ción de los re su ltad o s de las p ru e b as de significado, y a que es posible o b tenerlos m ás bien falsos, a u n sirviéndose del nivel .001 y cuando se desea el descarte. Las p ru e b as de significado nos dicen cu án p ro b ab le u n g ru p o dado d e re su ltad o se ría si ciertos su p u esto s fu e ran verdaderos. H ay varios facto res que determ i n an la p ro b ab ilid ad de que estem os en co n d id o n es d e d e sc a rta r dichos supuestos. E l p rim e ro de ellos es el g rad o re al d e falta de p ro p ied ad de los supuestos. Si, p o r ejem plo, la v erdadera p ro b ab ilid ad de caras es .9, es m uy p ro b ab le q u e estem os en condiciones de d e sc a rta r la h ip ó tesis de que p sea .5, p o rq u e po dem os o b ten er efectivam ente u n a p ro p o rció n suficientem ente g rande de caras p a ra te rm in a r e n la región crítica. P o r o tra p arte , si la v erd ad era p ro b a b ilid ad es .53, es m enos p ro b ab le q u e obtengam os los re su ltad o s extrem os necesarios p a ra el d escarte. E l n ú m ero de casos es o tro fa c to r im p o rta n te en la d eterm in a ción de cuán extrem os d eban ser los re su ltad o s a n tes de que el d escarte sea posible. Con sólo 10 lanzam ientos o casos ya vimos que se req u ieren resu ltad o s m uy extrem os p a ra p o d e r d escartar. P ero si N es grande, la proporción de éxitos sólo necesita h acer la h ip ótesis p a r a d ife rir de p en m uy poco p a ra que estem os au torizados a h acerlo. Si la m o n ed a se lan zara al a ire 10 m il veces en lu g ar de 10, estaríam o s e n c o n d id o n es de d e sc a rta r la hipó tesis si obtuviéram os, p o r ejem plo, 5 200 ca ras o m ás. E n o tro s térm in o s : en el su p u esto de q u e p es exactam ente u n a m itad , o sea .5, 5 200 caras o m ás en 10 m il lanzam ientos serían m ás im p robables que 10 ca ras e n 10 lanzam ientos, pese a que los resul tados no sean ni con mucho- ta n extrem os. E sto concuerda, p o r supuesto, con n u e stra m ay o r fe in tu itiv a en grandes m u estras y con la inteligencia de que, en caso de m u estras m uy pequeñas, p o d rían o c u rrir con frecuencia resultados extrem os debidos al m ero azar. Y en fo rm a análoga, con u n a selección de 10 m il p e r sonas podríam os o b te n e r diferencias m u y pequeñas en las tasas d e fecundidad e n tre las m u jere s d e las clases m ed ia e inferior, y estar, con todo, en condiciones de d e sc a rta r la h ip ó tesis nula en el sentido de que no hay diferencia alguna en la población. Con u n n ú m ero m u y grande d e casos resulta casi siem pre
posible descartar cualquier falsa hipótesis q u e pudiéram os fo rm u lar, in d ep en d ien tem ente de cu án to p u ed a d ife rir el valor de nues tr a h ip ó tesis del verdadero. E sto significa que si tenem os 10 m il casos, no d eb erá so rp ren d ern o s m ucho que estem os en condicio nes de d esc artar al nivel .001, y deberem os gu ard arn o s d e com u n ic a r n u e stro hallazgo com o si fu e ra m uy im p o rtan te. E n efecto, no d ebe confundirse la significación estad ística con la práctica. La significación estad ística sólo puede decirnos que ciertas dife ren cias d e m u estras n o o cu rrirían con m u ch a frecuencia p o r azar si n o h u b ie ra diferencias cualesquiera en la población. N ada nos dice, e n cam bio, en cu a n to a la m agnitud o la im p o rtan cia de di chas diferencias. P o r lo tan to , u n fa c to r suficientem ente grande p a ra p ro d u c ir diferencias estad ísticam en te significativas en una m u e stra p eq u eñ a es m ás digno de atención que u n fa c to r que sólo p ro d u ce pequeñas diferencias de las que ún icam en te puede d em o strarse q ue son significativas estad ísticam en te con una m u e s tra m uy grande. Si el estudio co m p o rta u n gran n ú m ero de casos, n o s interesam os p o r lo re g u la r p o r o tras clases de pro b lem as que las p ru e b as de significación. E sta cuestión se ex am in ará m ás a fondo en el capítulo xv, cuando trate m o s de m e didas de g rad o de relación. P o r el m om ento, b a ste señalar que la significación estad ística n o im plica necesariam ente diferencias im p resio n an tes o de las q u e son im p o rtan tes p a ra el sociólogo. Antes de p o d er d e te rm in a r la región crítica hay que a d o p tar o tra clase de decisión. H ay cierto n ú m ero de resu ltad o s o de gru p o s de resu ltad o s cuya p ro b ab ilid ad pu ed e se r m en o r que el nivel seleccionado d e significación. Así, p o r ejem plo, la pro b ab i lid ad de o b ten er exactam ente ocho caras es d e 45/1 024, o sea .044. P o r lo tan to , sería posible, au n q u e n o m uy sagaz, decidir recha z a r la h ip ó tesis n u la e n caso de darse exactam ente ocho caras, y n o rech azarla en o tro caso. L a p ro b a b ilid ad de e rro r de tip o I sería así de .044. La elección de sem ejan te región crítica, sin em bargo, apenas te n d ría sentido teóricam ente, ya que p o r lo re g u la r se vacilaría aú n m ás en cu an to a a c e p ta r la hipótesis n u la si fu e ran a sa lir nueve o diez caras, pese a q u e estas a lte r n ativ as no co rrespondieran a la región crítica. Casi siem pre te nem os in teré s en servirnos p o r lo m enos de u n a cola e n te ra de la d istrib u ció n . E n efecto, n o nos in tere sa la pro b ab ilid ad de ob te n e r exactam ente ocho caras, sino la p ro b ab ilid ad de o b ten er ocho o m ás caras, esto es, la p ro b ab ilid ad de o b ten er ocho ca ra s o algo incluso m ás insólito todavía. P ero, ¿ p o r q ué n o in clu ir en la región crític a cero, u n a y dos caras, ya que dichas altern ativ as son ta n im probables com o las de ocho, nueve y diez c a ra s? A m enudo no estam os en condicio n es de p re v e r en qué dirección puedan p ro d u c irse los resu ltad o s insólitos. E n n u e stro ejem p lo sólo podem os sospechar que la m oneda esté sesgada, p e ro podem os n o te n e r indicio alguno* en
cu an to a si está influida en favor de las caras o de las cruces. Además, esto puede acaso n o im p o rtam o s. E n ta l caso desea ríam os e s ta r seguros y servim os de am bos extrem os de la d istri bución de selección. P orque, si nos sirviéram os de u n a región crítica de sólo ocho, nueve y diez caras, entonces, en caso de
005 F ig . X .l. Com paración de las regiones críticas de pruebas de una
sola cola y d e dos colas, em pleando el nivel de significación de .05 o b ten er exactam ente u n a cara, nos en contraríam os en la situa ción desdichada de n o p o d er d e sc a rta r la hipótesis n u la aun siendo falsa. S in em bargo, h ay c ierto n ú m ero de ocasiones en las que o es tam os en condiciones de p re d ecir la dirección de la desviación, o nos interesam os a n te todo p o r las desviaciones en u n a sola dirección. Así, p o r ejem plo, u n a inform ación p revia p u ed e h a b ernos llevado a p re d ecir q u e la m oneda está a lterad a en favor de las caras. O podem os e s ta r ju g an d o cada vez a cruz, de m odo que, sí la m o n eda está afectad a en favor d e ésta, n o necesitam os ten er m iedo alguno de seguir el juego. E n estudios m ás reales, p o r o tra ‘p arte , re su lta a m enudo posible p re v er la dirección so b re la b ase de la te o ría o de estudios previos. P udo h ab erse p re dicho, p o r ejem plo, que los católicos te n d ría n fam ilias m ás n u m erosas q ue los p ro testan te s. Si se está in teresad o en dem os t r a r que la teo ría de u n o es correcta, sólo se h a rá n p ru eb as de significación cu an d o los resu ltad o s se pro d u cen en la dirección prevista. Si se p ro d u cen en sentido contrario, en cam bio, n o se necesita h a c e r p ru eb a, ya que los dato s n o confirm an de todos m odos la teoría. S iem pre que se haya p redicho la dirección, las p ru e b as de u n a sola cola serán preferibles, al m ism o nivel de significación, a las de dos, ya que será posible o b ten er u n a cola m ayor concentrando la región crítica e n te ra en el extrem o apro p iad o d e la d istrib u ción de m uestreo. E sta v e n ta ja de la p ru e b a de u n a sola cola se ilu stra en la fig u ra X .l en relación con el caso de u n a d istri bución de m u estreo, lisa, que o ste n ta la form a de u n a curva n o r m al. E n dicha figura, las probabilidades de com eter u n e rro r de
tipo I son las m ism as en am bos casos, ya que las dos regiones críticas son del m ism o tam añ o (m edidas en térm inos de áreas). Sin em bargo, si los resu ltad o s o cu rren efectivam ente en la di rección p revista, el investigador te n d rá m ás probabilidades de d e s c a rta r la hipótesis sirviéndose de u n a p ru e b a de u n a sola cola, ya que existe m ayor p ro b ab ilid ad de caer e n la región crítica en la dirección en cuestión. E n efecto, si la v erd ad era p robabili dad está en la dirección prevista, el riesgo de com eter u n e rro r de tip o I I es m en o r que sirviéndose de u n a p ru e b a de dos colas. A estas altu ra s el lecto r n o h a de esp e ra r p o d e r com prender in tu itiv am en te las relaciones e n tre los e rro res de tipo II y las p ru e b as de u n a y dos colas. E n efecto-, m uchas de estas nocio nes m ás b ien difíciles sólo se irá n aclarando u n a vez que se hayan exam inado algunos ejem plos prácticos. El trata m ien to m ás de tallad o de los e rro re s de tip o I I h a de aplazarse h a sta el capí tu lo XIV. P a ra co n c retar en el p re se n te ejem plo, escojam os el nivel de .05 y sirvám onos de u n a p ru e b a de dos colas. La región crítica c o n sta rá e n este caso de las altern ativ as cero, una, nueve y diez caras, ya q ue la inclusión de altern ativ as adicionáles au m en taría la p ro b ab ilid ad de u n e r ro r de tipo I m ás allá del nivel de .05. E n n u e stro ejem plo, el nivel de significación realm en te em pleado será el de (1 + 1 4-10 + 10)/1 024, o sea .022. E n o tro s casos en que la distrib u ció n de m u estras es m ás b ie n continua que dis creta, se rá posible servirse del nivel exacto deseado (v.gr., .05, .0 1 ,0 .0 0 1 ). 4. Cálculo de la estadística de la prueba. Es siem pre necesario calcu lar lo que se designa com o estad ística de la pru eb a, cuya d istrib u ció n de selección h a de em plearse en la pru eb a. H asta aq u í sólo hem os tra ta d o con estadísticas tales com o las p ro p o r ciones de las m u estras, las m edias y las desviaciones están d a r, que son d irectam ente com parables con las m ism as cantidades en la población y pu eden u tiliza rse com o m edidas p a ra re su m ir los datos. La estad ística d e la p ru e b a es u n a estad ística que p o r lo re g u la r n o posee in terés en sí m ism a p o r lo que se refiere a la descripción, p ero que se em plea p a ra verificar hipótesis. Es la estad ística que co ntiene la distribución d e m u estreo la que se u tiliza d irectam en te en la pru eb a. E n o tro s térm in o s: calcula m os de los datos de la m u e stra u n a ca n tid ad que varía de m odo conocido conform e a la te o ría de las probabilidades. C om para m os luego su v alo r con la distrib u ció n de m uestreo, y adoptam os u n a decisión evaluando la p ro babilidad de su ocurrencia. P or su puesto, son m uchas las cantidades que pueden calcularse so b re la b ase de los dato s de las m uestras, p e ro sólo u n pequeño n ú m e ro de ellas tien e distribuciones de m u estreo conocidas q ue p u ed an u tilizarse con fines de verificación de hipótesis. E n este ejem plo de la p ru e b a binom ial, la estad ística de p ru e
b a es ta n sencilla, que casi n o vale la p en a de llam ar la atención del lecto r al respecto. E n efecto, es sencillam ente el nú m ero de éxitos en N ensayos y no re q u ie re cálculo u lte rio r alguno. E n conexión con o tro s problem as, en cam bio, la estad ística de la p ru e b a h a b rá de calcularse. E n el caso de la p ru e b a binoxnial, hem os d ejad o que r to m ara todos los valores posibles, d e cero a N , y hem os luego asociado probabilidades con cada valor. Su pongam os que en este p roblem a concreto, que com porta 10 lan zam ientos, el n ú m ero de éxitos (c a ra s) re su lta se r ocho. Posee m o s ah o ra to d a la inform ación necesaria p a ra ad o p tar una decisión. 5. A dopción de una decisión. D espués de h a b e r elegido su re gión crítica y de h a b e r calculado su estad ística de prueba, el investigador d esc artará o n o d esc artará los supuestos según el re su ltad o del experim ento. Si el re su ltad o queda d en tro de la región crítica, descartará, con u n a p ro b ab ilid ad conocida de e rro r de tip o I. Y si aquél no cae en la región crítica, no d escartará los supuestos, asum iendo el riesgo de com eter u n e rro r de tipo II. E n el p re sen te ejem plo, com o q u iera que el re su ltad o de ocho caras no cae e n la región crítica, no d esc artará la hipótesis nula según la cual la m oneda es insesgada. Desde u n p u n to de vista ideal, to d as las decisiones anteriores a los pasos 4 y 5 deberían to m arse an tes de p ro c ed er a la tabula ción de los resultados. A m enudo, en la lab o r exploratoria el investigador exam inará p rim ero sus datos y pro ced erá luego a h acer p ru eb as de significación. A unque esto sea a veces necesa rio, hay que observar, con todo, que siem pre que o c u rra así n o se están re sp etan d o p o r com pleto las reglas del juego. E n tales casos sería p referib le n o p re te n d e r que se está procediendo real m en te a la verificación de hipótesis. De todos m odos, los resul tad o s p o d rían exponerse en fo rm a sugestiva, y cualquiera que p ro sig a el estu d io e sta rá así en condiciones de efectu ar pru eb as estad ísticas legítim as. ^Los com entarios que preceden po d rán p a re c e r excesivam ente rígidos y am biciosos, dado el c a rá c te r de exploración de gran p a rte de la investigación sociológica. Sin em bargo, el a u to r cree que es p referible fija r u n a "conciencia estad ística" estricta, no d ejan d o la im presión de que las cosas puedan h acerse de cual q u ier m odo. E n efecto, a m enos que se ad opten las decisiones con an terio rid ad al analisis de los datos, no puede hacerse legí tim am en te u so de la teo ría de las probabilidades, ya que el aná lisis es esencialm ente ex post fa d o . Y lo m alo de los análisis ex p o st fa d o está en que el experim ento puede disponerse de tal m odo que el investigador no tenga m an era de p erd er. Supóngase, p o r ejem plo, que haya decidido, a tientas, servirse del nivel de significado .05. Si encu en tra que sus resultados son significativos al nivel de .07, puede decidir d e sc a rta r sus hipótesis de todos
m odos. P ero, supóngase que h a n sido significativos a los niveles .09 o .13 o .18, ¿dónde h a b rá que h acer alto? O tra m anera de h a cer tra m p a consiste en e sp e ra r h asta después del experim ento p a ra d ecidir si hay que servirse o no de u n a p ru e b a de u n a cola. E n tal caso, en efecto, si los resultados dan m ás caras que cru ces, se decide sim plem ente que hubo de h ab e rse utilizado u n a p ru e b a de u n a cola, ya que subconscientem ente se está antici p an d o u n a inclinación en favor de las caras. De este m odo, cual q u iera que sea la dirección de la desviación, se puede o b ten er u n a región crítica m ayor que con u n a p ru e b a de dos colas. X.3. Aplicaciones de la binom ial La prueba del signo. Supóngase que u n sociólogo se está sir viendo de un sim ple esquem a "antes-y-después” o “sólo-después” del experim ento, en el que se da u n pequeño nú m ero de casos y en el que sólo está en condiciones de d eterm in a r p a ra cada u n o d e ellos si su experim ento h a dado o n o resultados.3 Puede, p o r ejem plo, desear sab e r si la experiencia o btenida en un cam po in terra cial es o no eficaz en cuanto a re d u c ir los prejuicios fijos c o n tra los negros. S om ete sus investigados a u n a p ru e b a de p re juicios, an tes y después de la experiencia, y está e n condiciones de ap reciar si el tipo de p reju icio en cuestión h a dism inuido o no. Indiquem os con un + ("éx ito ") los casos en los que el p rejuicio se h a reducido, y con u n — ("fracaso ” ) aquellos en que el p re ju icio h a aum entado. Si hay personas que no m u estran el m e n o r cam bio, éstas qu ed arán excluidas del análisis. A m enos que la m edición haya sido m uy bu rd a, dichas p erso n as serán relati vam ente pocas.4 La binom ial requiere el supuesto de independencia de los ex p erim entos. P or lo tanto, el sociólogo su p o n d rá que su grupo experim ental constituye u n a m u estra aleatoria de la población a cuyo p ro p ó sito se p ro p o n e generalizar, y que en tre los p a rtic i p an tes no se h a p roducido influencia m u tu a alguna, o sólo poca, en cu an to a las m arcas de prejuicio. Supongam os que lo que tra ta de estab lecer es que la experiencia en un. cam po es real m en te eficaz en cu an to a re d u cir los prejuicios. Como q uiera q ue esto no puede hacerse directam ente, puede fo rm u lar la hipó tesis nula en el sentido de que la experiencia n o su rte efecto. Sí efectivam ente no pro d u ce efecto, entonces, si se som etiera a u n a experiencia sem ejante la población e n tera de la que se ex tra jo la m u estra, habríam os d e e sp e ra r en c o n trar el m ism o núm ero de
3 Para el examen de este y otros tipos da esquemas de experimento véa se [6,], 4 El problema de empate o no cambio resulta particulannente molesto en el caso de las variables ordinales, y será discutido en los caps, xiv y xvm. Para una explicación más amplia véase Bradley [3], cap. ni.
p erso n as cuyo p re ju ic io se re d u jo y de aquellas cuyo preju icio au m en tó . E n o tro s té rm in o s: deberíam os te n e r las m ism as p ro porcio n es de signos m ás y signos m enos. Com o q u iera que cada m iem b ro de la población tien e la m ism a p o sibilidad de fig u ra r en u n a m u e stra aleatoria, la probabilidad de o b ten er u n + e n u n a extracción d eterm in ad a cualquiera será de .5 b a jo la hipótesis nula. Así, pues, u n su p u esto acerca de la proporción de signos + en la población p erm ite, si se lo co m b in a con el supuesto' del azar, en u n c ia r algo acerca de la pro babilidad de éxitos e n u n ensayo determ in ad o cualquiera. El azar aseg u ra al p ro p io tiem po la independencia de los experim entos. P erm ítasen os in sistir u n a vez m ás e n que es necesario form ular su p u esto s ta n to acerca d e la población com o acerca del m éto d o d e m uestreo. E n el p re se n te ejem plo, el in teré s se c e n tra e n la eficacia de la experiencia, esto es, en la p ro p o rció n d e éxitos en tre la población. P o r lo tanto, el sociólogo se ase g u rará de que se sirve de p ro cedim ientos correctos p a ra o b te n e r u n a m u e stra aleato ria. Si e n éste hay ocho personas, la distribución d e m u estreo de éxitos sería com o sig u e: N? de éxitos 0 1 2 3 4 5 6 7 8
Probabilidad V 258 = .004 8/ 256 = -031 23/256 = -109 w/sM = .219 TO/ 258 — -274 B8/ 256 = -219 “ / aM = .109 8/ 256 = .031 V M8 = .0W 1.000
Supongam os q u e el sociólogo q u iere em p lear u n nivel de signifi cación d e .05. Com o q u iera que la dirección se h a anticipado, p u ed e u tilizarse u n a p ru e b a de u n a sola cola. La región críti ca p u ed e d eterm in a rse acu m ulando pro b ab ilid ad es a p a r tir de ocho éxitos, luego siete, etcétera, h a s ta que la su m a re su lte m ayor q u e el nivel de significación. P o r lo re g u la r n o será necesario o b te n e r la distrib u ció n de m u estreo en tera, ya que en realid ad sólo se em plean las colas p a ra d e te rm in a r la extensión de la re gión crítica. E n el p re se n te caso, la p ro b ab ilid ad de ocho éxitos es de .004; la p ro b ab ilid ad de siete u ocho éxitos es de .035, y la de seis, siete u ocho éxitos es d e .144. Como q u ie ra q u e la sum a d e las p ro b abilidades de los re su ltad o s en el in te rio r de la re
gión crítica ha de se r m en o r que, o igual al nivel de significación seleccionado, vem os que la región crítica sólo puede co n star de siete u ocho éxitos. Supóngase que el sociólogo efectúa el experim ento y en cu en tra que en seis casos el p rejuicio h a dism inuido, en ta n to que h a au m en tad o en los o tro s dos. E n consecuencia, no d escartará la h ipótesis de que el experim ento no es eficaz, ya que la probabili d ad de o b ten er dicho resultado, o inclusive u n o m ás insólito, es m ay o r que .05. La prueba en el caso de ausencia de azar. E n el ejem plo ante rio r se supuso azar y el interés se ce n trab a en la proporción de éxitos e n tre la población. E n otros tipos de problem as se po d rá te n e r inform ación acerca de la p roporción de personas que reú n en determ inadas características en u n a población, p ero pue de ex istir u n a cuestión acerca de la selectividad. Así, p o r ejem plo, p ued e disponerse u n a p ru e b a p ara v er si los profesionales están o n o rep resen tad o s con exceso en los consejos, o si los negros no están bien rep resen tad o s en el ju rad o . Supóngase que u n al calde designa a nueve personas p a ra u n a com isión, pretendiendo q u e son rep resen tativas, en el sentido de que todos los adultos tienen las m ism as probabilidades de se r elegidos. Es sabido que el 35 p o r ciento de la clase laboral son oficinistas y, con todo, de los nueve m iem bros de la com isión seis son oficinistas; puede utilizarse u n a p ru e b a binom ial p a ra d eterm in a r el grado de p ro b ab ilid ad de sem ejan te distribución profesional en el supuesto d e selección al azar. E n este problem a p artic u la r, la p robabili d ad de éxito p o r d eb ajo de la hipótesis n u la sería de .35, y la distrib u ció n de selección no sería sim étrica. C onsideraríam os cad a u n a de las nueve posiciones de la com isión com o ensayo. La p ro b ab ilid ad de o b ten er com o p rim e r com isionado a u n ofi cin ista sería de .35, y análogam ente p a ra cada u n a d e las ocho posiciones restan tes. O tros em pleos de la binom ial. Adem ás de los citados an terio r m ente, la binom ial p u ed e utilizarse en cierto nú m ero de otros tipos de problem as. E n ocasiones pueden utilizarse m edidas de posición, tales com o la m ediana o los cuartiles, p a ra p erm itim o s v erificar si u n a p equeña su b m u estra d e p erso n as es significativa m en te d istin ta de lo que esperaríam os en caso de azar. De una m u e stra grande es posible o b ten er u n a apreciación m uy buena de la distrib u ció n de los ingresos en relación con u n a ciudad de term in ad a. Si los datos sólo se h an obtenido de seis arm enios y si seis de estas p ersonas ss encuentran en el cuartil inferior, p o dem os efectu ar u n a p ru e b a p ara v er qué grado de probabilidad rev iste esto, a condición, p o r supuesto, de a d o p tar las decisiones con an terio rid ad al experim ento.15 Como q u iera que p o r definición
5 Necesitamos tener un número muy grande de casos, con objeto de obte ner una apreciación exacta de la medida de posición (v.gr., Q ^. En otro
u n c u a rto de la población se e n c o n tra rá en el c u a rtil inferior, la d istrib u ció n b inom ial p ro p o rcio n a la p ro b a b ilid ad de ob ten er u n a d eterm in ad a p ro p o rció n de la su b m u estra p o r deb ajo del c u a rtil de población, en el su p u esto de que dicha su b m u estra co n stitu y a esencialm ente u n a m u e stra al az ar d e la población m ayor. Así, p o r ejem plo, com o q uiera que la p ro b ab ilid ad de que cual q u ier p erso n a d eterm in a d a se en c u en tre en el c u a rtil in ferio r es de .25, la p ro b a b ilid ad de o b te n e r exactam ente seis arm em os en el c u a rtil in ferio r se rla :
««-(!) O tam b ién
w = ( !)
21 m
r
-
(t)W=
16 384 1 16 384
Com o q u iera que necesitam os o b ten er la p ro b a b ilid ad de conse g u ir seis o m ás éxitos, sum am os estas probabilidades y te n e m o s : 21 + 1 P( 6) + P (7 ) = ---------= .0013 16 384 O tro em pleo d e la binom ial p o d ría c o n sistir en c o m p ro b a r el ca rá c te r adecuado d e u n a teo ría que p re d ije ra co rrec ta m e n te la dirección de ciertas diferencias en, p o r ejem plo, 11 d e 15 p ru e b as independientes. P ara que dichas p ru e b as fu e ra n indepen dientes, deberían c o m p o rta r m u estras distin tas. Así, p o r ejem plo, u n a de las m u estras p o d ría c o n sta r d e jóvenes varones p ro testan te s, o tro de jóvenes m uchachas p ro testan te s, o tro de v arones católicos d e m ás edad, etcétera. C ada u n a d e las sub m u estras p o d ría s e r dem asiado p eq u eñ a p a ra p ro p o rc io n a r sig nificación estad ística separadam ente, pero, si las su b m u estras se h u b iera n seleccionado independientem ente, p o d ría em plearse leg ítim am ente u n a binom ial p a ra av eriguar si u n n ú m ero sufi cien te d e sü b m u estras d ab a o n o re su ltad o s en la dirección esti m ad a. C ada su b m u e stra c o n stitu iría e n ta l caso u n ensayo, y la p ro b ab ilid ad de q u e en u n ensayo p a rtic u la r cu alq u iera el r e su ltad o fu e ra en la dirección e stim ad a sería de .5 con base en la hip ó tesis nula, en el sen tid o de q u e la te o ría n o ten ía ab so lu ta m en te n ingún v alor d e estim ación, esto es, e n el sentido de que estim a la dirección erró n eam en te con la m ism a frecuencia q u e lo
caso, en efecto, habrá un grado de error suficiente en dicha apreciación para requerir el empleo de una prueba de dos muestras. La razón de ello se verá claramente una vez que se hayan expuesto las pruebas de dos muestras en el capítulo xm.
hace co rrectam ente. O bsérvese q u e sem eja n te p ru e b a n o p o d ría em p learse si se to m a ra n 15 observaciones sobre la b ase de la m ism a m u e stra de personas. * X.4. Extensiones del binomio Son varios los posibles m étodos p a ra am p liar el plan team ien to b ásico ejem plificado con el em pleo d e la d istrib u ció n binom ial. Aun cu an d o dichos m éto d o s no son usados con frecuencia e n las p ru e b as estad ísticas de las ciencias sociales, debe al m enos cono cerse su existencia. La p rim e ra de ellas es la d istrib u ció n multinominal, utilizable en situaciones e n que se d an m ás d e dos cla ses de eventos. H em os v isto y a que si hay k clases d istin tas de eventos, y si r, es el nú m ero de eventos e n la z-ésima clase, resu l ta rá que el n úm ero de p e rm u ta s p a ra dichos eventos v en d rá dado p o r la expresión N \ / r x \r2\ ■. .rk\. Si los eventos son estad ística m en te indep en d ientes y las pro b ab ilid ad es de o b ten er las distin ta s clases de eventos vienen dados p o r pit con i = 1,2, . . . k, y con k 2 p i = 1, en tal caso la p ro b ab ilid ad d e o b ten er exactamente r L í=i eventos del tip o 1, r 2 eventos del tip o 2, . . . y rk eventos k e n al gún orden particular se rá : (P iP iP i ■■■) (P2P2P 2 • • • ) ■ • • (PkPkPk ■■■) = P ir'P'f* ■ • • Pk*
V_______________ ) \ _______ ._______ I Y Y
V_______________ J V
rt térm ino s r2 térm in o s
rh térm inos
Si m ultiplicam os esta expresión p o r el n ú m ero de p erm u ta cio nes, obtendrem os la fó rm ula P ( r lt r2,
N\ rk) = — — ------------ p / i p 2r* ... pf* ri'.r2l . . . r lc\
Es im p o rtan te o b serv ar que esta fó rm u la nos d a la p ro b ab ili d ad de o b ten er exactamente el n ú m ero especificado de eventos d e cada tipo. Supongam os p o r ejem plo q u e tenem os conocim ien to de q ue u n a escuela contiene 50 p o r ciento de caucásicos, 30 p o r ciento de negros y 20 p o r ciento de o rientales. ¿Cuál es la p ro b a b ilid ad de que el " p rim e r equipo" de fú tb o l contenga exactam en te 3 caucásicos, 7 negros y 1 oriental, b a jo el su p u esto de q u e la com posición racial del eq u ip o e stá su je ta a u n proceso de selec ción p u ra m e n te gobernado p o r el azar? U tilizando la distrib u ció n m ultinom ial, te n d re m o s : P( 3 ,7 ,1 ) = - H L (.5 )3( .3)»(.2)1 = .007 3 !7 !1 !
E ncontram os inm ediatam ente u n a dificultad que crea com pli caciones en el u so de la distribución m ultinom ial e n las pruebas estadísticas. No re su lta obvio en m uchos casos cóm o puede es pecificarse sin am bigüedad u n grupo de soluciones que sean m ás "in frecu en tes” que la ya obtenida. E n este ejem plo se dan varias clases de com binaciones “insólitas". Veam os las sig u ie n te s: el equipo pued e n o c o n tar con negro alguno, o n o in clu ir orientales, p ero ¿qué re su ltad o cae en la región crítica? Si es posible espe cificarlo, p o d rá idearse u n a p ru e b a correcta. Si reunim os por ejem plo a los caucásicos con los orientales, podríam os intere sarnos p o r la p ro b ab ilid ad de o b ten er siete o m ás negros en el equipo. P ero en este caso, com o en otros m uchos, estaríam os utilizando la distribución binom ial y no la m ultinom ial. R esulta posible u n segundo tip o de m odificación de la binom ial cuando se h a estad o m u estrean d o sin reposición u n a población relativa m ente pequeña. Si u n a población de tam año M contiene Aíj ele m entos del tip o 1, M2 elem entos del tip o 2, y, en general, M¡ elem entos del tipo i, y si los tam años correspondientes de la m u estra son N y N it la probabilidad de o b ten er exactam ente N lt N 2, . . . N k casos de cada tipo viene dada p o r lo que se denom ina distribución hipergeom étrica, a sa b e r: P ( N v N 2 ........ N Si deseam os p o r ejem plo d eterm in a r la p ro babilidad de obte n e r exactam ente seis espadas, seis tréboles y u n diam ante en una m ano de b rid g e de tre s ca rtas (to m ad as al azar, p ero sin repo sición), ten d ríam o s: P( 6 ,6 ,1 ) = lo que re su lta u n núm ero sum am ente pequeño. T ropezaríam os de nuevo con la m ism a dificultad al especificar las alternativas que pueden ser consideradas “m ás ra ra s ” que la a n te rio r p a rtic u la r com binación. E n el capítulo xv harem os u n a p ru e b a exacta de F ish er p a ra 2 x 2 tablas, b asad a en la distribución hipergeom étrica, en la que se incluyen sólo dos tipos de eventos. Se observ ará p o r últim o que la distribución binom ial puede ser aproxim ada p o r o tras distribuciones cuando la m u e stra total sea tan grande que haga que los cálculos resu lten aburridos. C uando N es grande y p tiene un valor interm edio, con el p ro d u cto N p > 5, cabe acercarse al binom io m ediante u n a d istribu ción norm al, en cuyo caso podrem os utilizar pru eb as basadas en
proporciones de éxitos. E stas pru eb as serán p re sen tad as e n los cap ítu lo s x i y x m . Se d a a veces el caso de que el tam añ o de la m u e stra sea m o d erad am en te grande, en ta n to que p es m uy pequeño (o sum am en te g ra n d e). P or ejem p lo : p (o q ) puede re fe rirse a u n aconte cim ien to poco usual, ta l com o el c o n tra e r u n a en ferm ed ad o suicidarse. Si planteam os el p ro b lem a de m odo que p se re fie ra a la p ro b ab ilid ad de aquel ra ro evento, de m odo que p < q, y si N p < 5, p o d rá calcularse aproxim adam ente el binom io, haciendo u so d e la d istribución de Poisson, p o r m edio de la siguiente fó rm u la : P( r ) = ■
l re ~ X rl
en la que r se refiere al nú m ero de éxitos en N in te n to s : ?. = Np, y e es la co n stan te n a tu ra l, aproxim adam ente igual a 2.718. H ay tab las p a ra h a lla r los valores de r! y de e ~ x (véase Spiegel [8 ]), m ed ian te cuyo em pleo se reduce el tra b a jo del cálculo. P a ra ilu s tra r el em pleo de la aproxim ación de Poisson, supon gam os que la p ro b a b ilid ad de se r a rre sta d o en u n a localidad de te rm in a d a es de .06, p ero que en u n m u estreo de 50 japonesesn o rteam erican o s ad u lto s sólo u n o de éstos h a sido arrestad o . E n ta l caso N p = 3.0 y ílg -3
P W = ---^---= 3e-8
De m an era análoga P (0 )
3®e-* 0!
en la que convencionalm ente definim os 0! com o la un id ad . Al o b jeto de o b ten er la pro b ab ilid ad de que u n o o m enos de los jap o n eses-n o rteam ericanos sea detenido, sum arem os P ( l ) y P ( 0), o b ten ien d o P ( l ) + P (0 ) = 4e~s = 4(.0498) = .199 X.5. Sum ario E ste capítulo contiene u n a can tid ad considerable de ideas, n u e vas y fu n dam entales, adem ás de exam inar el m ecanism o de la p ro p ia distrib u ción binom ial. E n el capítulo siguiente h ab rem o s de d iscu tir de nuevo, con cierta am plitud, m uchas de estas ideas co m plem entarias, ta n to b a jo la fo rm a de hipótesis acerca de las m edias, com o en función de o tras dos distribuciones de m u estras.
P o d rán o b servarse las im p o rtan tes sem ejanzas que se dan en los pasos o rientados a p ro b a r las hipótesis, y en los conceptos gene rales que h an sido p resentados en este capítulo. R evisem os és tos de nuevo, brevem ente. R esulta en p rim e r lugar necesario fo rm u lar algunos supuestos, tanto acerca d e la población que va a ser estu d iad a com o en re la ción con el m étodo de m u estreo de dicha población. U tilizando tales supuestos y la teo ría de las probabilidades, podrem os hacer afirm aciones específicas acerca de los resultados, con referencia a la hipótesis nula. E n el caso del binom io, p o r ejem plo, aquellos supuestos h acen posible asignar u n valor num érico específico (p o r ejem plo, p = .5) a las probabilidades de éxito de u n a prueba determ inada. P ara to m a r decisiones en cu an to a la región crítica (es d ecir: el g rupo de soluciones p a ra las cuales rechazarem os H q), necesitam os o b ten er lo que se denom ina u n a distribución del m uestreo, es d ec ir: u n a pro b ab ilid ad de distribución que asigna u n a p ro b abilidad num éxica específica a cada solución o a cad a g rupo de soluciones. D ecidirem os a continuación lo relativo al nivel de significación, q ue es la p ro b ab ilid ad de rech azar la hipótesis n ula cuando ésta es en realid ad v erdadera (u n e rro r tip o I). Idealm ente debe h a ' cerse esta decisión evaluando los costos de u n e rro r tip o I p o r com paración con los de u n e rro r tip o II , n o rechazando H 0 cuan do en realid ad es falsa. Al decidir adem ás h ac er uso de una p ru e b a de u n a o de dos colas, queda d eterm in ad a n u e stra región crítica. E ste g rupo de resultados a excluir se en cu en tra acum u lan d o las probabilidades, com enzando con los resultados m ás extrem os y m oviéndose hacia el centro, h a sta que la sum a re su l ta n te de p ro b abilidades sea ligeram ente m en o r que el nivel de significación (p o r ejem plo, .05). Vemos entonces los datos, com putam os la estad ística de p ru e b a (p o r ejem plo, el núm ero de éxitos), y tom am os n u e stra decisión. Si el re su ltad o cae dentro de la región crític a nos verem os obligados a rech azar H n, sa biendo que com eteríam os u n e rro r tip o I con u n a probabilidad igual a la del nivel de significación seleccionado. Si el resu ltad o n o cae d en tro de la región crítica, n o rechazam os la hipótesis, corrien d o en este caso el riesgo de com eter u n e rro r tipo II. Aun cuando es difícil (com o verem os en el cap ítu lo xiv) deter m in ar con exactitud la p ro babilidad de com eter u n e rro r tipo II, pues ello depende de h a sta qué p u n to sea falsa n u e stra hipótesis nula, sabem os que, p ara u n a m u estra de tam año fijo, cuanto m en o r hagam os el riesgo de com eter u n e r ro r tipo I, ta n to m a y o r será el de com eter uno del tipo II. G losario
Distribución binomial Región crítica
Distribución hipergeométrica Modelo versus hipótesis Distribución multinomial Pruebas de una y de dos colas Distribución de Poisson Distribución de muestras Nivel de significación E jercicios
1. En 11 lanzamientos de una moneda insesgada, ¿cuál es la probabi lidad de obtener exactamente cuatro caras? ¿Exactamente siete caras? ¿Menos de tres caras? Respuesta, P(4) = 330/2.048. 2. Supóngase que la moneda del ejercicio anterior está sesgada y que la probabilidad de obtener cara es en realidad. 6. Sin efectuar los cálculos, indíquese de qué modo esto afectaría cada una de las pro babilidades anteriores (esto es, si las aumentaría, las reduciría o las dejaría inalteradas). Respuesta, menor de P(4) 3. Supóngase que se quiere verificar la hipótesis nula, en el sentido de que la moneda es insesgada, echando 11 lanzamientos. Indíquese la región crítica que se utilizaría: a) pa^i una prueba de dos colas al nivel de .05. Respuesta: 0, 1, 10 u 11 caras b) para una prueba de dos colas al nivel de .10 c) para una prueba de dos colas al nivel de .01 d) para una prueba de una sola cola al nivel de .05, anticipando que P (cara) > .5. Respuesta: 9, 10 u 11 caras. e) para una prueba de una sola cola al nivel de .10, anticipando que P(cara) < .5. 4. En una localidad determinada, el 10 por ciento de la población es judía. Un estudio de los consejos de directores de diversas agen cias de servicios indica que de un total de siete presidentes de los consejos cuatro son judíos. ¿Qué probabilidad existe de que esto pueda deberse al azar? En éste y los demás ejercicios que comportan verificación de hipótesis, indíquense los razonamientos y enumérense los supuestos adoptados. Respuesta, P = .0027. 5. Un psicosociólogo tom a 12 grupos que dispone por pares según la estatura. Tiene así seis pares de grupos, en los que cada par de un grupo constituye un grupo experimental y el otro el grupo de control. El experimento comporta un intento de aum entar la cohesión de los grupos, y el experimentador está en condiciones de apreciar si el gru po experimental es o no m ás coherente que el grupo de control con el que ha sido apareado. ¿Cómo puede servirse de la binomial para verificar la hipótesis nula en el sentido de que el experimento es ine ficaz? En este problema han de indicarse todos los supuestos reque ridos, calcularse la distribución de muestreo y proceder a la elección de una región crítica. * 6. Supóngase que se está estudiando un pequeño grupo de 12 per sonas y se desea verificar la hipótesis de que cuanto mayor es el grado de conformación a las normas del grupo tanto más elevada
es la posición de la persona en el grupo. En relación con ambas va riables (conformación y posición) sólo se está en condiciones de apre ciar si el individuo está por encima o por debajo de la mediana. ¿Cómo se utilizaría la binomial para verificar la hipótesis nula de que no existe relación alguna entre dichas variables? No se deje de indi car el razonamiento. * 7. Supóngase que sabemos que la probabilidad de que se cometa suicidio entre un grupo de cierta edad es .003. Se ha descubierto que en una m uestra seleccionada al azar, de 1200 indios navajos del mis mo grupo de edad, no ha habido suicidios. ¿Cuán probable es que esto haya sucedido por pura casualidad? B ibliografía
1. Alder, H. L., y E. B. Roessler: Introduction to Probability and Statistics, 4‘ ed., W. H. Freeman and Company, San Francisco, 1968, cap. 6. 2. Anderson, T. R., y M.Zelditch: A Basic Course in Statistics, 2ed., Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 11. 3. Bradley, J. V.: Distribution-free Statistical Tests, Prentice-Hall, Inc., Englewood Cliffs, N. J., 1968, caps. 3 y 7. 4. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva York, 1963, cap. 5. 5. Pierce, Albert: Fundamentáis of Nonparametric Statistics, Dickenson Publishing Company, Inc., Belmont, Cal., 1970, caps. 9 y 12. 6. Selltiz, C., M. Jahoda, M. Deutsch, y S. W. Cook: Research Methods in Social Relations, Henry Holt and Company, Inc., Nueva York, 1959, cap. 4. 7. Siegel, Sidney: Nonparametric Statistics for the Behavioral Scien ces, McGraw-Hill Book Company, Nueva York, 1956, pp. 36-42. 8. Spiegel, M. R.: Theory and Problems of Statistics, Schaum’s Outline Series, McGraw-Hill Book Company, Nueva York, 1961, cap. 7. 9. Tables of the Binomial Probability Distribution, National Bureau of Standards, Applied Mathematics Series, Núm. 6, 1950.
X I. PR U EB A S D E M U E ST R A S S IM P L E S Q U E IM PLIC A N M E D IA S Y P R O PO R C IO N E S
E n este capítulo nos ocuparem os de verificación de hipótesis acerca de las m edias y las proporciones de poblaciones. La m e dia o la pro p o rció n de u n a m u estra obtenida de u n a sola de éstas se co m p arará con el p a rá m e tro de la hipótesis y se decidirá si ésta debe o n o d escartarse. El lecto r no ta rd a rá en d escu b rir que las p ru eb as de la fo rm a exam inada en este capítulo tienen m ucho m enos u tilid ad p rá ctica que las que co m portan v arias m u estras. A estas altu ra s, sin em bargo, im p o rta m ás o b te n e r u n a b u en a com prensión de las ideas fundam entales que preocu p a rse excesivam ente p o r las aplicaciones prácticas. P or desgra cia, las p ru eb as m ás sencillas no siem pre son las m ás útiles. Se re c o rd a rá que las pru eb as estadísticas que incluyen la binom ial se servían de la regla de la m ultiplicación p a ra o b ten er u n a d istrib u ció n de m u estreo. Pudim os v er en esta fo rm a exactam en te de qué m odo se utilizaba la teo ría de las probabilidades p a ra conseguir dicha d istribución. De aquí en adelante, las considera ciones m atem áticas se van haciendo cada vez m ás com plicadas, a ta l p u n to que, pese al hecho de que sería deseable com prender lo que hay d etrás de cada argum ento, el lecto r h a b rá de em pezar a a c e p ta r cada vez m ás enunciados con la g aran tía de la palabra. Sin duda, hay p ru eb as m atem áticas disponibles, p ero la m ayoría de ellas n ecesita del cálculo o incluso de u n a prep aració n m a te m ática considerablem ente m ayor. X I.1. D istribución en m u estreo de las m edias Un teo rem a relativam ente notable, se b a sa en los m ism os princi pios y reglas de p robabilidades que la binom ial, p ero no se deja co m p ro b ar en u n texto com o éste. Dicho teo rem a puede en u n ciarse así: S i d e una población norm al d e m a g n itu d N con una m edia de \x.y una variancia de cr2 se extraen reiteradas m uestras al azar, la d istribución ¡de selección d e las m edias d e las \muestras será norm al, con la m edia ^ y la variancia o 2/N . E xam inarem os cu idadosam ente lo que dice el teorem a del lím ite central. P artim o s p rim ero de u n a población n orm al, a sabiendas, p o r su puesto, de que en la vida re al sem ejan te población p erfec ta m en te n o rm al n o existe. Nos im aginam os luego a nosotros m is m os extrayendo de la población en cuestión u n nú m ero m uy gran d e de m edias de m ag n itu d N al azar.1 P a ra cada u n a de di chas m u estras obtenem os u n a m edia X . P o r supuesto, estas m fr
i No se confunda el número de muestras de cada una de ellas ( N ).
(que es infinito) con el
tamaño
dias de las m u estras v aria rán algo de u n a a o tra de ellas, pero esperam os, con todo, que se am o n to n arán a lre d ed o r d e la ver d ad era m ed ia p, de la población. E sto es lo que n o s dice el teore m a del lím ite central. Dice que si dibujam os u n a gráfica de la distrib u ció n d e dichas m u estras, el re su ltad o se rá u n a curva n o r m al. P o r o tra p a rte , la desviación e stá n d a r d e esa d istribución
F ig .
X I.1. C om paración de las distribuciones norm ales de m u estreo para m uestras d e tam año d iferen te
n o rm al de las m edias d e las m u estras será de cr/V N . P o r consi guiente, cu an to m ay o r sea el tam añ o escogido de m u estra, tan to m en o r será la desviación e stá n d a r en la d istrib u ció n de las m ues tra s , esto es, ta n to m ayor será el agolpam iento de las m edias de éstas (véase fig u ra X I.l). Si consideram os las m edias d e las m ues tra s com o apreciaciones de la m edia de la población, podem os d ecir que hay c ie rta ca n tid ad de e r ro r en n u e stro proceso de es tim ación, debido a fluctuaciones del m uestreo. P or consiguiente, designam os la desviación e s tá n d a r de u n a d istrib u ció n d e m ues treo com o error estándar. E n e ste caso, el e r ro r e stá n d a r de la m edia, in d icado sim bólicam ente com o o-, es o /\/~ Ñ 7 E l le c to r h a de te n e r claram en te p re se n te que se h allan im pli cadas tre s d istribuciones d istin tas, dos de las cuales acontecen se r ex actam en te norm ales. E n efecto, prim ero tenem os la pobla ción, de la q u e se p re su m e que es norm al, con u n a m edia d e n y u n a v arian cia de o2 [e sc rita en adelante, p a ra abreviar, com o N or(\i, d*)]. E n segundo lugar, tenem os u n a d istrib u ció n de dato s en el interior de cada m uestra. Si N es grande, e s ta distribución será p ro b ab lem en te con to d a razón rep resen ta tiv a de la pobla ción y pu ed e ser, p o r consiguiente, aproxim adam ente norm al. O bsérvese q ue ésta es la única d istribución que se obtiene en fo r m a efectivam ente em pírica.2 Y en tercer lugar, tenem os la distri-
2 Como quiera que ésta es la distribución que el investigador ve efectiva-
bución de selección de u n a estad ística (en este caso, la m edia). Acabam os de v er que la distrib u ció n de m u e stra de la m edia será asim ism o norm al, p ero te n d rá u n a desviación están d a r m enor q u e la población (a m enos q u e el tam añ o de la m u e stra N sea u n o ). La relació n e n tre la población y la d istrib u ció n de m u estreo pued e verse en d iagram a en la figura XI.2. C uanto m ayor sea la
Fig. XI.2. C om paración en tre las distribuciones de la población y d e la m u e stra m ag n itu d N de la m u estra, m ás pun tiag u d a se rá la distribución de selección, com o p u ed e verse en la fig u ra X I. 1. H ay q u e ten er c laram en te p re sen te que, pese a que sus desviaciones e stá n d a r se relacionan directam ente, constituyen, con todo, distribuciones com p letam en te d istin tas. T odos los "caso s’' de la distribución de m u estreo son m edias d e m u estras distin tas. Como e ra cierto en el caso de la binom ial y com o lo será en to d as las dem ás p ru e b as estadísticas, es m ás b ien la distribución de m u estreo y n o la p ob lació n original la que se u tiliza d irectam en te en las p ru e b as de significación. Los supuestos a p ro p ó sito de la población pue d en ap a rec er en el m odelo. M ediante la te o ría de las p ro b ab i lidades los enunciados acerca de la población y de los m étodos d e m u estreo se trad u c en en enunciados acerca de la d istrib u ción de m u estreo. E n resum en, las m edias y las desviaciones e stá n d a r de las tres clases de d istrib u ción son com o sigue: Desviación Media
estándar
Población
{i
o
M uestra
X
s
Distribución de m uestreo
fx
a /y / N
mente, puede haber propensión a confundir esta dase de distribución con la de muestreo.
El teo rem a del lím ite cen tral concuerda con la intuición del sentido' com ún e n que, suponiendo que se hayan evitado d isto r siones, pued e tenerse m ás confianza en la apreciación de la m edia de u n a m u e stra grande que de u n a peq u eñ a.3 Dice, en efecto, que las m edias de las m u estras v aria rán m enos de u n a m u estra a o tra si N es grande. P ero constituye, con todo, u n refinam iento considerable con resp ecto al sentido com ún, en cu an to p ro p o r ciona una indicación de cu á n ta m ás confianza deberíam os ten er si N es au m en tad o e n u n a ca n tid ad determ inada. Así, p o r ejem plo, podem os v er que p a ra p a r tir el e rro r están d a r p o r la m itad necesitam os h ac er N c u a tro veces m ayor. Nos dice asim ism o que cu an to m ás hom ogénea es la población, p a ra em pezar, esto es, cu an to m ás pequeño es el v alor de a, ta n to m en o r es el e rro r están d a r a / y / N y ta n to m ayor el agrupam iento de las m edias de las m u estras alre d ed o r de la m edia de la población. * Puede o frecerse u n a justificación teórica de este im p o rtan te teorem a in tro d u cien d o la idea de las com binaciones lineales, de la que h arem os uso m ás adelante en varias ocasiones. Una m edia es en realid ad u n a función lineal sim ple de las puntuaciones X u 1 ya que X = — (X x + X 2 + . . . + X N). P uede m o strarse , en form a m ás generalizada, que si tenem os u n a variable Y que es u n a com b inación lineal cualquiera de las X {, y si esta X f h a sido selec cionada independientem ente, com o o cu rre cuando sacam os al azar u n a sim ple m u estra, podrem os o b ten er expresiones sim ples de la m edia (v alo r esp erad o ) de Y, y p a ra la variancia de Y. E specíficam ente, si y = cjX j + c2x + C3X 1 + . . . + c¡fX]f y si las X t son seleccionadas independientem ente, entonces E ( Y ) = CíECTí) + c2E ( X 2) + . . . + cnE ( X n )
y V ar Y — a ,/ = c^a * * + c 22ax22 + . . . + a ^ a ^ 2 * E n el caso de las m u estras al azar, el v alor esperado de cada X { es [x. Si situam os cada cy = l / N , entonces Y p asa a conver tirse en la m ed ia de la m u estra, y te n d re m o s : 3 Obsérvese que tenemos más confianza en apreciaciones basadas en grandes muestras; sin embargo, al descartar una hipótesis al nivel de .05, asumimos el mismo' riesgo de un error de tipo I, independientemente de la magnitud de JV. Como veremos dentro de poco, la extensión de la región crítica utilizada en la prueba toma en consideración la magnitud de la muestra, lo que explica la incongruencia aparente.
£ ( X ) = £ ( F ) = ^ - i - J [ 1i + | i + . . . + n ] = ^ ( W í*) = u
y
= —- [ o2 + o2 + . . . + o®] 1
La ú ltim a fó rm u la es consecuencia del hecho de que la varíancia de cada X t es ju sto a2, ya que estam os tra ta n d o en casos in dividuales seleccionados con igual p ro b a b ilid ad de e n tre u n a población con variancia a2. V ista intuitivam ente, la idea es que si rep etim o s u n experim ento consistente e n sac ar el " p rim e r” caso u n g ra n n ú m ero de veces, la distribución de estos p rim ero s casos será ap ro x im adam ente Ñ o r (ji, a2). Lo m ism o o c u rriría con u n a sacad a re p etid a d e segundos casos, etcétera. E l teorem a del lím ite central. E stam os a h o ra en la posibili dad de fo rm u la r u n teo re m a m ás general, conocido con el nom b re de teo rem a del lím ite central, com o sigue: S i se extraen diversas m u estra s de m agnitud N al azar de una población cual quiera ( de la fo rm a que sea ) con una m edia de y una variancia de o2, entonces, a m edida que N crece, la distribución de m ues treo d e las m ed ia s de las m u estra s se aproxim a a la norm alidad, con la m edia \jl y la variancia 5, en donde p < q, podrem os, m ed ian te u n a d istrib u ció n n orm al, aproxim am os a la d istribución bino m ial. Es cierto que en el caso de la d istribución binom ial u tili zam os cifras de éxitos, m ás que proporciones. E l v alor esp erad o del n ú m ero de éxitos re su lta se r N p, y la desviación e stá n d a r del n ú m ero de éxitos es y /N p q . P a ra con v e rtir cad a u n o de ellos e n proporciones podem os dividirlos e n tre N, obten ien d o p com o v alor esperado, y
p a ra la desviación e stá n d a r. Así en el caso de m u estras grandes p o d ríam o s h a b e r fo rm u lad o u n p roblem a binom ial en fo rm a de p ro p o rcio n es, cam biando n u estro s sím bolos a p„ y qu y tra ta n do el p ro b lem a de acuerdo con los procedim ientos señalados en e ste m ism o capítulo. P o r ejem p lo : en el caso de u n a p ru e b a de signo p o dríam os h a b e r utilizado la hipótesis n u la de que p u = .5, co m p aran d o este v alor con la p roporción de éxitos p 8 que se halló en la m u estra. Problem a. El lecto r e stá in teresad o en a p re c ia r el p ro g ram a de u n a agencia de asistencia social individual y h a ex traíd o u n a m u e stra al azar de 125 casos de su archivo. Se h a en contrado q u e el p o rc en taje de los casos favorables es de 55, en co m p ara ción con la n o rm a del 60 p o r ciento. ¿Puede sacarse de ello la conclusión que el éxito de la agencia en cu estió n queda p o r de b a jo de la no rm a? 1. Form ulación de supuestos. N ivel de m edición: escala nom inal dicotóm ica
M o d elo : m u estreo al azar H ip ó te sis: pu = .60 E ste ejem plo es deliberadam ente sem ejan te al an terio r, con o b jeto de p o n er de relieve la diferencia e n las unidades del análi sis. Aquí, en efecto, se estu d ia u n a sola agencia, y la m u e stra es de clientes, que constituyen éxitos o fracasos. E n el ejem p lo de an tes, las u n idades seleccionadas era n las agencias y no los clien tes, y la m edida de cada agencia consistía en el porcentaje de casos favorables. O bsérvese que n o se re q u ie re m ás supuesto acerca de la población que la hipótesis, ya que se supone im plí citam en te que aquélla es bim odal. 2. O btención d e la distribución de m uestreo. La distribución de m u estreo será aproxim adam ente norm al, ya que N es grande. 3. E lección de nivel de significación y región crítica. E n gracia a la variedad, elijam os u n nivel de .02 y u n a p ru e b a de u n a sola cola. 4. Cálculo de la estadística de la prueba. Calculam os Z de la siguiente fo rm a : Pe — Pu -55 — .60 —.05 Z = ——— ——- = --------------------------- = ------------= -1 .1 4 y / p uq J N V [(-6 ° )(.4 0 )]/1 2 5 .0438 O bsérvese que en el denom inador se em plean p„ y qu con prefe re n cia a p s y qs. E n el caso de que el lecto r se viera inclinado a servirse de t en lu g ar de Z, observe que en la hip ó tesis de p u el v alo r de a está determ in ad o p o r la fó rm u la o = V íW «5. Decisión. Del cu ad ro n o rm al p u ed e verse q u e u n a Z de —1.14 o m enos o c u rriría aproxim adam ente el 13 p o r ciento de las veces p o r azar, si los supuestos fu e ra n ciertos. E n consecuencia, n o descartam os la hipótesis al nivel de significación de .02. So b re la base de los dato s disponibles, n o se d eja estab lecer que la agencia se halle p o r d eb ajo de la norm a.
Glosario Teorema del límite central Distribución rectangular Error estándar Distribución t E
jercicios
1. Sirviéndonos del cuadro de números al azar del cuadro B del Apén dice 2 (véase sece. XXI.l para la explicación del empleo de dicho cua dro), elíjanse 10 muestras, de magnitud 4 cada una, de la población de los 65 cosos dados en ol ejercicio 1 del capítulo iv. Calcúlese la
media de cada una de esas 10 m uestras y obténgase la desviación es tándar de estas 10 medias. Se tiene ahora una apreciación bruta y ligeramente distorsionada del error estándar de la media. ¿Cómo se presenta la cifra obtenida en comparación con el error estándar conseguido sirviéndonos del teorema del límite central y empleando para ello la desviación estándar calculada en el ejercicio 2 del capí tulo vx? * 2. Verifiqúese la distribución de selección de la media de tres gol pes de dados del diagrama de la figura XI.5. 3. Una m uestra de magnitud 50 tiene una media de 10.5 y una des viación estándar s de 2.2. Verifiqúese la hipótesis de que la media de la población es de 10.0 sirviéndose: a) de una prueba de una sola cola al nivel de .05, y b) de una prueba de dos colas al nivel de .01. Hágase lo mismo con muestras de tamaños 25 y 100 y compárense los resulta dos. Respuesta, para N = 50, t = 1.59; sin rechazo para a) y b). 4. Supóngase sabido que el ingreso medio anual de trabajadores que en una fábrica trabajan en la línea de ensamble es de $7 000 con una desviación estándar de $900. El lector sospecha que los trabaja dores sindicalmente activos obtendrán ingresos superiores al promedio, y tom a una m uestra aleatoria de 85 de dichos miembros activos, obte niendo una media de $ 7 200 y una desviación estándar de $ 1000. ¿Pue de decirse que los miembros activos del sindicato tengan ingresos notablemente superiores? (Empléese el nivel de ;01.) Respuesta Z = 2.05; no rechazar. 5. Se ha establecido una lista de 200 residentes de una localidad, en edad de voto, y se ha encontrado que de dos candidatos a un cargo el candidato A obtuvo el 54 por ciento de los votos seleccionados. ¿Existe fundamento para suponer que A ganará? Empléese el nivel de .05. Enumérense todos los supuestos que hay que formular. Respuesta, Z = 1.13. 6. Supóngase que se ha normalizado una prueba de medición de los "deseos de uniformidad” de estudiantes universitarios en todo el país. El 50 por ciento de los estudiantes tenía puntuaciones brutas de 26 o más (las puntuaciones altas indicando deseos mayores de uni formidad). Sospechando que estos deseos serán por lo regular más grandes en el caso de adultos sin instrucción universitaria, un soció logo extrae una m uestra aleatoria de adultos de 25 años o mayores, residentes de su localidad. Encuentra: 1) que el 67 por ciento de los 257 adultos sin instrucción universitaria m uestran m arcas de 26 o más altas, y 2) que el 59 por ciento de 80 adultos de instrucción universi taria presentan marcas dentro de dicho margen. a) ¿Puede deducir que las m arcas de cada grupo de adultos en la localidad son significativamente más altas que las correspondientes a los estudiantes universitarios, cuya prueba ha sido estandarizada? (utilícese el nivel .001). b) Supóngase que el sociólogo conoce la distribución exacta entera de las m arcas de los estudiantes universitarios de la prueba. Sobre la base del m aterial del presente capítulo, indíquense algunos proce dimientos alternativos para verificar el significado de las desviaciones de los dos grupos de marcas de los adultos respecto de las marcas normalizadas. ¿Requieren dichos procedimientos alternativos algunos supuestos adicionales? Expliqúese.
B ibliografía
1. Freund, J. E.: Modern Elementary Statistics, 3? ed., Prentice-Hall, Inc., Englewood Cliffs, N. J., 1967, caps. 9 y 11. 2. Hagood, M. J., y D. O. P nce: Statistics for Sociotogists, Henry Holt and Company, Inc., Nueva York, 1952, caps. 15 y 16. 3. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva York, 1963, cap. 10. 4. Wallis, W. A., y H. V. Roberts: Statistics: A New Approach, The Free Press of Glencoe, 111., Chicago, 1956, caps. 11 y 13.
H asta aquí el exam en de la inducción estad ística sólo h a trata d o
de la verificación de hipótesis. A parte de ello puede tam bién h a b e r in terés en la estim ación de p arám etro s de población, y a este tem a se dedica el p resen te capítulo. Después de exami n a r los principios que la estim ación com porta, procederem os a e stu d iar las relaciones existentes e n tre las verificaciones de las estim aciones y las hipótesis. Exam inarem os en dicho m o m en to las m odificaciones que req u ieren p a ra ello la distribución t y las proporciones. Finalm ente, estudiarem os la cuestión gene ra l de la determ in ación del tam año de la m u estra, ilu stran d o el pro b lem a m ed ian te procedim ientos de estim ación. E n los dos capítulos precedentes, el lecto r h a b rá observado que en cierto nú m ero de problem as prácticos la verificación de las hipótesis es im practicable, p o rq u e n o estam os en condiciones de co n c retar algún valor hipotético determ inado p a ra el p arám e tro , p o r ejem plo, (i. V am os a ver ahora en qué form a los p ro c e dim ientos de estim ación pueden p ro p o rcio n ar en tales casos una altern ativ a m uy ú til de las pruebas reales. P or o tra p arte, el so ciólogo pued e ev entualm ente ten er m ayor in terés en las estim a ciones q ue en las verificaciones de hipótesis. Así, p o r ejem plo, en u n a en cu esta el objetivo práctico del estudio puede consistir en estim ar lji p ro p orción de personas que consum en u n d eterm i nad o p ro d u cto o que votan en u n as elecciones. O puede se r n e cesario e stim ar el ingreso m ediano en u n a región, o el núm ero m edio de hijos p o r m atrim onio. Sin duda, las pruebas de hipó tesis concretas p u ed en rev estir cierta u tilid ad en tales casos, p e ro la estim ación constituye, con todo, el procedim iento m ás obvio. H ay b ásicam ente dos clases de estim ación, a saber, la estim a ción del p u n to y la estim ación del intervalo. E n la p rim e ra de ellas nos in tere sa el m e jo r valor singular que pu ed a utilizarse p a ra ap reciar u n p arám etro . Así, p o r ejem plo, podem os ap reciar que el ingreso m edio en la ciudad de Nueva Y ork es de $ 8 500. Sin em bargo, p o r lo re g u la r querem os o b te n e r tam bién alguna idea acerca de cuán exacta sea n u e s tra estim ación. N os g u staría p o d er an ticip ar q u e el p arám etro se sitú a en algún lu g ar de un in terv alo determ inado, o a u n lado u o tro de la estim ación del p u n to . Así, p o r ejem plo, podem os q u e re r fo rm u lar u n enunciado p o r el estilo de "el ingreso m edio en la ciu d ad de Nueva Y ork se sitú a e n tre $ 8 000 y $ 9 000". E stos dos tipos de estim ación se exam inan en las secciones que siguen a continuación.
E l p ro b lem a relativ o a cuál estad ística d eb a em plearse como estim ación de u n p a rá m e tro parece s e r ab so lu tam en te obvio y c o n stitu ir m a te ria de sentido com ún. E n efecto, si se q u iere es tim a r la m ed ia (o la m ed ian a o la desviación e s tá n d a r) de una población, ¿ p o r qué n o servirse d e la m edia (o la m ediana o la desviación e s tá n d a r) de la m uestra? Pese a que en tales casos el sen tid o com ún n o nos p ro p o rcio n aría resu ltad o s dem asiado abe rra n te s, verem os, con todo, q u e el p ro b lem a n o es ta n sencillo com o p arece. O bviam ente, podríam os a p reciar la m ed ia de u n a p oblación en cierto n ú m ero de m an eras distin tas. E n efecto, adem ás de la m ed ia de la m u estra, podríam os servirnos de la m ed ian a o del m odo, o p odríam os u tiliza r u n n ú m ero situado' en m edio de dos valores extrem os, o podríam os u tiliza r com o estim a ción el v alo r de la observación decim otercera. Algunos de esos procedim ientos serían m ejo res que otros. N ecesitam os, p o r con siguiente, criterio s que nos p erm itan a p reciar el grad o de bondad de cada clase de estim ación. E l sociólogo, q u e se sirve de las esta dísticas com o de u n in stru m en to aplicado, ra ra vez n ecesita p re o cu p arse p o r sem ejantes criterios. P o r lo regular, en efecto, sólo se le dice que se sirva de u n a estim ación d eterm in ad a. No obs tan te, vale la p e n a sab e r p o r lo m enos d e cuáles criterio s se sirve el m atem ático al decidir cuál estim ación deba em plearse. Dos de los criterio s m ás im p o rtan tes del m atem ático son el sesgo ( b ia s) y la eficiencia. Vam os a exam inarlos uno p o r uno. E n re lación con o tro s criterio s, tales com o la suficiencia, la consisten cia y el p rin cip io de la m áxim a p robabilidad, el le c to r h a de re c u rrir a textos m ás avanzados. Sesgo. Se dice de u n a estim ación q u e n o es sesgada si la m edia de su d istribución de m u e stre o es exactam ente igual al valor del parám etro que se aprecia. E n o tro s té rm in o s : el v alor esperado a la larg a de la estim ación es el p a rá m e tro m ism o. O bsérvese q u e n ad a se dice aquí acerca del v alor de cualquier re su ltad o de alguna m u e stra p artic u la r. De acu erd o con esta definición, X es u n a estim ación sesgada de jj,, ya que la distribución de m u estreo de X tien e a ¡x com o m edia o v alor esperado. E sto no significa, sin em bargo, q u e podam os e sp e ra r que algún valor p a rtic u la r cu alq u iera de X sea igual a ni sab rem o s nunca, en cualquier p ro b lem a reíd, si la m edia de n u e s tra m u e stra co rresp o n d e o no d e hecho a la m ed ia de la población. H ay que te n e r p resen te que el térm in o sesgo, ta l com o aq u í se em plea, se refiere a los resu ltad o s a la larga. E n la investigación p ráctica, en cam bio, el lecto r pued e e s ta r a c o stu m b ra d o a servirse del térm in o p ara re ferirse a las p ropiedades de la m u e stra p a rtic u la r q u e haya extraído.
Ya se dijo e n el cap ítu lo a n te rio r q u e la desviación están d a r 5 de la m u e stra es u n a estim ación ligeram ente sesgada de o . La
estad ística s tien e u n a distrib u ció n de selección, lo m ism o que la tien e X . E n o tro s térm in o s, las desviaciones e stá n d a r de la m u e stra esta rá n d istrib u id as alred ed o r de las desviaciones e stán d a r de la población real, del m ism o m odo e n q u e las m edias de las m u estras se d istrib u y en alre d ed o r de ja. S in em bargo, p u ed e d e m o stra rse m atem áticam en te que la m edia de la distribución d e m u estreo de s 2 es [Af — l/AHcr2, y n o o2. P o r consiguiente, s 2 es u n a estim ació n sesgada de a2. P ara h a lla r u n a estim ación no sesgada de o2, tom am os la can tid a d :
N
N
S ( X t ~ X )2 4=1
N - l
N - l
N
-------- 52 = -----------------------------I ( X t - X )2 «=i
Como q u iera q u e la d istrib u ció n de m u estreo de s2 es [ N —l / N ] o 2 vem os q u e a 2 tiene u n a distribución de m u e stre o de m edia exac tam en te igual a : N
[/
N -l
\
1
Si b ien la razón b ásica d e p o r qué sea a 2 (y n o s2) la estim a ción n o sesgada es que los m atem áticos o p e ra n en esta form a, a v ec es; con todo, se da de ello u n a explicación in tu itiv a e n té r m in o del concepto de los grados d e libertad, térm in o q u e será u sad o en capítulos p o sterio res. El n ú m ero de los grados de lib e rta d es igual al nú m ero de cantidades desconocidas m enos el n ú m ero d e ecuaciones independientes que ligan esta s incógnitas. E l lecto r re co rd a rá que, con o b jeto de llegar a u n a solución única de u n sistem a de ecuaciones algebraicas sim ultáneas, se necesi tab a el m ism o n ú m ero de ecuaciones que de incógnitas. Así, pues, p a ra p o d er resolver en relación con X , Y y Z se necesitan tre s ecuaciones que liguen e n tre sí estas variables. Si sólo se tuvie ra n dos ecuaciones, entonces se p o d ría asig n ar a alguna de las variables, p o r ejem p lo Z, cu alq u ier valor q u e se nos an to jara. Los valores de las o tra s dos variables p o d rían entonces se r d e te r m inados m ed ian te las dos ecuaciones sim ultáneas. Si se tu v ieran cinco incógnitas y sólo tre s ecuaciones p o r reso lv er sim ultánea m ente, entonces se p o d rían asig n ar valores a rb itra rio s a dos
cualesquiera de las incógnitas, y los valores de las dem ás incóg nitas estarían determ inados. E n este caso tendríam os dos grados de libertad, ya q ue podem os a trib u ir lib rem en te valores a dos variables cualesquiera. Al calcular u n a desviación e stá n d a r de valores de la m uestra, hem os de servirnos de u n a ecuación que ligue las N variables X
F ig .
X II.l. Comparación de las distribuciones de m aestreo de una estim ación sesgada, con alta eficacia, y una estim ación no sesgada, de eficacia m enor N
_
a la m edia de la m uestra, o sea la ecuación 2 X J N — X . Dado
_
1.645. b ) R e chace si Z < —1.645. c) Rechace si Z > 1.96 o si Z < —1.96. (Con la au torización de W. J. Dixon y F. J. M assey, " In tro d u ctio n to S ta tistical Analysis'', McGraw-Hill B ook Com pany. N ueva Y ork, 1957, fig. 14.5, p. 249.) Al co m p arar las p ru e b as de u n a y de dos colas, hem os visto q ue u n a p ru e b a d eterm in a d a p u ed e se r m ás fu e rte e n relación con ciertas altern ativ as y m enos fu e rte e n relación con o tras. E n térm in o s generales, esto puede o c u rrir tam b ién al co m p arar dos clases m uy d istin ta s de pruebas. Así, p o r ejem plo, no ta rd a re m o s en v er que u n a p ru e b a no p a ra m é tric a p a rtic u la r puede se r m ás fu e rte que o tra e n u n determ inado con ju n to de circuns-
ta n d a s , p ero m enos en otras. Es este hecho lo que hace que sea difícil d esa rro llar generalizaciones relativam ente sim ples a p ro p ó sito de la su p erio rid ad de u n a p ru e b a resp ecto de o tra. Y la situación se com plica adem ás p o r el hecho de que u n a p ru eb a po d rá ser fu e rte en relación con m u estras grandes, p e ro relativa m en te m enos e n el caso de m u estras pequeñas. P or supuesto, la fu erza de cu alquier p ru e b a determ in ad a au m en ta rá con el tam año de la m u estra, ya que p a ra cualquier nivel de significación d eter m inado el au m en to del tam año de la m u estra hace posible des c a rta r la hipótesis n u la con m enores desviaciones resp ecto de los valores anticipados. H em os visto, p o r ejem plo, que el e rro r es tá n d a r de la m edia decrece a m edida que crece N y que, p o r con siguiente, a m edida que N aum enta, 1a. m edia de la m u estra ha de q u ed ar m ás cerca del valor tom ado com o hipótesis p a ra que podam os re te n e r H 0. Lo que decim os, pues, es que podem os des c a rta r m ás fácilm ente u n a hipótesis falsa cuando N es grande. S in em bargo, au n q u e la fuerza de u n a p ru e b a p u ed a au m en ta r al au m en tar N, la tasa del aum ento de fuerza puede n o se r la m is m a p a ra to d as las pruebas. P or lo tan to , u n a p ru e b a de fuerza relativam ente débil con u n a N peq u eñ a puede acaso "alcanzar” a otra, de m odo que la p rim era sea en realid ad m ás fu e rte en el caso de m u estras grandes. Con o b jeto de co m p arar la fuerza relativ a de dos pruebas, po dem os p re g u n ta rn o s cuántos casos se n ecesitarían con la prim era p a ra o b ten er la m ism a fuerza que con un n ú m ero determ inado de casos de la segunda. P or lo re g u la r com param os la fuerza de u n a p ru e b a d eterm in ad a con la de la altern ativ a m ás fuerte. En el caso de las tre s p rim eras pru eb as n o p aram étricas exam inadas en este capítulo, la altern ativ a m ás fu e rte será la p ru e b a t p ara la diferencia de las m edias. Se em plea com únm ente el térm ino de eficiencia d e la fuerza p a ra designar la fuerza d© tina p ru eb a determ in ad a en relación con su altern ativ a m ás fu e rte. Si desig nam os la eficiencia de la fuerza de u n a de dichas pru eb as no pa ra m étricas com o del 95 p o r ciento, querem os decir que la fuerza de la p ru eb a n o p aram étrica sirviéndose de 100 casos es aproxi m adam ente la m ism a que la de la p ru e b a t sirviéndose de 95 casos, si el m odelo em pleado en la prueba t as correcto. Como q u iera que es necesario su poner u n a d eterm in ad a form a de la población p a ra p o d er evaluar la fuerza de u n a prueba, nos im aginam os, en la ilustración an terio r, que tenem os en realidad u n nivel de m edición de escala d e intervalo y que las dos pobla ciones son n orm ales en cuanto a la form a. Al d eterm in a r la efi ciencia de la fuerza de la p ru eb a no' param étrica, nos estam os fund am en talm ente p reguntando a nosotros m ism os cu án to nos co stará el d e ja r de acep tar el supuesto de no rm alid ad si sem e ja n te supuesto- fu e ra de hecho legítim o. Aquí vem os que el hecho de d e ja r de a c e p ta r dicho supuesto y n u estro em pleo consecuen
te de la p ru e b a n o p a ra m é tric a nos co staría cinco casos ad icio nales p o r encim a de los 95 utilizados en la p ru e b a de la d iferen cia de las m edias. Con u n a p érd id a de eficiencia ta n pequeña, es p ro b a b le que seguiríam os adelante con la p ru e b a n o p aram étrica si tuviéram os la m en o r duda respecto de los supuestos req u erid o s p o r aquélla. P o r o tra p a rte , si la eficiencia de la fuerza sólo fuera del 60 p o r ciento y si los alejam ientos re sp ecto de la no rm alid ad no fu eran demasiado* gran d es (o si N fu e ra gran d e) nos serv iría m os p ro b ab lem en te de la p ru e b a de la d iferencia de las m edias. Como ya se indicó en el cap ítu lo precedente, cuando las m u estras son pequeñas necesitam os p reo cuparnos m ás p o r el su p u esto de n o rm alidad. E n el caso de N peq u eñ a n o será p o r lo re g u la r posible tra d u c ir enunciados de eficiencia de la fuerza en com paraciones de tam añ o s exactos d e m u estras, y a que estas ú ltim as cantidades h a n de se r siem pre en teras. Así, p o r ejem plo, con 95 p o r ciento de eficacia, u n a m u e s tra de tam añ o 10 q u e se sirv iera de la p ru e b a n o p ara m é tric a sería equivalente de form a ap ro x im ad a a u n a de 9.5 que se sirviera de la p ru e b a t. Pese a que sem ejan te en unciado n o tenga sen tid o desde el p u n to de vista operacional, ayuda, p o r lo m enos, a estab lecer com paraciones. Antes de te rm in a r e sta sección, conviene re c o rd a r u n a vez m ás q ue la eficiencia de la fuerza de u n a p ru e b a d eterm in ad a puede d ep en d er del tam añ o de la m u e stra seleccionada. P uede se r m uy eficaz en relación con m u estras pequeñas, p e ro m ucho m enos efi caz e n el caso de m u estras grandes. XIV.2. La prueba de las secuencias (ru n s ) d e W ald-W olfow itz E n la p ru e b a de las secuencias, así com o en las o tras dos p ru e b as q u e se ex am inarán en este capítulo a continuación, supone m os que tenem os dos m u estras alea to rias independientes y que el nivel de m edición es p o r lo m enos u n a escala ordinal. E n las tre s p ru eb as en cuestión, n u e s tra h ip ó tesis n u la será que las dos m u estras se h an e x tra íd o de la m ism a población co n tin u a (o de poblaciones id én ticas). La dim ensión subyacente se su p o n d rá se r continua, y n o d iscreta, aunque adm itam os que puedan re s u lta r datos ligados e n tre sí, debido a la im perfección del in stru m e n to d e m edición. La hipótesis de que las dos m u estras se h ayan to m ad o de la m ism a población es en re alid ad m uy sim ilar a n u es tro su p u esto en la p ru e b a de la d iferencia de las m edias. E n efecto, com o ya se indicó an terio rm en te, cu an d o ju n tam o s los su p u esto s de norm alidad, de, variancias iguales y de m edias ta m b ién iguales, suponem os en realidad que las dos poblaciones son idénticas. E n el caso de la p ru e b a d e las secuencias, ponem os la h ip ótesis de q ue las dos poblaciones p re se n ta n exactam ente la m ism a fo rm a y p u ed e n p o r consiguiente to m arse como* iguales. Sin em bargo, no necesitam os especificar la n atu raleza d e dicha
form a. É sta p o d rá s e r norm al o no serlo. P or lo tan to , hacem os u n con ju n to de supuestos m ás débil que el que se requiere en la p ru eb a de la diferencia de las m edias, o sea, m ás débil en el sen tido de que la p ru e b a de la diferencia de las m edias ( con o igua les) req u iere todos los supuestos de la pru eb a de las secuencias, con el supuesto, adem ás, de n orm alidad y el em pleo de u n a esca la de intervalo. En la p ru eb a de la diferencia de las m edias n u estro interés se ce n tra en diferencias de la tendencia central m ás que en las diferencias de dispersión o- de form a. La p ru e b a de las secuen cias, en cam bio, verifica esencialm ente todas esas posibles dife rencias sim ultáneam ente. Como verem os en seguida, su em pleo p rincipal está en la verificación de diferencias de dispersión o de form a, ya que, p a ra la verificación de diferencias de la tendencia central, h ay p ru eb as no p aram étricas m ás eficaces. Obsérvese, de paso, que la hipótesis n ula se h a establecido e n térm inos de m edias o de desviaciones están d ar, sino- m ás bien en térm inos de diferencias cualesquiera. Eso se aplica tam b ién a las pruebas no p aram étricas a exam inar en el p resen te capítulo. Con las es calas ordinales no tiene sentido, p o r supuesto, p en sa r en térm inos de m edias y de desviaciones están d ar. El principio básico im plicado en la p ru e b a de las secuencias es m uy sencillo, lo m ism o que los cálculos. Tom am os p rim ero los datos de am bas m u estras y ordenam os los datos de los m ás al tos a los m ás bajos, prescindiendo1 de que provienen de m u estras d istintas. Si la hipótesis nula es correcta, confiam os en que las dos m u estras e starán bien m ezcladas. En otros térm in o s: no con tam os con u n a gran serie de datos de la p rim era m u e stra seguida p o r o tra larga serie de datos de la segunda. Así, p o r ejem plo, si designam os las m u estras como A y B, esperam os que la ordena ción re su lta rá m ás o m enos com o sigue: ABBABAAABABBABBAAABAAB y no com o AAAAAAAAABABBBBBBBBBBB Con o b jeto de com probar h a sta qué p u n to las dos m u estras están m ezcladas u n a vez ordenadas, contam os sim plem ente el n ú m ero de series continuas que se producen. La secuencia se define com o serie co n tinua de datos de la m ism a m uestra. E n el p rim ero de los dos ejem plos anteriores tenem os u n a secuencia de u n a sola A, seguida de u n a serie de dos B, luego una sola A, u n a sola B, u n a serie de tres A, etcétera. El núm ero to tal de secuencias es, p o r lo- tan to, de 14. E n el segundo* ejem plo, en cam bio, las A están agrupadas en la m ita d in ferio r dél continuo, y sólo tenem os cuatro1 secuencias o runs. P or lo regular, el cóm puto de las se cuencias se facilitará evitándose adem ás erro res, trazan d o una
línea d ebajo de los datos de la prim era m u estra y u n a raya a r r i b a de las de la segunda. E n esta form a sólo necesitam os c o n tar el n ú m ero de ray itas separadas. Si el núm ero de las secuencias es grande, com o en el p rim e r ejem plo, entonces las dos m u estras e sta rá n ta n bien m ezcladas que no estarem os en condiciones de d e sc a rta r la h ipótesis nula. P or o tra p arte, u n núm ero reducido de secuencias significa probablem ente que la hipótesis es inco rre c ta y d ebería descartarse. La distribución de m uestreo de las secuencias p u ed e utilizarse p ara establecer la región crítica de la que nos servim os p a ra d esc artar la hipótesis nula. P roblem a. Supóngase que unos jueces h an ordenado 19 organi zaciones sociales de acuerdo con el prestigio de las m ism as, a tri b uyendo u n a p u n tu ació n de 1 a la de m ayor prestigio y de 19 a la in ferio r. Diez de dichos grupos restringen la adm isión a los no judíos, en ta n to que los otros 9 adm iten tam b ién a éstos. S u p o niendo que dichas organizaciones sociales se h an seleccionado al azar so b re la b a se de u n a lista de todas las dem ás organizaciones sociales de la localidad, ¿podem os llegar a la conclusión de que en la población se da u n a diferencia significativa de p restigio en tre las organizaciones sociales restrictivas y las no restrictivas? A dm isión restrictiva: Rangos 1, 2, 4, 5, 6, 7, 9, 11, 14, 17 (N 1 = 10) A dm isión no restrictiva: Rangos, 3, 8, 10, 12, 13, 15, 16, 18, 19 ( t f a = 9) 1. Supuestos. N ivel de m e d ic ió n : el prestigio com o escala ordinal M odelo: m u estras aleatorias independientes H ip ó te s is : las m u estras se han extraído de poblaciones con las m ism as distribuciones continuas. 2. D istribución de m uestreo. Si tanto N t corno No son m enores o iguales a 20, la d istrib u ció n de m uestreo exacta del nú m ero de secuencias r está dada en el cuadro E del A péndice 2. P ara N m a yores, la distrib u ción de m uestreo de r es aproxim adam ente n o r m al, con la m edia =
2N1N 2 = ----- — + 1 ^ Nx+ N2
(X IV .l)
iv
y la desviación e s tá n d a r = ar
V
M
A
M
- N, -
n
2)
(N 1 + N 2) H N 1 + N 2 - l ) ( XI V. 2 )
Obsérvese que, au n q u e n o se suponga la no rm alid ad de la pobla ción, la d istrib u ció n de m uestreo de r será aproxim adam ente n o r
m al, incluso con N pequeñas. Como habrem os d e v e r e n segui da, cierto n ú m ero de estadísticas de p ru e b a n o p a ra m é tric a s poseen tam b ién esta propiedad. O bsérvese asim ism o que las fó rm u las de la m edia y del e rro r e stá n d a r sólo c o m p o rta n los ta m años de las m u e stra s y n o req u ieren , p o r lo ta n to , q u e p roceda m os a a p reciar los p a rá m e tro s de la población, com o e r a el caso con la p ru e b a de la diferencia de las m edias. La sim plicidad co m p arativ a d e las fórm ulas d e las distribuciones d e m u estreo de las estad ísticas no p aram étrica s se debe en p a r te al h ech o que, com o q u iera que las m arcas se h a n ordenado y h a n d e to m ar siem pre, p o r consiguiente, los valores num éricos 1, 2, 3, . . . , N, las m agnitudes tales com o la sum a y la desviación e s tá n d a r de los ó rdenes dependen únicam ente del n ú m ero de casos em pleado. 3. N ivel d e significación y región crítica. Como q u ie ra q u e el cu ad ro E, A péndice 2, sólo d a el n ú m ero de secuencias necesarias p a ra el d esc arte al nivel d e .05, nos vem os reducidos, e n relación con m u estras pequeñas, a dicho nivel de significación, p ese a que pueden en c o n trarse cuadros m ás com pletos e n [9 ]. O bsérvese que la p ru e b a de las secuencias n o to m a en consideración la di rección de la relación e n tre el prestig io y la re stric ció n de adm i sión. P o r o tra p a rte , cuando nos servim os de la d istrib u ció n de m u estreo de r, sólo estam os interesados en u n a cola, ya que sólo podem os d e sc a rta r la hipótesis n u la si hay u n p eq u eñ o n ú m ero de secuencias (in d ep en d ien tem en te de la dirección de la d iferen cia).1 E n sen tid o estricto, pues, em pleam os la p ru e b a de las secuencias com o p ru e b a de u n a sola cola, p ese a que no> se haya an ticip ad o la dirección de la relación. La m ism a situación se nos p re s e n ta rá con la p ru e b a d e M ann-W hitney, que se exa m in a en la sección siguiente, así com o en o tra s p ru e b as im por tan tes de las q u e habrem os de o cu p am o s en capítulos subsiguien tes. Con o b jeto de ev itar am bigüedades, distinguirem os, p o r lo tan to , e n tre p ru e b as de u n a sola cola y las situaciones en las que la dirección se haya anticipado. H a sta aquí sem ejan te distinción n o e ra necesaria, ya que to d as las p ru e b as de u n a sola cola com p o rtab a n predicciones en relación con la dirección. E n el caso de distribuciones de m u estras n o rm ales ya hem os visto que, cuando Ja dirección fu e prevista, cortábam os a la m itad u n nivel significativo al u tiliza r u n a sola cola de la distribución de m uestreo. E n el caso de las p ru e b as en secuencia y en el de o tras diversas aplicaciones, habrem os de confiar en o tro tipo de ju sti ficaciones al c o rta r p o r m ita d los niveles de significación cuando la dirección h a sido predicha. E n el cu rso del p resen te ejem plo
i Sin embargo, hay otras aplicaciones de la prueba de las secuencias en las que pueden emplearse las dos colas. Así, por ejemplo, puede haber acaso demasiadas secuencias si las muestras se han mezclado más bien artificialmente que al azar, y este hecho puede utilizarse en una prueba del grado de aleatoriedad.
supongam os que n o hay diferencia alguna en la población de las organizaciones sociales e n relación con el prestigio de las organi zaciones restrictivas y n o restrictivas. Llam em os A al aconteci m ien to consistente en h a b e r logrado resu ltad o s significativos a un nivel de, p o r ejem plo, .05 sin h ab e r p red ich o la dirección. C lara m ente P( A) = .05. Llam em os ahora B al acontecim iento que con siste en que la dirección de la diferencia de las m u estras es la predicha, suponiendo que no se den diferencias algunas en la po blación. E n tal caso, P( B ) = .5 si prescindim os de la p ro babilidad de que la diferencia sea exactam ente igual a cero. Como A y B serán no rm alm en te dos acontecim ientos sep a ra dos, tendrem os que la p ro babilidad de lo g rar significación al n i vel .05, sin p re d ecir la dirección y la pro b ab ilid ad de p re d ecir co rrectam en te la dirección, vendrá dada p o r P( A&B) = P( A ) P( B) = (.05) (.5) = .025. P odrá utilizarse este m ism o principio en cuan tas ocasiones la distribución de m u estreo de u n a estad ística de p ru e b a sea, o b ien sim étrica, o bien insensible a la dirección de u n a diferencia. Si hubiéram os estado, p o r ejem plo, interesados en co m p arar tre s m u estras ( com o vam os a h acer en los dos capí tu los próxim os), y si hubiéram os podido p re d ecir el o rd e n exac to de estas diferencias (p o r ejem plo > X 3), la p ro b ab ili d ad de o b ten er diferencias en este o rd en exactam ente sería de 1 / 6, b a jo el su p u esto d e q u e = ¡i2 = yis, pudiendo en tal caso d ar ju stificad am en te com o 1/6 el nivel de significación sin h a b e r p re dicho la dirección. P o r supuesto que e ste procedim iento se p re sta al razonam iento ex p o st jacto, y sólo pu ed e aplicarse a condición de que las predicciones h ayan precedido al exam en de los datos. Los núm eros en el cu ad ro nos d an el n ú m ero de secuencias que b rin d a rá n significación al nivel de .05, suponiendo que no se haya pred ich o la dirección. C ualquier valor de r, p o r lo tan to , que sea igual o m en o r que la cifra del cuadro nos in d icará q u e tenem os ta n po cas secuencias q u e b ien podem os rech azar la hipótesis nula a este nivel. Como el nú m ero de casos en las dos m u estras es de diez y nueve, respectivam ente, verem os que podrem os recha zarla si obtenem os seis o m enos secuencias. 4. Cálculo d e la estadística de la prueba. Si disponem os las o r ganizaciones p o r o rd en de prestigio y trazam os líneas debajo de los datos de la p rim e ra m u estra y a rrib a de las del segundo, vem os que se dan 12 secuencias. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Pese a que el n ú m ero de casos es u n po co pequeño p a ra que se verifique la aproxim ación norm al, podem os con to d o seguir ad elan te con el cálculo, sirviéndonos de e s ta aproxim ación p ara
ilu s tra r su em pleo y co m p arar los resu ltad o s con los que se ob tienen sirviéndose del cu ad ro E del Apéndice 2. Como de costum bre, calculam os el valor de Z, que nos dirá a cu á n ta s desviaciones e stán d a r se sitú a el n ú m ero de secuencias obten id o respecto de la m edia o n ú m ero de secuencias esp erad o con la hipótesis nula. Así, pues, 2(10)(9) m = ------------ + l = 10.47 ^ 10 + 9
0
, 2 (1 0 )(9 )[2 (1 0 )(9 ) — 10 — 9] *
------------------------------------------= 2. 11
(19)2(18)
Tenem os p o r consiguiente: r-Ur 12 - 10.47 Z = ----- üü = ---------------= .725 crr 2.11 Como q u iera que el n ú m ero de secuencias obten id o es efectiva m ente m ay or que la m ed ia o el núm ero esperado, n o necesitam os proseguir, ya que p a ra el rechace de la hipótesis se necesitan núm eros p equeños de secuencias. Si el n ú m ero de secuencias h u b iera sido m en o r que el esperado, habríam os buscado el valor de Z en el cu ad ro norm al, u san d o el cu ad ro com o si estuviéram os haciendo u n a p ru e b a de dos colas (es d ec ir: rechazando al nivel .05 si Z < — 1.96). 5. Decisión. Ya que el nú m ero de secuencias h a re su ltad o ser m ayor que seis, c ifra indicada en el cuadro E, decidim os no des c a rta r la h ipótesis n ula al nivel de .05. Como acabam os de ver, el em pleo d e la aproxim ación n orm al nos conduce tam bién a la m ism a conclusión. Sobre la base de n u estro s datos, concluim os, en consecuencia, que n o existe diferencia e n tre los dos tipos de organización en lo relativo al prestigio. E m p a tes. E n los datos an terio res n o h a hab id o dos organizacio nes que tu v ieran m arcas em patadas. El supuesto de la continui dad subyacente excluye teóricam ente la posibilidad de em pates, ya que dos m arcas no serán n u n ca ex actam ente iguales. Sin em bargo, debido a im perfecciones de m edición, y sem ejantes im perfecciones se d a rá n casi seguram ente en la m ayoría de la in vestigación social, e n la p rá ctica sem ejantes em pates se p resen tan . O bsérvese q u e si dos organizaciones de la m ism a m u e stra hubie ra n estado1 em patadas en relación con las m arcas de prestigio, la p ru e b a de las secuencias n o h a b ría sido afectada. Pero, supón gase que los em pates se p ro d u c ía n e n tre las m u estras. E n tal caso, el n ú m ero de secuencias p u ed e re s u lta r considerablem ente
afectado, según la fo rm a en que los em pates se rom pan. Supón gase, p o r ejem plo, que dos organizaciones (de m u estras d istin tas) h u b iera n estado ligadas p o r lo que se re fie re a la octava y novena posiciones. Si estas posiciones se h u b iera n desplazado1 del orden an terio rm en te em pleado, habríam os obtenido 10 secuencias en lu g ar de 12. E n o tro s térm inos, ob ten d ríam o s 10 secuencias o 12, según el o rd en em pleado. Y com o q uiera que dicho ord en sería to talm e n te arb itra rio , podríam os en co n trarn o s con que a veces d escartam o s y o tra s veces dejam os de d e sc a rta r la hipótesis nula. E l p ro ced im ien to m ás seguro que podem os u tilizar en el caso* de em pates consiste e n c o n ta r el núm ero de secuencias sirviéndonos de todos los m edios posibles de ro m p erlas. Y si todos los o rd e nam ien to s conducen a la m ism a decisión (la de d e sc a rta r o de no d e sc a rta r), entonces nos podem os a d h e rir a la m ism a con seguridad. P ero si conducen a decisiones distin tas, se rá posible resolver el p ro b lem a echando u n a m oneda al aire, p e ro ta l vez el pro ced im ien to m ás seguro consista, e n ta l caso, en suspender el juicio. B radley recom ienda [1] u n inteligente procedim iento con sisten te en fa cilitar al lecto r la gam a de probabilidades obte n id as al ro m p er em pates p o r todos los m étodos posibles. Es evi d en te que si se da u n g ra n núm ero de órdenes con em pates, la estad ística de la p ru e b a n o deberá se r usada. XIV.3. La prueba d e M ann-W hitney o de W ilcoxon O tra p ru e b a n o p a ra m é tric a q u e p u ed e em plearse en las situacio nes en que la p ru e b a de las secuencias re su lta apropiada es u n a p ru e b a que p arece h a b e r sido inventada independientem ente p o r cierto n ú m ero de p erso n as y se conoce com únm ente con el nom b re de p ru eb a de M ann-W hitney o de W ilcoxon. E sta p ru e b a req u iere exactam ente los m ism os supuestos que la de las secuen cias y, lo m ism o que ésta, com porta u n p rocedim iento m uy sim ple. C om binam os n uevam ente los datos de las dos m u estras y las ordenam os de 1 a 19. C entram os a continuación n u e stra atención en la segunda m u e stra (o en la que sea m en o r). Tom ando cada dato de la segunda m u estra, contam os el nú m ero de datos de la p rim era m u estra que tengan u n orden m ayor. Una vez hecho esto con cada uno de los datos de la segunda m u estra, sum am os los resu ltad o s, que nos dan la estadística V. La distribución de m ues tre o de U puede o b ten erse exactam ente si las N son pequeñas, o se puede o b ten er con aproxim ación p o r m edio de u n a curva n o r m al en el caso de m u estras m ayores. Si V es excepcionalm ente peq u eñ a o excepcionalm ente grande, podem os d esc artar el su p u esto de que las dos m u estras se hayan ex traíd o de la m ism a población. Una fo rm a altern ativ a de exactam ente la m ism a p ru eb a puede em plearse con la aproxim ación norm al. E n lu g ar de o b ten er U
directam en te, podem os c o n ta r la sum a de los órdenes de cada u n a de las m u estras. Procedem os luego en fo rm a análoga a la de la p ru e b a de la d iferencia de las m edias. Tom am os u n a diferen cia de las sum as de los órdenes p a ra cad a m u e stra y sustraem os de dicha d iferencia u n a ca n tid ad que re p resen ta la diferencia es p erad a con la hipótesis nula. E sta diferencia d e diferencias, aná loga a ( — X 2) — ( [i! — |x2), se divide luego p o r el e rro r e stá n d a r p a ra o b ten er Z. La analogía n o es perfecta, y a que trata m o s con sum as de ó rdenes y n o con sus m edias, p e ro el paralelo con la p ru eb a de la diferencia de las m edias es p erfectam en te claro. Aquí tam bién, u n v alo r n um érico gran d e de Z conducirá al re chazo. Vamos a ilu s tra r ah o ra el procedim iento de M ann-W hitney sirviéndonos del m ism o ejem plo an terio r. C om pararem os a conti nuación la eficacia d e la fuerza de esta p ru e b a con la de la p ru e b a de las secuencias. Problem a. El m ism o de la p ru e b a de las secuencias. A d m isió n re stric tiv a : órdenes 1, 2, 4, 5, 6, 7, 9, 11, 14, 17 (JV ^IO ) A dm isión no restrictiva : órd en es 3, 8, 10, 12, 13, 15, 16, 18, 19 (iV2 = 9) 1. S u p uestos. Los m ism os q u e e n la p ru e b a de las secuencias. 2. D istribución de m uestreo. La distribución de m u estreo de U se e n c o n tra rá en el cu ad ro F del A péndice 2, si n i N t n i N 2 son m ayores q u e ocho, y en el cu ad ro G, si u n a de las N queda e n tre 9 y 20 y la o tra e n tre 1 y 20. N ótese que los dos cuadros tienen d iferen te fo rm a to : El F tiene en la p a rte a lta diferentes com bina ciones de N x y N 2, con los valores d e U en el m argen in ferio r iz q u ierd o y con los valores de las probabilidades en el cuerpo del cuadro. Así, si N a = 6 y N x = 4, siendo siem pre N 2 el m ayor de los dos tam añ o s de las m u estras, y si U = 5, verem os que la probabili d ad de o b ten er U < 5 es de .086, con dirección predicha. Los otros cuadros del G, p o r o tra p a rte , corresponden a diferentes niveles d e significación, apareciendo los valores críticos de U en el cu e r p o del cuadro. Así, p a ra a = .0 0 1 , con dirección predicha, p a ra A/j = 13 y N z = 10 (n o siendo N 2 necesariam ente m ayor que A^), ob servarem os que u n v alor de U igual o m en o r que 17 supondrá significación. P a ra N m ayor, la d istrib u ció n de m u estreo de V s e rá ap ro x im adam ente n orm al, con la m edia = y la
jip
= —
(XI V .3)
___________________ N j .N Ú N t + N a + 1 ) -------------—------------ (XIV.4)
V
3. N ivel de significación y región critica. Con fines d e com pa ración, seguim os sirviéndonos del nivel de .05, sin p re d ecir la d irección de la relación. 4. Cálculo de la estadística de la prueba. La estad ística U pue de calcularse p o r u n o de los dos m étodos siguientes. Con N pe queñ a será relativ am en te sencillo calcu lar U siguiendo el proce d im iento im plicado en la fó rm u la de definición. C entrándonos en cad a u n o de los nueve grupos de la segunda m u estra, contem os el n ú m ero de casos de la p rim e ra m u e s tra que tienen m en o r prestig io y, p o r lo tan to , m ayores m arcas de orden. Como q u iera que la p rim e ra organización de la segunda m u e stra se h a clasifi cado com o te rc era en prestigio, hay en la p rim e ra m u e stra ocho grupos con m arcas de prestig io inferiores. Y en fo rm a análoga, el segundo g ru p o de la segunda m u e stra se clasifica com o octavo, de m o d o que hay cu atro grupos en la o tra m u e stra con m arc as de prestig io inferiores. P rosiguiendo el proceso p a ra cada u n a de las organizaciones re sta n te s de la m u e stra 2 y sum ando, o b te n e m o s: 17 = 8 + 4 + 3 + 2 + 2 + 1 + 1 + 0 + 0 = 21 O bsérvese que si hu b iéram o s seguido el m ism o procedim iento, p ero c e n tran d o n u e stra atención e n los grupos de la p rim e ra m u estra, hab ríam o s o b ten id o : í/' = 9 + 9 + 8 + 8 + 8 + 8 + 7 + 6 + 4 + 2 = 69 C ualquiera de estas dos cantidades p o d ría em plearse p a ra verifi ca r la significación de la relación, pero, com o q u iera que las ta b las se h a n estab lecido en té rm inos del v alor m enor de U, siem p re nos servim os de la m en o r de las dos can tid ad es en cuestión. No se rá n ecesario calcu lar U y V , ya que u n a vez obtenido uno de los valores el o tro p u ed e calcularse sirviéndose de la fó rm u la : U = N 1N 2 - U '
o
U' = N ±N 2 - V
(X IV .5)
E n este caso nos serviríam os com o estad ística de p ru e b a del va lo r 2 1 . Si el n ú m ero de los casos es relativ am en te gran d e o si existen em p ates, será p ro b ab lem en te m ás conveniente o b ten er V sum an do los órdenes de las m u estras separados, designando estas su m as de órdenes com o 2?! {rango) y R 2 y sirviéndose de las fó rm u la s: N 2{ N 2 + 1) {X I V.6) U = N xiV2 + — — ------ - R 2 o b ien
u- = n , n 2 +
J ^ ± 1 L - Rí
según cuál de ellas resu lte m ás conveniente. S um ando los órde nes obtenem os a s í: 1 3 2 8 4 10 5 12 6 13 7 15 9 16 11 18 14 19 17 R x = 76
Ro, = 114
A títu lo de co n trol habríam os de te n e r
R ¡+ R a = 3 1 ± ± L o bien 19(20) 76 + 114 = ---- -— i - = 190 en donde N re p re se n ta el nú m ero to tal de casos en am bas m ues tras. P o r lo tan to : 1 7 = 1 0 (9 ) +
9(10)
114 = 90 + 4 5 - 114 = 21.
* Las sum as de órdenes y R 2 pudieron h ab erse em pleado directam ente al h ac er la pru eb a, no siendo necesario en tal caso calcular U. Ya que las tablas exactas p a ra las N pequeñas suelen darse en térm in o s de V, p o r lo re g u la r re su lta rá ventajoso pensar en térm inos de estadística U. P ero el em pleo de las sum as de ór denes puede utilizarse eurístieam en te p a ra señalar la sem ejanza de la p ru eb a M ann-W hitney con la de la diferencia de las m edias. Una pequeña operación algebraica convencerá al lecto r de que podem os to m ar las ecuaciones de (X IV .3) a (X IV .7) y ob ten er el re su ltad o de que, p a ra la aproxim ación norm al, la estadística
R .-R ,
X W
+
D /2
( X I V g )
i/.V.A/.Í.V + 1 )/', será aproxim adam ente N o r (0 ,l). E xpresando Z en esta form a, observam os que el n u m era d o r consta de la diferencia R x — R 2, ju n to con u n térm ino que re su lta ser el valor esperado o a largo plazo* de dicha diferencia en la hipótesis nula. Dicho fa cto r de corrección es necesario, p o r supuesto, ya que trata m o s con una diferencia de sum as, y no de m edias, lo que nos obliga a to m ar en cu en ta el hecho de que, p o r lo regular, las dos N no serán iguales. Si y N 2 son iguales, observam os que el segundo fac to r en cuestión se convierte en cero, quedándonos sim plem ente co m o n u m era d o r R t - R z. Vem os en esta fo rm a la sem ejanza con la p ru eb a de la diferencia de las m edias, en la que el num erador se red u cía a X x — X 2 en el caso de la hipótesis n ula de que no h ab ía diferencias. P or lo tan to , cabría concebir la p ru eb a de M ann-W hitney com o p ru e b a de la diferencia de los órdenes su m ados. 5. Decisión. Sirviéndonos del cuadro G del Apéndice 2, vem os que al nivel de .05, si la dirección no se h a anticipado, necesita m os u n a U de 20, o m ás pequeña, p a ra p o d er d e sc a rta r la hipó tesis nula. De ahí que apenas dejem os de d esc artar la de que no h ay diferencia en tre los dos tipos de organizaciones. Obsérvese, sin em bargo, q u e si la dirección se h u b iera predicho de aníem ar no, habríam o s necesitado u n a U de 24, o m enos, al nivel de .05. Vemos, de paso, que a p e sa r de llegarse a la m ism a conclusión con las p ru e b as de las secuencias y de M ann-W hitney, estuvim os, con todo, m ucho m ás cerca del d escarte con la segunda que con la p rim e ra . P o r lo tan to , si i?0 fu e ra realm en te falsa, ten d ría m os e n este caso* u n riesgo m en o r de e rro r de tip o I I que con la p ru e b a de las secuencias. Si n u e s tra N h u b iera sido m ayor, podríam os habernos servido de la aproxim ación norm al. Con objeto de ilu s tra r el procedi m iento, podem os calcular Z en relación con los datos anteriores. O btenem os así: V - N XN J 2 2 1 -4 5 Z = ----------------- — ------------= ------------ ------------ = -1-96 y'Ñ ^Ñ J.W ^+ N 2 + l ) / l 2 V 1 0 ( 9 ) (20)/12 Si h ubiéram os rem plazado V p o r V ( = 6 9 ) , hubiéram os ob tenido* Z = + 1.96 * Si nos h ubiéram os servido de la ecuación (X IV .8), h a b ría m os obten id o asim ism o:
Z
76 — 114 — (10 — 9) (20)/2 --------------------------------------V W (9 ) (2 0 )/3
—1.96
Así, pues, el em pleo de la aproxim ación n o rm al conduce a la conclusión de que, sin la dirección predicha, a d u ra s penas po dríam o s d e s c a rta r al nivel d e .05. P o r su p u esto que las tablas exactas son p referib les a la aproxim ación n o rm al siem pre que estén a n u e s tro alcance. E m p a tes. Si o c u rren em p ate s hem os d e su p o n er u n a vez m ás que se d eben a im perfecciones d e m edición y que las d istrib u ciones subyacentes son en re alid ad continuas. Si los em pates tien en lu g ar en el in te rio r de las clases, éstas n o ten d rán , p o r supuesto, efecto alguno sobre la U, y podem os p ro c ed er com o an terio rm en te. Y si los em p ates tien en lu g ar e n tre clases, dam os a ca d a u n o de los casos el p ro m ed io d e las m arc as q u e h a b ría tenido de no existir aquéllos. Así, pues, si dos organizaciones están em p atad as en los órdenes octavo y noveno, cada u n a de ellas re cib e tina m arc a de (8 + 9)/2 , o sea 8.5. Si la décim a orga nización h u b ie ra estad o asim ism o em p ata d a con los dos grupos an terio res, cad a u n o d e ellos h a b ría recibido el o rd e n (8 + 9 + 10)/3, o sea 9.0. Al calcu lar U, se p ro d u c irá p ro b a b le m en te a h o ra m enos co nfusión si nos servim os del m éto d o de la sum a de los órdenes. E n efecto, el fa c to r d e corrección c o m p o rta el e rro r e s tá n d a r de U y, p o r consiguiente, ap arece en el d enom inador de Z. La fó rm u la revisada se co n v ierte así e n : V - NrN.,/2 — — V l N iN n / N ( N - l)][(A ís - A /r) / 1 2 - 2 r i ]
(X IV .9)
en donde N = iVx + N 2 y r* = (í«® - t t )¡ 12, siendo t el núm ero de observaciones em p atad as en relación con u n o rd en determ inado1. Al calcu lar 22^, observam os p rim e ro todos los casos en los que se dan em pates. Tal vez dos grupos estén em patados en relación con las m arcas octava y novena, y tre s en relación con las m arcas inferiores. E n e s te caso tenem os im a t de dos y u n a de tres. O sea: 2 T¡ = T i + T« = í*— 1 + M ~ fa 12
23-2
33 — 3
12
6
24
= ------------ 1------------- = ----- i----- = 2 5 12
y
12 12
12
E sta corrección de los em pates sólo p u ed e em plearse con la apro xim ación norm al, ya que las tablas exactas se h an calculado sin te n e r e n cu en ta los em pates. P or lo regular, el efecto del facto r de corrección será despreciable salvo si el núm ero de em pates es m uy gran d e.2 Si el n ú m ero de em pates es extrem adam ente g ran d e d eb erá u sarse probablem ente la p ru e b a de S m irnov (ver m ás a b a jo ) com o altern ativ a a la de M ann-W hitney. C om paración en tre las pruebas de M ann-W hitney y de las se cuencias. P ara am bas p ru e b as la hipótesis n u la es que las dos m u estras se h an extraído de poblaciones iguales. P or lo regular, n u e stro in terés se c e n tra en las diferencias de tendencia central, com o en el caso de la p ru eb a de la diferencia de las m edias. En ocasiones, sin em bargo, podrem os e s ta r m ás interesados e n las diferencias de d ispersión o de form a. A títu lo de enunciado ge neral, podem os d ecir que la p ru e b a d e M ann-W hitney será m ás fu e rte que la d e las secuencias, siem pre q u e las m ayores d iferen cias e n tre las dos poblaciones sean con respecto a la tendencia central, en ta n to q u e la segunda se rá m ás fu e rte en aquellas si tuaciones en que las poblaciones sólo difieren ligeram ente en cu an to a la ten d encia central, p ero sustancialm ente, en cam bio, en d ispersión o e n form a. Un sim ple ejem plo serv irá p a ra ilu s tra r este punto. Supóngase que tenem os dos poblaciones de m edianas iguales, pero, en u n caso, con u n a d istrib u ció n m uy hom ogénea y, en el otro, m uy heterogénea. P odríam os, en tal caso, e sp e ra r resultados com o los siguientes : Muestra 1
Muestra 2
5 6 7 8 9 10 11 12
1 2 3 4 13 14 15 16
ÍRj = 68
R2 =
68
2 P a r e c e r í a c o m o s i l a c o r r e c c ió n d e lo s e m p a te s r e d u j e r a s ie m p r e e l d e n o m i n a d o r s i n c a m b i a r e l n u m e r a d o r , p e r o d e b e m o s t e n e r p r e s e n t e q u e d i c h o s e m p a t e s h a r á n n o r m a l m e n t e q u e U y U’ s e a p r o x im e n , io q u e s e t r a d u c i r á a s u v e z e n u n a d i s m i n u c ió n d e l n u m e r a d o r .
E n este ejem p lo extrem o, la p ru e b a de M ann-W hitney n o condu ciría a d e sc a rta r la hipótesis n u la (la cual es m an ifiestam en te fal sa), p o rq u e es exactam ente igual a R a. S irviéndonos d e la p ru e b a d e las secuencias, e n cam bio, estaría m o s m anifiesta m en te en condiciones de d esc artar, p o rq u e sólo ten d ríam o s tre s secuencias. Como q u iera que d e ja r de d e sc a rta r significa com eter un e rro r de tip o II, vem os q u e en este caso la fu erza de la p ru e b a de las secuencias es m ay o r que la de la M ann-W hitney. E n la m ayoría de los casos, tenem os m ás pro b ab ilid ad es de h a lla r dife rencias en la ten d en cia cen tral, con diferencias relativam ente m enores en dispersión. El le c to r h a r á bien en convencerse p o r sí m ism o q ue e n el caso de tales poblaciones tenem os pro b ab ilid a des de o b te n e r u n n ú m ero relativ am en te g ran d e d e secuencias h acia el ce n tro de la distribución. Y en relación con sem ejantes datos, la p ru e b a de las secuencias se rá m u ch o m enos fu e rte que la de M ann-W hitney. E n relación con la m ayoría de las aplicacio nes sociológicas, la p ru e b a de M ann-W hitney p arece ser la m ás ú til de las dos. * Si se h a conseguido u n nivel de escala de intervalo y se su ponen leg ítim am ente poblaciones norm ales, p u d o h ab e rse efec tu ad o la p ru e b a t p a ra la d iferen cia e n tre las m edias. E n tales condiciones, ¿cuánto p erd eríam o s sirviéndonos de la p ru e b a de M ann-W hitney, cayendo p a ra ello h ac ia a trá s en cu an to al nivel de m edición y sirviéndonos de u n m odelo m ás débil? La eviden cia está en que, en el caso de m u e s tra s m edianas y grandes, la eficacia de la fu erza de la p ru e b a d e M ann-W hitney es aproxim a d am en te del 95 p o r ciento en com paración con la de la t. La efi cacia de la fu erza es asim ism o m u y g ran d e en el caso de m ues tra s pequeñas, pese a que los valores n u m érico s exactos n o sean fáciles de o b tener. B radley [ 1 ] observa q u e e n general la eficacia de m uchas p ru e b a s n o p aram étrica s, e n tre ellas la d e MannW hitney, es relativ am en te m ay o r p a r a las m u estras pequeñas que p a ra las g randes. Así, pues, la p ru e b a de M ann-W hitney consti tuye u n a altern ativ a m uy fu e rte de la p ru e b a t. E n v ista del he*cho de que re q u ie re su p u esto s m u ch o m ás débiles, d eb e ría em p learse en aquellas situaciones en q u e existe alguna d u d a razo n ab le de la legitim idad ya sea d e la escala de in terv alo o de la n o rm alidad. Se sabe m enos, e n cam bio, a p ro p ó sito d e la eficien cia de la fu erza d e la p ru e b a d e las secuencias. S m ith [ 8] h a en c o n trad o eficiencias de ap ro x im ad am en te el 75 p o r ciento en varios ejem plos em píricos, en los q u e los tam añ o s de las m ues tra s eran d e alre d ed o r de 20 y las poblaciones norm ales presen ta b a n desviaciones e stá n d a r iguales. B radley [1 ] observa que la eficacia de la p ru e b a de secuencias con m u estra grande, es, p o r com paración con la p ru e b a t, d e ap ro x im ad am en te u n tercio, en igualdad de condiciones.
X IV .4. La prueba de K olm ogorov-Sm im ov La p ru e b a de K olm ogorov-Sm irnov, que designarem os sim ple m en te com o p ru e b a de Sm irnov, es o tra p ru e b a n o p ara m é tric a de dos m u estras, que re q u ie re los m ism os su p u esto s q u e las p ru e b as de las secuencias y de M ann-W hitney. La fu erza de la p ru e b a S m irnov es e n general difícil d e evaluar, p e ro en aque llas situaciones en q u e la población difiere solam ente en relación con la tendencia cen tral, dicha fuerza parece e sta r co m p ren dida e n tre las de las p ru e b as de lás secuencias y la de MannW hitney. (B rad ley [1 ], p p . 291-292.) E n u n sen tid o estricto , la p ru e b a S m irnov tam poco supone em pates, pero, com o verem os, el p ro ced im ien to es m u y conveniente e n las situaciones en que se d a u n bu en n ú m e ro de em pates, com o re su ltad o de h ab e r ag ru p ad o los dato s e n categorías ordenadas. E n la investigación sociológica nos servim os con m u ch a fre cuencia d e variables q u e son en re alid ad escalas ordinales, p ero en relació n con las cuales los datos se h an agrupado, con todo, en tre s o m ás categorías grandes. Si se d an c u a tro o m ás categorías o rd en ad as de e s ta clase, la p ru e b a de S m irnov re su lta rá p a rtic u larm e n te ú til, en ta n to q u e el n ú m ero de em p ates p ro h ib iría p ro b ab lem en te el em pleo de la de M ann-W hitney. Un sociólogo pue de acaso h a b e r dividido los residentes de u n a localidad en seis clases sociales, tra ta n d o a todas las p erso n as de u n a clase com o ligadas a los dem ás m iem b ro s de la m ism a con respecto a la ca ra c te rístic a general. O pu ed en h a b e rse o rd en ad o las ocupaciones según la condición d e las p erso n as asignándose a todas las de la m ism a clase d e ocupación m arc as em p atad as. Tal vez se haya en co n trad o u n a v ariab le d e co m p o rtam ien to que dé u n a escala de G u ttm an con siete tip o s d e resp u estas. E n todos estos ejem plos podem os q u e re r concebir la v ariab le com o continua en re a lidad, p e ro el in stru m e n to de m edición h a sido excesivam ente im p erfecto y h a p ro p o rcio n ad o datos q u e se hallan agrupados en u n n ú m ero re lativ am en te pequeño d e categorías ordenadas. Lo m ism o que en el caso de las escalas de intervalo, cu an to m ás su tiles sean las distinciones y cu an to m ay o r sea el n ú m ero de las categorías em pleadas, ta n to m enos in fo rm ació n se pierde. E l p rin cip io que se h alla e n la base de la p ru e b a de S m irnov es m uy sencillo. Si la hipótesis n u la de que se h an extraído m u e stra s aleato rias independientes, de poblaciones idénticas, es co rrecta, entonces esperarem os que las distribuciones de frecuen cia acu m u lad a d e las dos m u estras sean fund am en talm en te si m ilares. La estad ística de la p ru e b a em pleada en la p ru e b a de Sm irnov es la d iferen cia m áxim a e n tre las dos distribuciones acum uladas. Si d icha d iferencia es m ay o r de lo que se esp eraría p o r azar con la h ip ó tesis nula, esto significa que la diferencia e n tre las d istrib u cio n es se h a hecho ta n gran d e que decidim os
d esc artar la hipótesis. Podem os to m a r la diferencia m áxim a ya sea en u n a sola dirección (si ésta se h a anticipado) o en am bas direcciones. Problema. Supóngase que hem os dividido una m u e stra al azar de varones adultos de u n a localidad en seis clases sociales y los hem os clasificado al propio tiem po según sus aspiraciones b ajas o altas de cam bio. E stas dos últim as categorías pueden conside ra rse com o m u estras aleatorias independientes de las poblacio nes m ás am plias de varones adultos con aspiraciones b ajas o resp ectivam ente altas, ya que u n a m u estra to ta l com pletam ente al azar asegura la independencia e n tre las su b m u estras que po dam os escoger. Supóngase que hem os anticipado que los de as piraciones de cambio- elevadas ten d erán a ocu p ar u n a posición de clase su p erio r a los de aspiraciones b ajas. ¿Podem os concluir que los resu ltados son significativos al nivel de .0 1?
Clase
Aspiraciones bajas
Aspiraciones altas
B a ja in fe rio r B a ja s u p e rio r M e d ia in f e r io r M e d ia s u p e r io r A lta in f e rio r A lta s u p e rio r
58 51 47 44 22 14
31 46 53 73 51 20
23 6
27 4
T o ta l
1. Supuestos. Los m ism os que se requieren en la p ru eb a de M ann-W hitney y la de las secuencias. 2. D istribución de m uestreo. La distribución d e m u estreo de D, o sea la diferencia m áxim a en tre las distribuciones acum ula tivas, pued e d arse exactam ente en el caso de N pequeñas ( < 40), si Nj = N 2 ([7 ], p. 129). E ste caso no lo trata rem o s, ya que con Ñ relativam ente pequeñas puede em plearse, en lu g ar de la pru eb a de Smirnov, la de M ann-W hitney, y porque en la m ayoría de los ejem plos sociológicos no solem os p o r lo regular o b ten er m u estras exactam ente del m ism o tam año. Si las dos m u estras son m a yores que 40 y si no se h a anticipado la dirección, necesitarem os u n valor de D que sea p o r lo m enos tan grande com o 1.36 Y p a ra p o d er d e sc a rta r al nivel de .05. E n relación con los niveles de .01 y .001, el coeficiente de 1.36 puede rem plazarse p o r 1.63
y 1.95 respectivam ente. E n el caso del nivel de .10, el coeficiente co rresp o n d ien te es de 1 .22. Si la dirección se h a anticipado, podem os servirnos de la ap ro xim ación de la x-cuadrada. La e stad ística de la p ru e b a x-cuadrad a (x2) se co n sid erará e n el capítulo siguiente, y la ta b la d e la m ism a re su lta rá m á s fa m iliar en dicho momento.® E n treta n to , la fó rm u la de la aproxim ación es com o sigue: ■f = 4D2 N lN ‘2 1 Nx + Na
( X IV .10)
en donde los grados d e lib e rta d asociados a la ^-cuadrada son siem pre dos en e s ta p a rtic u la r aplicación. Si bien al em p lear la aproxim ación de la ^-cuadrada se suponen distribuciones con tin u as de la población, si los datos son en re alid ad discretos y d an lugar, en consecuencia, a grandes n ú m ero s de em pates, las p ro b ab ilid ad es o b ten id as quedarán, e n caso de desearse el des carte, en sen tid o conservador. E n o tro s té rm in o s: las v erdade ra s p ro b ab ilid ad es serán m enores q u e las calculadas. 3. N ivel de significado y región crítica. El p ro b lem a re q u ie re el nivel de significado d e .01. Y a q u e se h a an ticip ad o la direc ción, nos servirem os d e la aproxim ación d e la ^-cuadrada. 4. Cálculo de la estadística de la prueba. O btenem os p rim ero las d istribuciones de frecuencia acu m u lad a de cada u n a de las m u estras (véase c u a d ro X IV .l), ex presando los valores de F com o p roporciones d e las m agnitudes to tales de las m u estras. Así, pues, el p rim e r v alo r in scrito e n la colum na de las F de la m u e stra 1 será 58/236, o sea .246; el segundo se rá 109/236, o .462, y así sucesivam ente. Las ú ltim as anotaciones de cada co lu m n a serán, p o r supuesto, la unidad. F orm am os ah o ra una colum na de las diferencias, F1 — F2, y localizam os la diferencia m ay o r con el signo positivo, ya que anticipam os m ayores p o r cen tajes de las clases in ferio res con aspiraciones b ajas, o sean m ayores valores de Ft . E ste valor de D re su lta se r de .187, com o lo indica la flecha. A continuación calculam os el v alor de la X - c u a d r a d a sirviéndonos de la ecuación (X IV .10). 5. Decisión. O bsérvese q u e cu an to m ay o r sea el v alor de D, ta n to m ay o r será la ^-cuadrada. P o r lo tan to , sólo necesitam os sa b e r cuán g ran d e d eb a s e r ésta p a r a d e sc a rta r la hipótesis nula. R ecurrim os, pues, al cu ad ro de la x-cuadrada (c u a d ro i del Apén dice 2 ), b u scam os los grados de lib e rta d de a rrib a a b a jo en el m arg en izquierdo, y el nivel de significación, arrib a, de izquierda a derecha, y vem os que, con 2 grados de lib ertad , co rresponde al nivel .01 el v alo r 9.210. E sto significa que si la hipótesis n u la fu e ra cierta, o b ten d ríam o s u n a ^-cuadrada de e s ta m agnitud, o> 3 D e b id o a e llo t a l v e z s e p o d r á a p l a z a r e l e s t u d io d e l a p r u e b a d e Smir*n o v h a s t a d e s p u é s d e h a b e r le íd o e l c a p . xv.
C uadro X IV .l. Cálculos para la prueba de dos m uestras
de S m irn o v Aspiraciones de cambio
Clase
Altas F1 Debajo de superior Debajo de inferior Debajo de superior Debajo de inferior Debajo de superior Total
Diferencias
Bajas F2
la baja 58
.246
31
.113
.133
109
.462
77
.281
.181
156
.661
130
.474
.187
200
.847
203
.741
.106
222 236
.941 1.000
254 274
.927 1.000
.014
la media la media la alta la alta
/2 -4 m
n ,n 2 236(274) — 4(.187)2. - 17.74 Nx+ N 2 236 + 274
m ayor acaso, m enos del uno p o r ciento de las veces. Y ya que ob tuvim os u n a /-cu a d rad a de 17.74, vem os que podem os d esc artar la hipótesis nula. E sta m ism a p ru e b a de la /-cu a d rad a puede em p learse en relación con m u estras pequeñas cuando se h a antici p ad o la d irección; y si se tiene interés en d e sc a rta r la hipótesis nula, la aproxim ación de la /-cu a d rad a será en realid ad conser vadora. E n o tro s té rm in o s : las probabilidades obtenidas con este m étodo serán m ayores que las reales. Si no se h u b iera anticipado la dirección, entonces necesitaría m os, p a ra o b ten er significación al nivel de .01, u n valor de D que sea p o r lo m enos igual o su p erio r a 1.63
¡N, + N 2 NiN.,
V
' 236 + 274 236(274)
1.63(.0888) = .145
E n este caso obtenem os D to m ando la diferencia m ayor, indepen d ien tem en te del signo. Y com o q u iera que este valor es el m ism o q u e el de la D utilizada an terio rm en te (.187), vem os q u e podem os tam bién d esc artar la hipótesis nula. XIV.5. La prueba de W ilcoxon de pares asociados y órdenes pro vistos de signo Las tres p ru eb as no param étricas exam inadas h a sta aquí, en el presen te capítulo, requerían que las dos m u estras se selecciona-
ra n independientem ente u n a de otra. Se re c o rd a rá que, al asociar pares, no podíam os servirnos de la p ru e b a de la diferencia de las m edias. E n lu g ar de ello, tratá b am o s cada p a r com o caso sin g u lar y obteníam os u n a m arc a de diferencia p a ra cada uno de ellos. Procedíam os luego com o si tuviéram os u n a sola m u estra, y verificábam os la hipótesis n u la de que uB = 0. El lecto r re co rd a rá adem ás que, al servirnos de la p ru e b a de los signos, pudim os tam bién h a b e r em pleado p ares asociados, teniendo sólo en cuenta el signo de la diferencia y verificando la hipótesis n ula con ayuda de la distrib u ció n binom ial. E n la p ru e b a de los signos, había m os de d e ja r de lado to d a la inform ación que poseyéram os acer ca de la m agnitud de las diferencias im plicadas. P or o tra p arte, la p ru e b a m ás fuerte, o sea la p ru e b a t, re q u ería no sólo u n a escala de intervalos, sino, adem ás, el su p u esto de u n a población n o rm al de las m arcas de las diferencias. La p ru e b a de W ilcoxon de p ares asociados y órdenes provistos de signo, en cam bio, com b in a algunas de las características de esas dos pru eb as y se si tú a, en cu an to a eficacia d e la fuerza, e n tre am bas. Como verem os en seguida, la p ru e b a de W ilcoxon re q u ie re un nivel de m edición ligeram ente su p erio r al de la escala ordinal. N ecesitarem os, en efecto, u n a escala m étricam en te ordenada, en la que sea posible o rd e n a r no sólo las m arcas m ism as, sino ade m ás las diferencias e n tre ellas. Como q u iera que las escalas m étricam en te ordenadas se en cu en tran ra ra m e n te en la investiga ción sociológica, este requisito1 equivale p rácticam en te a que ne cesitem os u n a escala de intervalo. Sin em bargo, ya que la p ru e b a d e W ilcoxon no p resupone u n a población norm al, la exam inare m os ju n to con las dem ás p ru eb as d e dos m u estras no param é trica s en el p re sen te capítulo. La eficiencia de la fuerza de esta p ru e b a es su stan cialm ente m ayor que la de la p ru e b a de los sig nos, circu n stan cia que no debe so rp ren d er, ya que ésta obtiene v en taja de ta n poca inform ación disponible. Si los supuestos de la p ru e b a t son efectivam ente ciertos, entonces la eficacia de la fu erza de la p ru e b a de W ilcoxon es aproxim adam ente del 95 %, ta n to p a ra m u estras pequeñas com o grandes. De ahí que re su lte p artic u la rm en te ú til e n situaciones en las que tenem os u n nivel de m edición de escala de intervalo, p ero e n las que la m agni tu d d e la m u estra es con to d o dem asiado peq u eñ a p a ra ju stific a r el su p u esto de n orm alidad. E n esencia, la p ru e b a d e W ilcoxon co m p o rta la m ism a hipóte sis n u la em pleada en la p ru e b a de los signos y tam bién en la p ru e b a t p a ra p ares asociados. La hipótesis nula sostiene que no existen diferencias e n tre las m arcas d e las dos poblaciones. Al servirnos de e s ta p ru eb a, obtenem os p rim ero las m arcas d e la diferencia p a ra cada p ar. E stas diferencias se ordenan, p rescin diendo de sus signos respectivos. Así, pues, u n a diferencia de — 6 se o rd e n ará p o r encim a de la de + 3. U na vez ordenados e n esta
fo rm a los valores absolutos de las diferencias, asignando siem pre el rango 1 a la m enor diferencia num érica, volvem os a trá s y anota m os los signos. Finalm ente, obtenem os las sum as de los órde nes de las diferencias, de las positivas y de las negativas. Si la hipótesis n u la es correcta, esperam os que la su m a d e los órdenes de las diferencias positivas será aproxim adam ente igual a la de los órdenes d e las diferencias negativas. Si éstas difieren m ucho e n tre sí en m agnitud, entonces la hipótesis n u la p u ed e descar tarse. F orm am os la estadística T, que es la m enor d e las sum as en cuestión. Nos servim os a continuación d e tab las exactas de la d istrib u ció n de selección de T si la A? es pequeña, y de u n a apro xim ación n o rm al si es grande.
C uadro
X IV .2. Cálculos de la prueba de W ilcoxon de pares asociados
Ni del par
Grupo A
Grupo B
1 2 3 4 5 6 7 8 9 10 11 12 13
63 41 54 71 39 44 67 56 46 37 61 68 51
68 49 53 75 49 41 75 58 52 49 55 69 57
Total
Diferencia 5 8
-1 4 10 -3 8 2 6 12 -6 1 6
Orden de la diferen cia
(+ ) 6 ( + ) 10.5 ( - ) 1.5 (+ ) 5 ( + ) 12 (-) 4 ( + ) 10.5 (+ ) 3 (+ ) 8 ( + ) 13 (-) 8 ( + ) 1.5 (+ ) 8
órdenes negativos
1.5 4
8
13.5
Con fines de com paración, sirvám onos de los m ism os datos u ti lizados en el caso de la p ru e b a t correspondiente. El cu ad ro X IV .2 re p ite dichos datos y p roporciona al p ro p io tiem po los cálculos necesarios p a ra la p ru e b a de W ilcoxon. O bsérvese que, al ignorar los signos, algunas de las m arcas de las diferencias re su ltan em p atad as en cu an to a la m agnitud. E n ta l caso, dam os u n a vez má* a las m arcas em patadas el valor prom edio que h ab ría n tenido de n o estarlo .4 Así, p o r ejem plo, tenem os dos diferencias d e tam a.
* Otro procedimiento algo más conservador consistiría en romper los em pates de tal manera que se obtuviera el mayor valor posible de T. Los pares cuyas puntuaciones tuviesen una diferencia de 0 exactamente (es decir: nin gún cambio) deberían ser eliminados del análisis.
ño 1. Como q u iera que atribuim os a las diferencias m ás pequeñas los rangos inferiores, cada u n a de aquéllas obtiene u n a m arc a de o rd en o rango de 1.5. E n la quinta colum na hem os indicado el signo asociado a cada orden, e n tre p arén tesis, a la izquierda del m ism o. Vemos a sim ple vista que la sum a de los órdenes negati vos será in ferio r a la de los positivos. P o r lo tanto, obtenem os T sum ando estos órdenes negativos. No es m en ester re te n e r los signos negativos al b u sc a r el valor de T en el cuadro, ya que los valores se h allan siem pre dados com o positivos. Así, pues, T = 1.5 + 4 + 8 = 13.5 Form alicem os ah o ra lo que hem os hecho, siguiendo los pasos en la fo n n a habitual. 1. S u p uestos. N ivel de m e d ició n : escala m étricam en te ord en ad a (las m a r cas de las diferencias pueden o rd en arse). M odelo: m u e stra s aleatorias. H ip ó tesis: la su m a de los órdenes positivos = a la de los órdenes negativos en la población. 2. D istribución de m uestreo. La distribución de m u estreo de T p a ra N < 2 5 se d a en el cu ad ro H del A péndice 2. E n relación con m u e stra s m ayores, la distribución d e T es aproxim adam ente n o rm al, co n : m ed ia = ¡xr = - í ^ + 1 )
y desviación e s tá n d a r = or = ^
(X I V .ll)
^
(X IV .12)
3. N ivel de significación y región critica. Lo m ism o que en el caso de la p ru eb a t, nos servirem os del nivel de .05, sin a n ticip ar la dirección del resultado. 4. Cálculo de la estadística de la prueba. É ste se halla ya efec tu ad o en el cu ad ro XIV.2, que nos d a u n a T de 13.5. 5. Decisión. El c u a d ro H del A péndice 2 d a valores críticos de T p a ra N < 25. Ya que T re p re se n ta la m en o r de las dos sum as de órdenes, necesitam os valores num éricos pequeños de T p ara d e sc a rta r la hipótesis nula. Así, pues, podrem os d e sc a rta r H 0 siem pre que T sea igual o in ferio r a los valores dados en el cuer p o del cuadro. Vemos que con u n a N de 13 necesitam os una T d e 17, o m enor, p a ra p o d er d e sc a rta r al nivel de .05. Vemos tam b ién que se n ecesitaría u n a T de 13 o m enos p a ra el d escarte al
nivel de .02. AI servim os de la p ru e b a í en el capítulo an terio r, se h a b rá observado que, al nivel de .02, sólo logram os d esc artar allí con m uy poco m arg en ; aquí, en cam bio, estam os ligeram ente p o r encim a de dicho nivel, p e ro los re su ltad o s de am bas p ru e b as son, con todo, m uy sim ilares. Si b ien n u e stra N es m uy pequeña, podem os d e todos m odos servirnos de la aproxim ación n o rm al con fines de ilustración. Ob tenem os : T - N ( N + l)/4
Zu —*
— —.
,
\ / N ( N + 1) (2JV + l)/2 4 13.5 — 13( 14 )/4 1 3 .5 -4 5 .5 --------------- .— - ----- = -------------------= - 2.24 •\/13( 14) (27)/24 V2Ó4?75 Como q u iera que u n a Z de — 2.24 corresponde a p = .025, re su lta que volvemos a llegar a la m ism a conclusión. El valor de T es m ucho m en o r que el que esp eraríam o s debido- al azar, y podem os en consecuencia d e sc a rta r la hipótesis nula. D ebe observarse que la a n te rio r aproxim ación n o rm al n o contiene u n a corrección ex p lícita de los em pates, no debiendo p o r tan to se r u sad a en los casos en que el n ú m ero relativo de em pates es ex trem adam ente grande. X IV .6. R esu m en E n el p re sen te capítulo hem os exam inado c u a tro p ru e b as n o p a ra m é tricas d istin tas. E n los capítulos sucesivos verem os otras. Tal lecto r h a b rá observado, sin duda, que todas esas p ru e b a s,n o p a ra m é tric a s co m p o rtan h a s ta aq u í ideas m uy sim ples y consi d erab lem en te m enos cálculos q u e la p ru e b a d e la d iferencia de las m edias, p o r ejem plo. É sta es u n a razón m ás e n fav o r de nues tr a tesis en el sen tid o de que, en el fu tu ro , los sociólogos se servirán m ucho m ás de estas p ru e b as n o p aram étricas. P o r des gracia, en u n tex to general n o se p u ed e h ac er m u ch o m ás que exam inar un as pocas de esas p ru e b as brevem ente. Algunas de las p ru e b as exam inadas en el p re se n te capítulo tienen adem ás algu n as o tras aplicaciones que no se h an exam inado. Así, p o r ejem plo, la p ru e b a de las secuencias p u ed e em plearse com o p ru e b a del c a rá c te r fo rtu ito . L a p ru e b a de Sm irnov, p o r su p a rte , puede u tilizarse com o p ru e b a de u n a sola m u e stra p a ra c o m p arar las frecuencias observadas con las q u e se h an an ticip ad o teórica m ente. E n algunos casos, pueden o b ten erse intervalos d e confian za em pleando procedim ientos no param étricos. P o r lo tanto, una vez que se h aya fam iliarizado con las p ru e b as tra ta d a s en este texto, el lecto r p ro p e n d erá ta l vez a co n su ltar o b ras m ás especia
lizadas. A fortunadam ente, m uchos de estos procedim ientos no p aram étrico s pu ed en com prenderse fácilm ente, au n p o r p a rte del lecto r sin g ran p rep aració n m atem ática. Es u n a suerte, tam bién, que cierto n ú m ero de esos procedim ientos hayan sido resum idos en textos recientes de Siegel [7 ], B radley [1 ] y Pierce [5]. El lecto r p o d rá co n su ltar asim ism o con provecho la extensa biblio g rafía sobre m étodos n o p aram étrico s com pilada p o r Savage [ 6]. T anto en este ca p ítu lo com o en el a n te rio r hem os observado q u e es necesario' d istin g u ir e n tre m u estras que fu ero n seleccio n ad as in d ependientem ente, y aquellas que h a n sido paread as o en las que se incluyen com paraciones de puntuaciones correspon dientes a los m ism os individuos. De e sta m anera, la indepen dencia, o la fa lta de ella, e n tre m u estras, es u n a de las consideraraciones que deben h acerse cuando se escoge e n tre distintos pro cedim ientos estadísticos. E n el caso de m u estras paread as fo rm am o s u n a sim ple p u n tu ació n p a ra cad a p a r, y a continuación utilizam os el d ato com o si se tra ta ra d e u n a sola m uestra. Cuan do las m u estras h a n sido tra ta d a s independientem ente, no siendo ta l vez iguales p o r o tra p a rte los tam añ o s de las m u estras, fo rm ulam os la h ip ótesis nula, suponiendo que h a hab id o m u és treo s in dependientes de las m ism as poblaciones, y que la d is tri bu ció n de n u e stra estad ística de la p ru e b a (Z, t, r, U o D ) se b asó e n dicho su puesto. E stos principios se am plían fácilm ente a m ás de dos p ru eb as. E n los capítulos xv y xvi observarem os com paraciones e n tre tre s o m ás m u estras seleccionadas indepen dien tem ente, cuan do la segunda variable p u ed e se r u n a escala nom inal, o rd in al o de intervalo. Aun cuando no nos cen trarem o s en el exam en de ejem plos m ás com plejos, e n los que haya im plícitas m ás de dos m u e stra s p areadas, p o d rá verse e n el e je r cicio 5 del cap ítu lo a n te rio r y en el ejercicio 5 d e este m ism o capítulo, que la am pliación es directa. La id ea b ásica es la de que u n o o b tiene u n a sola p u n tu ació n p a ra cad a p a r (la que pu©d e re s u lta r de u n a d iferencia de diferencias o alguna o tra función! m ás com p leja), p ro ced ien d o a continuación com o si se hubiese tra ta d o de u n a sim ple m u e stra de tam añ o N, en la que N re p re se n ta el n ú m ero d e p ares (o d e trío s, etc é te ra ). E n el p re sen te ca p ítu lo abordam os p o r p rim e ra vez u n pro b le m a d e tip o general, a s a b e r : el del c rite rio q u e h a d e aplicarse al escoger e n tre p ro cedim ientos estadísticos altern ativ o s. Nos hem os c e n tra d o especialm ente en el concepto de la eficacia de las fu e r zas relativ as d e las p ru e b as p o r el hecho de que algunas d e éstas req u ieren supuestos m ás fu ertes que o tras. No debe sin em bargo el le c to r q u ed arse b a jo la im p resió n de que el problem a es tan sencillo com o aq u ella d istinción da a en ten d er. Ya se h a hecho n o ta r q ue en la m ayoría de los casos p ráctico s n o se conoce lo su ficien te acerca del v alo r real de los p a rá m e tro s com o p a ra b a s a r en ta l conocim iento unas conclusiones definitivas. H ay ad e
m ás o tra cuestión, m ás técnica, que no hem os discutido. E n ella están im plicadas las sensibilidades relativas d e las p ru e b as en ord en a la violación de los supuestos requeridos. P or ejem plo : ¿qué p erju icio se causa si se u tiliza u n a p ru e b a de diferencia de m edias cu an d o la población tiene u n a fo rm a especificada com o no n o rm al? ¿Q ué o cu rre si se viola el su p u esto de las escalas de intervalo? Los estadísticos em plean la expresión robustez de una prueba cu an d o aluden a su sensibilidad a n te diversas clases de distorsiones. L a ro b u stez re su lta p a rtic u la rm e n te difícil de ev aluar cuando son varias las distorsiones, o los supuestos no cum plidos, cuya aplicación es sim ultánea. Aun cuando los proce dim ientos p aram étrico s, tales com o la p ru e b a de la diferencia de m edias, p u ed en parecer razo n ab lem en te ro b u sto s b a jo m uchas situaciones, hay diferencias d e opinión en cu a n to a lo aconseja ble que re su lte u tiliz a r tales p ru e b as cuando se dispone de a lte r nativas no p aram étricas. N u estra p o sición es la d e que cu an d o n o se pueden aplicar criterio s claros lo p ru d e n te es u tiliza r v arias p ru e b as diferentes, tan to p aram étrica s com o n o p aram étrica s, publicando los dos' grupos de re su ltad o s p a ra que el lecto r p u ed a sac ar sus propias conclusiones. H ab itu alm en te se hace esto dando, en no tas al pie de la página, los resultados de u n a segunda pru eb a, com entando las razones p o r las cuales las conclusiones no re su lta ro n idénti cas. C uando h ay u n a p ru e b a (o estim ación) n o p aram étrica dis ponible, cuya fuerza sea casi ta n a lta com o la de u n procedim ien to param étrico com parable, tal com o la p ru e b a de M ann-W hitney com o altern ativ a a la p ru eb a t, p arece ría p referib le confiar m ás bien en el p rocedim iento no p aram étrico . E nco n trarem o s em pe ro m uchos pro cedim ientos p aram étrico s m ultivariados p a ra los que no existe u n a altern ativ a no p aram étrica satisfactoria. An tes que u s a r u n a altern ativ a débil o teóricam ente n o satisfacto ria, re su lta preferible, si tal es el caso, re c u rrir decididam ente a los p ro cedim ientos p aram étrico s, conscientes de que n o se po d rán o b ten er con ellos resu ltad o s definitivos. No es posible, en pocas p alab ras, d a r u n a sim ple re sp u esta dogm ática a la p re g u n ta: ¿Qué clase de p ru e b a o m edida es la m ás apropiada? G losario
Prueba no param étrica * Eficiencia de fuerza * Función de fuerza * Fuerza de una prueba E jercicios
1. Se ha clasificado cierto número de iglesias protestantes de una localidad como: 1) predominantemente de clase alta o clase media
alta» o 2) predominantemente de clase media baja o clase baja. Se ordenan según el grado de formalismo de sus servicios, con los si guientes resultados: Clase alta o clase media alta: órdenes 1, 2, 3, 6, 7, 8, 11, 13, 14, 15, 17, 21, 25 Clase media baja o clase b a ja : órdenes 4, 5, 9,10, 12,16, 18, 19, 20, 22, 23, 24, 26, 27. Sirviéndose del nivel de .05, ¿puede establecerse una diferencia sig nificativa: a) con la prueba de las secuencias, y b) con la de MannWhitney? ¿Qué prueba preferiría el lector? ¿Por qué? Respuesta, a) r = 14, no rechazar; b) U = 52, no rechazar. 2. En el cuadro 18.3 se dan datos de los grados de popularidad de los miembros de un grupo de un campo de trabajo de verano. Con sidérese a las personas con los grados de participación del 1 al 8 como “activas" en las discusiones del grupo, poniendo a las demás en la categoría de “inactivas”. ¿Existe al nivel de .05 diferencia significa tiva alguna entre las personas "activas” y las “inactivas" por lo que se refiere a la popularidad? Empléense sucesivamente las pruebas de las secuencias y de Mann-Whitney. 3. Supóngase que se ha logrado ordenar las ocupaciones urbanas por grados descendentes, sirviéndose de las categorías generales de profesional y directivo, empleado, obrero calificado, semicalificado y no calificado. El investigador ha preguntado a todos los padres de familia si son o no partidarios del aumento de los beneficios de la seguridad social a expensas del contribuyente. Los resultados son como sigue: Nivel de ocupación
Partidarios
Contrarios
Profesional y directivo Empleado Obrero calificado Obrero semicalificado Obrero no calificado
46 81 93 241 131
97 143 88 136 38
592
502
Total
¿Existe alguna relación significativa entre la ocupación y la actitud al nivel de .001? Respuesta, D — .282, P < .001. 4. Resolver el ejercicio 2 del capítulo x m utilizando la prueba de Smimov. Comparar estos resultados con los de la prueba í. 5. Efectúense todas las indagaciones del ejercicio 5 del capítulo xm , sirviéndose de la prueba de Wilcoxon de los pares asociados y los ór denes provistos de signo. ¿Cómo se comparan entre sí los resultados de las dos pruebas? Respuesta, a) T = 14.5, no rechazar; c) T = 11, no rechazar. * 6. Verifiqúese que la ecuación (XIV.8) es equivalente désete el pun to de vista algebraico a la otra fórmula de Z dada en la página 273.
B iblio g ra fía
1. Bradley, J, V.: Distribution-free Statistical Tests, Prentice-Hall, Inc., Englewood Cliffs, N. J., 1968, caps. 1-3, 5, 11 y 13. 2. Dixon, W. J., y F. J. Massey: Introduction to Statistical Analysis 3? ed., McGraw-Hill Book Company, Nueva York, 1969, cap. 17. 3. Freund, J. E.: Modern Elementary Statistics, 3? ed., Prentice-Hall Inc., Englewood Cliffs, N. J., 1967, cap. 13. 4. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva York, 1963, cap. 18. 5. Pierce, Albert: Fundamentáis of Nonparametric Statistics, Dickenson Publishing Company, Inc. Belmont, Cal., 1970, cap. 14. 6. Savage, I. R.: "Bibliography of Nonparametric Statistics and Related Topics”, Journal of the American Statistical Association, vol. 48, pp. 844-906, 1953. 7. Siegel, S,: Nonparametric Statistics for the Behavioral Sciences, McGraw-Hill Book Company, Inc., Nueva York, 1956, caps. 5 y 6. 8. Smith, K.: "Distribution-free Statistical Methods and the Concept of Power Efficiency”, en L. Festinger y D. Katz (eds.) Research Methods in the Behavioral Sciences, The Dryden Press, Inc., Nue va York, 1953, pp. 536-577. 9. Swed, F. S., y C. Eisenhart: "Tables for Testing Randomness of Grouping in a Sequence of Altematives”, Annals of Mathematical Statistics, vol. 14, pp. 66-87, 1943. 10. Walker, H. M. y J. Lev: Statistical Inference, Henry Holt and Company, Inc. Nueva York, 1953, cap. 18.
E n e l p resen te capítulo- vam os a estu d iar las relaciones en tre dos o m ás escalas nom inales. Ya vim os que el caso de dos escalas nom inales dicotóm icas podía tra ta rs e como u n problem a que com p o rta ra u n a diferencia de proporciones. R esulta a m enudo de seable servirse de u n procedim iento de p ru e b a m ás general, que nos ponga en condiciones de averiguar las diferencias que haya e n tre tres o m ás m uestras, o de co m parar dos (o m ás) m ues tra s con resp ecto a u n a variable de m ás de dos categorías. La p ru eb a de la ^-cuadrada que vam os a exam inar en la próxim a sección nos perm ite establecer relaciones e n tre escalas nom ina les con cu alquier n ú m ero de categorías. Se in tro d u cirán al p ro pio- tiem po algunos conceptos nuevos. H asta aquí sólo nos hem os ocupado de p ru eb as acerca de la existencia de u n a relación en tre dos variables. E n este capítulo se p re se n ta rá n algunas m e didas indicativas de la fuerza o grado de relación. Se exam inarán al p ro p io tiem po procedim ientos em pleados p a ra el control de u n a o m ás variables.
XV.1. La prueba de la
cuadrada
La p ru e b a de la -/-cuadrada es u n a p ru e b a m uy general que pue de em plearse cuando- deseam os ap reciar si unas frecuencias obte nidas em píricam ente difieren significativam ente o no de las que se esp erarían b ajo cierto co n ju n to de supuestos teóricos. La p ru e b a general p re sen ta m uchas posibilidades de aplicación, la m ás com ún de las cuales, en ciencias sociales, es la relativa a los p roblem as de “contingencia” en los que dos variables de escala nom inal se h an clasificado p o r com paración de una con o tra .1 Supóngase, p o r ejem plo, que se h an relacionado u n a con o tra la confesión religiosa y la filiación política y que los datos se h an resum ido en el siguiente cuadro de contingencia de 3 x 3 : Partido
Republicanos Demócratas Independientes Total
Protestantes
Católicos
ludios
126 71 19 216
61 93 14 168
38 69 27 134
Total 2.25
233 60 5.18
1 En relación con otro empleo de la ^-cuadrada, véase el ejercicio 3 a! final del capítulo. 289
Obsérvese que si las frecuencias se convirtieran en porcentajes, p odríam os d ecir que, en ta n to que el 58.3 p o r cien to de los p ro testan tes son republicanos, sólo p re fiere n este p artid o el 36.3 por ciento de los católicos y el 28.4 p o r ciento de los judíos. Se nos p o d ría entonces o c u rrir p re g u n ta r si esas diferencias eran o no significativas desde el p u n to de vista estadístico. Como q uiera que se tienen tre s confesiones religiosas y tre s categorías de prefe ren cia política, no podernos servirnos d e u n a sim ple p ru e b a de las diferencias de las proporciones. Sin em bargo, sirviéndonos de la p ru e b a de la /^-cuadrada, podem os estab lecer esencialm ente la m ism a clase de hipótesis n u la que an terio rm en te. Podem os sup o n er, en efecto, que no existe d iferencia alguna e n tre las tres confesiones religiosas. E sto equivale a decir que las proporciones de republicanos, de dem ócratas y d e independientes deberían ser las m ism as en cada tino de dichos grupos. P artiendo, pues, del supuesto de que la hipótesis n u la es co rre c ta y d e que las m ues tra s son aleato rias e independientes, podem os calcu lar un con ju n to de frecuencias que p o d ría n esperarse, dados los totales m arginales en cuestión. E n o tro s térm inos, podem os calcular el n ú m ero de p ro te sta n te s de los que esp eraríam o s fu e ran republi canos y c o m p arar esta cifra con la que se h a obtenido en re a lidad. Si la diferencia y las diferencias co rrespondientes a las o tra s casillas son considerables, p ro b ab lem en te sospechem os de la hipótesis nula. H ay que o b tener, pues, alguna m ed id a de la d iferencia en tre las frecuencias observadas y las esperadas. Existe, p o r supues to, u n a g ran ca n tid a d d e m edidas, p ero necesitam os u n a con resp ecto a la cual la distribución de m u estras sea conocida y esté tab ulada. P o r ello nos servim os de u n a m edia designada com o de la ^-cuadrada (y'¿), que se define com o sigue: X2 = S Í Í L Z ^ 1
Je
(XV.1)
en lo que f0 y f e se refieren respectivam ente a las frecuencias ob servadas y esp eradas p a ra cada casilla.2 O en o tras p a la b r a s : la ^-cuadrada se o btiene tom ando p rim ero el cu ad rad o d e la diferen cia e n tre las frecuencias observadas y esperadas p a ra cada casilla. Dividimos d icha cifra e n tre el n ú m ero de casos esperados en cada casilla, con o b jeto de norm alizarla, de m odo que las m ayores contribuciones n o provengan siem p re de las casillas m ayores. Y la sum a de to d as esas cantidades no negativas p a ra todas las ca sillas es el v alo r de la ^-cuadrada.
2 Con objeto de reducir la confusión hemos abandonado el índice i, su poniéndose, con todo, que estamos sumando los resultados de todas las casillas.
O bsérvese que cu an to m ayores son las diferencias e n tre las frecuencias observadas y las esperadas, tan to m ayor es el valor de la /-cu ad rad a. É sta sólo será cero si todas las frecuencias o bservadas y esperadas son idénticas. Podem os proceder a una verificación de la hipótesis n u la b uscando la distribución de m ues treo de la /-cu adrada. D ifícilm ente anticiparem os que las fre cuencias observadas y las esperadas sean exactam ente las m is m as. Sin em bargo, si el valor de la ^-cuadrada resu lta m ayor de lo que al azar se anticiparía, estarem os en condiciones de des c a rta r la hipótesis n u la siguiendo el procedim iento habitual. Problem a. Podem os servirnos del ejem plo pu esto anteriorm en te, p e ro sim plificándolo, de m an era que obtengam os u n a ta b la de 2 X 2. La extensión del m ism o al caso general re su lta rá después m uy sencilla. Supongam os, pues, que se h an com binado los ca tólicos y los judíos y que se h a prescindido de los independien tes. Tenem os así el siguiente cuadr&
Partido
Protestantes
Católicos y judíos
Total
Republicanos Demócratas
126 71
99 162
225 233
Total
197
261
458
Im p o rta o b servar que las cifras de cada casilla son en realidad frecuencias y no po rcen tajes. Si ías cifras dadas son porcentajes, hay q ue convertirlas en frecuencias, ya que, desde el punto de vista estadístico, la p ru e b a de la /-cu a d rad a com porta u n a com p aració n de frecuencias y no de porcentajes. 1. S upuestos. N ivel de m e d ic ió n : dos escalas nom inales M odelo: m u estras aleatorias independientes H ip ó tesis: n o existen diferencias e n tre las poblaciones con fesionales e n relación con la preferen cia política. P o r supuesto, el nivel de m edición puede ser m ás elevado. En efecto1, las p ru ebas de la /-cu ad rad a se utilizan con frecuencia con escalas ordinales e inclusive, en ocasiones, con escalas de intervalo. Sin em bargo, según vim os en los capítulos preceden tes, se dispone en tales casos de pruebas m ás fu ertes que se em p learán p o r lo re g u lar con preferen cia a la /-cuadrada. Una vez m ás, h ay que su poner independencia e n tre las m u estras p ara serv irse de la p ru e b a de la /-cuadrada. La m agnitud de la m ués-
t r a h a de se r re lativ am en te grande, p o rq u e la %-cuadrada, según la define la fórm ula, tiene u n a d istrib u ció n de m u estreo que sólo se ap roxim a a la del cu ad ro si N es grande.3 L a h ip ótesis n u la p u ed e fo rm u larse en cierto n ú m e ro de m o dos equivalentes. D ecir que no hay diferencia e n tre grupos con fesionales en m a te ria de p referen cia p o lítica equivale esencial m en te a d ecir que no- hay d iferencia alguna e n tre la filiación religiosa y la p re fere n cia electoral. H ay que te n e r p resen te, sin em bargo, que sem eja n te afirm ación sólo- se ap licaría a las varia bles tales com o se las haya definido o p erativ am en te; en este caso, p o r ejemplo-, la p referen cia política y la religión se definirían com o variables dicotóm icas. P o d ría tam bién enunciarse la hipó tesis n u la enum erando las diversas proporciones que se suponen iguales. Si bien este últim o m étodo sea ta l vez el m ás preciso, p u ed e re su lta r con todo m uy em barazoso en el caso general. 2. N ivel de significacióni^Siipongam os que querem os dem os t r a r u n a diferencia y que deseam os se r ex trem adam ente cautos. Nos servirem os, en consecuencia, del nivel de .001. Supóngase asim ism o que n o se h a anticipado- la dirección de la diferencia. 3. D istribución de m uestreo. Las distribuciones de m u estreo d e la %-cuadrada e stán dadas e n el cu ad ro I del A péndice 2. Ob sérvese que las distribuciones difieren de acu erd o con los grados de lib e rta d im plicados. La determ inación de los grados de liber tad se exam inará m ás abajo. Como q u iera que, independientem en te de la dirección de la relación e n tre la confesión y la p refe ren cia política, n u estro in terés e stá en sab e r si la ^-cuadrada o b ten id a es o n o m ayor de lo que se e sp e raría al azar, sólo nos ocupam os de la cola m ayor de la distribución. La cola m enor, que consta de valores m uy pequeños de la i-cuadrada, n o se suele em p lear p o r lo- reg u lar en los problem as de contingencia. 4. Cálculo de la estadística de la prueba. Lo p rim e ro que h a cem os en el cálculo de la ^-cuadrada es o b ten er las frecuencias esperad as. La hipótesis nula dice que no- hay preferencias de la gente en cuanto a la votación. P o r lo tan to , independientem ente d e cuál sea el v e rd ad ero n ú m ero de republicanos en cada u n a de las poblaciones confesionales, esperaríam os que, a la larga, h ab ría la m ism a p ro p o rció n de aquéllos en am bas m uestras. Como q uiera que la p ro p o rció n de republicanos en la m u estra com binada es de 225/458, o sea .4913, esp eraríam o s la m ism a cifra en cada u n a de las dos m u e stra s confesionales. Así, pues, anticiparíam os en cada uno de ellos los m ism os p o rcen tajes de republicanos y de dem ócratas. Podem os o b ten er luego el núm ero esp erad o de republicanos en tre los p ro te sta n te s m ultip lican d o .4913 p o r el n úm ero to tal 4de p ro te sta n te s de la m u estra. E n esta form a, el núm ero an ticipado de p ro te sta n te s republicanos sería (.4913)
* Para un examen más detallado de este problema véanse las pp. 299-301.
(197) = 96.8. Las dem ás frecuencias anticipadas pueden calcularse en fo rm a análoga. P o r lo re g u lar se recom ienda re te n e r p o r lo m enos u n a cifra decim al al calcular las frecuencias esperadas. De m odo que en el caso a n te rio r no redondearíam os a 97. Antes de p a sa r adelante, conviene ob serv ar que las frecuencias esp erad as tam bién pueden obtenerse razonando en fo rm a inver sa, esto1 es, en térm inos de la pro p o rció n de republicanos que esp eraríam o s que fu e ran p ro testan te s. Toda vez que la p roporción de p ro testan te s en la m u e stra com binada es de 197/458, o sea .4301, podem os o b ten er la frecuencia an ticip ad a de republicanos p ro te sta n te s com o sigue: (.4301) (225) = 96.8. El lecto r h a de ac o stu m b ra rse a o b ten er las frecuencias esp erad as en am bas fo r m as, a títu lo de co n tro l de los cálculos. U na vez que nos hayam os aco stu m b rad o al procedim iento, en co n trarem o s p ro b ab lem en te m ás sencillo' servim os de u n a sim ple fó rm u la com o la q u e se describe a continuación. Si designam os las casillas y los to tales m arginales com o a c
b d
a+c b+d
a+ b c+d N
entonces la frecuencia esp e rad a puede o b ten erse m ultiplicando los dos m arginales correspondientes a la casilla en cuestión y dividiendo e n tre N . Así, p o r ejem plo, la cifra esp erad a p a ra la casilla a sería (a + b ) ( a + c ) / N = (225) (197)/458 = 96.8 El em pleo de este ú ltim o procedim iento reduce todo e rro r de red o n d eo que p o d ría in tro d u cirse dividiendo1 p rim ero (p a ra ob ten er la p ro p o rció n ) y m ultiplicando luego. Se o b serv ará que este procedim iento de m u ltip licar m arginales p a ra dividirlos e n tre el núm ero to tal de casos, viene a ser b ásica m ente el m ism o que se exam inó en el capítulo ix en relación con la independencia de dos variables. E sto pone de relieve el hecho de q ue las frecuencias esperadas son com putadas sobre la b ase del supuesto de que las variables no e stá n relacionadas, en ta n to que las frecuencias observadas nos m u e stra n el grado en que se viola este supuesto. R ecuérdese que si los eventos (o va riab le s) A y B son estad ísticam en te independientes, el conocer el v alo r de u n o n o nos ay u d ará a p re d ecir el otro. Si las fre cuencias observadas y las esperadas son exactam ente iguales, ello significaría, en n u estro ejem plo, que el conocer las diferencias religiosas d e u n a p erso n a no1 nos p e rm itiría p re d ecir sus incli naciones políticas.
P or convención, ponem os p o r lo reg u lar las frecuencias espe rad as e n tre p arén tesis, debajo de las frecuencias realm ente ob tenidas p a ra cada casilla, ta l com o se indica a co n tin u ac ió n : Partido
Protestantes
Republicanos
126 ( 96.8) 71 (100.2)
Demócratas Total
197
Católicos y judíos
99 (128.2) 162 (132.8) 261
Total
225 233 458
Los cálculos p a ra la /-cu ad rad a pueden resum irse en u n cuadro com o el X V .l. O bsérvese que la can tid ad f 0 — f e tiene el mis-
Cuadro
XV .l. Cálculos de la /-cuadrada
Casilla
f0
1e
fo~fe
(fo-fe*
( f o - f e Wf e
a b c d
126 99 71 162
96.8 128.2 100.2 132.8
29.2 -29.2 -29.2 29.2
852.64 852.64 852.64 852.64
8.808 6.651 8.509 6.420
Total
458
458.0
30.388
m o valor p a ra cada casilla. E l lecto r debería convencerse p o r sí m ism o de que esto será siem pre así en el caso de tablas de 2 X 2, p ero que no se d eja con todo generalizar a otros casos. El hecho de elevar este valor al cu ad rad o tien e p o r efecto la elim ina ción de las can tidades negativas. Im p o rta que se em pleen en el d enom inador las frecuencias esperadas, y no las observadas. En efecto, estas ú ltim as v aria rán de u n a m u estra a o tra, y pueden incluso ser iguales a cero. R esulta a m enudo m ás conveniente servirse de u n a fórm ula de cálculo que no re q u ie ra la sustracción efectiva de cada frecuencia esperada de su correspondiente observada. D esarrollando el nu m erad o r en la expresión de la /-cu a d rad a y uniendo los térm inos o b ten em o s: ( f e - f e )2
^
f