Bevezetés a többváltozós biológiai adatfeltárás rejtelmeibe 963 8326 06 9


195 114 5MB

Hungarian Pages 411 Year 1997

Report DMCA / Copyright

DOWNLOAD PDF FILE

Recommend Papers

Bevezetés a többváltozós biológiai adatfeltárás rejtelmeibe
 963 8326 06 9

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Podani János

Bevezetés a többváltozós biológiai adatfeltárás rejtelmeibe avagy

“Mit is kezdjünk azzal a rengeteg adattal?”

Scientia Kiadó, Budapest 1997

© Podani János

ISBN 963 8326 06 9 Scientia Kiadó pf. 658 1365 Budapest

Kinyomtattatott az 1997-es esztendõben, a szerzõnek nyújtott OTKA P18941 könyvkiadási támogatásnak köszönhetõen.

Tartalomjegyzék 0. Bevezetés ..................................................................................................................................... 5 1. Mintavétel, adattípusok ........................................................................................................... 11 1.1 Mintavétel: alapfogalmak ................................................................................................ 12 1.2 Mintavételezési alter natívák ............................................................................................ 13 1.3 A mintavétel fõbb jellemzõi ............................................................................................. 15 1.4 Adatok: mér ési skálák és más jellemz•k ........................................................................ 23 1.5 Speciális témák .................................................................................................................. 30 1.6 Ir odalmi áttekintés ........................................................................................................... 33 1.7 Kér dezz – Válaszolok! ...................................................................................................... 35 2. Az adatmátrix, az adatok átalakítása .................................................................................... 37 2.1 Az attr ibútumok dualitása és az adatmátr ix geometr iai jelentése .............................. 38 2.2 Bepillantási lehetõségek a többváltozós adatstr uktúr ákba .......................................... 39 2.3 Az adatok átalakítása ....................................................................................................... 42 2.4 Ir odalmi áttekintés ........................................................................................................... 54 2.5 Kér dezz – Válaszolok! ...................................................................................................... 56 3. Távolság, hasonlóság, korreláció............................................................................................ 59 3.1 Alapfogalmak .................................................................................................................... 59 3.2 Együtthatók binár is adatokr a ......................................................................................... 63 3.3 Koefficiensek nominális változókr a ................................................................................ 74 3.4 Az or dinális skálán mér t adatok esete............................................................................ 77 3.5 Koefficiensek ar ány- és inter vallumskálán mér t változókr a ....................................... 80 3.6 Koefficiensek kever t adattípusokr a .............................................................................. 101 3.7 Távolságok általánosítása kettõnél több objektumr a (heter ogenitási mér tékszámok) .................................................................................................................................. 102 3.8 Ir odalmi áttekintés ......................................................................................................... 104 3.9 Kér dezz – Válaszolok! .................................................................................................... 107 4. Nem-hierarchikus osztályozás .............................................................................................. 113 4.1 Par ticionáló módszer ek .................................................................................................. 116 4.2 Átfedéses osztályozások.................................................................................................. 125 4.3 “Lágy” (fuzzy) osztályozások ........................................................................................ 126 4.4 Ir odalmi áttekintés ......................................................................................................... 131 4.5 Kér dezz – Válaszolok! .................................................................................................... 132 5. Hierarchikus osztályozás....................................................................................................... 137 5.1 A hier ar chikus osztályozó algor itmusok fõbb típusai ................................................ 140 5.2 Agglomer atív módszer ek ............................................................................................... 141

5.3 Divizív módszerek........................................................................................................... 156 5.4 Speciális eljárások........................................................................................................... 159 5.5 Hierarchikus osztályozások értékelése ......................................................................... 164 5.6 Irodalmi áttekintés ......................................................................................................... 168 5.7 Kérdezz – Válaszolok! .................................................................................................... 170 6. Kladisztika .............................................................................................................................. 173 6.1 Alapelvek és alapfogalmak ............................................................................................ 174 6.2 Kladisztika távolságok alapján ..................................................................................... 177 6.3 Evolúciós fák r ekonstr uálása kar akter ek alapján ..................................................... 183 6.4 Nukleinsav-szekvenciák elemzésének egyéb lehetõségei ............................................ 200 6.5 Kladisztikus biogeogr áfia .............................................................................................. 203 6.6 Ir odalmi áttekintés ......................................................................................................... 206 6.7 Kér dezz – Válaszolok! .................................................................................................... 207 7. Ordináció ................................................................................................................................ 211 7.1 A legfontosabb or dinációs módszer : a fõkomponens analízis ................................... 212 7.2 Két változócsopor t ér tékelése kanonikus kor r eláció-elemzéssel ............................... 229 7.3 Kor r eszpondencia elemzés............................................................................................. 236 7.4 Többdimenziós skálázás................................................................................................. 247 7.5 Csopor tok elkülönítõ or dinációja: a diszkr iminancia-elemzés ................................. 257 7.6 Mor fometr iai or dináció.................................................................................................. 264 7.7 Ir odalmi áttekintés ......................................................................................................... 272 7.8 Kér dezz – Válaszolok! .................................................................................................... 275 8. Táblázatok átrendezése ......................................................................................................... 279 8.1 Változók r angsor olása fontosságuk alapján ................................................................ 279 8.2 Blokk osztályozás............................................................................................................ 288 8.3 Szer iálás ........................................................................................................................... 297 8.4 Ir odalmi áttekintés ......................................................................................................... 301 8.5 Kér dezz – Válaszolok! .................................................................................................... 301 9. Eredmények összehasonlító értékelése ................................................................................ 305 9.1 Választási lehetõségek .................................................................................................... 306 9.2 Er edmények pár onkénti összevetése ............................................................................ 308 9.3 Hipotézisvizsgálatok, vár ható ér tékek, eloszlások ..................................................... 323 9.4 Konszenzus er edmények ................................................................................................ 331 9.5 Különbözõ típusú er edmények összevetése.................................................................. 339 9.6 Ir odalmi áttekintés ......................................................................................................... 341 9.7 Kér dezz – Válaszolok! .................................................................................................... 342 A függelék: A módszerek szemléltetésében használt adattáblázatok ................................... 345 B függelék: A számítógépes programok forrásai.................................................................... 351 C függelék: Amit célszerû tudni a mátrixokról ..................................................................... 355 D függelék: Angol-magyar “többváltozós-elemzéstani” kisszótár és kislexikon................. 367 Irodalomjegyzék ........................................................................................................................ 385 Tárgymutató ............................................................................................................................... 407

0 Bevezetés (Mirõl is lesz szó, miért és hogyan?) A biológusok számára örömök és nehézségek forrását jelentõ tény, hogy vizsgálati objektumaik az esetek jelentõs részében értelmes módon csak számos, esetleg igen sok bélyeggel (tulajdonsággal, változóval, stb) jellemezhetõk. A biológus kutató vizsgálódásai során rengeteg hasznos információhoz jut, amely gyakran áttekinthetetlen masszaként rejti el a mélyebb összefüggéseket. Ha maga a kutató tisztában is van bizonyos összefüggésekkel – hiszen elég sokat dolgozott az adatgyûjtés során ahhoz, hogy ez így legyen –, nemigen tudja azokat mások számára is érthetõ, egyszerû formába hozni a napjainkban rendkívül széles körben alkalmazott többváltozós módszerek segítsége nélkül. E módszerek alkalmazási lehetõségeit két – csak a célkitûzéseket tekintve élesen elváló – fõ csoportba oszthatjuk. A többváltozós eljárások egy része voltaképpen a biometriában tárgyalt egyváltozós módszerek1 kiterjesztése sok változóra. Feladatuk ennek megfelelõen megegyezõ: szignifikancia-próbák segítségével adnak lehetõséget statisztikai következtetésekre. Tipikus példa a többváltozós variancia-analízis vagy MANOVA (amelyben az egyes “kezelések” hatását egyidejûleg több változón mérjük le) és a többszörös regresszió (egy “függõ” változó és számos “független” ható tényezõ közötti függvénykapcsolatot keressük). A statisztikai hipotézis-vizsgálatok szerves része a “populáció” (=statisztikai alapsokaság, tehát nem keverendõ össze a genetikai populációval) valamilyen paraméterének (pl. többszörös korreláció) becslése, melynek alapján késõbb oksági összefüggéseket kereshetünk, és elõrejelzésre (predikcióra) alkalmas modelleket építhetünk. Így például a becsült regressziós koefficiensek alkalmasak lehetnek a függõ változó értékének megjóslására a független változók olyan kombinációira is, amelyek eredetileg nem állanak rendelkezésünkre a vizsgálatban. Az ilyen módszerekre legcélszerûbben többváltozós statisztikai eljárások néven hivatkozhatunk. A becslés mellett a biológusok számára éppen olyan fontos – a biológia történetét áttekintve bátran állíthatjuk: valójában jóval fontosabb – a másik lehetõség, a többváltozós 1

Ebben a témában a legjobb kiindulás Izsák et al. (1981) könyve, melyet nagy haszonnal forgathat – mintegy megalapozásként – a kizárólag többváltozós módszerek iránt érdeklõdõ Olvasó is.

6

0. fejezet

módszerek mintázat-, vagy adatstruktúra-feltáró funkciója. Ebben az esetben feladatunk a lényegkiemelés, a látens struktúrák felismerése, láthatóvá tétele, vagy egyszerûen csak a biológiai mintázatok leírása (deszkripció) és tömör összefoglalása, megmagyarázása. Mindezt többnyire matematikai konstrukciók, mint például osztályok, gráfok, mesterséges dimenziók stb. bevezetésével érjük el. A lényeg tehát az adatfeltárás, amelyre a szakirodalom rendszerint az “exploratory data analysis” cimkével hivatkozik, és elsõsorban a klasszifikáció és az ordináció módszereit érti alatta. A becslés, és ennek következtében a statisztikai következtetés ekkor elhanyagolhatóvá vagy legalábbis másodlagossá válik. Jelen könyvben a többváltozós módszerek második csoportjáról lesz elsõsorban szó, az adatszerkezetet feltáró módszerek mellett a hipotézisek ellenõrzésére alkalmas próbák legfeljebb segédeszközként jönnek számításba. Számos olvasó úgy érezheti majd, hogy sok – a hagyományos biometriából megszokott – fogalom, pl. eloszlás, szignifikancia-szint, becslés, null-hipotézis, statisztikai próba, “hiba”, paraméter, stb. “túlságosan” ritkán vagy egyáltalán nem szerepel a könyvben. Ez is mutatja a többváltozós módszerek két célkitûzése közötti jelentõs különbségeket. Az exploratív többváltozós módszerek biológiai alkalmazásairól már legalább száz, központi fontosságú könyv áll rendelkezésünkre az – angol nyelvû – irodalomban. Ezzel csak rá szeretnék mutatni arra, hogy teljességre még csak távolról sem törekedhettem, nemcsak terjedelmi, hanem majdhogynem elvi okokból sem. A tárgyalt tematika megválasztásában mindenesetre szem elõtt tartottam a sokféleséget, azt, hogy minél több lehetõséget villantsak fel az Olvasó elõtt. Az egyes fejezetek irodalmi összefoglalói, a kötet végén található terjedelmes bibliográfia figyelembevételével elõsegítik a tájékozódást, ha valaki valamely részterülethez különösképpen kedvet érez&. Különösen fontosak a számításokat megkönnyítõ, ill. egyáltalán lehetõvé tevõ számítógépes programok, amelyekre minden fejezetben kitérek. A hangsúly talán a növényökológián, cönológián és rendszertanon van, s ez némiképpen mutatja a szerzõ elfogultságát is eme tipikusan “többváltozós” diszciplínák mellett. A többváltozós alaphelyzet azonban a biológiában jóval általánosabban jelentkezik, amint azt a 0.1 táblázat is szemlélteti. A könyvben leírtak szerencsére kis erõfeszítéssel a biológia bármely más területére is “lefordíthatók” és adaptálhatók. Az olvasónak jut az a – remélhetõen kis – feladat, hogy a szakzsargont a maga szakterületéhez igazítsa. Ha például a cönológus “nevében” kvadrátról vagy mintavételi egységrõl, ill. az õket jellemzõ “fajokról” beszélünk, akkor ezek helyett gondolatban a saját témánknak megfelelõ objektumtípust és változót kell csupán alkalmaznunk. A módszerek biológiai jelentõségére már sokan rámutattak korábban is. Viszonylag friss James & McCulloch (1990) áttekintése, amely – bizonyos fenntartások megfogalmazása mellett – leszögezi, hogy “a rendszertan és az ökológia teljes megértése a többváltozós módszerek némi ismerete nélkül ma már lehetetlen, és megfordítva: a módszerek félreértése a tudomány[ág] elõrehaladásának akadályozója lehet.” Mindezt hét, a rendszertanban és ökoló2

'    (     #   )  *        ! +   ,   !   

$   

      -     #  .      #   

*   )       -              

Bevezetés

7

0.1 táblázat. Többváltozós alaphelyzetek a biológia különbözõ (határ-)területein. Tudományterület

 #  0   #  1 " #  2   %     3 (    #  4  #  5    6  #  0- #  (  #  7   2  

Objektumok

Változók

fajok

viselkedési jellemz$k

rétegek

fajok

leletek

morfológiai ismérvek

fajok

elterjedési információ

betegségek

tünetek

populációk

géngyakoriságok

fehérjék

aminosav szekvencia

fajok

fotoszintézis-jellem$

fajták

termésmutatók

fafajok

életkori megoszlás

tavak, folyók

vízmin• ségi jellem$

kísérleti személyek

tesztre adott válaszok

baktérium-törzsek

szubsztrátumok

talajprofilok

%-os összetétel

él• helyek

éghajlati jellem$

giában elismerten központi fontosságú folyóirat 1983-1988 közötti évfolyamainak tematikus elemzésével támasztja alá a két szerzõ: a cikkekben a többváltozós módszerek több, mint 500 alkalmazására sikerült rábukkanniuk. (A gyakoriságokat tekintve “dobogós” helyezések: 1. fõkomponens analízis, 2. diszkriminancia elemzés, 3. numerikus osztályozás). A téma magyar nyelvû irodalma eléggé szûk, s könyvem kimondott célja bizonyos “fehér foltok” eltüntetése a hazai biológia módszertanának térképérõl. Természetesen vannak már magyar nyelvû kiadványok, de ezek egyike sem teszi – úgy érzem – feleslegessé a speciálisan biológusok számára írt kézikönyv megírását. Sváb (1979) elsõsorban a többváltozós módszerek agrár-alkalmazásaiban lehet segítségünkre. Könyvének témája azonban lényegében véve a jelen kötet 7. fejezetében tárgyalt ordinációs módszerekre szorítkozik, különös hangsúlyt fektetve a fõkomponens-elemzés és a diszkriminancia-analízis elméletére és gyakorlatára. A Móri & Székely (1986) szerkesztésében megjelent cikkgyûjtemény a többváltozós statisztika kemény, matematikai megalapozását adja számos szerzõ tollából. Ez semmiképpen sem ajánlható a témával most ismerkedõknek, de haszonnal forgathatja mindenki, aki jóval mélyebben akar leásni a többváltozós statisztikában annál, amire e könyv lehetõséget nyújt. A feltétlenül megemlítendõ mûvek sorából nem hagyhatjuk ki Füstös et al. (1986) munkáját, amely – tematikáját tekintve – nagyobb átfedésben van jelen könyvvel, mint a másik kettõ. Az ordináció módszereit, különösképpen a nem-metrikus eljárásokat rendkívül részletesen tárgyalják a szerzBUBUk. A legtöbb nehézséget a biológus olvasó számára itt a terminológiai “másság” okozza: a bemutatott – meglehetõsen komplikált – példák kizárólag szociológiai és közgazdasági vizsgálatokat illusztrálnak/. Megemlítendõ még Füstös & Kovács (1989) egyetemi tankönyve, amelyben ugyancsak jelentõs terjedelmi hányad esik a többváltozós

8

0. fejezet

                           

módszerekre, míg a példák társadalomtudományi jellegûek. Szinte természetes módon, a tartalom jelentõs átfedésben van Füstös et al. (1986) tematikájával. Mind a négy kötettel – különösen a másodikkal – kapcsolatban megállapítható, hogy a terjedelmet és a tematika sajátosságait figyelembe véve aránytalanul kevés ábra található bennük. Mivel a biológus Olvasó – feltételezhetõen – kifejezetten vizuális típus, könyvemben sokkal több ábrával és diagrammal (összesen 137) igyekszem elõsegíteni az elmélet megértését és az interpretációs lehetõségek bemutatását. Legyen az elsõ, 0.1 számú ábra mindjárt a könyv tematikájának, a legfontosabb módszertani útvonalaknak a summázata8. Természetesen nem mutat, és nem is mutathat be minden lehetõséget, de talán támpontot nyújt az Olvasó számára, hogy nagyjából mire számíthat ebben a könyvben. Nem valószínû, hogy az általa alkalmazott módszereket éppen ennek alapján fogja kiválasztani, de néhány fontos döntési lehetõséget megtalál benne. A séma fõ tengelye az “alapsokaság → adatmátrix → távolság...” útvonal, amelyet – valamilyen formában – szinte mindenki megtapasztal. Az igazi választási lehetõségek ezután nyílnak, az osztályozás és az ordináció irányokban. Az ábra alsó részére voltaképpen mindenhonnan mutathatna nyíl (csak három van, jelképesen): itt arra utalok, hogy az ordinációs és klasszifikációs eredményekkel nem mindig elégedhetünk meg, és szükség van valamilyen, az alternatív eredmények összehasonlítására alkalmas metodológiára is. A könyv felépítése A bevezetõt követõ kilenc fejezet tárgyalja a többváltozós módszereket, a téma elõnyösnek vélt felbontásában. A fejezeteket persze nem feltétlenül kell pontosan ilyen sorrendben olvasni: bár sok keresztutalás található a fejezetek között, valójában mindegyikük külön olvasmányként is kezelhetõ. Aki a kladisztika iránt érdeklõdik például, annak az elõzõ részek – néhány bekezdéstõl eltekintve – vajmi keveset mondanak, s közvetlenül belefoghat a 6. fejezet olvasásába. Az ordinációs módszerekhez sem feltétlenül szükséges a terjedelmes 3. fejezet ismerete, és így tovább. Leginkább a 9. fejezet az, amely erõteljesen támaszkodik az elõzõ részekre, s ez nem véletlen, hiszen az eredmények értékelésérõl és összehasonlításáról van benne szó. Minden fejezet szerkezete azonos: a módszertani alfejezeteket követõen rövid irodalmi/program összefoglalót találunk, majd a száraz tényanyagot a Kérdezz-Válaszolok! alfejezet kötetlen és képzeletbeli dialógusai zárják. A fejezeteket követi a négy függelék az 3

4

 9   !     $ !      #      #        1 #     *            :  + ,   +,    (     +  #,       2

            *") +   ,        ;   )

     !        !   "       9    "" -    1

 "        #     $

 !          

    

 

     # 

  

  

   !            !   !

  *4 > 1 .   

 

peremhatás

,     "   

 $    

 





 



    

          99 ( 4;F5  444 1

A fent leírtak rendszerint csak szesszilis élõlények (növények, bevonattársulások összetevõi) esetében érvényesek. Állattársulások zöménél – éppen az egyedek nagy mozgékonysága miatt – speciális mintavételezési eljárásokra van szükség. Ilyen pl. a madármegfigyeléseknél alkalmazott sávmódszer, melyben a mintavételi egység szélessége, hossza, és az adatrögzítés idõtartama a legfontosabb paraméterek. Vitathatatlan, hogy állattársulások esetében még inkább a tradíciók és praktikus szempontok döntik el a mintavételi egység nagyságát, hiszen igen nehéz az összhangot megtalálni a méret és az adatelemzõ eljárások között. Van persze

22

1. fejezet

   



    



  

#

  $    " #B   

*

1

*P"   1





1

  #  *





"

  

       #

"

$

   

  

 #





"  

!

 . &      "

arra is példa, hogy állattársulások, nevezetesen planktonikus rákok esetében a Juhász-Nagyféle módszerek is használhatók (Dévai et al. 1971). A vizsgálat célja persze nem feltétlenül társulástípusok elkülönítése, osztályozása és leírása. Ez csak a cönológiában van így. Green (1979) számos példát ad arra, hogy többváltozós módszerekkel elemezzük a társulásoknak a környezet leromlásával összefüggõ változásait. Ez a monitoring a társulás strukturális megváltozásából von le következtetéseket, és ideálisan ugyanúgy optimális méretet kell alkalmazzon, mint az osztályozás. Ez a méret azonban változhat az idõvel, különösen ha a változások erõteljesek. Joggal feltételezhetõ tehát: nem is létezik kitüntetett méret! Ugyanez mondható el a szukcessziós vizsgálatokról is, melyek során elõszeretettel alkalmaznak permanens kvadrátokat. Ha ezen egységek mérete rögzített, akkor nem tudjuk az idõbeli és térbeli változásokat elkülöníteni egymástól. Látjuk tehát, hogy – legalábbis elvileg – a többféle területnagyság alkalmazása elkerülhetetlen. A közeg-típusú alapsokaságok témáját rövidebbre foghatjuk. A mintavételi egység mérete itt már inkább technikai kérdés, amely összefügg a rendelkezésre álló analitikai eszközökkel, azok pontosságával és méréshatárával (gondoljunk a pH mérésre, talajfúróra, légszennyezésmérõkre, hasonlókra). Ezen részletek ismertetése azonban nem lehet feladatunk. 1.3.4 A mintavételi egységek alakja Az alak kiválasztásánál ismét a becslés–mintázatelemzés “ellentét” lebegjen a szemünk elõtt. Becslési célból érdemes hosszabb, megnyúlt alakot használni, mert ez csökkenti a varianciát. Társulásokban azonban az ilyen alakú mintavételi egységeknek komoly hátránya van: a térben egymástól távol elhelyezkedõ egyedeket tekintünk összetartozónak, s ez félrevezetõ értékeket ad az interspecifikus asszociációra (pl. Pielou 1977, Greig-Smith 1983) vagy sok faj egyidejû kapcsolatának kifejezésére (pl. Podani 1984a). Továbbá: megnyúlt egységek könnyebben átfednek a társuláson belüli v. azok közötti határvonalakkal, mint az izodiametrikus egységek (pl. négyzet vagy kör, 1.7 ábra). (Itt meg kell jegyezni, hogy a szakirodalom kvadrát néven nem feltétlenül négyzet alakra utal, olvashattunk már “kör alakú kvadrátról” is!) Ezért a többváltozós társulás-elemzésekre csak az izodiametrikus alak ajánlható.      "$   !  $ 

        

  *     $ !  4 >"      

 



       

Mintavétel, adattípusok

23

   

 



   *

1

C  

   "     

C.

 .

  





 # &   

   

 .

  



!! $ 

     6 449 "

Mintavétel, adattípusok

27

 T  ฀ >    

#   "

           +     U   E     222  '          > *

 6 >  "   1







 "  

 #       

#   "&        "    *6 > 4  1 +   ""    * +!   G K:  K  222    

 

        "1  #  "         

 

,     

    

        1 3          #  *59 ,     

 



             

61 

  



"  1        

          #  

 





 #

(        #   



 #  

*6 7Q   1 & 

  # ! !

          # '    

8    #       # ! !             



#

 #  

*, #    6F1    J 

  *4;;>  4;74;F1       

Az adatok magukban is rejtenek bizonyos belsõ súlyozást. Gondoljunk pl. egy erdõtársulásban felvett borításértékekre, amelyek várhatóan nagyon nagyok lesznek a fafajokra, gyepalkotó füvekre, de kicsik a szálanként növõ orchideákra és egyebekre. Ezek az eleve meglévõ, esetleg nagyságrendi különbségek a módszerek egy részénél változatlanok maradnak (pl. osztályozás v. ordináció az euklidészi távolságból, 3.47 egyenlet). Ennek következtében az eredményt a fafajok sokkal inkább befolyásolják, mint az orchideák. Az adatelemzõ módszerek megfelelõ kiválasztásával, vagy az adatok elõzetes átalakításával (2.3 rész) ez a belsõ súlyozás kiegyenlíthetõ (azaz minden faj egyformán fontos lesz), sõt fokozható is. A belsõ súlyozástól nem választható el az összemérhetõség (Orlóci 1978) problémája. A fenti példát tekintve a fák illetve a szálanként nõvõ lágyszárúak borítása, akármekkora is az eltérés, összemérhetõ egymással, hiszen azonos dologról: növények által elfoglalt terület nagyságáról van szó. Egy fizikai-kémiai méréseket tartalmazó adathalmazban azonban sokféle változó szerepelhet, amelyek semmilyen értelemben sem összemérhetõk. Ezt a különféle mértékegységek jelenléte okozza: egy ökológiai vizsgálatban pl. a pH értékek – mondjuk – a [4-8] tartományban mozognak, egy fém talajbeli koncentrációja pedig 100 és 200 ppm között. Azaz, egy kismértékû fémtartalomváltozás nagyobb súllyal szerepel az elemzésben, mint a pH maximális megváltozása, ami nyilván nemkívánatos. Ekkor adatainkat standardizálnunk kell (2.3 rész). 1

- '-' .-   #/ /  -  .#/  -   /- $

30

1. fejezet

 

1

   #       "

    *

     *

1

  &

1.4.7 A változók eloszlása A többváltozós módszerek jelentõs részét nem befolyásolja a változók eloszlása (egyszerûen mondva: az, hogy az alapsokaságból származó lehetséges értékek milyen valószínûek). Ide tartozik például az osztályozás (cluster analízis) majd minden módszere (4-5 fejezet), vagy a nem-metrikus többdimenziós skálázás (7.4.2 rész). Egyes hiedelmekkel ellentétben a fõkomponens analízis (7.1 alfejezet) sem feltételez semmit a változók eloszlásáról (Chatfield & Collins 1980, p. 58, Rejtõ 1986, p. 96), bár nem “hátrány” a normális eloszlás megléte. A diszkriminancia elemzés és a kanonikus korreláció esetében viszont alapfeltétel a többdimenziós normális eloszlás. Ezt két változóra az 1.8a ábra segítségével illusztráljuk. Ha nem teljesül e feltétel, attól az elemzés még végrehajtható, a számítógép kiad valamilyen eredményt, de azt rendkívül óvatosan kell kezelni.    #   $     # 



#

 

  #     

  

    



  *  .    

"       1

$   

 

 

    

   #   

$ 









  " # *7 > 4  7 9  1   

"   # $ &$

    *; 9 >  1         *

2          

       #   

     &    4 F 1  $    

    

     #   ! &$      .  

   "  

*> 6 >  1  

   

 

 !  #         

     #  ! !      !   *

U  

4;;41

1.5 Speciális témák 1.5.1 Térsorelemzés A mintavételi egység nagyságával kapcsolatosan már rámutattunk arra, hogy a mintavétel során (vagy az elõzetes vagy pedig a fõ adatgyûjtés alkalmával) többféle méretet célszerû kipróbálni. Annak érdekében, hogy csak a méret legyen a ható tényezõ, a mintavétel többi jellemzõjét (a mintanagyságot, az elrendezés módját és az alakot) változatlanul kell hagynunk (1.9 ábra). A növekvõ kvadrátok sorozatát felhasználva ezután megvizsgálhatjuk a méret hatását magukra az adatokra, a hasonlóság- és távolságértékekre, osztályozásokra és ordinációkra. Más szóval, az eredmények skálafüggése elemezhetõvé és értelmezhetõvé válik. Az

Mintavétel, adattípusok

31

 

E    

   

   

 

   ! $

  





ilyen mintavétellel egy, az idõsorelemzéssel analóg mûveletre nyílik lehetõség, amit térsorelemzésnek nevezhetünk (régebben “térfolyamat”, vö. Podani 1984a, 1992). A növényökológia irodalmát áttanulmányozva megállapítható, hogy a térsorelemzés – kimondva – kimondatlanul – jelen van számos területen, pl. diverzitás becslésekben (Pielou 1975), és alapvetõ stratégia a populációk mintázatelemzésében (Greig-Smith 1983) és fajkombinációs diverzitás elemzésekben (Juhász-Nagy 1976 1984, Juhász-Nagy & Podani 1983). A térsorelemzés persze nem korlátozódik a terület nagyságának változtatására: a mintavételezés másik három jellemzõjével is végrehajtható, amint az alábbiakban bemutatjuk.



   

!          $   

$   .

      $   

& 

   

  #     

 



,  

 ! "

    



I #

*4;;41  I # J -

 *4;F;1 "                  .      ! #    

     !  

   "   # "            

  !  #

#                *

I # J  4;76

- 4;F;1

"      

*- 4;F51

E   

      



(           $       

   !! $ "               *4 4Q 1 ,



 

 

 

&# 

 #

 $



*4 9 >

 1



 

 "   .       

  . $   

    *C  4;7@ - 4;F5 K

 J 0

4;F71

A késõbiek során látni fogjuk, hogy a térsorelemzés nem korlátozódik a valós térben definiált változásokra, és szinte mindenféle – az elemzés során szóba jövõ – absztrakt térben is “lejátszható”. Sõt mi több, végrehajtandó, ha saját, – a többváltozós elemzésben is elkerülhetetetlenül szubjektív – döntéseink hatását elemezni kívánjuk. 1.5.2 Számítógépes mintavételezés A mintavételi körülmények térsorbeli változtatása rendkívül sok terepmunkát igényel, s erre nincs is minden esetben lehetõség. Ha sokféle kombinációt akarunk kipróbálni, akkor ez már szinte lehetetlen lenne a vizsgált terület alapos tönkretétele nélkül. Megoldást a számítógépes mintavételezés jelent. Palley & O’Regan (1961) és Arvanitis & O’Regan (1967), erdészeti becslésekre vonatkozó korai munkásságát követõen Szõcs (1979) dolgozta ki a növénytársulások számítógépes mintavételezésének elvi alapjait. 

  #

 & 

  

! $

" 

,   $  &#   #

  





  B 





#

 



  $     " "  .    " 

   



32

1. fejezet

      



   



     





  

   

!   $   

   

! $

  



     



 " $   *     1





   

         



 



  

    *- 4;F51

&# 

 #

  # # *

 4;;61

 " $ 

 J U 

   $

&  

- 4;;6



 !" 

MULTI-PATTERN

 

,  J E# 

*4;F;1     $    #  

        # 

 

SYN-TAX

        - *4;F71 

   #  &#      $ 

               

#

1.5.3 Mintavételezés a mintából (“bootstrapping”) A név eredete az angol “pull yourself up by your own bootstraps”, azaz kb. “segíts magadon” kifejezésben gyökerezik. Az eljárás a statisztikai becslések/hipotézisvizsgálatok témakörébõl származik (Efron 1982), s egy ilyen jellegû példával mutatható be legkönnyebben. Elõször is veszünk egy n elemû véletlen mintát az alapsokaságból, s kiszámolunk valamilyen statisztikát (pl. átlag vagy variancia). Ezt a statisztikát nincs mivel összehasonlítani; nos, vegyünk ki nagyon sok véletlenszerû, ugyancsak n-elemû mintát a mintából, de már visszatevéssel! (A visszatevés azt implikálja, hogy az eredeti mintát most az alapsokaság olyan reprezentációjának tekintjük, amelyben minden egyes elem elõfordulása egyformán valószínû.) Ez a mintavétel célszerûen számítógéppel történik, így a módszer a számítógépes mintavételezés egyik speciális esete. Minden ilyen mintából számoljuk ki ugyanazt a statisztikát, ez lesz az ún. bootstrap becslés. Több száz vagy ezer ilyen becslésbõl már egy empirikus eloszlás rajzolható fel, amelyben megvizsgálható, hogy az eredeti mintából kapott érték hol helyezkedik el. Ilymódon a statisztika torzítására, standard hibájára, megbízhatósági intervallumára sõt szignifikanciájára is következtethetünk, egyetlen mintából (Manly 1991). 

#  !  # #      

      !    

# *

!

  &   



      ? 

Mintavétel, adattípusok

33

4;F5 (' 4;F; (' J -  4;F; "$   &  ! #       +" "   

4;F91

K

*4;;61

(       D    *4;F91 +   *4;F;1 0

 J

       

 &       

     

"                

1.6 Irodalmi áttekintés

Többváltozós elemzéssel foglalkozó könyvek tucatjai nem is törõdnek azzal, hogyan jutunk az adatokhoz. Azokat már adottnak veszik, s mintavételezésrõl sajnos egy szó sem esik. Az ökológusok számára írt ilyen mûvekre példa Williams (1976), Legendre & Legendre (1983), Pielou (1984), Digby & Kempton (1987). Más források sokszor nem ismertetik részletesen, csak megemlítik és néhány irodalmi hivatkozással el is intézik az ügyet (pl. Ludvig & Reynolds 1988, Jongman et al. 1987), vagy rövid, velõs összefoglalót adnak (Orlóci 1978). Nagyon rossz hatású lehet azonban a terjedelmesebb, de teljesen félrevezetõ prezentáció, amire több példa is akad, sajnos. Kershaw & Looney (1985) a véletlen elrendezést, a mintanagyságot, a mintavételi egység nagyságát és alakját becslési kontextusban tárgyalják. Ez a kötet populációbiológiai részét illetõen úgy ahogy rendben is volna, de már teljesen irreleváns a többváltozós módszerek 65 oldalas leírására nézve. Mit tehetünk vajon olyan kijelentésekkel, hogy “elméleti alapon a legmegfelelõbb kvadrátméret a lehetõ legkisebb, amely a növényzet típusával ill. az adott méretû kvadrát praktikus voltával összhangban van” (Kershaw & Looney 1985, p. 27)? Greig-Smith (1983), egyébként kitûnõ, több kiadást megért könyve is beleesik ebbe a csapdába, holott maga a szerzõ jegyzi meg a vonatkozó fejezet elsõ sorában, hogy a “kvantitatív adatok értéke ... attól függ, hogy milyen mintavételi módszerrel jutottunk hozzájuk”. Ahhoz képest, hogy a könyv 144 oldalt szentel a többváltozós módszereknek, a mintavételezésrõl szóló fejezet csak a becsléssel ill. a mérés pontosságával kapcsolatos szempontokat ismerteti. Mentségül felhozható, hogy a szerzõ mindezt tudatosan teszi, megemlítve, hogy [a növényzet] “általános összetételére ill. egy területen belüli variáció elemzésére nem biztos, hogy ugyanaz a legmegfelelõbb mintavételezési módszer”. Greig-Smith egyébként az egyik elsõ volt azok között, akik a mintavételezés és az adatelemzés közötti kapcsolat fontosságára rámutattak (Austin & GreigSmith 1968). Green (1979) ugyancsak becslési ill. tesztelési célú vizsgálatokra összpontosít, s nem foglalkozik a mintavételezés és a többváltozós módszerek kapcsolatával (pedig õ bõven szól e módszerekrõl). A tárgyalás folyamán viszont, szerencsére, teljesen nyilvánvaló, hogy mikor, milyen kontextusban értékeli a szerzõ az egyes mintavételi eljárásokat. Ennek ismeretében sok haszonnal forgathatjuk e könyvet (s némi plusz fáradtsággal, ui. a sajátos felépítésnek köszönhetõen a mintavételezés témája eléggé elaprózódik). Míg a Kershaw & Looney, a Greig-Smith- és a Green-féle kötetek mintavételi fejezeteinek egyoldalúsága legalább részben érthetõ, ez nem mondható el Gauch (1982) mûvérõl. Gauch nemigen lép túl az általánosságokon, kritika nélkül átveszi az elõtte leírtakat, függetlenül attól, hogy azok alkalmazhatók-e egyáltalán a többváltozós elemzésben, a kötet kizárólagos témájában. A 2. fejezet valóságos tárháza a teljesen használhatatlan kijelentéseknek. Ilyen pl. “általában az olyan téglalap, amely 2-4-szer hosszabb, mint amilyen széles, a legpontosabb” vagy “a mintanagyságot az egyes mintavételi egységek pontossága [=accuracy], az eredményektõl elvárható pontosság ... befolyásolja”. A faj-area görbéket ajánlani optimális kvadrátnagyság meghatározására, mint már utaltunk rá, egyenesen félrevezetõ. Sok egyéb, elsõsorban növénycönológiai-ökológiai indíttatású könyvet sem lehet megvádolni azzal, hogy a mintavételezés elméletét, többvátozós kontextusban használhatóan

34

1. fejezet

 0!! #$%+.(   0  * G  #$%%?(    !   A2   !          $?H      

           !                   3 3    !            3     3 I    !         ! B ! #$%'?( G #$%&&(            3  !      2    G    #$%&%(           $.  3       8            B9 #$%+.(           !! !      

   0                J  #$%+,(     2   7             !                 !    ;2    L      0    3     !  #',2.  ( 2

    3       !  3 !                    (                   

  1   2            =      >        5   $.     !  !    2  0. 3) A szimmetriaaxióma szerint djk = dkj (azaz mindegy, hogy a távolságot melyik irányból mérjük).

A fenti három axióma jól láthatóan “érvényesül” a 3.1 mátrixban. Az átlóban 0-k, az átlón kívül pozitív értékek szerepelnek, az egész mátrix pedig az átlóra nézve szimmetrikus. Így elegendõ lenne a bal alsó sarokban levõ három értéket megadni (“alsó félmátrix”), amint azt gyakran meg is tesszük (pl. a 3.2 mátrix). 4) A metrikus sajátság igen fontos, megkülönböztetõ kritériuma a háromszög-egyenlõtlenség axiómája. Eszerint d csak akkor metrika, ha bármely három i, j, k pontra igaz a következõ összefüggés: dij + dik ≥ djk. Szavakban: két pont távolsága nem lehet nagyobb, mint egy harmadik ponttól vett távolságaik összege.

Ezt könnyen beláthatjuk a kétdimenziós esetre a 3.1a ábra segítségével. Adottak az és a pontok, és ekkor kellene a harmadik, pontot úgy megkeresni, hogy a másik kettõtõl vett távolságainak összege kisebb legyen -nál. Látjuk, hogy az euklidészi távolság esetén ez lehetetlen, a összeg akkor lesz a legkisebb, ha az pont éppen ráesik a egyenesre. Bárhová is mozgatjuk az pontot, a távolságösszeg szükségképpen növekszik, a háromszögegyenlõtlenség tehát fennáll. Felmerülhet persze mindenkiben a kérdés, hogy tudunk-e olyan egyszerû példát szerkeszteni, amelyben teljesül a háromszög-egyenlõtlenség, és az euklidészi távolságok felrajzolása mégsem sikerül. A 3.1b ábra segítségével, négy pont alapján elképzelhetünk egy ilyen szituációt is. Legyen a négy pont közötti összes lehetséges távolságok alsó félmátrixa a következõ: j

k

i

djk

dij+dik

i

jk

i

D4, 4

⎤ ⎡0 ⎥ ⎢3.0 0 ⎥ =⎢ ⎥ ⎢3.0 3.0 0 ⎥ ⎢ ⎣1.6 1.6 1.6 0⎦

(3.2)

A 3.1b ábra mutatja, hogy az 1., a 2. és a 3. pont egy egyenlõ (3 egységnyi) oldalú háromszöget alkot. A 3.1a ábra példáját kiterjesztve gyorsan belátható, hogy a 4. pont akkor lesz a legközelebb a többihez, ha egy síkba kerül velük, mégpedig éppen a háromszög súlypontjába. De még ebben az esetben is 3 = 1,73 távolságnyira van mindegyik ponttól, azaz a fenti “távolságmátrix” nem euklidészi. A metrikus feltételeknek viszont eleget tesz, hiszen 1,6 + 1,6 > 3,0; a háromszögegyenlõtlenség tehát teljesül. Egy d függvényrõl tehát az az erõsebb állítás, hogy euklidészi, mert akkor metrikus is, míg ez fordítva – mint láttuk – nem feltétlenül igaz. A 3.2 mátrixot ugyan teljesen önkényesen

Távolság, hasonlóság, korreláció...

61

3.1 ábra. a2

E !    $#$ ,"    ! !      "     +""&" b2 " !      " )  

$# 3 !   "      $"     √

töltöttük ki, az illusztráció végett, de valóban léteznek nem euklidészi metrikák is (lásd a 3.4 táblázatot). Mi megelégedhetünk azzal az egyszerû megfogalmazással, hogy minden d metrika euklidészi, ha a pontok elhelyezhetõk egy olyan térben, amelyben d éppen a közöttük levõ euklidészi távolság.

 $# $ # " !1   "  " "   ! ; 7( $ #    "   

SS1=

2a + 2d 2a + b + c + 2d

(3.11)

     " "& "

  

Elsõ látásra valószínûségi alapon értelmezhetjük az alábbi két hasonlósági függvényt (Anderberg 1973). Az elsõ formulában: A1 =

FG a a d d IJ H a + b a + c b + d c + dK

1/ 2

(3.12)

az egyes tagok feltételes valószínûségként foghatók fel. Pl. a/(a+b) annak a valószínûsége,

68

3. fejezet

hogy egy véletlenszerûen kiválasztott változó a 2. objektumra 1-es értéket vesz fel feltéve, hogy az 1 objektumra is 1-es az értéke. A 3.12 függvény tehát négy feltételes valószínûség geometriai közepének a négyzete (a mértani középhez a szorzatból negyedik gyököt kellene vonnunk). A függvény jelentése talán jobban megérthetõ a következõk szerint. Mint késõbb látni fogjuk, a 3.26 hasonlósági függvény – amely a 3.12 összefüggés elsõ két tagját tartalmazza – az 1. ill. 2. objektumokhoz mutató vektorok szögének a cosinusa. Egybeeséskor, 0o-nál értéke 1 (teljes hasonlóság), a legnagyobb elérhetõ szögnél, 90o-nál pedig 0 az értéke (teljes különbözõség). A 3.26 összefüggés persze nem szimmetrikus a-ra és d-re nézve, így a kódolás felcserélésével egészen különbözõ eredményekre vezethet. Nos, a 3.12 függvény éppen a 3.26 függvénnyel és kétféle kódolással kiszámított két cosinus érték geometriai közepének négyzetgyöke lesz. A1 olyan esetekben használható tehát, amikor nem tudjuk eldönteni, hogy milyen kódolást alkalmazzunk. A1 lehetséges értékei a [0,1] intervallumba esnek. Teljes hasonlóság esetén b=c=0, azaz az összes tag értéke 1 lesz, így a végeredmény is 1. Teljes különbözõség mellett a=d=0, így az összefüggés értéke is 0. Sokal & Sneath (1963:130) és Anderberg (1973) javasolt egy rokon formulát is, amelyben a négy feltételes valószínûségnek az aritmetikai közepét számítjuk ki az alábbiak szerint:

A2 =

b d d ⎞ 1⎛ a + + + ⎟ ⎜ 4⎝a+b a+c b+d c+d ⎠

(3.13)

Az = és @ értékét szimmetrikusan tekintõ, [0,1] intervallumban mûködõ hasonlósági függvények változása egy összehasonlítási sorban (a 3.1 táblázat 1. objektumát összevetve mindegyikkel). a: eredeti függvény, b: a 3.5 összefüggés alapján távolsággá alakított függvény.

3.2 ábra.

Távolság, hasonlóság, korreláció...

69

Ez a függvény a Kulczynski-indexszel (3.29) számított két, a kódolásban eltérõ hasonlóságértéknek az átlaga, tehát a 3.12 formulához hasonlóan ugyancsak a kódolási problémák “kivédésére” alkalmas. Ezek komplementje azonban, akárcsak a Kulczynski indexé, nem euklidészi. A szorzat-momentum korrelációs koefficiens (3.70) bináris esetben kifejezhetõ a 2×2-es kontingenciatáblázat jelöléseivel is:

I PH =

ad − bc (a + b)(a + c)(b + d )(c + d )

(3.14)

Tulajdonságait a késõbbiekben, a korreláció (3.70) tárgyalásakor ismertetjük. Ehelyütt csak annyit érdemes megjegyeznünk, hogy ha a számlálóból elvesszük a bc tagot, akkor a 3.12 egyenletet kapjuk. A PHI koefficiens és a változók függetlenségét kifejezõ khi-négyzet statisztika között szoros összefüggés van: PHI = χ /n.

(3.15)

Ugyancsak változók kapcsolatának mérésére alkalmas elsõsorban a Yule féle prediktabilitási index is

γ1 =

ad − bc ad + bc

(3.16)

amely azt méri, hogy mennyiben “jósolható meg” az egyik változó egy adott megvalósulása a másik ismeretében. Y1= 1 ill. Y1=–1 értékekre lesz teljes a megjósolhatóság. Az elsõ esetben

 =  @         +            !   !    "  # $%   % &        ! '% a:     ! b( $%)  *&   "  !%

3.3 ábra.

70

3. fejezet

bc=0 tehát a két változó minden objektumra megegyezõ. A második esetben ad=0, tehát ha az egyik változó 1-et vesz fel, akkor a másik 0-t és fordítva, minden objektumban. Y1 nincs definiálva arra az esetre, amikor a 2×2-es kontingenciatábla bármelyik peremösszege 0 (azaz az egyik változó konstans értékû). Ugyanez elmondható a PHI korrelációról is. A 3.16 függvénybõl leszármaztatható Yule másik együtthatója: Y2 = (ad – bc) / (ad + bc)

(3.17)

Egyik Yule függvény sem transzformálható euklidészi távolsággá, és fõképpen az Y2 változása tûnik elfogadhatatlannak, mivel nem lineáris (3.3 ábra). Mivel ugyancsak a [–1,1] intervallumban fejezi ki a hasonlóságot, itt említjük meg a Hamann indexet is: HAM = (a + d – b – c) / (a + d + b + c)

(3.18)

A függvény azonban nem mond semmi újat az egyezési együtthatóval (3.6) szemben, hiszen csak annak értéktartományát szélesíti ki a [–1,1] intervallumba. Érvényes ui. az SM = (HAM + 1) / 2 összefüggés.

$%, $   "      !     ! &  -.    "  % /  "    &     "    *          % 0   SM  PHI  "! "       !   % A  RT % SS             &    "            " SS         # ! SS  '% 1 "  &  Y,    *&      2 *  %  Y1, Y2  A1  !         %  a  ! d     3     "  !    % *  3   3 ! 3           3    !    !    & $%4       &            !      % SM PHI  +   "   +  A,    $%    - ฀

3.2.2 Az a és d értékekre nézve nem-szimmetrikus hasonlósági koefficiensek Az alábbi két index – mintegy kompromisszumként – átmenetet képez az elõzõ rész függvényei és a d értékét teljesen mellõzõ hasonlóságok között. Baroni-Urbani & Buser (1976) szerint d-t nem lenne szabad teljesen figyelmen kívül hagyni, ugyanakkor eredeti formájában a d érték túlhangsúlyozza a közös abszenciát. A megoldást az jelenti, ha d helyett az a és d geometriai közepével számolunk. Ekkor az egyezési koefficiens Baroni-Urbani - Buser-féle módosítása a következõ lesz:

BB 2 =

ad + a ad + a + b + c

(3.19)

a Hamann indexé pedig

BB1 =

ad + a − b − c ad + a + b + c

(3.20)

A két formula csupán értéktartományában tér el egymástól, hasonlóan a kiindulásként használt

Távolság, hasonlóság, korreláció...

71

SM és HAM indexekhez: BB2=(BB1+1)/2. A kettõ közül a [0,1] értéktartományú BB2 használata a kényelmesebb. Bár a szerzõk részletes eloszlásvizsgálatot mellékeltek indexeik elõnyeinek érzékeltetésére, a BB formulákat eddig még viszonylag ritkán használták. Figyelemre méltó viszont, hogy Kenkel & Booth (1987) egyértelmûen a BB1-et találták a legmegfelelõbbnek egy biogeográfiai összehasonlító vizsgálatban. Faith (1983) megmutatta, hogy a BB2 hasonlóság csekély mértékben növekedhet is, ha d értéke nõ a rovására (pl. ha a=10, d=1 és b+c=5, akkor BB2=0,247, míg a=9, d=2 és b=c=5 mellett BB2=0,259). Azaz, bár szándékunk szerint a dupla 0-k kisebb súllyal részesednek, egy dupla 1-es felváltása dupla 0-val nemkívánatos változást eredményezett. Ennek kiküszöbölésére Faith a következõ hasonlósági indexet javasolta: FA1 = (a – b – c) / (a + b + c + d)

(3.21)

amelyben a értéke növeli, b és c értéke pedig csökkenti a hasonlóságot, d-nek pedig csupán a nevezõben jut hely. Ha tehát d nõ a rovására, a hasonlóság mindenképpen csökken. A 3.21 függvény a [–1,1] intervallumban méri a hasonlóságot, s ezért kényelmesebb lehet az alábbi módosított képlet, mely a FA2=(FA1+1)/2 összefüggés jobboldalának átalakításával kapható meg: FA2 = (a + d/2) / (a + b + c + d)

(3.22)

ahol d jelenléte a számlálóban kissé félrevezetõ lehet az elsõ látásra. A függvény tulajdonképpen negatívan veszi b-t és c-t figyelembe, hiszen azok nem szerepelnek a számlálóban. a súlyozása egyszeres, d pedig köztes súlyozású.

 =  @           !   !    "  #% $%,  '% a(     ! b:   " $%)   %

3.4 ábra.

72

3. fejezet

A Russell & Rao index is figyelembe veszi d értékét a nevezõben: RR = a/(a+b+c+d)

(3.23)

így d értéke nem közömbös a hasonlóság kiszámításában, sõt: növekedése csökkenti két objektum hasonlóságát. A formula valójában egy egyszerû relatív gyakoriság: annak az eseménynek a becsült valószínûsége, hogy egy véletlenszerûen kiválasztott tulajdonság mindkét objektumban megvan. d viszonylag magas értéke túlzott és nemkívánatos befolyással lehet RR-re. Az FA2 és RR koefficiensek kedvezõtlen tulajdonsága, hogy bár elméletileg a [0,1] intervallumban fejezik ki a hasonlóságot, az objektumok önmagukkal vett hasonlósága rendszerint nem 1 (3.4 ábra). Ennek fontos következménye, hogy komplementjeik semmiképp sem metrikusak (ellentétben Gower & Legendre 1986 2. táblázatával), ha a többi feltételt be is tartják.

  !      $%5    #   ,   %            *   & '% , 3         &     #$%5  '  &    %  &        3 * ,   &  ,                 #   6     '% /  "      "    ! !        " % 3.2.3 A d értéket figyelmen kívül hagyó együtthatók A további formulákban d már egyáltalán nem szerepel, így a dupla nullák (közös abszenciák) száma természetesen semmiféle hatással sincs az eredményre. Elsõsorban az ökológusok körében népszerûek. A legismertebb és legegyszerûbb a Jaccard index JAC = a / (a+b+c)

(3.24)

amely annak az eseménynek a becsült valószínûsége, hogy két objektum megegyezik egy, legalább az egyiküket jellemzõ változóban. Ez tehát egy feltételes valószínûség, így a lehetséges értékek a [0,1] intervallumba esnek. A 3.5 átalakítással a Jaccard index euklidészi távolsággá alakítható (3.2 táblázat), széleskörû alkalmazásának tehát geometriai korlátai nincsenek. A Sorensen (Dice) index annyiban különbözik az elõzõtõl, hogy a értékét duplán veszi figyelembe mind a számlálóban, mind a nevezõben: SOR = 2a / (2a+b+c)

(3.25)

A dupla súlyozás a prezenciák “közös részére” utal, míg a b+c összeg a különbözõséget okozza (hasonlítsuk össze a 3.59 formulával). A súlyozás következménye, hogy SOR nem konvertálható euklidészi távolsággá. Az Ochiai koefficiens (más források szerint Otsuka volt a javaslattevõ) a következõ: OCH =

a ( a + b)( a + c)

(3.26)

amelynek geometriai értelmezése a nyilvánvalóbb: OCH a két pontra mutató vektorok hajlásszögének a cosinusa (emlékeztetõül: a kódolás felcserélésével kapott másik cosinus értékkel vett geometriai közép volt az A1 formula (3.12)). Teljes egyezés esetén értéke 1, maximális

Távolság, hasonlóság, korreláció...

73

különbözõségre pedig OCH=0. A 3.26 függvény a 3.55 egyenlet prezencia/abszencia esetre egyszerûsített alakja. Fager & McGowan (1963) javasolta egy korrekciós tényezõ alkalmazását is: FA G =

a 1 − ( a + b)(a + c) 2 max{(a + b), (a + c)}

(3.27)

amely azonban nem befolyásolja lényegesen az eredményt, s csak az önhasonlóságot viszi 1 alá, így az 1. axióma nem teljesülhet. A húrtávolság közvetlen kapcsolatban áll a 3.26 formulával: ⎡ ⎛ ⎞⎤ a ⎟⎥ CH = ⎢2⎜⎜1 − ( a + b)(a + c) ⎟⎠⎦⎥ ⎣⎢ ⎝

1/ 2

(3.28)

amely tehát az egységsugarú hipergömbre vetíti a két pontot (2.22 standardizálás) és ezután méri a közöttük lévõ euklidészi távolságot (összehasonlítandó a 3.54 formulával). Az a-ra vonatkozó kétnûség aritmetikai középértéke a Kulczynski index:

= L KU

b ⎞ 1⎛ a + ⎟ ⎜ 2⎝a+b a+c⎠

(3.29)

A Sokal - Sneath (1963) -féle második hasonlósági együttható pedig a következõ: SS2 = a / (a+2b+2c)

(3.30)

A fenti két formula egyike sem ajánlható jó szívvel, mivel nem euklidésziek. Egyéb tulajdonságaikat tekintve lásd a 3.5 ábrát, ill. a következõ oldalon található értékelést.

    !  "  !     !   !    "  #% $%,  '% a(     ! b:   " $%)       %

3.5 ábra.

74

3. fejezet

A fajok és egyedszámok logaritmikus eloszlásából kiindulva javasolt Mountford (1962) egy speciális hasonlósági formulát. A logaritmikus eloszlás egy paramétere az α, amely diverzitási mértékszámként is számításba jöhet (vö. Pielou 1975:43-45). Két mintaterület fajösszetétel szerinti összehasonlítására Mountford szerint jól használható az MF=1/α függvény, amely relatíve független a mintanagyságtól (s így a ritka fajoktól). MF becslésére a négymezõs kontingenciatábla adatai alapján az alábbi formula alkalmas: MF = 2a / (ab + ac + 2bc)

(3.31)

Ennek azonban súlyos hibája, hogy a két objektum teljes egyezésekor 0-val kellene osztanunk. Teljes különbözõségnél MF értéke 0. Orlóci (1978) szerint MF egy relatív távolsággá alakítható, amely – szimulációs tapasztalatok alapján – metrikus: MFD = e `MF

(3.32)

azzal a megjegyzéssel, hogy b=c=0 esetre MF értékét kellõen nagy pozitív számnak vesszük, hogy MFD = 0 legyen. A 3.31 hasonlóság Kenkel & Booth (1987) és Wolda (1981) értékelése szerint a fajösszetétel megváltozásával elõször hirtelen csökken, majd egyre kevéssé változik, ami kétségtelenül nem kívánatos a többváltozós elemzésben (l. még a 3.5b ábrát).

$%,%$          !       $%)   %

    *       &  !       7%    !  ,    ! &   % /  "               !    %

    7    8    2       % 9 3    &          !    !    & "   2  % : *  &    "&     ; 3!     2 # ' 0 esetén a láncok valamelyikét meg kell szakítanunk, így bizonyos alapegységeknek nem lesz megfelelõ párjuk a másik szekvenciában. A hasonlóság kiszámításában a megszakításokat (“indel”) valamilyen “büntetõponttal” vesszük figyelembe, azaz egy w számmal súlyozzuk. A módszer egyes változatai ezen – egyébként bevallottan önkényes – súlyértékben térnek el egymástól. A megszakításokat akár figyelmen kívül is hagyhatjuk, ekkor w=0. Egyes szerzõk viszont a megszakításokat pozicionális eltérésnek tekintik, azaz w=1. Swofford & Olsen (1990)

Távolság, hasonlóság, korreláció...

77

szerint az illesztésbõl egyenesen ki kell hagynunk a nagy megszakításokat, mert ezek erõsen eltorzíthatják a jól illeszkedõ szakaszokra vonatkozó eredményt. Rövidebb megszakításokra a w=0,5 tekinthetõ jó kompromisszumnak. •

az effektív lánchossz a következõ: L = M + U + wG

(3.40)

amelybõl, az egyezési indexszel (3.6) analóg hasonlóság a következõ: (3.41)

S=M/L

Az illesztés algoritmusa, azaz S maximalizálása, számítógépet igényel, bár kisebb szekvenciákra az elemzést magunk is végrehajthatjuk. Az eljárás részletezésére itt nem vállalkozhatunk; lásd pl. Kruskal (1983), Weir (1990) vagy Waterman et al. (1991). Az S együttható általános érvényû, egyaránt használható bázis vagy aminosav-szekvenciák összehasonlításában. S értékét közvetlenül is felhasználhatjuk a további elemzésben, leginkább különbözõségként az 1–S komplement formájában.

A CTGTATC és CTATAATCCC bázissorendekre több egyenértékû megoldást ad az algoritmus, mindegyikre M=6, U=1 és G=3. Egy lehetséges maximális illeszkedés a következõ: CTGTA T C CTATAATCCC

w=1 esetén a szekvenciák hasonlósága S=6/(6+1+1฀ 3) = 0,6. Bázisszekvenciák esetén a szekvenciák idõbeli változására az S értékének a csökkenése a jellemzõ, amennyiben feltételezzük, hogy a négy bázis egyforma valószínûséggel cserélõdik bármelyik másik bázisra pontmutáció révén. Ha µ a mutációs ráta és t az eltelt idõ, akkor a 3 3 (3.42) 2 µt = K = ln 4 4S − 1

F H

I K

mennyiség használható az evolúciós távolság becslésére (Jukes & Cantor 1969). K tehát megközelítõen lineárisan növekszik az idõvel, de nem minden határ nélkül: ha S eléri a 0,25-öt, akkor valójában a teljesen véletlenszerûen elõállított két bázissorrend várható hasonlóságát kapjuk, és K-nak már nincs értelme. A függvény kétségtelen hátránya, hogy nem veszi figyelembe: egy ponton több mutáció is végbemehet. Attól is eltekint, hogy az A฀ G és T฀ C átalakulások (tranzíciók, lásd még a 6.3-4 alfejezeteket) jóval gyakoribbak, mint a többi (ezt a Kimura-távolság viszont figyelembe veszi, lásd Waterman et al. 1991). Fehérjékre a fenti összefüggésbe 3 helyett 19, 4 helyett pedig 20 írandó, ha megengedjük azt az egyszerûsítést, hogy minden aminosav egyformán gyakori. Tekintve, hogy hányadosuk közel van 1-hez, a 3.42 függvény a K = –ln S alakra redukálódik.

A fenti tárgyalás éppen csak érintette a szekvenciák összehasonlításának szerteágazó témakörét. Egyéb formulákat, amelyek pl. megengedik a populáción belüli variabilitást is, Weir (1990) könyvében találhatunk. 3.4 Az ordinális skálán mért adatok esete Ordinális típusú változók összehasonlítására jól ismert és kipróbált rendstatisztikák állnak rendelkezésre, s ezek a többváltozós analízisben is számításba jöhetnek. Akármilyen formában is

78

3. fejezet

kódoltuk az adatokat, az eredeti értékeket elõször rangokká kell alakítanunk. A változó legkisebb értéke kapja az 1-es rangot, a következõ a 2-est és így tovább. Az xij adatot tehát egy rij rangszám váltja fel, amely kifejezi: az i változónak a j objektumban megfigyelt értéke hányadik az i változóra vonatkozó rangsorban. Két változó – most: két rangsor – megegyezése a szorzat-momentum korrelációs együtthatóval (3.70) analóg Spearman-féle rang-korrelációval számítható ki a legegyszerûbben: m

6

∑ (rhj − rij )2 j =1

RHODE = 1 −

(3.43) m( m2 − 1) amely teljesen megegyezõ sorrendekre 1, éppen ellentétes rangszámokra pedig –1 értéket vesz fel. RHO értéke 0 körüli amikor a két sorrend között semmiféle összefüggés nincs. A rangkorreláció használhatóságát nagymértékben korlátozzák az egyezõ (kapcsolt) rangok, amelyek mindenképpen jelentkeznek amikor a változó kevesebb, mint m-féle különbözõ értéket vesz fel. Viszonylag kevés számú kapcsolt rang még kezelhetõ ún. korrekciós formulák segítségével, de túl sok egyezés már lerontja az együttható érzékenységét, s inkább a TAU használata ajánlható. A rangkorrelációt leginkább olyan esetekben érdemes alkalmazni, amikor megfigyeléseink eleve bizonyos sorrendiséget jelentenek (pl. állatfajok érkezési sorrendje egy csapdára stb). A függvény levezetése megtalálható pl. Yule & Kendall (1964, p. 272) és Legendre & Legendre (1983:206-207) könyvében.

A Spearman-féle rangkorreláció erõsen súlyozza a nagy rangszámbeli különbségeket, s így a kis eltérések nemigen jutnak érvényre az eredményben. Ez akár elõnyös is lehet, hiszen sokszor a kis rangszámbeli eltérések csupán a kevéssé megbízható mintavételezésnek vagy megfigyelésnek tudhatók be. Ha minden rangszámbeli eltérést egyenlõen akarunk figyelembe venni, mert a rangsorban a kis eltérések is jelentõsek és megbízhatóak, a Kendall-féle koefficiens alkalmazható: m

4 TAUDE =

∑ C j − m( m − 1) j =1

(3.44) m( m − 1) Cj a következõképpen határozható meg: az 1. változó értékeit növekvõ rangszám szerint felsoroljuk és melléírjuk a második változó megfelelõ rangszámait. A második változó minden egyes rangszámára megszámoljuk, hogy utána hány darab nála nagyobb rangszám szerepel a sorban. Ezek összege teljes egyezésnél m(m–1)/2, és ezért kell az összeget 4-gyel szorozni, hogy TAU az 1 értéket vegye fel. Teljesen ellentétes két rangsorra viszont a Cj-k összege 0, a hányados tehát –1 lesz. A képlet bonyolultabb alakot ölt, ha a sorbarendezendõ értékek között azonosak is vannak (lásd a következõ oldalon bemutatott alternatív számításmódot).

6)7 ,   +     0  1      ,  $  $   0    $  

   !"   $" 2  $"

12 16 18 14 17 20 15 18 19 13 12 17

      , 0- "

Távolság, hasonlóság, korreláció...

A 2. változó Rangszámok a Az 1. változó megfelelõ értékei 2. változóra értékei sorba rendezve 12 15 3 14 13 2 16 18 5 17 12 1 18 19 6 20 17 4 0

79

A rangszámot követõ, nagyobb rangszámok darabszáma 3 (5, 6, 4) 3 (5, 6, 4) 1 (6) 2 (6, 4) 0 0 Összeg: 9

6)7     33 + +0 , 0 " 6)7&3฀ / 4 ฀ 5(

% &฀ 5 ( )2

Ordinális skálán mért változók alapján az objektumok páronkénti összehasonlítása nehézkesebb, meglehetõsen elhanyagolt téma. Sok esetben ugyanis ordinális adatokat közvetlenül elemeznek intervallum v. arányskálán mért adatokra kidolgozott eljárásokkal. Mondanunk sem kell, hogy ez nem korrekt, hiszen ordinális változóknál az értékek közötti különbségeket nem értelmeztük, nem is beszélve a hányadosokról. Persze be kell vallani, a változó lehetséges értékeinek sorrendi viszonyait nehezen tudjuk érvényesíteni objektumok közötti hasonlóságokban. Alkalmazhatók ugyan a nominális változókra kidolgozott indexek, de ekkor nyilvánvalóan információt veszítünk: az ordinális skála “lefelé” konvertálása nominálissá szükségképpen ezzel a következménnyel jár. Ha pedig a 3.5 rész függvényeit használjuk, azzal implicit módon áttérünk az intervallum skálára, hiszen az egyes állapotok közötti különbségnek is értelmet adunk. Elképzelhetõ a fenti rendstatisztikák formális alkalmazása objektumokra is – az attribútum dualitás értelmében – , mégpedig elsõsorban a Kendall-féle TAU komplementje jöhet számításba (Diday & Simon 1976). A függvény a 3.44 formulával is kiszámítható objektumokra is (persze m helyett n írandó ekkor), de a szemléltetés kedvéért egy másik, a nyers adatokon alapuló számításmódot is bemutatunk. Legyen a két összehasonj lítandó objektum j és k, és definiáljunk egy ∆ hi segédváltozót a következõképpen:

⎧ 1 if ⎪ ∆ jhi = ⎨- 1 if ⎪ 0 if ⎩

xhj > xij xhj < xij xhj = xij

Legyen Tj azon változó-párok száma, amelyekre ∆jhi = 0 a j objektum esetében, s definiáljuk Tk-t hasonlóképpen a k-adik objektumra. Ezek felhasználásával a keresett különbözõség: DTAU jk = 1 −

n −1 n 2 ∑ ∑ ∆ jhi ∆khi [n( n − 1) − T j ][n(n − 1) − Tk ] h =1 i = h +1

(3.45)

Vagyis DTAUjk = 1–TAUjk. A függvény nincs definálva arra az esetre, ha valamelyik – vagy mind a kettõ – objektumban az összes változó azonos értéket vesz fel az ordinális skálán, mert ekkor T=n(n–1) és a nevezõ 0-vá válik.

80

3. fejezet

&35( *-     

               $  0  

0    6    7 0 +   # $  

          *0 8 8 9 * :     0   - &        $(  *0 *    *  +        0  ! &       #      *0   ( 

  *0    *0 :    , $   ; 0   $             

   -       *0 :     6       $     0 

+   5(  ,+6      *    !   8$    + : &/>/(

0   "  6  1      + #   &?  (    # $   

  $        6    !    #       &  ( *0 0  0      +0     &  ( *0 0  A segédváltozók felhasználásával felírható egy másik formula is, amelyet Goodman & Kruskal javasolt (vö. Rudas 1986) ordinális változók asszociáltságának mérésére. A fenti jelölésekkel, objektumok összehasonlítására a Goodman-Kruskal γ a következõ alakot ölti: n −1

γ jk =

n

∑ ∑∆

j hi

h =1 i = h +1 n −1 n

∑ ∑| ∆ h =1 i = h +1

j hi

∆khi

(3.46)

| | ∆khi |

Ez valójában egy egyszerû arányszám. A nevezõben azoknak a változópároknak a száma szerepel, amelyek mind a j, mind pedig a k objektumban sorba rendezettek (nem egyezõek). A számláló pedig az 1×1 és 1×−1 szorzatok számának egymáshoz való viszonya alapján eldönti, hogy ez a sorbarendezés inkább azonos vagy eltérõ irányú volt-e a két objektumban. Teljes azonosság esetén γjk=1, teljesen ellentétes sorbarendezésre pedig γjk= –1. Különbözõséget a komplementképzéssel állíthatunk elõ.

3.5 Koefficiensek arány- és intervallumskálán mért változókra Mivel az intervallum- és az arányskála között a formulák szempontjából a legtöbb esetben nincs különbség, az ilyen típusú adatokra alkalmas függvényeket együtt tárgyaljuk. A kivételt egyébként azok a koefficiensek jelentik, amelyek az adatok “eltolására” (egy konstans hozzáadására) nem invariánsak (húrtávolság, szögeltérés, geodéziai távolság, keresztszorzat, kovariancia). Ezeket ne alkalmazzuk olyan változókra, amelyek 0 pontja önkényes! A függvények “viselkedését” a 3.3 táblázat adatai alapján, a prezencia/abszencia koefficiensekhez hasonló módon illusztráljuk. A például szolgáló mesterséges adatok 9 objektum fokozatos megváltozását írják le egy képzeletbeli grádiens mentén olymódon, hogy minden változó viselkedését egy optimumgörbe jellemez (7.9a ábra). Ennyi elegendõ ahhoz, hogy az Olvasó némi áttekintõ képet kapjon a függvényekrõl. Részletesebb – bár nem minden koefficiensre kiterjedõ – értékelésre Hajdu (1981) mutat be más adatsorokat. A példa alapján viszont magunk is elkészíthetjük a függvények bármilyen, esetleg egészen speciális célú értékelését. A távolságfüggvények bemutatásához a legjobb kiindulópont az euklidészi távolság:

Távolság, hasonlóság, korreláció...

81

B           **#       0   C  D 

         $  0  $ 6       +    

    3.3 táblázat.

)* + ,

1

2

3

4

5

6

7

8

9

   ! 

1 2 3 4 4 3 2 1 0 0 0 0 0 0 0 0

0 1 2 3 4 4 3 2 1 0 0 0 0 0 0 0

0 0 1 2 3 4 4 3 2 1 0 0 0 0 0 0

0 0 0 1 2 3 4 4 3 2 1 0 0 0 0 0

0 0 0 0 1 2 3 4 4 3 2 1 0 0 0 0

0 0 0 0 0 1 2 3 4 4 3 2 1 0 0 0

0 0 0 0 0 0 1 2 3 4 4 3 2 1 0 0

0 0 0 0 0 0 0 1 2 3 4 4 3 2 1 0

0 0 0 0 0 0 0 0 1 2 3 4 4 3 2 1

$ # % &    !  

LM ( x MN∑ n

EUjk =

i =1

2 ij − xik )

OP PQ

1/ 2

(3.47)

amely megfelel a mindennapi, intuitív távolságfogalomnak (3.6 ábra) s kiszámítása a jól ismert Pitagorasz-tétel általánosítása sok dimenzióra. Az euklidészi távolság a referencia-alap minden egyéb hasonlóság, különbözõség és távolság megítélésekor, mint azt a fejezet elején már említettük. djk egyébként – a négyzetre emelés miatt – a nagy eltéréseket emeli ki elsõsorban. Alsó határa 0, míg felsõ korlátja nincsen.

             0  $ !  ! 0   *0   #       &@ ( A   *  

      %/    

0    A Manhattan-metrika egyszerûen a két objektum közötti különbségek abszolút értékeinek az összege: n

CBjk =

∑|xij − xik|

(3.48)

i=1

amelyet “háztömb” (“city block”) metrikának is neveznek, mindkét névvel utalva arra, hogy egy amerikai típusú, szabályos alaprajzú városban két pont között általában nem az euklidészi távolság a megteendõ út, mert kénytelen-kelletlen meg kell kerülnünk a háztömböket (3.6 ábra). Mint a nevében is benne van, a 3.48 függvény metrika, de nem euklidészi (3.4 táblázat).

        B 

    + #       *-  # +          

82

3. fejezet

   ; *-    #$0   $   "      " B  

    6             6   )    0    ,$  $      !

MNK (jkr )

L = M∑|x MN n

i =1

ij

O −x |P PQ ik

1/ r

r

(3.49)

  ≥     +0  B 

       2 +            2     -    , - !  6 +  E     $          0 A változók számával leosztva megkapjuk, hogy egy változó átlagosan mennyivel járul hozzá a távolsághoz 1 AVDjk = n

LM ( x MN∑ n

i=1

ij

− xik

O ) P PQ

1/ 2

2

(3.50)

illetve az abszolút eltérések összegéhez: n

MCjk =



1 |xij − xik| n i =1

(3.51)

Az utóbbi függvényt numerikus taxonómusok javasolták, és átlagos karaktereltérés (“mean character difference”) néven ismeretes (Cain & Harrison 1958). Ez az a formula, amit Czekanowski alkalmazott antropológiai vizsgálataiban (“durchschnittlische Differenz”; ezt

Távolság, hasonlóság, korreláció...

83

    

  ,+6  $     *-    #+ 0  *    ,    $  

             (   

  +  

azért jegyeztük meg, mert sok könyvben egy másik, a 3.59 formulára hivatkoznak Czekanowski index néven).

@     $              0  

,  *-   0   ,  $   - !  A Manhattan metrikából származtatható a Canberra metrika n

CMjk =

|xij − xik|

∑|xij|+|xik|

(3.52)

i=1

(Lance & Williams 1967b) melynek révén az egyes változók hatása jóval kiegyenlítettebbé válik. Cönológiai kvadrátok esetében például ugyanaz a különbség ritka fajok esetén sokkal nagyobb mértékben járul az eredményhez, mint a gyakori fajok esetén. Az abszolútérték jelek alkalmazásával a nevezõben, Gower & Legendre (1986) javaslata szerint, a függvény negatív értékekre is használható (pl. amikor az adatokat elõzetesen a szórással standardizáltuk). Az összehasonlításból nyilván ki kell zárnunk azokat a változókat, amelyek mindkét objektumra nézve 0 értékûek.

     !  0   4    +    +0 4     , !     &@ (

84

3. fejezet

3.4 táblázat.

Intervallum-típusú adatokra alkalmas együtthatók metrikus ill. euklidészi tulajdonságai.

N: nem-metrikus, M: metrikus, E: euklidészi..

Függvény neve Euklidészi távolság Manhattan-metrika Canberra-metrika Húrtávolság Szögeltérés Geodéziai távolság Clark Bray - Curtis Marczewski - Steinhaus 1 – Kulczynski

Tulajdonság E M M N N N E N M N

Függvény neve Pinkham - Pearson Gleason Ellenberg Pandeya khi-négyzet távolság 1 – korreláció 1 – hasonlósági hányados 1 – DKEN Faith átmeneti koefficiens Uppsala koefficiens

Tulajdonság

N E N N N N?

A Canberra metrika lehetséges értékei a [0,n] intervallumban mozognak, ezért az n-nel történõ osztással kapott, ún. normált Canberra-metrika: NCjk =

n 1 |xij − xik| n i =1 |xij|+|xik|



(3.53)

már a standard, [0,1] intervallumban vesz fel csak értékeket. Clifford & Stephenson (1975) megfontolandó javaslata szerint n helyett csupán azoknak a változóknak a számával kell osztanunk, melyek értéke legalább az egyik objektumban nem 0. Amennyiben az objektumokra, mint pontokra mutató vektorokat elõzetesen egységnyi hosszúságúra normáljuk (2.22 átalakítás) és ezután számítjuk ki a közöttük lévõ euklidészi távolságot, akkor az ún. húrtávolságot (Orlóci 1978) kapjuk. A normálás az alábbi formulába be van építve, így ha ezt alkalmazzuk, elõzetes standardizálásra nincs szükség:

CH jk

⎡ ⎛ ⎢ ⎜ ⎜ = ⎢2⎜1 − ⎢ ⎢ ⎜⎜ ⎢⎣ ⎝

⎞⎤ ⎟⎥ x x ∑ ij ik ⎟⎥ i =1 ⎟⎥ n n xij2 ∑ xik2 ⎟⎟⎥ ∑ i =1 i =1 ⎠⎥⎦

1/ 2

n

(3.54)

Ez a távolság, mint a bináris adatokra alkalmas változatnál már említettük, az egységsugarú, origó-középpontú hipergömb felületére vetített pontok között kifeszülõ húr hosszának felel meg (3.6 ábra: c). Amennyiben tehát a változók arányát tekintve a két objektum megegyezik, a húrtávolság 0 lesz (3.6 ábra: f). Emiatt a húrtávolság az eredeti pontokra nézve nem metrika, hiszen az 1. axióma nem teljesül. A húrtávolság képletébe “beépítve” találjuk a szögeltérést:

Távolság, hasonlóság, korreláció...

85

n

AS jk = 1 −

∑x x i =1 n

(3.55)

ij ik n

∑x ∑x i =1

2 ij

i =1

2 ik

amely a két vektor közötti szög (3.6 ábra: d) cosinusának a komplementje. Azaz, AS értéke 0 ha a vektorok közötti szög 0 (cos 0 = 1), illetve 1 a derékszög esetében (cos 90 = 0). A geodéziai távolság rokon az elõzõ kettõvel, és a két pont közötti körív hosszának felel meg: n xij xik

GEO jk = arccos

∑ i =1

F x xI GH ∑ ∑ JK n

i =1

2 ij

n

i=1

1/ 2

(3.56)

2 ik

(3.6 ábra: e). GEO értéke 0 és π/2 között lehet. Neve onnan származik, hogy a Föld felületén mérve két pont között valójában ezt, és nem az euklidészi a távolságot kell megtenni. A húrtávolság és a geodéziai távolság, mint a képleteikbõl is látható, összefügg egymással (3.7b ábra), ezért a könnyebben értelmezhetõ húrtávolság használata feleslegessé teszi a másikét. Az euklidészi és a húrtávolság egy-egy függvénycsoport képviselõi voltak, amelyek a változók közötti eltéréseket (3.47-53), ill. a változók arányosságát (3.54-56) veszik alapul. Az elsõ csoportba még nagyon sokféle függvény tartozik, amelyek az eddigiek változatainak tekinthetõk. A Canberra-metrikához legközelebb a Clark-féle (1952) divergencia-koefficiens (“coefficient of divergence”) áll:

⎛1 n ⎛ x −x CL jk = ⎜ ∑ ⎜ ij ik ⎜ n i =1 ⎜ x + x ik ⎝ ij ⎝

⎞ ⎟ ⎟ ⎠

2 1/ 2

⎞ ⎟ ⎟ ⎠

(3.57)

Az összegben szereplõ tagok négyzetét vesszük figyelembe, e függvény tehát lényegében véve úgy viszonyul a Canberra-metrikához, mint az euklidészi távolság a Manhattan-metrikához (ui. a nagyobb eltérések jobban kifejezõdnek az eredményben). A függvény értéke, az n-nel történõ osztás miatt, teljes egyezés esetén 0, maximális különbözõség esetén pedig 1. Az alábbi formula viszont már lényegesebben különbözik a Canberra-metrikától: az összegzés külön-külön történik mind a számlálóra, mind a nevezõre. n

BC jk =

∑| x

− xik |

∑ (x

+ xik )

i =1 n

i =1

ij

ij

(3.58)

A függvény voltaképpen egy egyszerû index formájában adja meg, hogy az összegzett értékek hányadrészében van eltérés a két objektum között. Ezt a különbözõségi formulát Bray - Curtis

86

3. fejezet

(1957) index néven ismerik elsõsorban, bár Pielou (1984) 100-zal szorzott alakban százalékos különbözõség (“percentage difference”) néven ismerteti. A formula a – tévesen – Czekanowski index néven ismert hasonlósági függvénynek a komplementje, amelyet a teljesség kedvéért külön is bemutatunk: n

1 − BC jk =

2∑ min{xij , xik } i =1 n

∑ (x

ij

i =1

(3.59)

+ xik )

Prezencia/abszencia esetben 1-BC a Sorensen indexszel (3.25) egyezik meg, vagyis BC sem metrika (3.4 táblázat). Elõnyös viszont, hogy változása közelítõen lineáris jellegû (3.8a ábra). A Marczewski - Steinhaus koefficiens (Holgate 1971, Lewandowsky 1972) az eltérések összegét az objektumpár maximális értékeinek összegéhez viszonyítja: n

MS jk =

∑| x i =1

ij

− xik |

(3.60)

n

∑ max{x , x i =1

ij

ik

}

A függvényt a halmazelmélet alapján is értelmezhetjük. A számláló a j és k objektumot reprezentáló halmazok szimmetrikus differenciája, a nevezõ pedig a halmazelméleti unió (Or-

   "        #$#%  &  '   ()   #'#$    ' & ()    ** $ 

Távolság, hasonlóság, korreláció...

87

lóci 1978). MS metrika de nem euklidészi. Komplementje Ruzicka index néven ismeretes, és a következõ formákban találkozhatunk vele: n

n

RUZjk

= 1 − MS jk =

∑ min{xij , xik } i =1 n

∑ max{xij , xik } i =1

=

∑ min{x , x ij

n

i =1 n

n

i =1

i =1

i =1

ik

}

(3.61)

∑ xij + ∑ xik −∑ min{xij , xik }

A Ruzicka index prezencia/abszencia esetben a Jaccard-indexszel (3.24) ekvivalens. Intervallum skálán mért változókra a Kulczynski index (3.29) a következõ alakot ölti: ⎛ ⎜ 1⎜ 1 1 + n 2⎜ n ⎜ ∑ xij ∑ xik i =1 ⎝ i =1

n ⎞ ⎛ n ⎞ ⎟n ⎜ ∑ min{xij , xik } ∑ min{xij , xik } ⎟ 1 ⎟ | x − x | = 1− L ⎟ + i =1 n KU jkjk = 1 − ⎜ i =1 n 1–KUL ij ik ⎟∑ ⎟ (3.62) 2⎜ i =1 xij xik ∑ ∑ ⎟ ⎟ ⎜ i =1 i =1 ⎠ ⎝ ⎠

A példaadatokra 1– KUL= BC (3.8a ábra), mert az összeg minden objektumra azonos. A minimum és maximum viszonyát úgy is kifejezhetjük, hogy a hányadost még az összegzés elõtt képezzük. Ekkor a maximális különbözõség n lesz, így n-nel osztva kapunk [0,1] intervallumba esõ különbözõségi együtthatót:

1 n ⎛ min{xij , xik } ⎞⎟ 1 n ⎜⎛ | xij − xik | ⎟⎞ = 1 − PPjk = 1 − ∑ ⎜ ∑ n i =1 ⎜⎝ max{xij , xik } ⎟⎠ n i =1 ⎜⎝ max{xij , xik } ⎟⎠

(3.63)

A hasonlósági függvény Pinkham & Pearson koefficiens néven ismeretes. Hasonlatokkal élve: 1–PP úgy viszonyul MS-hez, mint a normált Canberra-metrika (NC, 3.53) a Bray - Curtis indexhez (BC, 3.58). 1–PP azonban nem metrika, hiszen egy objektum önmagától vett különbözõsége nem 0, s lefutása is elég szabálytalan (3.8a ábra). Az elsõ problémán úgy segíthetünk, ha nem n-nel, hanem a nem dupla 0-ás változók számával osztunk. "    $$ %% +        #'#

  #$   &  !       ##       $  ## &        &     

     & ',$ ' &&'  -#

 

  .  /  & (0123) & 

GL jk =

∑ (x

+ xik )

∑ (x

+ xik )

ij

i∈ A n i =1



A

ij

 &     

(3.64)

j $

 

k $

  " 

$  #

   ## &  " %   #$$   

     ## &$    #$  !$     #$       & $

88

3. fejezet

ELjk jk = EL L

∑ (x i∈A

n

∑ (x

ij

i =1

ij

+ xik )

(3.65)

+ xik ) + ∑ xij + ∑ xik i∉A

i∉ A

(# / 014*)  #$     $   #     $$ (*5$ $) 6 -  Pandeya koefficiens

PANjk k

∑ (x

=

i∈A

ij

+ xik )

n

∑ ( xij + xik ) + ∑ | xij −xij | i =1

(3.66)

i∈A

  $     % &   #$   & $   #$#%  #% %

Az eltéréseket mérõ koefficiensek közül megemlítjük az ún. χ -távolságot, ami az adattáblázat sorainak és oszlopainak összegével való kettõs standardizálás után számított euklidészi távolságnak felel meg: ⎡ ⎛ ⎜ ⎢n 1 ⎜ xij − xik CHISQ jk = ⎢∑ m n ⎜ n ⎢ i =1 ⎢ ∑ xih ⎜ ∑ xsj ∑ xsk s =1 ⎣⎢ h =1 ⎝ s =1

⎞ ⎟ ⎟ ⎟ ⎟ ⎠

2 1/ 2

⎤ ⎥ ⎥ ⎥ ⎥ ⎦⎥

(3.67)

a χ -távolság fontossága a korreszpondencia-elemzéssel kapcsolatosan (7.3 alfejezet) válik nyilvánvalóvá. Távolságfüggvényként önmagában ritkán jön számításba. Az arányokra érzékeny együtthatók közül hármat (AS, CH, GEO) – más típusú távolságok társaságában – már említettünk. Most sor kerülhet még néhány hasonló célú, s nem kevésbé fontos mérõszám bemutatására is. Minden formulában vektorok skaláris szorzata szerepel (vö. C függelék) s ennek alapján már ránézésre felismerhetõ, hogy mely függvény érzékeny a változók közötti arányokra. Az adatmátrix két oszlopára felírhatjuk az ún. keresztszorzatot (“cross product”): n

CPjk = ∑ xij xik

(3.68)

i =1

amelyet nyers adatokra ritkán alkalmazunk (pl. nem-centrált PCA, 7.1.5 rész). Rendszerint az adatmátrixot elõzõleg oszlopok szerint centráljuk, és az így módosított értékekbõl számolunk a 3.68 egyenlet alapján. A kapott eltérésszorzat-összeget m–1-gyel osztva adódik a kovariancia. Ennek képlete a nyers adatokból kiindulva a következõ: n

COVjk =

=

∑ (x i =1

ij

− x j )( xik − xk ) n −1

(3.69)

Távolság, hasonlóság, korreláció...

89

amely jól ismert a standard statisztikából is változók kapcsolatának a mérésére. Mivel a kovariancia nem korlátos mértékszám, azaz felsõ és alsó határa nincs, helyette inkább a korreláció jön számításba. Ez is kiszámítható a 3.68 egyenlet alapján, ha az adatokat elõzetesen oszlopok szerint a szórással standardizáltuk. Közvetlen kiszámítására az alábbi – jól ismert – képlet szolgál: n

CORjk =

=

∑ (x

ij

i =1

n

∑ (x

ij

i =1

− x j )( xik − xk )

(3.70)

n

− x j ) 2 ∑ ( xik − xk ) 2 i =1

Távolsággá alakítva – figyelembe véve a már említett (2.1 alfejezet) gondokat – objektumok között is alkalmazható. A 3.68-70 függvények igazi felhasználási területe azonban az, amikor változók közötti összefüggéseket mérünk velük a fõkomponens vagy kanonikus korreláció analízis kezdetén (7.1-2 alfejezet). A korreláció különbözõséggé alakítva sem metrika, hiszen 0 értéket kapunk két nem egyenlõ objektumra is, ha az egyik adatait a másiknak valamilyen konstans értékkel való szorzásával megkaphatjuk. Az indexelés megfelelõ átalakításával a korrelációt a sorokra (változókra) is felírhatjuk. Ebbe a csoportba tartozik a hasonlósági hányados (“similarity ratio”, Wishart 1969, van der Maarel 1979) is n

SR jk = 1 −

∑x x i =1 n

n

(3.71)

ij ik n

∑ x +∑ x − ∑ x x i =1

2 ij

i =1

2 ik

i =1

ij ki i

       #$#%  .     (** $)

90

3. fejezet

amelynek értékei a [0,1] intervallumba esnek, 1 jelöli a teljes egyezést. Prezencia/abszencia adatok esetén SR megegyezik a Jaccard indexszel. A korrelációval fennálló erõs rokonsága a 3.9 ábráról is leolvasható. Az eltéréseket ill. az arányosságot vizsgáló függvényeken kívül megemlítendõ egy harmadik függvénytípus is. Ezek a két összehasonlított objektumot leíró változók minimális egyezésére érzékenyek (Faith 1984). A függvénycsalád alaptípusa a Kendall (1970) féle minimális egyezési együttható: KEN jk =

n

∑ min[xij , xik ]

(3.72)

i =1

amely különbözõséggé alakítva a következõképpen is felírható: n

DKEN jk = ∑ {max h [ xih ] − min[ xij , xik ]}

(3.73)

i =1

A Kendall-féle hasonlóság a halmazelméleti metszetnek felel meg. Nem korlátos mérték (nincs felsõ határa), és ezért elsõsorban akkor célszerû használni, ha az adatokat elõzetesen standardizáltuk. Az oszlopok (objektumok) összege szerinti standardizálást tartalmazza például az állatökológusok körében népszerû Renkonen index:

⎧ ⎫ ⎪⎪ x x ⎪⎪ = ∑ nmin ⎨ n ij , n ik ⎬ i =1 ⎪ ∑ xij ∑ xik ⎪ ⎪⎩ i =1 ⎪⎭ i =1 n

RENjk

k

n

= 1 − 0.5∑ i =1

xij n

∑ xij i =1



xik n

∑ xik

(3.74)

i =1

Egyik gyakori elnevezése (“percentage similarity of distribution”, Whittaker & Fairbanks 1958) magyarázza meg e függvény jelentését: a standardizálás ugyanis egyedszámadatok esetén pl. azzal az eredménnyel jár, hogy egy relatív gyakoriságeloszlást kapunk mindkét objektumra, és 100×REN ezek százalékos megegyezését jelenti. A standardizálás révén egyébként a változók objektumon belüli aránya válik fontossá, s ezáltal elmosódik az arányosságra, ill. minimumra érzékeny koefficiensek közötti – ezek szerint nem is olyan éles – határ. A példaadatokra 1–REN megegyezik BC-vel (3.8a ábra), de ebbõl nem szabad általános következtetéseket levonni, mert eme egyezés az oszlopösszegek azonosságának a következménye. Átmeneti formák. A különbözõ érzékenységû koefficiensek között közvetlen átmeneteket képezhetünk, s ezáltal mindkettõ hatása jelentkezik az eredményben. Faith (1984) és Faith et al. (1987) javasolták például a Manhattan-metrika és a Kendall koefficiens egyszerû átlagát (“intermediate coefficient”): INTjk

=

⎤ 1⎡ n ∑ | xij − xik | + max h [ xih ] − min[ xij , xik ]⎥⎦ 2 ⎢⎣ i =1

(3.75)

Távolság, hasonlóság, korreláció...

91

E függvénynek nincs felsõ korlátja, bár ez n-nel való osztással megoldható. Egy másik átmeneti jellegû formula az “Uppsala koefficiens” (Noest & van der Maarel 1989):

UD jk =

1 n − z jk

n

1 ⎡ | xij − xik | | xij − xik | + xxm a − xnm i ⎣ xij + xik

∑ 2 ⎢⎢ i =1

⎤ ⎥ ⎥⎦

(3.76)

ahol zjk a j és k objektumból egyaránt hiányzó változók száma (az osztás tehát nem n-nel történik, ellentétben más függvényekkel!) és x / – x pedig a változók által felvehetõ értékek tartománya. A függvény a Bray-Curtis index és a terjedelemmel standardizált Manhattanmetrika (l. Gower-index, 3.103) közötti átmenet. E függvény jellemzõje, hogy a skála elején levõ eltérések súlyozottabban járulnak a különbözõséghez, mint a skála végén levõk. Például, ha x / – x=9, akkor a 0 és 1 eltérése 0,566-tal járul az összeghez, a 8 és 9 eltérése pedig csak 0,085-tel. A nagyobb értékek eltéréseinek fontosságát csökkentve implicit módon ugyanazt csináljuk, mintha az adatokat elõzõleg logartimikus transzformációval módosítottuk volna. Genetikai távolságok. Az intervallum, ill. arányskálán mérhetõ változók speciális eseteit jelentik az allélgyakoriságok. Az objektumok ekkor populációk, a változók pedig annyi csoportba oszthatók, ahány lókuszt vizsgálunk. Az allélgyakoriságokat minden egyes lókuszra az összeg szerint standardizálni kell, s így a táblázatban lókuszonkénti relatív gyakoriságok szerepelnek. A relatív géngyakoriság-adatokra számos speciális távolságfüggvény áll rendelkezésre, amelyek figyelembe veszik a változók csoportosulását és genetikailag többé-kevésbé értelmezhetõek is. (Ha a lókuszokat “összemosnánk”, akkor az elõzõekben bemutatott függvények nagy része megfelelne a távolság mérésére, de ez nem lenne “genetikai”). Az értelmezhetõség arra utal, hogy a genetikai távolság a populációk szétválása óta eltelt idõvel van összefüggésben, s ezért a változást okozó mutációról és sodródásról egy jól megfogalmazott modellre van szükség. Természetesen enélkül is számítható távolság, de ekkor ennek csupán geometriai jelentése lehet és nem képezheti alapját pl. az evolúciós folyamatok értelmezésének (Weir 1990). A távolságmértékek viselkedését az egyszerûség kedvéért egy egylókuszos/kétalléles esetre fogjuk illusztrálni. Az allélgyakoriságok példamátrixában az 1. populációtól való fokozatos távolodás tükrözõdik (ennek hátterét most nem firtatjuk), míg végül az egyik allél teljesen lecserélõdik a másikra:

1,0 2. allél: 0,0 1. allél:

0,9 0,1

0,8 0,2

0,7 0,3

0,6 0,4

0,5 0,5

0,4 0,6

0,3 0,7

0,2 0,8

0,1 0,9

0,0 1,0

A továbbiakban a lókuszok számát L jelöli, az adatmátrix egy értékére pedig xhij utal, amely a h lókusz i alléljének a relatív gyakorisága a j populációban. nh jelöli az allélek számát a h lókuszon. Miután relatív gyakoriságokat használunk, a populációt képviselõ pontok egy hipersíkon vannak minden egyes lókuszra nézve (két allél esetén a 2.9c és a 3.11 ábrán látható egyenesen). Lényegében véve az átlagos euklidészi távolságnak felel meg a Rogers-féle (1972) genetikai távolság: 1/ 2 k(3.77) nh L ROGj =

⎤ ⎡ 1 ( xjh i − xkh i ) 2 ⎥ ∑ ∑ ⎢ 2 L h =1 ⎣ i =1 ⎦

92

3. fejezet

melyet a populáción belüli heterozigócia jelentõsen befolyásolhat. Legfõbb hátrányául ugyanis azt hozhatjuk fel, ami az euklidészi távolság ökológiai alkalmazásának is fõ akadálya: elõfordulhat, hogy kisebb a távolság közös alléllel nem is rendelkezõ két populáció között, mint két másik, néhány allélban megegyezõ populáció között. Hasonlóan kritizálható a Prevosti-féle genetikai távolság (cf. Wright 1978), azaz az átlagos karaktereltérés lókuszonként: PREjk

=

1 L nh ∑∑ | xjh i − xkh i | 2 L h =1 i =1

(3.78)

A relatív gyakoriságok közötti különbségek alkalmazása a távolság kifejezésére geometriailag jól interpretálható ugyan, a fenti nehézség miatt azonban a genetikusok többre tartják az arányosságra érzékeny függvényeket. Ezek közé tartozik a leggyakrabban használt együttható, a Nei-féle genetikus azonosság (“genetic identity”, Nei 1972, 1978) és több származéka. Az identitást egylókuszos esetre voltaképpen a 3.55 függvénnyel mérhetjük (az 1-bõl való kivonás nélkül), amely a két populációra mutató vektor hajlásszögének (α, 3.11 ábra) a cosinusa. Ennek értéke teljes azonosság esetén 1, teljes különbözõség esetén pedig 0 (3.10a ábra). Miután a képletben relatív gyakoriságok szerepelnek, az eredménynek valószínûségi interpretációja is van. A számláló azon valószínûségnek a becslése, hogy a két populációból származó egy-egy egyed a lókuszon azonos allélt hordoz ( q$ jk ). A nevezõben szereplõ két négyzetösszeg pedig annak az eseménynek a valószínûségét becsli, hogy az ugyanabból a populációból származó két egyed azonos allélt hordoz ( q$ j ,ill. q$k ). A nevezõ értéke a két populációra vonatkozó valószínûségek mértani közepe:

   / #& ()     ()              '    (   #$)   *78  

 

Távolság, hasonlóság, korreláció...

ID jk =

∑x x

ij ik

i

1/ 2

⎛ ⎞ ⎜⎜ ∑ xij2 ∑ xik2 ⎟⎟ i ⎝ i ⎠

93

qˆ jk = cos a qˆ j qˆ k

=

(3.79)

A formula tehát a j és k populációk közötti génazonosság és a populációkon belüli génazonosság hányadosaként fogható fel. A függvény L lokuszra a következõképpen általánosítható: L

ID jk =

nh

∑∑ x h =1 i =1

x

jh i kh i

(3.80) 1/ 2

L ⎞ ⎛ L ⎜⎜ ∑∑ xjh2 i∑∑ xkh2 i ⎟⎟ h =1 i =1 ⎠ ⎝ h =1 i =1 nh

nh

amely azonban nem ad torzítatlan becslést, s ezért kis mintanagyság (m, amely most azonos minden populációra) esetén korrigálni kell (Nei 1978): L

IDCjk

=

nh

(m − 1)∑∑ xjh ixkh i h =1 i =1

1/ 2

nh L ⎞ ⎛ ⎜⎜ ∑ (2m∑ xjh2 i − 1) ×∑ (2m∑ xkh2 i − 1) ⎟⎟ i =1 h =1 i =1 ⎠ ⎝ h =1 L

nh

(3.81)

A Nei-féle génazonosság akkor válik igazán genetikailag értelmezhetõvé, ha a populációk szétválása óta eltelt idõt tudjuk vele kifejezni. Ekkor sokféle modell jöhet számításba. A legegyszerûbb esetben az adott allélbõl bármely másik allélba való mutációt tételezünk fel µ mutációs ráta mellett. Ekkor fennáll az alábbi összefüggés: NEIjk = –ln ID ≈ 2µt

(3.82)

amely a Nei-féle genetikai távolság. Ez nincs definiálva arra az esetre, amikor minden allél csak az egyik populációt jellemzi (3.10b ábra). A Nei-távolság lényeges leegyszerûsítéseket tartalmaz, mert feltételezi, hogy a populációk elválása óta a mutáció egyformán valószínû minden lókuszon és mindkét leszármazási vonalon (Hillis 1984). Ezt a problémát Hillis a lókuszonként vett genetikus azonosságok aritmetikai átlagával hidalja át:

HILjk

⎡ ⎤ nh ⎢ L ⎥ x x ∑ jh i kh i ⎢1 ⎥ i =1 = ln ⎢ ∑ 1/ 2 ⎥ n n h h L 2 ⎞ ⎢ h =1 ⎛⎜ x 2 ⎟ ⎥ ∑ jh i ∑ xkh i ⎟ ⎜ ⎢⎣ i =1 ⎝ i =1 ⎠ ⎥⎦

(3.83)

Ennek is megadható a torzítatlan becslése, a 3.81 formulához analóg módon (Swofford & Olsen 1990). Egylókuszos esetre HIL megegyezik NEI-vel.

94

3. fejezet

A Nei-féle távolság nem alkalmas arra az esetre sem, amikor a populációk eltávolodását kizárólag a sodródás okozza. Ekkor egy geometriai jellegû mértékszám, a Balakrishnan Shangvi távolság jöhet számításba (Weir 1990):

BS 2jk =

1 L

L

nh

∑∑

∑ nh − 1 h=1

( xij − xik ) 2

i =1

xij + xik

(3.84)

h =1

A genetikai távolság definiálása és értelmezése meglehetõsen komplikált terület, s ezt legjobban a Cavalli-Sforza és munkatársai által használt formulákkal illusztrálhatjuk. Egy adott h lókuszon az allélek relatív gyakoriságait négyzetre emelve a populációkat képviselõ pontok közvetlenül rákerülnek az egységsugarú hipergömb felszínére (3.11 ábra). A j és k pontokra mutató vektorok hajlásszöge ekkor egyszerûen megkapható: cosΦ =

nh

∑ i =1

(3.85)

xhij xhik

Ennek figyelembevételével Cavalli-Sforza & Edwards (1967) az egyes lókuszokra kapott geodéziai távolságok (ívhosszok, lásd a 3.56 egyenlet és a 3.11 ábra) standardizálásával és átlagolásával definiálta a genetikai távolságot:

L1 F 2 = M ∑ G arccos ∑ MMN L H π L

CAV jk

h=1

nh

i =1

xhij xhik

I JK

2 1/ 2

OP PPQ

(3.86)

vagy pedig a hipergömbre vetített pontok közötti húrtávolságot mérte:

3.11. ábra. Néhány genetikai távolság geometriai értelmezése két populáció között egy lókuszra és két allélre. L jelöli az eredeti gyakoriságértékeket (j-re 10; 12, míg k-ra 20; 8). l jelöli a relatív gyakoriságokat, n pedig a négyzetre emelt, így a körívre került relatív gyakoriságokat.

Távolság, hasonlóság, korreláció...

BHAjk

⎡ ⎤ = ⎢2 − 2∑ xij xik ⎥ i ⎣ ⎦

1/ 2

95

⎡ = ⎢∑ ⎣ i

(x

ij

− xik

) 2

⎤ ⎥ ⎦

1/ 2

(3.87)

(Bhattacharyya távolság, vö. Mardia et al. 1979, 3.11 ábra), és ezt átlagolta a lókuszok szerint. Weir (1990) úgy véli, hogy ezek kizárólag geometriai mértékszámok, mindennemû genetikai jelentés nélkül. A gond azonban az, hogy Φ és a Nei-féle genetikus azonosságban szereplõ α nem azonos (3.11 ábra), s úgy tûnik, hogy az utóbbinak van még geometriailag is könnyebben érthetõ jelentése. A Φ szög alkalmazása mellett Tóthmérész (1986) értelmezésében az szól, hogy cos Φ – a végsõ szakasztól eltekintve – közelítõleg lineárisan csökken az allélgyakoriságok közötti eltérés növekedésével, míg ez nem áll fenn a cos α -ra (3.10a ábra). Swofford & Olsen (1990) határozottan a Cavalli-Sforza-féle mértékek mellett áll, s genetikai interpretációt is ad. Eszerint a sodródási szituációt a 3.86 függvény jól magyarázza, mivel a távolság értéke független a kezdeti géngyakoriságoktól. Mardia et al. (1979: 379) mutatja be egy lókuszra, hogy Weirrel szemben Swofford & Olsennek lehet igaza, hiszen a Balakrishnan Shangvi távolság és a Bhattacharyya távolság között egyszerû matematikai összefüggés áll fenn. A niche-átfedés mérõszámai. Fajok ökológiai nichének mérése és a niche-átfedés számolása alkalmas kiindulópontot jelenthet a fajok közötti kapcsolatok többváltozós elemzésére. A niche-átfedés mérõszámai ugyanis távolság- v. hasonlósági függvénynek is felfoghatók, s talán már nem is kell mondanunk, hogy máshonnan már ismerõs függvények a “niche zsargonban” akár külön néven is szerepelhetnek. Ilyen például a Schoener (1970) index, amely a fajokra alkalmazott Renkonen indexnek felel meg (standardizálás tehát az egyes fajok egyedszámösszege szerint!) Megemlíthetõ még a Horn formula is (Horn 1966), amely információelméleti megfontolásokon alapszik. Legyen most n a mintavételi helyek száma, és ezek az adatmátrix soraiban szerepeljenek. A j oszlopvektort a j faj gyakoriság-eloszlásaként foghatjuk fel, s a faj niche-szélességét a Shannon-féle entrópiával fejezhetjük ki: H$ j = −

xij

xij

∑ ∑ xhj log ∑ xhj

(3.88)

i

h

h

A j és k fajok teljes átfedésben vannak, ha a két oszlopvektor összeadásával a fenti entrópia nem változik. Az egyesített vektorokra ez a minimális érték, melyet H$ min jelöl. A két faj a lehetõ legnagyobb mértékben különbözik, azaz az átfedés 0, ha sohasem fordulnak elõ együtt. H$ obs Ekkor az egyesített oszlopvektorokra számított entrópia legyen H$ max . Minden aktuális érték, $ H obs , e két szélsõség közé esik. Az alábbiak szerint standardizálva: HN jk =

H$ max − H$ obs H$ − H$ max

(3.89)

min

a függvény a 0 értéket veszi fel teljes különbözõség, 1-et pedig teljes egyezés esetén. A számolásra alkalmas formula a következõ: n n n ( xij + xik )log( xij + xik ) − xij log xij − xik log xik HNjk =

∑ i=1

∑ i=1

∑ i =1

( xij + xik )log( xij + xik ) − x. j log x. j − x.k log x.k

(3.90)

96

3. fejezet

ahol x.j és x.k a j és k oszlopok összegét jelöli. Más interpretációval a formula mintavételi helyek között hasonlósági indexként is alkalmazható. Alakbeli hasonlóság és távolság. Penrose (1954) szerint az euklidészi távolság két összetevõre bontható fel, az egyik rész tisztán a “méretbeli” különbségeknek tudható be, a másik pedig az “alakbeli” eltérések eredménye: (3.91)

d 2jk = (n − 1) SHAPE 2jk + nNSIZE 2jk

Ha két objektum összehasonlításában a méretbeli különbségeket nem akarjuk figyelembe venni, csak az alakbeli egyezés az érdekes, akkor a Penrose javasolta formula alkalmazható:

⎤ 1 ⎡n 1 n SHAPE jk = ( xij − xik ) ⎥ ( xij − xik ) 2 − ∑ ∑ ⎢ n − 1 i =1 n(n − 1) ⎣ i =1 ⎦

2

(3.92)

Ez lényegében véve a két összehasonlított objektumra az egyes tulajdonságokban mutatkozó eltérések varianciája (négyzetek átlaga – átlag négyzete). Várhatóan akkor nagy az értéke, ha az eltérések nagyságrendjében és irányában nagy különbségek mutatkoznak a két objektum között. A méretbeli koefficiens: 2 ⎡1 ⎡ n ⎤ ⎤ SIZE jk = ⎢ 2 ⎢∑ ( xij − xik ) ⎥ ⎥ ⎦ ⎥⎦ ⎣⎢ n ⎣ i =1

1/ 2

(3.93)

viszont akkor lesz nagy, ha a különbségek általában egyirányúak. & '  ( 50)2- (%  )

  *+#   )   

(  ))     , ( - .  /01# & (2

   !     $        +0 (#    ))  2 3     $ (  )  ! ' 

((      )) 2

Általánosított távolság. Ha az euklidészi távolságot alkalmazzuk, akkor az egymással korreláló változók hatását valójában túlhangsúlyozzuk. A belsõ súlyozás egy speciális esetérõl beszélhetünk, amellyel gyakorlatilag mindig találkozhatunk, hiszen a biológiai változók rendszerint korrelálnak egymással. Az alábbi kis adatmátrix illusztrálja a belsõ súlyozás hatását: 1. változó 5,1 6,2 7,1 8,0 2. változó 4,0 5,0 6,2 7,3 3. változó 3,0 2,0 9,0 6,0 Az elsõ két változó között erõs pozitív korreláció van, s lehetséges, hogy ezek voltaképpen egy harmadik, nem vizsgált háttérváltozó hatását tükrözik. Mindkettõt figyelembe véve megnöveljük a háttérváltozó jelentõségét a 3. változóhoz képest. Ez nemkívánatos lehet az eredmények interpretációjában. A belsõ súlyozást azonban a Mahalanobis-féle (1936) általánosított távolság (“generalized distance”) alkalmazásával kiküszöbölhetjük: n

n

GEND 2jk = ∑∑ whi ( xhj − xhk )( xij − xik ) h =1 i =1

(3.94)

Távolság, hasonlóság, korreláció...

97

vagy mátrixalgebrai felírásban (3.95)

GEND 2jk = (x j − x k )′W −1 (x j − x k )

ahol xj és xk a j és k objektumoknak megfelelõ oszlopvektorok, W-1 az n változó varianciakovariancia mátrixának az inverze (C függelék), whi annak egy eleme. A Mahalanobis távolság a változók szórását egységnyire standardizálja. Emiatt, ha az eredeti változók teljesen korrelálatlanok, akkor 3.95 eredménye megegyezik a standardizált adatokból számított euklidészi távolság négyzetével. Az általánosított távolságok mátrixa metrikus információt tartalmaz standardizált és egymásra merõleges tengelyekre. Egy ilyen mátrixból végrehajtott fõkoordináta-elemzés (lásd 7.4.1 rész) tehát teljesen egyformán “fontos” tengelyeket hoz létre (azaz a variancia arányosan oszlik meg a tengelyek között). & 4    )       5 !26   * $) )    $ 2 &        4    )      2 ( 7 ) (   $  8 0

0

illetve

2,23

0

2,23

1,41

0

4,24

2,23

2,23

0

1,73

0

1,73

2,45

0

2,45

1,73

1,73

0

& 4    )      2)2    (2 5  6     $9  $*      #       (  3    : $

  14  23       *) ) # ; 2 (2     )) (   + ()

3.12 ábra '         

  ) a#   !   $       <

  ) b#           o

  ) c# 12 =  "         " = *0 "  &  $      9       ! (<

  )

98

3. fejezet

Az általánosított távolságot objektumok csoportjai (pl. populációk) közötti távolság mérésére is alkalmazhatjuk (ez valójában a tradicionális felhasználási terület). Ekkor a következõ formulával dolgozunk: (3.96)

GEND 2jk = ( x j − x k )′W −1 ( x j − x k )

ahol xj és xk a j és k csoport átlagvektorai (azaz: az egyes változók átlagai oszlopvektorban összesítve), és W  pedig a W egyesített variancia-kovariancia mátrix inverze (az összes csoportra, az adatokat összevonva kell ezt kiszámítanunk). A távolságnak csak akkor van értelme, ha a csoportonként számítható kovarianciák azonosak (helyesebben: ugyanazon közös kovarianciának a becslései) és a változók többváltozós normális eloszlásúak. Sneath & Sokal (1973) véleménye szerint azonban a távolság nem túl érzékeny e feltételek megsértésére (“robusztusság”). Megjegyzendõ, hogy az általánosított távolság kiszámítása csak akkor lehetséges, ha az objektumok száma nem kisebb a változók számánál. Ellenkezõ esetben a W mátrix szinguláris (C függelék) és nem invertálható. Ugyancsak ez a helyzet, ha bármely két változó között –1 vagy 1 a korreláció értéke, illetve ha valamelyik változó varianciája 0. Távolság nem derékszögû koordináta-rendszerekben. Mindeddig nem mondtuk ki, annyira egyértelmû volt, hogy adatainkat egy olyan koordinátarendszer segítségével ábrázoljuk, ahol a tengelyek közötti szög mindig 90. A derékszögû koordinátarendszerbõl áttérve egy ferdeszögûbe, ahol a tengelyek közötti szögek cosinusa a korrelációnak felel meg, a pontok közötti távolságban a változók közötti kapcsolatoknak is szerep jut. A távolságformula a következõ: OBL jk =

LM ( x MN∑ n

h=1

2 hj − xhk ) + 2

n− 1

n

∑∑

( xhj − xhk )( xij − xik ) CORhi

h=1 i= h+1

OP PQ

1/ 2

(3.97)

ahol CORhi a h és i változók 3.70 szerint számított korrelációja (Orlóci 1978: 49). A függvény összetevõi a négyzetes euklidészi távolság és egy korrekciós második tag. Ez utóbbi értéke pozitív, ha a j és k objektum “megfelel” a változók közötti korrelációknak (mint pl. az 1. és 4. pont a 3.12a ábrán). Ekkor az új távolságérték nagyobb lesz, mint a derékszögû koordinátarendszerben mért euklidészi távolság. Ha a két objektum relatív helyzete “ellentmond” a változók korrelációinak (2. és 3. pontok, 3.12a és c ábra) akkor a korrekciós tag negatív, és az új távolságérték az euklidészinél kisebb lesz. Ferdeszögû koordináta rendszerbe áttérve tehát a korreláló változók hatása – az objektumpártól függõen – vagy kidomborodik vagy pedig elenyészik. >  4    )     ) (<

  )       

       (2      2      & * )     7   28  





0,64



5,69







Speciális mértékek. Az arány- vagy intervallum-skálán mért változókra alkalmas mérõszámok között több olyan is akad, amelyek sehogyan sem oszthatók be logikusan az elõzõekben tár-

Távolság, hasonlóság, korreláció...

99

3.13 ábra. A Calhoun távolság megállapítása két változóra. a: az 1. és 2. pontra, b: a 7. és 9. pontra.

gyalt csoportok egyikébe sem. Ilyen mértékszám az objektumok topológiai viszonyaira, relatív elhelyezkedésére érzékeny Calhoun távolság (Bartels et al. 1970). A távolság alapja az, hogy két adott pont között a sokdimenziós térben hány további pont helyezkedik el (azaz a 3.94 és 3.97 távolságokhoz hasonlóan, sõt annál közvetlenebbül, a többi pont is befolyásolja két pont távolságát). A Calhoun mértékszám kiszámítását a 3.13 ábra illusztrálja az alábbi adatok segítségével : 1. változó 2. változó

2 5 1 2 3 6 7 7 7 2 5 1 6 4 3 2 7 6

Adott objektumpárt kiválasztva minden egyes változóra egy intervallum határozható meg, ezen intervallumok a sokdimenziós térben egy hiperfelületet jelölnek ki. Az 1. és 2. pontra a fenti példában a 3.13a ábra nem árnyalt részeirõl van szó.

A Calhoun távolság kiszámításához a következõket kell figyelembe venni: n = azon pontok száma, amelyek a két pont által meghatározott hipersík belsejébe esnek (5. és

6. pontok a 3.13a ábrán);

n = a hipersík peremére esõ pontok száma, ezek legalább egy változóban megegyeznek a j vagy a k objektummal (a 4. és 7. pontok, 3.13a ábra); n! = azon pontok száma, amelyek legalább egy változóban mindkét ponttal megegyeznek és a hipersíkon kívül esnek (a 3.12a ábrán ilyen pont nem látható; ha azonban a 7. és 9. pontok közötti Calhoun távolságot keressük, akkor a 8. pont ilyen pozícióban van, 3.13b ábra).

Ezek után a keresett távolság:

100

3. fejezet CALjk = w1n1 + w2n2 + w3n3

(3.98)

 w w  w!     * 1 2  ! *      + " # ! ,%! 3'/ $-).%       CAL  n */' 

 w w!4%   /  n        j  k      ++  5

 1   !       !      4  

       %   *  '           ! jk

Goodall (1964, 1966) javasolta a valószínûségi hasonlóságot (“probabilistic similarity index”), amely két objektum hasonlóságát a többi hasonlóság függvényeként definiálja. A páronkénti hasonlóságot tehát az egész minta befolyásolja, s ebben emlékeztet a 3.94, 3.97 és 3.98 függvényekre. Az alapkoncepció azonban lényegesen eltér az elõzõektõl, mint az alábbi számításmenet is mutatja.

$! 6  d = | x – x |   j  k   Manhattan távolsága  i ' !  m 7     mm–$%8,    *   '! 9*+      d   ! i,jk

ij

ik

i,jk

,!  i ' *   j  k   +         5    d 5              !    i,jk

pi , jk =

# (d ≤ d i , jk m(m − 1) / 2

(3.99)

:                          ! p   ' 7      *     i '     d      x 5  x 5  '*        m%  +! ' 7    *      ' ! i,jk

i,jk

ij

ik

#! :  p   * '             i,jk

n

q jk = ∏ pi , jk

(3.100)

i =1

(! :      *      mm–$%8, * q     ! k    '   q 5        *  

j 

jk

GD jk =

# ( q > q jk m(m − 1) / 2

(3.101)

0      ' 7      j  k        '      *      '      7

      ! A Goodall-féle index – nem vitatható – ötletes kifejezése a mintán belüli relatív hasonlóságoknak. Ez ugyanakkor hátránynak is bizonyulhat, mert a hasonlóságok csak az adott mintára érvényesek: egyetlen egy új objektum vagy változó hozzáadása teljesen felboríthatja a hasonlósági struktúrát. Bár a sorbarendezésnél elvész a metrikus információ, a 3.101 index mégis hasznos lehet a biológiai osztályozásokban. Kiemelendõ a mérési skálától való függetlensége. A 3.99 függvény megfelelõ átalakítással kiterjeszthetõ pl. a nominális és ordinális változókra is.

Távolság, hasonlóság, korreláció...

101

;  '    +   +  

  /      '  '! * $-""%            5      '   /''     ! 3.6 Koefficiensek kevert adattípusokra A többféle változótípust tartalmazó adathalmazra nem használható egyik eddig említett távolság- és hasonlóságfüggvény sem. Ez a probléma ugyan a változók átalakításával megoldható lenne, de ez részben információ-veszteséggel jár vagy pedig valamilyen külsõ információ figyelembe vételével lehetséges csupán. Ha adatainkat eredeti formában szeretnénk hagyni (s ez a gyakoribb eset), akkor a megoldást a kevert adattípusra kidolgozott speciális formulák jelentik. Legismertebb közülük a Gower (1971b) index, amelynek további elõnye, hogy hiányzó adatokat is megenged. A képlet a következõ: n

GOWjk k =

∑w i =1 n

s

ki j ki j

∑w i =1

ki j

(3.103)

ahol wijk = 0 ha a j és k objektumok összehasonlítása nem lehetséges az i változóra, mivel az xij vagy xik értéke ismeretlen. Ezen kívül

a) bináris változókra: wijk = 1 és sijk = 0 ha xij ≠ xik wijk = sijk = 1 ha xij = xik = 1 vagy ha xij = xik = 0 és a dupla nullákat (közös abszenciákat) figyelembe vesszük; wijk = sijk = 0 ha xij = xik = 0 és a dupla nullákat kizárjuk az összehasonlításból; b) nominális változókra: wijk = 1 ha xij és xik ismert; ekkor sijk = 0 ha xij ≠ xik sijk = 1 ha xij = xik c) intervallum és arányskálán mért változókra: wijk = 1 ha xij és xik ismertek; s ekkor sijk = 1 – { | xij – xik | / (az i változó terjedelme)}.

102

3. fejezet

A Gower index sem tudja azonban kezelni az ordinális típusú változókat. Komplementje különbözõségi indexként jöhet számításba. Megjegyzendõ, hogy a bináris esetre, ha a dupla nullákat figyelembe vesszük, a Gower index az egyezési koefficienssel (3.6), ha pedig mellõzzük, akkor a Jaccard indexszel (3.24) azonos. Nominális változókra a 3.33 indexnek felel meg, intervallum és arányskála esetén pedig a változók terjedelmével történõ standardizálás alapján számított Manhattan távolsággal (3.48) arányos.

 /            A* $-.4% 1/ 2

2 ⎛ n ⎡x − x ⎤ ⎞ DM jk = ⎜ ∑ wki j ⎢ ij ik ⎥ ⎟ ⎜ i =1 ⎢⎣ qki j ⎥⎦ ⎟⎠ ⎝

(3.104)

  4           '  ' *           $& ijk







ijk

%   '   $! ijk

%   '   ≠  $  ijk  ij ik

ijk

ij

ik

ij  ik

/%         '   =  % B   % & $!!! ijk

ih

ih





3.7 Távolságok általánosítása kettõnél több objektumra (heterogenitási mértékszámok) Számos klasszifikációs eljárás nem az objektumok között páronként értelmezett távolságok alapján számol, hanem két v. több objektum alkotta objektumhalmaz valamilyen belsõ tulajdonságát fejezi ki. Ezekre a belsõ sajátságokra – jobb szó híján – heterogenitás néven utalunk (ennek komplementje lesz a homogenitás). Objektumok csoportjainak heterogenitását részben a szokványos statisztika mérõszámaival, részben pedig információelméleti függvényekkel fejezhetjük ki. A legismertebb heterogenitási mértékszám az objektumhalmazra vonatkozó eltérésnégyzet-összeg (“sum of squares”): n

2 SSQ) = = ∑∑ ( xij − xiA ) i =1 j∈ A

(3.105)

ahol xiA az i változó átlaga az A objektumhalmazban. A 3.105 képlet az A-n belüli objektumok között mért páronkénti euklidészi távolságok segítségével is kifejezhetõ: mA mA

SSQ) = =

∑∑ d j =1 k =1

2m A

2 jk

(3.106)

Távolság, hasonlóság, korreláció...

103

ahol mA az A-ban levõ objektumok száma. Ennek alapján két objektumra az eltérésnégyzetösszeg a közöttük értelmezett euklidészi távolság négyzetének a fele: SSQjk = d

jk

/2

(3.107)

Az eltérésnégyzet-összeget az objektumok számával elosztva a varianciát kapjuk: n

∑∑ ( x

VARA = SSQA / mA =

i =1 j∈ A

ij

− xiA ) 2

(3.108)

mA amelyet a következõképpen is felírhatunk: mA mA

VARA =

∑∑ d j =1 k =1

2 jk

(3.109)

2m A2

Két objektumra pedig a variancia a következõ VARjk = d

jk

/4

(3.110)

Az objektumok közötti távolságok vagy különbözõségek, (DISjk), átlagával is kifejezhetõ a heterogenitás: m A −1 m A

∑ ∑ DISjk

AVGA =

j =1 k =1

( m2A − m A ) / 2

, j, k ∈ A

(3.111)

Ennek elõnye, hogy bármilyen távolságfüggvényre alkalmazható nem-euklidészi térben is, míg az eltérésnégyzet-összeg és a variancia az euklidészi távolságkoncepcióhoz kapcsolódik. Ha egy mA objektum alkotta A halmazt n nominális változó ír le, ahol az i változó állapotainak a száma pi, akkor az objektumhalmaz heterogenitása a súlyozott entrópiaösszeggel is kifejezhetõ: HA = nm A log m A −

n

pi

∑ ∑ fhi log fhi

(3.112)

i =1 h=1

ahol fhi az i változó h állapotának a gyakorisága az A halmazban. A 3.112 függvény voltaképpen az objektumok rendezetlenségének a mértékszáma. Minimális a rendezetlenség, ha az objektumok minden egyes változóra nézve teljesen egyöntetûek, s maximális, ha minden egyes változóra és annak minden h állapotára fhi = mA / pi. A p=2 esetre és két objektumra a fenti formula a 2×2-es kontingenciatábla jelöléseivel is felírható: H = 2 (b+c) log 2

(3.113)

amely tovább egyszerûsödik a 2-es alapú logaritmus alkalmazásával: H = 2 (b+c)

(3.114)

104

3. fejezet

Az A objektumhalmaz jellemzésére alkalmas másik információelméleti mérõszámot a változók közötti kölcsönös információ jelenti. Alacsony érték a változók közötti egyezésre utal, következésképpen az objektumok közötti hasonlóságok nagyok. Bináris adatokra felírva a kölcsönös információ a következõ: I)= ( n − 1)m A log m A −

n

L N

ω

O Q

∑ MM fi log fi − ( m A − fi )log( m A − fi ) + ∑ f g log f g PP i =1

g =1

(3.115)

ahol fi az i változó elõfordulásainak a száma az A csoportban, fg pedig a g változó-kombináció gyakorisága az A csoportban. A lehetséges változó-kombinációk száma ω = 2n. Két objektumra az alábbi kifejezést kapjuk: I = 2 (b + c – 1) log 2

ha b+c > 0;

(3.116)

ha b+c = 0.

(3.117)

illetve I=0

Megjegyzendõ, hogy a 3.115 mérõszám kiemelt fontosságú a sokfajú pontmintázatok elemzésében (Juhász-Nagy 1976).

3.8 Irodalmi áttekintés

Éles ellentétben a mintavételezést és az adatátalakítást tárgyaló szûkös szakirodalommal, a távolságfüggvényekrõl könyvtárnyi terjedelmû anyag áll rendelkezésünkre. Az adott problémához leginkább illõ függvény kiválasztása számos könyvfejezet és nagyon sok cikk tárgya. Emellett szinte hetente “fedeznek fel” új, speciális igényeket kielégítõ formulákat is. Az alábbi összesítésben emiatt csak a legfontosabb, a témát egy-egy szempontból részletesen áttekintõ forrásokat említjük. A növényökológiában használatos függvényekrõl a legteljesebb összeállítást Goodall (1973a) és Orlóci (1978) adja. Pielou (1984) és Greig-Smith (1983:194-195) már inkább csak néhány fontosabb függvényre összpontosít, de azokat alaposabban megvizsgálja. Legendre & Legendre (1983:170-215) sok függvényt sorol ugyan fel, de néhány megállapításukkal nehéz egyetérteni. Mindenütt beleütközhetünk az R és Q mód megkülönböztetésébe (azaz fajok, ill. mintavételi helyek az objektumok). A prezencia/abszencia koefficiensekrõl az elsõ értékelõ összesítést, paleontológiai szempontból, Cheetham & Hazel (1969) közölte. Kenkel & Booth (1987) viszont a prezencia/abszencia koefficiensek biogeográfiai alkalmazhatóságát vizsgálta meg. Megjegyzendõ, hogy a Baroni-Urbani- Buser féle index mellett érvelnek, bár az Ochiai és a Jaccard együtthatókat is elfogadhatónak találják. Lamont & Grant (1979) és Hajdu (1981) számos együtthatót hasonlított össze, megvizsgálva, hogy miképpen változik az értékük különbözõ szituációkban. Grafikus értékelési módszerük adta az ötletet az itt használt szemléltetéshez is. Ezt a módszert vette át Shi (1993) is nem kevesebb, mint 39 különbözõ prezencia/abszencia koefficiens vizsgálatában. További összehasonlító értékeléseket találunk Campbell (1978), Janson & Vegelius (1981), Hubálek (1982), Wolda (1981), Jackson et al. (1989) és – legújabban – Batagelj & Bren (1995) cikkeiben. Taxonómusok számára Sneath & Sokal (1973) monográfiájában található a mindmáig legjobb értékelés, bár ezt a könyvet nemcsak rendszertanosoknak ajánljuk. Egyik nagy értéke a könyvnek a csaknem teljes bibliográfia a numerikus taxonómia kezdeti korszakából. A mikrobiológusok figyelmét Austin & Colwell (1977) prezencia/abszencia koefficienseket értékelõ cikkére hívjuk fel.

Távolság, hasonlóság, korreláció...

105

               )*+,-. &      !  !     '

   '   (J 7 6   )*+0@.       "          K   )*+02.   !  3 '   "     3  "         "         !    )   :   7 >" L*++*M    .   "!         )*+08. ?' )*+09.  (  )*++*. &    "    !         '                 '       ! &  #  &            !'  ,@                 !4 !        3                    A  "   '          

      A !   !             !&    A 7 /" )*+0@.          "   K !   )*+0,.       N    !     !       

     C"      !  '!'     '  '

 '     ;'

;  D  '  " 

   '  '               !    '      "  8 !

d

O8      ' D   

P

3.8.1 Számítógépes programok    "    "       &      



 

 

  !

 

  

# 

  

                 &  )-5  . $ !  % I  !  ' I  ! 

 #  !  !' !  "         

     ' !          3  "     '     "      " !  !   N'          E'

>         

C    H "  ( " > ' (' )Q 'D   *+02.  "  '    "                           N )*++*.   "  (     D

     

   ( 

 

)*++*. 

     >!'       /" )*+,0.    B3R>         ! !     6' J  7 ;  )*+00. '" B3R>    "         !      R "      K   )*+02.   ' K/;F;N     3 I      I  '  !       " '  '   "           ) ( #    . ?      "          B3R>

 



   





   

   D



 !

SYN-TAX   NuCoSA )F!  *++2. 



 

106

3. fejezet

3.5 táblázat. Hasonlósági és távolságfüggvények különbözõ programcsomagokban. A táblázatban nem szerepel olyan függvény, amelyet a jelen kötet nem tárgyal.

egyezési koefficiens Rogers - Tanimoto Anderberg I Anderberg II PHI Yule II Baroni-Urbani - Buser I Baroni-Urbani - Buser II Russell - Rao Kulczynski (p/a) Jaccard Sorensen/Dice Ochiai Fager Spearman Rho Kendall Tau Jukes - Cantor euklidészi távolság Manhattan-metrika Minkowski általános formula átlagos távolság átlagos karaktereltérés Canberra-metrika normált Canberra-metrika húrtávolság szögeltérés geodéziai távolság Pinkham - Pearson Bray-Curtis/százalékos kül. Marczewski-Steinhaus/Ruzicka Kulczynski khi távolság keresztszorzat kovariancia korreláció hasonlósági hányados Kendall/Renkonen Rogers Prevosti Nei Balakrishnan - Shangvi Cavalli-Sforza - Edwards Horn Penrose size Penrose shape általánosított távolság távolság ferdeszög• koord. rend. Gower kevert adatokra Távolság kevert adatokra

BMDP 7

Statistica

NT-SYS

SYN-TAX

NuCoSA

+

+

+ +

+ + + + + + + + + + + + +

+ +

+ + +

+

+ + + + +

+ + + +

+ + + + + + + + + + +

+ +

+ + +

+ +

+ + +

+

+

+

+

+

+

+ + + + + + + +

+ +

+

+ +

+ +

+ +

+ + + + + + + + +

+ + + + + + +

+ +

+ + + + + + + +

Távolság, hasonlóság, korreláció...

107

3.9 Kérdezz – válaszolok! K: Meg kell hagyni, jól elárasztottál ezekkel a különféle koefficiensekkel. Teljesen megfájdult a fejem, mire végigolvastam ezt a fejezetet, és a sok-sok név bizonnyal éjszaka sem hagy majd nyugton. V: El kell ismernem, hogy egy elég fárasztó, bár igen fontos részen vagy túl, – de ezt nem lehetett megkerülni. A módszertani sokféleséget bizonyára sikeresen érzékeltettem. Egyébként nem véletlen, hogy a most bemutatott függvények jelentõs részét biológusok vagy biológiai problémákkal szembenézõ statisztikusok “agyalták ki”. S ha tudnád, hogy még milyen sok van, amelyre itt már nem jutott hely!? A hasonlóság- és távolságfüggvények legnagyobb és legáttekinthetetlenebb irodalma talán éppen a biológiával kapcsolatos. K: Már az elejétõl zavart egy kissé, hogy hol távolságról, hol különbözõségrõl, hol pedig hasonlóságról beszéltél. Bár tudom, hogy mi közöttük az eltérés, azért jó lenne ha ezekre a függvényekre valamilyen gyüjtõnévvel együttesen utalhatnánk. V: Egyetértek: sok esetben nem volt könnyû az egyértelmû fogalmazás, és néha a terminológiába is belebonyolódtam. Egyébként létezik ilyen gyûjtõfogalom, a “resemblance”, amelyet – ha jól tudom – Orlóci (1972, 1978) használt elõször ezzel a céllal. Bár a resemblance szó eredeti jelentése leginkább a hasonlóság, általános gyûjtõnévként is jól meghonosodott a szakirodalomban. A “komparatív függvény” elnevezés (Podani 1980) is alkalmazható, bár eddig nem is használtam. Ha valakinek jobb ötlete adódna, azt szívesen vennénk. K: Ha már olyan jól elárasztottál bennünket a komparatív vagy nem is tudom mi néven nevezendõ függvényekkel, akkor legalább adnál némi útmutatót, hogy mikor melyiket lehet alkalmazni! A szövegbõl, a táblázatokból és a rajzok alapján elég nehéz eldönteni, mikor mit használjak! V: Egyértelmû választ, hogy ekkor és ekkor márpedig csak ez és csak ez a függvény jöhet számításba én nem adhatok, s tartok tõle: ilyen tanácsot senkitõl sem fogsz kapni. A függvényt magadnak kell kiválasztanod, s ehhez bizony meg kell értened az egyes függvények jelentését, s látnod kell, hogy bizonyos esetekben ezek miként viselkednek. Egy nagyon általános útmutatót persze össze tudok állítani, Legendre & Legendre (1983) és Gower & Legendre (1986) után “szabadon”, hiszen csak az alapötlet származik tõlük. Az eddig leírtak figyelembevételével a következõ “koefficiens-határozókulcsot” adhatom a kezedbe, amely a legtöbb fent említett formulát tartalmazza (a speciálisakat nem): 1a A változók nem egyforma típusúak, az adatokban nem szerepel ordinális változó ....................................................................... Gower (3.103), távolság (3.104) 1b Az összes változó azonos típusú ............................................................................................... 2 2a A változók nominális típusúak (bináris esetben is, azaz a kódolás önkényes) ........................ 3 2b A változók más típusúak ........................................................................................................... 7 3a Egyszerû hányadosok, elsõsorban objektumok összehasonlítására ......................................... 4 3b Függetlenséget v. megjósolhatóságot mérik, elsõsorban változók összevetésére alkalmasak . 5 4a Az egyezést és a különbözõséget okozó vátozókat egyformán súlyozzuk ..................................................................................egyezési index (3.33)

108

3. fejezet

4b Az egyezéseket kétszeresen súlyozzuk ...................................................Sokal - Sneath I (3.35) 4c A különbözõséget kétszeresen súlyozzuk ........................................... Rogers - Tanimoto (3.34) 5a Metrika, változók függetlenségét méri ..................................................................Cramér (3.37) 5b Nem-metrika, kölcsönös megjósolhatóságot mér ..................................................................... 6 6a Adataink binárisak ...................................................................................................Yule I (3.16) 6b A változók többállapotúak ....................................................Goodman - Kruskal lambda (3.39) 7a A változók ordinálisak ............................................................................................................... 8 7b A változókat intervallum vagy arányskálán mérjük (binárisak is lehetnek!) ........................... 9 8a Elsõsorban változók összevetésére, kevés egyezéssel, a nagy eltérések erõteljes kiemelésével ................................................................................. Spearman rho (3.43) 8b Változók és objektumok összehasonlítására is, sok egyezést is megenged, az eltéréseket egyformán súlyozza ....Kendall tau (3.44-45), Goodman - Kruskal gamma (3.46) 9a Változóink bináris típusúak ..................................................................................................... 10 9b A változók nem binárisak ........................................................................................................ 17 10a A közös abszenciák száma befolyásolja az eredményt ......................................................... 11 10b A közös abszenciákat (d) egyáltalán nem vesszük figyelembe ........................................... 16 11a A közös abszenciák éppen olyan fontosak, mint a közös prezenciák ................................... 12 11b A közös abszenciák és prezenciák nem egyformán hatnak az eredményre .......................... 15 12a Az egyezések és az eltérések súlyozása azonos .................................................................... 13 12b Az egyezések ill. eltérések eltérõ fontosságúak .................................................................... 14 13a A függvény metrika .......................egyezési index (3.6), euklidészi távolság (3.7), Anderberg I (3.12), PHI (3.15) 13b A függvény nem metrika ...........................................Yule I, II (3.16-17), Anderberg II (3.13) 14a Az egyezések duplán számítanak ..........................................................Sokal - Sneath I (3.11) 14b Az eltérések számítanak duplán .......................................................... Rogers -Tanimoto (3.9) 15a A közös abszenciák száma (d) csökkenti a hasonlóságot .......................... Russell - Rao (3.23) 15b A közös abszenciák köztes hatásúak .......... Baroni-Urbani - Buser I, II és Faith I, II (3.19-22) 16a A függvény metrika ..................................................................... Jaccard (3.24), Ochiai (3.26) 16b A függvény nem teljesíti a metrikus feltételeket .................................Sorensen (3.25), Kulczynski (3.29), Mounford (3.31) 17a Adott konstans hozzáadása az értékekhez nem változtatja meg az eredményt (intervallum skálára csak ezek alkalmasak, de természetesen arányskála esetén is használhatók) ............. 18 17b Adott konstans hozzáadása minden értékhez befolyásolja az eredményt (csak arányskálára jók, intervallum skálára semmiképpen sem ajánlhatók) ........................... 21 18a A függvény implicit standardizálást tartalmaz ..................................................................... 19 18b Az értékeket nem standardizáljuk .......................................................................................... 20 19a Standardizálás a sor- és az oszlopösszegek szerint ....................................khi távolság (3.67) 19b Standardizálás egységnyi szórásra .................................................................. korreláció (3.70)

Távolság, hasonlóság, korreláció...

109

20a Az értékek közötti különbségek számítanak............................................... euklidészi távolság (3.47), Manhattan-metrika (3.48) 20b A minimális egyezések összegzõdnek........................................................... Kendall függvény (3.72), Renkonen (3.74) 21a A változók közötti arányokra érzékeny mértékszámok ......................................................... 22 21b A változók abszolút mennyiségi eltéréseire érzékeny függvények ...................................... 24 22a A vektorok közötti szöggel arányosak ................... húrtávolság (3.54), szögeltérés (3.55), geodéziai mérték (3.56) 22b Nincsenek közvetlen kapcsolatban a vektorok közötti szöggel ............................................ 23 23a Értelmezési tartományuk végtelen ............................ keresztszorzat (3.68), kovariancia (3.69) 23b A lehetséges értékek 0 és 1 közé esnek ....................................... hasonlósági hányados (3.71) 24a Az objektumpár egyezését (vagy különbözõség esetén az eltérését) elõször összegzik, majd az adott párra megadható lehetséges maximumhoz viszonyítják; értékük 0 és 1 közé esik ......................................................................................................... 25 24b Az egyezést és a lehetséges maximumot az összegzés elõtt viszonyítják egymáshoz ............................................................... Canberra (3.52), Clark (3.57) 25a A mindkét objektumban meglevõ változók közötti eltérés nem számít .................................................................. Gleason (3.64), Ellenberg (3.65) 25b Az eltérések mindenképpen számítanak ...... Bray - Curtis (3.58), Marczewski - Steinhaus (3.60), Kulczynski (3.62), Pandeya (3.66).

Ha a fenti útmutatás során eljutottál valamelyik függvénycsoporthoz, a továbbiakban finomabb dolgok számítanak. Döntésedhez már a konkrét megoldandó probléma ismerete szükséges, és ekkor a szóba jöhetõ függvényeket érdemes egy kicsit alaposabban áttanulmányozni, megvizsgálni a viselkedésüket az e kötetben leírt módon, egy számodra értelmes adatsor alapján, s csak azután dönteni. Célszerû egyébként több koefficienst is kipróbálni ugyanarra az adathalmazra, s az eredményeket késõbb összehasonlítani. Ebbõl minden kezdõ adatelemzõ sokat tanulhat! K: Ha már választottam a koefficiensek közül, és tudom, hogy változóim intervallum- és arányskálán mozognak, akkor még mindig bizonytalan maradok: milyen standardizáló módszerek alkalmazhatók az adott különbözõség vagy hasonlóság kiszámítása elõtt! V: Igen, jogos az aggodalmad, hiszen – a koefficiens ismeretében – számos adatátalakítási mûvelet eleve kizárható. Máskor pedig a standardizálás mûvelete benne van a formulában, mint erre néhány példát már láthattál is. Mindenesetre segítségül szolgálhat az értelmes kombinációkat feltüntetõ kompatibilitási táblázat, amely utal a megjósolhatatlan eredménnyel járó, értelmetlen vagy nem logikus kombinációkra is (3. 6 táblázat). Az bizonyos, hogy minél speciálisabb célú egy koefficiens, annál kevésbé “viseli el” az adatok átalakítását. Vigyázat, a táblázatbeli + nem jelenti azt, hogy a standardizálás után a metrikus sajátságok is feltétlenül megmaradnak! K: Mennyire súlyos az a probléma, hogy egy nekem nagyon tetszõ koefficiens nem euklidészi?

110

3. fejezet

3.6 táblázat. Egyes távolságfüggvények és standardizálási módszerek kompatibilitása. Jelmagyarázat: + = elfogadható kombináció, N = a standardizálás nem változtatja meg az eredményt, így felesleges, E = kizárható, bármely oknál fogva nem ajánlott (pl. nincs értelme, 0-val történ• osztáshoz vezethet, stb). Számok jelölik azokat a kombinációkat, amelyek külön megjegyzést érdemelnek: (1) húrtávolság, (2) Whittaker-távolság néven ismert, (3) lineáris korreláció, (4) Renkonen index. Ezeket még egy további standardizálással már nem célszerû kombinálni.

Összeg

Maximum

Normálás

Maximum

Terjedelem

Összeg









- (  









*    

5

=

4

4

*

5

5

4

4

4

5







*



5















 +,+

Normálás

Szórás

':    

Terjedelem

9+3   





;




















 3+ + +



5















 



5









?





V: Nagyon sokszor kiderülhet, hogy a nem-euklidészi sõt nem-metrikus mértékek olyan távolságokat adnak, amelyek euklidészi térben is érvényesek. Egyesek gyakorlatilag sosem, csak speciálisan “szerkesztett” esetekben sértik meg a feltételeket. Ez a “megsértés” sem mindig jelentékeny, tehát eltekinthetünk a dologtól. Ennek mértékét a fõkoordináta-elemzés alkalmazásával lehet megállapítani, mégpedig a negatív sajátértékek száma és nagysága alapján. A késõbbiek során erre utalni fogunk (7.4.1 rész). K: A mintavételnél és az adatátalakításnál is meggyõzõek voltak azok a példáid, amikor kis változtatások alkalmazásával egy sorozatot képeztünk, s ennek tanulmányozásával többet tudtunk meg a vizsgált objektumokról, mintha csak egy kiragadott értéknél maradtunk volna. Jól emlékszem pl. a kvadrátnagyságra, vagy pedig a Clymo-transzformáció paraméterére. Képezhetõ-e hasonló sorozat (térsor) a hasonlósági függvényekre is? V: Ne mondd, hogy az eddigiek alapján nem is sejted a választ: persze, hogy képezhetõ. A Minkowski metrikaosztályról már szóltunk, bár ennek igazándiból csak két lépése érdekes, a Manhattan és az euklidészi metrika; a magasabb hatványok már túlhangsúlyozzák a nagy eltéréseket. Általános sorozatot alkothat a Faith-féle “intermediate coefficient” (3.75) is, ha a

Távolság, hasonlóság, korreláció...

111

következõképpen írjuk fel: INTjk =

n

∑ α|xij − xik|+(1 − α )(max{xih } − min{xij , xik })

ahol 0 ≤ α ≤ 1

(3.118)

j =1

ekkor α változtatásával egy folytonos átmeneti sor állítható elõ a Manhattan-metrika (α=1) és a Kendall koefficiens (α=0) között. Gondolkodom azon, hogy az euklidészi távolság és a húrtávolság között is lehetne hasonló módon átmeneteket képezni. Ekkor a mennyiségbeli ill. az aránybeli eltérések között “egyensúlyoznánk”. K: Elismerted, hogy még a lényegesebb függvények közül is kimaradhatott néhány. Én például hallottam valahol a Pearson-féle kontingencia-együtthatóról. Ha van még helyed, bemutatnád ezt nekem? V: A kontingencia-együttható a – Cramér indexhez (3.37) hasonlóan – azt a problémát próbálja megoldani, hogy a χ; maximális értéke a mintanagysággal változik: KK =

F χ I GH f + χ JK 2

..

1/ 2

(3.119)

2

Ha feltételezzük, hogy mindkét változó értékei sok kategóriára oszthatók (p és q nagy), és sok megfigyelés alapján a gyakoriságeloszlás közelít a kétváltozós normális eloszláshoz, akkor KK négyzete a két változó közötti korrelációs koefficiens (3.7) négyzetéhez közelít. Ez azonban csak elméletileg érdekes, mert ezek a feltételek igen ritkán teljesülnek (Anderberg 1973), s ezért nem is említettem ezt a lehetõséget. Ezen kívül van még egy, amely inkább emlékeztet a Cramér indexre, de a minimum helyett a p–1 és q–1 mértani közepével oszt:

F χ /f I CS = G H [(p − 1)( q − 1)] JK 2

1/ 2

..

1/ 2

(3.120)

(Csuprov formula, vö. Anderberg 1973). A normálás akkor ad a Cramér indextõl jelentõsen eltérõ eredményt, ha p és q értéke nagyon különbözõ. K: Nem részletezted ugyan, de említetted, hogy a genetikai távolságnál fontos a biológiai interpretálthatóság. Hogy van ez másutt, például az ökológiában? V: Igen, a genetikai távolság analógiájára ökológiai (vagy akár taxonómiai) távolságról is beszélhetünk. Az alapprobléma mindig az, hogy a geometriailag szemléletes távolságfüggvények mennyire értelmesek ökológiailag is. Gondolj arra, hogy valahol a mérsékelt övben, a tengerpartról elindulunk a part mentén húzódó hegységbe, egészen 2500 m tengerszintfeletti magasságig. A parton egy szegényes, sótûrõ fajokból álló flóra van. 2000 m fölött is csak kevés fajból áll a vegetáció, míg a montán növényzet, 1000 m körül, rendkívül fajgazdag. Prezencia/abszencia adatokból számolt euklidészi távolságok alapján így a magashegységi növényzet közelebb van a tengerpartihoz, mint a montánhoz, ami viszont ökológiailag nyilvánvaló képtelenség. A geometriai interpretálhatóság tehát nem minden, emellett ügyelnünk kell arra is, hogy az alkalmazott függvények biológiailag is értelmesek legyenek.

112

3. fejezet

K: Hogyan lehetne a változók eltérõ fontosságát is érvényesíteni a komparatív függvények megszerkesztésében? V: Nyilván a súlyozásra gondolsz, mert ez valóban beépíthetõ sok formulába. Prezencia/ abszencia típusú ökológiai adatok esetében például kimondhatjuk, hogy a gyakori fajban mutatkozó eltérés lényegesebb információt hordoz, mint a ritka fajra jutó eltérés (“súlyozott különbözõségi index”, Podani 1978): n

WDI jk =

∑ pi|xij − xik| i=1

n

∑ pi

(3.121)

i =1

A súly, pE, az i faj prezenciájának a mintából becsült valószínûsége. A súlyérték persze más is lehet, pl. a faj entrópiája, amely a köztes gyakoriságú fajokat emeli ki (Tóthmérész 1997).

4 Nem-hierarchikus osztályozás (Egy “õsi tevékenység”... modern formában) Különféle dolgok csoportokba rendezése, az osztályozás, egyik alapvetõ intellektuális tevékenységünk: nélküle el sem tudnánk igazodni a bennünket körülvevõ világban. Csak egyetlen fontos példát említve: a kommunikáció eszköze, a nyelv, elválaszthatatlan az osztályozástól, hiszen a dolgok megnevezése már eleve feltételez valamilyen kategorizálást. A nyelv fejlõdése így az osztályozás kifinomulásával egyidejû, attól elválaszthatatlan folyamat1. Az osztályozásnak különösen nagy “rendteremtõ” szerepe van olyan tudományterületeken, ahol a dolgok sokfélesége, változatossága zavarba ejtõen nagymérvû. A szupraindividuális szintû biológiára gondolunk elsõsorban, melynek története mindenkor szorosan összefonódott az osztályozással kapcsolatos elvek és módszerek változásával, fejlõdésével. Az osztályozás fogalmának szabatos meghatározása a matematikában az ekvivalenciarelációkon, ill. a halmazokon alapszik (lásd Izsák et al. 1981:31). Az osztályozás a vizsgált objektumok részhalmazokra (itt: osztályokra) történõ felosztása (partíciója) olymódon, hogy a kapott osztályok páronként teljesen elkülönültek (diszjunktak, azaz egyik objektum sem tartozhat egyidejûleg két részhalmazba). Ez a definíció csak az ún. nem-hierarchikus vagy particionáló módszerek esetében érvényes (jelen fejezet 4.1.1-4 részei). A klasszikus meghatározás kisebb vagy teljes mértékû módosításaival jutunk el a késõbb tárgyalandó átfedéses, valamint a lágy (“fuzzy”) és a hierarchikus osztályozásokhoz. Érdekes nyelvi sajátosság (s ez nemcsak a magyarban van így) az osztályozás szó kétszeresen kettõs jelentése: nemcsak az eredményt, hanem az azt létrehozó folyamatot is osztályozásnak nevezzük. Ez különösebben nem lehet zavaró, hiszen a kontextusból mindig kiderül, hogy éppen eredményrõl vagy pedig mûveletek sorozatáról, valamilyen algoritmusról van-e szó. Annál több félreértésre adhat okot a másik kettõsség, amelyet célszerû jó elõre tisztázni. Összhangban a numerikus taxonómia irodalmával (pl. Sneath & Sokal 1973), az osztályozás folyamatán egy olyan mûveletsorozatot értünk a továbbiakban, melynek révén ed1

Az osztályozás képességét azonban nem lenne szabad kizárólag emberi “elõjognak” tekinteni, gondoljunk például az állatok világára: az ehetõ – nem ehetõ növények felismerése, vagy a fajtársak, nem fajtársak és ellenségek megkülönböztetése is osztályozásnak tekinthetõ.

114

4. fejezet

4.1 ábra. Egy viszonylag egyenletesen sûrû erdõ fáinak beosztása szektorokra – annak érdekében például, hogy erdei utakon minden erdõrészlet jól megközelíthetõ legyen – nem tekinthetõ osztályozásnak. A felosztás ugyanis nem a ponthalmaz szerkezetén alapszik elsõsorban.

dig még nem létezõ osztályokat hozunk létre. Ezzel szemben a köznyelvben is, de a matematikában is sokszor nevezik osztályozásnak azt, amikor új objektumokat helyezünk el egy már létezõ osztályozás valamelyik csoportjába. Ez utóbbi mûveletet célszerû azonosítás (besorolás, identifikáció) néven különválasztani az osztályozás egészét megteremtõ procedúrától. (Az új osztályozás létrehozása és a besorolás közötti különbség a számítógépes algoritmusokat tekintve a leginkább szembeötlõ.$) További lényeges szempont, hogy az osztályozás az osztályozott objektumok jellemzõit fejezze ki, az adattérben lévõ csoportosulásokat tükrözze. Nem tekintjük tehát osztályozásnak az objektumhalmaz egyszerû “felszeletelését” (dissection, Kendall 1966; 4.1 ábra). Ekkor ugyanis nem az objektumok közötti távolság- vagy hasonlóságviszonyok kifejezése a lényeges, hanem külsõ célszerûségi szempontok uralkodnak, amelyeket ráerõltetünk az objektumhalmazra (mint például egy város épületeinek kerületekre történõ felosztásában, vagy egy erdõ mûvelési szektorokra bontásában). A 4.1 ábra sûrûn álló, viszonylag egyenletesen elszórt pontjait intuitíve mindenki egyetlen osztályba tartozónak tekintené egyébként is. Az egyenletesség azonban nem az egyetlen ok, hogy a felosztást ne tekintsük osztályozásnak. A randomizáltan elhelyezkedõ pontokat se tudjuk értelmes módon osztályokba sorolni, amint azt a 4.2a ábra is szemlélteti. 2

        “cluster analysis”   “clustering”          %          # &  '  !"     ()"   # *+,-      %             #  '  % '    !   !              '     "        .   #         !"

 / ( /- !         "      !    “supervised versus unsupervised pattern recognition”  "     !     (0   *+*-#

Nem-hierarchikus osztályozás

115

Felmerül a kérdés: milyen jellegû objektum-objektum kapcsolat esetén beszélhetünk értelmes osztályozásról? Az elõzõ fejezetben megadott távolságok (pl. az euklidészi távolság) felhasználásával egy osztályozást két fõ szempont szerint jellemezhetünk: 1) az osztályok belsõ kohéziója, amelyeket az osztályokon belüli távolságok segítségével fejezhetünk ki, és 2) az osztályok szegregációja, az osztályok között mutatkozó távolságok alapján. Ideális esetben az osztályok kohéziója és szegregációja is egyaránt erõs (4.2b ábra), ekkor az osztályok jellemzése és elhatárolása egyértelmû s szinte minden módszer azonos eredményre vezet. A gyakorlatban ilyen esetben már “ránézésre” is nyilvánvaló lehet az osztályozás, s a számítógépes csoportosítást nem az osztályok kimutatására, hanem létük igazolására, vagy csupán a klasszifikáció szemléltetésére alkalmazzuk. Speciálisabb esetet jelentenek az erõs kohézióval, de a szegregáció hiányával jellemezhetõ osztályok (4.2c ábra). Ezeket a legtöbb módszer többé-kevésbé érzékeli, de az “átmenetinek” tekinthetõ, a szegregációt csökkentõ objektumok osztályozásában már nagy eltérések mutatkozhatnak. A másik szélsõséget a 4.2d ábra csoportjai képviselik, kifejezett szegregációval és nagyon gyenge belsõ kohézióval. Az ilyen osztályokat már kevesebb módszer képes felismerni, mint azt a késõbbiek során látni fogjuk. A két véglet között természetesen átmenetek végtelen sorozata képzelhetõ el, s ezek jelentik az igazi problémát az adatelemzõ kutató számára. Az eddigiek alapján azt várnánk, hogy a numerikus klasszifikáció során az osztályok kohézióját és szegregációját egyidejûleg fogjuk optimalizálni. Az egyes eljárások azonban nem kezelik egyformán ezt a két alaptulajdonságot: többnyire csak a kohéziót veszik figyelembe közvetlenül (bár látunk majd kivételeket is). Az algoritmusok viszonylag egyszerûek, bemutatásuk és megértésük nem igényel különösebb matematikai ismereteket. Indokolt tehát ezeket elsõként, minden más módszert megelõzve tárgyalni. (Ebbõl azonban nem következik az, hogy a particionálás jelenti a többváltozós vizsgálódás elsõ lépését. Éppen ellenkezõleg: a nemhierarchikus osztályozásra rendszerint akkor kerül sor, ha más típusú elemzések révén már vannak bizonyos ismereteink az adataink szerkezetérõl.)

4.2 ábra. Pontok csoportosulásának speciális esetei kétdimenziós térben. a: random elrendezõdés, valódi osztályszerkezet nélkül, b: “ideális” eset, az osztályok erõs kohéziójával és szegregációjával, c: két osztály erõs kohézióval de szegregáció nélkül, d: megnyúlt pontfelhõk melyek belsõ kohéziója kicsiny, elválásuk viszont jól érzékelhetõ.

116

4. fejezet

4.1 Particionáló módszerek Feladatuk, hogy m objektum hagyományos értelemben vett felosztását állítsák elõ k, páronként diszjunkt osztályra (csoportra)1. Egy objektum így csak egy osztályba tartozhat és értelemszerûen minden osztályban van legalább egy objektum (egyébként nem beszélhetnénk k osztályról). Az eljárások általában egy iteratív stratégián alapulnak: az analízis során egy kezdeti osztályozást javítunk lépésrõl lépésre mindaddig, amíg további javulást már nem érhetünk el. A kezdeti osztályozás megadása azt jelenti, hogy az osztályok számát, k-t, elõzetesen ismerjük. Tegyük fel, hogy az osztályozás optimalitását (“jóságát”) valamilyen J függvénnyel mérjük, melynek értékét a további javítás érdekében csökkentenünk kell az egyes lépésekben. Ezek alapján megadható egy általános particionáló algoritmus (Hartigan 1975, Therrien 1989): 1. Válasszunk ki egy kezdeti osztályozást k csoportra és számítsuk ki J értékét. 2. Változtassuk meg az osztályozást olymódon, hogy J maximálisan csökkenjen k változatlan értéke mellett (ne keletkezzen “üres” vagy új osztály). 3. Ha a 2. lépésben nem lehetséges J csökkentése, az elemzés megáll és az adott osztályozást fogadjuk el végeredménynek. Ellenkezõ esetben visszatérünk a 2. lépéshez. A módszerek az osztályozás jóságát mérõ J függvényben és az osztályozás 2. lépésbeli megváltoztatásában térnek el egymástól. A fenti particionálási algoritmusra jellemzõ, hogy a kapott végeredmény esetleg csak egy lokális optimum, azaz nem a lehetõ legjobb osztályozás az adott objektumokra. Lehetséges ugyanis, hogy egy másik kiindulásból J-nek egy még alacsonyabb értéke is elérhetõ. Ezen a problémán rendszerint enyhíthetünk azzal, hogy az elemzést sokszor, különbözõ kiinduló osztályozásokból is végrehajtjuk s a kapott eredmények közül a legjobbat tartjuk meg. Voltaképpen azonban sohasem lehetünk 100 %-ig biztosak abban, hogy az így kapott végsõ osztályozás lesz az abszolút optimális (globális optimum). Bizonyosat csak akkor állíthatnánk, ha minden lehetséges osztályozásra kiszámítanánk J értékét, de ez m nagy értékeire megvalósíthatatlan feladat lenne. Az osztályozás megváltoztatása a 2. lépésben kétféleképpen történhet:

3



Az objektumok mindegyikére külön-külön megvizsgáljuk, hogy melyik osztályba áthelyezve csökkentik legnagyobb mértékben a J értékét. Azokat az objektumokat, amelyeknél csökkenés mutatkozik, áthelyezzük abba az osztályba, amelyre ez a csökkenés maximális. Az áthelyezés akár az összes objektumot is érintheti s remélhetõ, hogy az új J érték a sok áthelyezés következtében végül is alacsonyabb lesz, mint az elõzõ (vö. Therrien 1989).



Kiválasztjuk azt az objektumot, amelyre a J csökkenése maximális, s csak ezt helyezzük át az új osztályba. Ez a stratégia a J mennyiség monoton csökkenéséhez vezet, bár lassabb az elõzõnél.

&      (       '%        2        !   ' 2 #   (!-     ( # 3#1  -#

Nem-hierarchikus osztályozás

117

4.1.1 A k-közép módszer A particionáló módszerek klasszikus példája a k-közép eljárás és különféle változatai (pl. Forgy 1965, Jancey 1966, MacQueen 1967): 1. Kiválasztunk valamilyen – akár önkényes – kezdeti osztályozást k csoportra. 2. Kiszámítjuk a súlypontot (azaz az összes változóra vonatkozó átlagértékeket) minden osztályra. 3. Meghatározzuk minden objektum euklidészi távolságát a hozzá tartozó súlyponttól. A jósági kritériumot ezen távolságok négyzetösszegével definiáljuk: J=

k

mh

n

∑ ∑ ∑ ( xij − zih )2

(4.1)

h =1 j ∈Ah i =1

ahol z  az A osztály súlypontja (“közepe”, innen az elnevezés) az i változóra nézve, m az A osztály elemszáma (eszerint van a második összegzés), n a változók száma. J tehát az eltérésnégyzet-összeg (amely a 3.106 egyenlet szerint kiszámítható az osztályon belüli objektumok páronkénti távolságaiból is). Ha vannak objektumok, amelyek áthelyezése csökkenti J értékét, akkor azokat átsoroljuk s visszatérünk a 2. lépéshez. Ha nincs egy ilyen objektum sem, az iteráció leáll. A fenti eljárás “lassú” változata csak egy áthelyezést enged meg minden lépésben. Egy másik változtatási lehetõség, hogy az eltérésnégyzet-összeg kiszámítása elmarad és minden objektumot egyszerûen a hozzá legközelebb esõ osztályba sorolunk át. (Ez – ellentétben esetleges várakozásunkkal – nem vezet feltétlenül az elõzõvel azonos eredményre, mint majd látni fogjuk a 4.1.3 részben). A módszer csak olyan esetekben használható, amikor adataink átlagolhatók és az euklidészi távolság is kiszámítható (pl. a nominális és az ordinális típusú változók kizárandók). Az osztályozás annál jobb, minél nagyobb az osztályok kohéziója (azaz minél kisebb az eltérésnégyzet-összeg). A szegregációt viszont közvetlenül nem mérjük. A módszer hipergömb alakú, nagy belsõ kohéziójú (“konvex”) pontsereget ismer csak fel, a sok dimenziós térben elnyújtott pontalakzatokat több osztályra is felbonthatja még akkor is, ha azok szegregációja kifejezett. Érdemes tehát figyelembe vennünk a 4.3 ábrát, amely megmutatja, hogy bizonyos tipikus esetekben milyen eredményre jutunk a k-közép módszerrel (erre az ábrára még késõbbi fejezetekben is utalni fogunk majd, mert az ábra kétdimenziós ponteloszlásai például a hierarchikus osztályozó módszerekkel történõ összevetésre is alkalmasak lesznek). A szerkezet nélküli, random ponthalmazt egyszerûen “megfelezte” az átló mentén (4.3a ábra), a jó szegregációjú és kohéziójú osztályokat gond nélkül elkülönítette (4.3b ábra). A 4.3c ábra nem elváló két osztálya között a határt a 13. és 14. objektumok között húzta meg. (Megjegyzendõ, hogy a 14. pont, értékeinek nagyon kis megváltoztatására, már átkerül a másik csoportba, mutatva az ilyen osztályozás viszonylag kis stabilitását.) A k-közép módszer, mint fent említettük, nem képes a hosszú pontfelhõk elkülönítésére (4.3d ábra), s akkor is “zavarba jön” ha egy ívelt pontfelhõ vesz körül egy másik, viszonylag tömör csoportosulást: mindkettõt kettévágja (4.3e ábra). Az osztályszerkezetet teljességgel nélkülözõ, közelítõleg egyenletes pontelrendezõdésben, ha k értékét 2-nek választjuk, a kapott csoportok egy “felszeletelésnek” tekinthetõk csupán.

118

4. fejezet

4.3 ábra. A k-közép módszer eredménye a kétdimenziós adatszerkezet hat alapesetére, m=25. Az iterációk 10-10 random kiindulásból történtek, s a legjobb felosztásokat választottuk ki. Az eltérésnégyzet-összegeket nem közöljük, mert az értékek nem összemérhetõk egymással, annak ellenére, hogy a pontok száma azonos minden esetben. a: random ponteloszlás, k értékét 2-nek választva, b: négy “ideális” osztály, c: szegregáció nélküli jó kohéziójú osztályok, d: három megnyúlt pontfelhõ (=kicsiny kohézió), e: kis osztály amelyet egy ívelt, rosszabb kohéziójú osztály ölel körül, f: majdnem teljesen szabályos ponteloszlás, amelyet k=2 értéke mellett próbálunk particionálni. Az adatokat az A3 táblázat foglalja össze x és y koordináták formájában.

Nem-hierarchikus osztályozás

119

A kezdõ osztályozást az alábbiak szerint adhatjuk meg: •

Random osztályozás. Az osztályba tartozást a véletlen dönti el, ezért relatíve több lépésben jutunk el az iteráció végéhez, mint amikor, pl. egy nem önkényes kezdeti osztályozásból indulunk ki.



Más értékelésbõl származó végeredmény (pl. hierarchikus osztályozás egy adott szinten, vö. 5. fejezet). Ekkor a kiindulás nagy valószínûséggel elõnyösebb az elõzõnél, de lehet, hogy csak egy lokális optimumra vezet.



A felhasználó elõre megad k számú ún. magpontot, s az összes többi objektumot a magpontoktól való távolság alapján sorolja be a kiinduló osztályokba. Akkor célszerû használata, ha bizonyos tipikus objektumokhoz keresünk jól illeszkedõ klasszifikációt. (Természetesen a lokális optimum lehetõsége itt is fennáll).



A magpontokat véletlenszerûen választjuk ki, s ezzel lényegében véve random osztályozást kapunk.



A kiinduló k magpontot az n-dimenziós térben egymástól legtávolabb esõ k objektum jelenti. Az elsõ magpont az összes objektum súlypontjától legtávolabb esõ objektum, a második az elsõ ponttól legtávolabbi objektum, a harmadik magpont az, amelynek távolságai az elõzõ kettõtõl maximálisak, és így tovább k-ig. Ez a kiindulás érzékeny lehet atipikus, osztályba nehezen sorolható objektumok (“outlier”-ek) jelenlétére.



Egy optimális, k–1 osztályt tartalmazó partícióból indulunk ki, s az új osztály kezdõpontjaként a saját osztálya súlypontjától legtávolabb esõ objektumot választjuk (Hartigan 1975). Ezt alkalmazzuk a többszörös particionálás néven külön tárgyalt módszernél is (lásd a 4.1.3 részt). Egyéb kezdési lehetõségeket tárgyal Anderberg (1973: 157-160). A k-közép módszer egy rugalmas módosítása az ISODATA eljárás (Ball & Hall 1965), amelyben k rögzítéséhez már nem ragaszkodunk olyan szigorúan (az osztályok száma bizonyos esetekben az analízis során megváltozhat), s a szegregációt is figyelembe vesszük. Ennek ára azonban az, hogy további paraméterek válnak szükségessé, és ez több szubjektív elemet visz az elemzésbe. Az ISODATA eljáráshoz meg kell adnunk a minimális osztályméretet (az ennél kisebb osztályok figyelmen kívül maradnak, k értéke tehát csökken). Emellett szükség van a leginkább “kívánatos” osztályszámra is. Ha ezt jelentõsen meghaladjuk az iterációk során, akkor az algoritmus megpróbálja a közel esõ osztályokat összevonni, ha pedig nagyon alatta maradunk, akkor a leginkább “heterogén” osztályok felbontásával közelítünk a megkívánt értékhez. Az összevonás illetve a kettébontás küszöbértékeit ugyancsak a felhasználó szabja meg (minimális szeparálódás illetve maximális osztályon belüli eltérésnégyzet formájában). Az ISODATA algoritmusa a sok paraméter együttes alkalmazása miatt eléggé bonyolult, s itt nem részletezhetjük (lásd pl. Therrien 1989, pp. 219-222).

4.1.2 Egy általános, index-független particionáló módszer A k-közép módszer, mint láttuk, csak korlátozottan alkalmazható (súlyos feltétel az adatok átlagolhatósága) és ráadásul – az osztályok belsõ eltérésnégyzet-összegének mérésével – csak a kohéziót veszi figyelembe közvetlenül. Ha a J függvényt az alábbiak szerint definiáljuk, mindkét problémán segíthetünk, és egy jóval általánosabban alkalmazható egyszerû particionáló eljárást kapunk. Legyen AVG az osztályokon belül kiszámított összes különbözõség

120

4. fejezet

átlaga, AVG pedig azon objektumpárok között kifejezhetõ különbözBUBUségek átlaga, amelyek nem tartoznak egy osztályba. A 3.111 képlet adta meg a belsõ távolságok átlagát egy osztályra, ezt kiterjesztve k osztályra kapjuk az alábbi formulát: AVG b =

k

k

∑ ∑ ∑ DISgh / ∑ mi ( mi − 1) / 2 i =1 g ∈Ai h∈Ai

(4.2)

i =1

míg az osztályok közötti különbözõségek átlaga egyenlet formájában még “riasztóbb”: AVG e =

k −1

k −1

k

∑∑ ∑ ∑

i =1 j = i +1 g ∈Ai h∈Ai

DISgh /

k

∑ ∑ mimk

(4.3)

i =1 j = i+ 1

AVG tehát a kohézió, AVG pedig a szegregáció mérõszáma, a DIS különbözõség pedig a 3. fejezetben bemutatott függvények bármelyike lehet, mint pl. a kevert adattípusokra kidolgozott Gower-index. Egy adott partíció “jóságát” mérõ J függvényt a kohézió és a szegregáció hányadosaként definiáljuk (ez esetben G-vel jelölve): G=

AVG b AVG e

(4.4)

azaz minél nagyobbak a “külsõ” különbözõségek a “belsõkhöz” képest, annál jobb a felosztás3. Egy teljesen véletlenszerû osztályozásnál a G értéke 1 körüli (1-nél nagyobb érték annak a nyilvánvalóan “extra-rossz” esetnek felel meg, amikor a belsõ különbözõségek átlaga meghaladja a külsõkét). A belsõ értékek csökkenésével és a külsõk növekedésével párhuzamosan G határértékben a 0-hoz tart. Elmondható, hogy G az osztályozás jóságának egy általános, a különbözõség típusától független mérõszáma. G elõnye, hogy a különféle koefficiensek alapján kapott osztályozások jósága közvetlenül összemérhetõ egymással, hiszen G teljesen érzéketlen pl. az értéktartományra. A módszer algoritmusa csak az alkalmazott jósági kritériumban tér el a k-közép módszertõl: minden lépésben azt az objektumot helyezzük át, amely G maximális csökkenését idézi elõ. A kezdeti osztályozásra azokat a lehetõségeket vehetjük csupán figyelembe, amikor nincs szükség a súlypontok meghatározására. A 4.4 ábra mutatja a módszer eredményességét a példák esetében, az euklidészi távolság alkalmazása mellett (az euklidészi távolság itt nem lett volna “kötelezõ”, azonban csak így van értelme az összehasonlításnak a k-közép módszerrel). Az a, b és d esetekben az osztályozás azonos a k-közép módszerrel kapott eredménnyel, így ezeket nem mutatjuk be újra. A c esetben egy eltérés jelentkezik: a 14. objektum a baloldali osztályba került, ellentétben a k-közép osztályozással, mutatva az átmenetet jelentõ objektumokkal kapcsolatos besorolási problémákat. Az e példában valamivel jobb eredményt kaptunk, mint a k-közép eljárással, mert a középsõ, kompakt csoport legalább egyben maradt. Az f esetben természetesen ezúttal sem jöhetett ki más, mint a pontok egy viszonylag önkényes felosztása. Amit a k-közép módszernél nem tehettünk meg, arra itt lehetõség nyílik: a G értékek közvetlenül összevethetõk s így az osztályozások relatív jósága értékelhetõvé válik. A legjobb 4

 3#3            

   ( # # 4  *56-   !       7 ( *+*-      %      (  6#$#3  -#

Nem-hierarchikus osztályozás

121

4.4 ábra. Az index-független osztályozás eredményei a példaadatokra. Csak a k-közép módszerétõl eltérõ felosztásokat mutatjuk be. értéket természetesen a b esetben kapjuk (G=0,23), s ehhez képest már nagyon magas az éppen “összeérõ” két osztály értéke a c esetben (G=0,48). A többi esetre még rosszabb az “osztályozhatóság” értéke, fõleg a kohézió csökkenése miatt (d-re G=0,52, e-re pedig G=0,56). Feltûnõ, hogy a random (a) esetre kapott érték – legalábbis két tizedesjegyig – megegyezik az e-vel (G=0,56). A legkevésbé osztályozható nyilván az f példa reguláris ponthalmaza, a maga G=0,64-es értékével. A “belsõ” és “külsõ” távolságok figyelembevétele természetesen megtalálható a matematikailag kifinomultabb eljárásokban is, de ezek alkalmazhatósága megint csak az euklidészi esetre redukálódik. Számos szerzõ javasolta, hogy az eltérésszorzat-összegek mátrixát bontsuk fel két összetevõre, az osztályok közötti (“between-class”, B) és az osztályokon belüli (“within-class”, W) részre. Ekkor a teendõ egy olyan partíció elõállítása, amely maximalizálja a W-1B mátrix legnagyobb sajátértékét (Roy kritérium) vagy pedig nyomát (Hotelling kritérium, lásd Anderberg 1973). Amint Gordon (1981) megjegyzi, ezek a kritériumok hajlamosak lehetnek egyenlõ méretû osztályok létrehozására. Megemlíthetnénk még egyéb eljárásokat is, de ezek már igen szigorú feltételeket támasztanak az adatokkal szemben (pl. többváltozós normalitás), amelyek ritkán teljesülnek.

4.1.3 Többszörös particionálás Az osztályok számának elõzetes rögzítése elkerülhetõ a particionáló módszerek (jelen esetben a k-közép eljárás) rekurzív alkalmazásával, amely átmenetet jelent a hierarchikus osztályozás felé (5. fejezet). Az objektumhalmazt elõször két részre bontjuk, majd egy új osztályközéppont

122

4. fejezet

kiválasztásával három osztályra térünk át, és így haladunk tovább addig, amíg az általunk megadott maximális osztályszámot, k, el nem érjük (a módszert André [1988] nevezte el többszörös particionálásnak). Az algoritmus a következõ: 1. Az objektumokat kezdetben egy osztályként kezeljük, s kiszámítjuk a súlypontot. Megkeressük a súlyponttól legtávolabb esõ objektumot, s ezt egy új osztály magpontjának tekintjük. Ekkor tehát k=2. 2. Ez a lépés gyakorlatilag egy teljes k-közép elemzés: minden objektumot áthelyezünk abba az osztályba, amelynek súlypontjához a legközelebb esik. Ekkor új súlypontokat kell kiszámítanunk, s további áthelyezésekre lehet szükség. Az áthelyezéseket és a súlypontok átszámítását abbahagyjuk, ha az osztályok már nem változnak, azaz minden objektum abba az osztályba tartozik, amelynek a súlypontjához a legközelebb van. 3. Megnöveljük eggyel k értékét. Ha ez nem nagyobb, mint k, akkor megkeressük azt az objektumot, amelyik a saját osztályának a súlypontjától a legtávolabb van, és ezt tekintjük az új osztály magpontjának, majd visszamegyünk a 2. lépéshez. Ha k értékét meghaladná az osztályok száma, akkor az elemzés leáll. A fenti algoritmust követve végeztük el a példaesetekre az osztályozást. Kiemelendõ: most nem az eltérésnégyzet-összeget minimalizáljuk, s ez különbségek forrása a k-közép módszerrel kapott eredményektõl. A c eset 14. pontját ugyanis a többszörös particionálás (az “index-független” eljáráshoz hasonlóan, vö. 4.4c ábra) a baloldali osztályba tette. Ha azonban alaposabban megvizsgáljuk az adatokat kiderül, hogy a 14. objektum a jobboldali osztályban is éppen olyan jó helyen van: áthelyezése ugyanis a súlypontot úgy változtatja meg, hogy most ahhoz kerül közelebb. A súlyponttól vett távolságok alapján tehát több egyenrangú megoldás is adódhat. Erre az esély jóval kisebb az eltérésnégyzet minimalizálásakor: a konkrét példában eszerint jobb, ha a 14. objektum a “jobboldali” osztályba kerül (lapozzunk vissza a 4.3c ábrához!). A 14. objektum helyzete tehát nagyon bizonytalan, amelyre a k-közép módszer két változata eltérõen reagált. A többszörös particionálás eredménye hierarchikus osztályozás, ha a k+1 értékre kapott új osztály a k érték melletti valamelyik osztály kettébontásából származik, és ez fennáll k minden általunk figyelembe vett értékére. Ez valósult meg a b példa osztályozásában, amikor is a kapott osztályok k különbözõ értékeire a következõ sorozatot adták: k=2

{1 - 19} {20 - 25}

k=3

{1 - 7} {8 - 19} {20 - 25}

k=4

{1 - 7} {8 - 13} {14 - 19} {20 - 25}

(a k=4 esetben megegyezõen a 4.3b ábrával). Ezzel szemben a d példára k két különbözõ értéke mellett már egymásba nem beágyazható osztályokat kaptunk: k=2 {1 - 11, 13} {12, 14 - 25} k=3

{1 - 7, 13} {8 - 12, 19} {14 - 18, 20 - 25}

(l. a 4.5d ábrát a k=3 esetre, amelynél az analízist befejeztük). Ennek az ellentmondásnak az lehet egy lehetséges értelmezése, hogy az objektumok osztályozhatósága kérdéses k jelen értékei mellett (André 1988), mint ahogy ez valóban így is van a d példában: a megnyúlt osztályokat ugyanis e módszerrel nem tudjuk kimutatni. A többszörös particionálás eredménye teljesen eltér az elõzõektõl az e és az f esetekben is.

Nem-hierarchikus osztályozás

123

4.5 ábra. A többszörös particionálás eredménye a példaadatokra. Az egyes lépésekben az áthelyezés a súlypontokhoz való távolság alapján történt, s nem az eltérésnégyzet-összeg minimalizálása volt a cél. Az a és b esetre az eredmény megegyezik a 4.3 ábrán láthatóval, a c esetre pedig a 4.4 ábráéval.

A fenti algoritmus során minden lépésben az osztályok valamelyikét kettéosztottuk (l. a divizív módszereket az 5. fejezetben). Természetesen fordítva is eljárhatunk: az objektumokat elöször kmax számú osztályba rendezzük. Miután az optimális osztályozást elértük, azt a két osztályt, amelyek súlypontja a legközelebb esik egymáshoz, összevonjuk. Ezt a kmax–1 osztályos felosztást tökéletesítjük az áthelyezésekkel, majd újabb összevonással lépünk tovább (pl. Beale 1969, Wishart 1978). Ezek a módszerek az agglomeratív hierarchikus eljárások felé mutatnak átmenetet.

4.1.4 Nagy objektumhalmazok gyors particionálása Az elõzõekben tárgyalt módszerek számítógépes megvalósításában az objektumhalmaz maximális méretét a rendelkezésünkre álló gyorsmemória szabja meg. Ez például azt jelenti, hogy egy átlagos 640kbyte-os számítógép csak néhány száz objektumot tud elemezni. Elõadódhatnak azonban olyan esetek, amikor nemhogy pár száz, hanem több százezer objektumunk van, s ezeket szeretnénk valamilyen módon osztályokba sorolni. Példaként említhetjük a mûholdfelvételek alapegységeit, a pixeleket, melyek klasszifikációja a képeken látható mintázatok felismerése és azonosítása szempontjából nélkülözhetetlen. Ekkor, még ha a memóriaprobléma megoldható is különféle mágneses háttértárolók alkalmazásával, a hagyo-

124

4. fejezet

mányos módszerek rendkívül nagy futásidõt igényelnének. Szükség van tehát olyan eljárásokra, amelyek nagy adathalmazok viszonylag gyors osztályozását is lehetõvé teszik. A sebesség növelése persze áldozattal jár: igen kicsi esélyünk van arra, hogy a gyors módszerekkel elõállított eredmények optimálisak legyenek. Sõt, az eredmény gyakran attól is függ, hogy milyen sorrendben adjuk meg az objektumokat az adatok beolvasásakor. Ugyanakkor viszont a sokszázezres objektumhalmazok néhány száz csoportra egyszerûsödnek, ezután mindegyikbõl kiválasztható egy-egy objektum mint a csoport képviselõje, és az ilymódon redukált adathalmaz már elemezhetõvé válik a szabatosabb módszerek segítségével is (és itt most már nemcsak a particionálásra, hanem a késõbbi fejezetekben leírt módszerekre is gondolunk, melyeknél a memória és a sebesség még jobban korlátozó tényezõ lehet). A gyors particionáló módszerek (az ún. “quick clustering” eljárások) egyik alapelve, hogy az adatokat objektumonként olvassuk be mágneslemezrõl, tehát nem kell tárolni a teljes adattömböt a gyorsmemóriában. Az alaptípus a vezetõ (“leader”) algoritmus (Hartigan 1975), amely mindössze egyetlen egyszer vizsgálja végig az adatmátrixot a következõk szerint: 1. Kiválasztunk egy, a problémának leginkább megfelelõ távolság vagy különbözõségi függvényt (DIS). A 3. fejezetben felsoroltak jelentõs része felhasználható erre a célra. Emellett meg kell adnunk a DIS egy T küszöbértékét is, amely a gyors osztályok méretét (pontosabban “átmérõjét”) szabja majd meg az elemzés egyes lépéseiben. 2. Az 1. osztály vezetõ (kezdõ) objektumaként az 1. objektumot választjuk. Jelöljük j-vel a többi objektum indexét, azaz j=2...m. Az osztályok száma ekkor még k=1. 3. Növeljük j értékét 1-gyel. Ha j=m, az elemzés véget ér. 4. Elkezdjük a már meglevõ osztályok vizsgálatát 1-tõl k aktuális értékéig. Amennyiben a j objektum távolsága valamely vezetõ objektumtól kisebb, mint T, akkor a j objektumot az elsõként adódó ilyen osztályba besoroljuk, s visszatérünk a 3. lépéshez. 5. Ha a j objektum minden vezetõ objektumtól távolabb esett, mint T, akkor ezt egy új osztály vezetõ objektumaként tekintjük, k értéke tehát eggyel nõ, s visszatérünk a 3. lépéshez. A módszer kétségtelen elõnye a nagy gyorsaság, viszont hátrányos, hogy a végeredmény nagymértékben függ az objektumok sorrendjétõl (pl. az 1. objektum mindig vezetõ). Ez utóbbi hiányosság kiküszöbölhetõ, ha a vezetõ objektumokat véletlenszerûen választjuk ki a még nem besorolt objektumok halmazából. Ez viszont a sebesség rovására megy, mert ekkor már többször kell végigfutnunk az adatokon (éppen annyiszor, ahány osztályunk lesz). További hiányosság, hogy az elemzés során elõször képzõdõ osztályok jóval nagyobbak, mint a késõbbiek. Ennek egyik oka az lehet, hogy az elõször létrejövõ (a sok dimenzióban hipergömb alakú) osztályok közötti “üregekben” megrekedhet egy-egy pont, amint azt a 4.6 ábra is szemlélteti két dimenzióra. Megoldásul bevezethetõ egy második T$ küszöbérték is (amely valamivel nagyobb T-nél), és ennek felhasználásával a kis osztályokba esõ objektumok az elemzés egy második fázisában áthelyezhetõk a legközelebbi nagy osztályba (COMPCLUS módszer, Gauch 1979, 1980). Ami ezután kis osztály marad, az már jogosabban tekinthetõ

Nem-hierarchikus osztályozás

125

4.6 ábra. A gyors particionálás hátránya, hogy egyes objektumok “beszorulnak” a kezdeti osztályok közötti “üregekbe”, s késõbb kialakított kis osztályok magpontjai lesznek. Egy igazi outlier, azaz a többi objektumtól nagyon eltérõ objektum a bal felsõ sarokban található *-gal jelölve.

osztályokba nehezen besorolható, ún. outlier (kilógó) egyednek (mint pl. a *- gal jelölt pont a 4.6 ábrán). T értékének megválasztásában is ügyesnek kell lennünk. Ha T-t túl kicsinynek választjuk, akkor nagyon sok osztályt kaphatunk és az eredmény használhatatlan lesz. Túl nagy T-re viszont akár egyetlen egy osztály is elBUBUadódhat. Nyilvánvaló tehát, hogy több elemzést célszerû lefuttatnunk T (és a COMPCLUS esetében T$) különbözõ értékei mellett, s ezután választható ki a számunkra leginkább megfelelõ osztályszám. A CLUSLA módszer (Louppen & van der Maarel 1979) kombinálja a gyors elemzés fenti módszerét az iteratív áthelyezésekkel, s azokat az objektumokat, amelyek egy másik vezetõ objektumhoz közelebb vannak, áthelyezik. A vezetõ algoritmus és a többszörös particionálás között átmenetet jelentõ stratégia is alkalmas lehet a gyors osztályozásra (Hartigan 1975). Ebben a többszörös particionálás algoritmusa módosul úgy, hogy az egyes lépésekben nem történik áthelyezés. Az elsõ vezetõ objektum lehet pl. az összes adat súlypontjához legközelebb esõ pont, a második pedig az ettõl legtávolabb lévõ objektum. Az összes többit egyszerûen ahhoz az objektumhoz soroljuk, amelyikhez a legközelebb esik. A következõ lépésben kikeressük azt az objektumot, amelyik a saját vezetõjétõl a legtávolabb van, s ez lesz a harmadik osztály vezetõje, és így tovább, k tetszés szerinti értékéig.

4.2 Átfedéses osztályozások A 4.3c ill. a 4.4c ábrák egy olyan esetet illusztrálnak, amikor az osztályba tartozás nem nyilvánvaló: a 14. objektum akár az egyik akár a másik osztályba is kerülhet. Mint láttuk, a kközép módszernek a súlypont közelségét figyelembe vevõ változata egyformán jónak is találja mindkét megoldást. Felmerülhet a lehetõség, hogy ilyen bizonytalan esetekben “szabaduljunk meg” a hagyományos particionáló módszerek kötöttségétõl, az osztályok közötti szükségszerû diszjunkciótól, és mondjuk ki: tartozzon a 14. objektum egyidejûleg mindkét osztályba! Ezzel egy ún. átfedéses (“overlapping”) klasszifikációt hozunk létre. Az ilyen típusú osztályozásokat

126

4. fejezet 4.7 ábra. A Jardine-Sibson féle Bk osztályozás ábrázolása gráf segítségével. A három teljes részgráf egy-egy osztálynak felel meg, közülük kettõ átfed a k=3 szinten, azaz maximum két objektumban.

Jardine & Sibson (1968) javasolta elõször “B clustering” néven, éppen az átmeneti jellegû objektumok miatt nehezen osztályozható halmazok adatszerkezetének valószerûbb jellemzésére. A definíció szerint egy objektumhalmazra osztályozások egész sorozata adható meg k=1, 2, 3 stb. értékeire, amelyben bármely két osztály legfeljebb, de nem feltétlenül, k–1 objektumban fedhet át egymással. A hagyományos partíciók tehát B osztályozások, míg a fenti példa (a két osztályba sorolt 14. objektummal) egy B$ klasszifikációt reprezentál. (Ez a k nem tévesztendõ össze a k-közép módszer osztályszámával; úgy látszik nem volt elég betû az abc-ben, mert a szakirodalom mindmáig ragaszkodik a k-hoz mindkét esetben). A Bk módszer algoritmusa az eddigieknél kissé komplikáltabb (lásd pl. Ling 1972, Rohlf 1975b) s így csak a fõbb alapelveket közöljük. Az objektumokat egy gráf szögpontjaiként kell elképzelnünk, melyben minden szögpont-párt él köt össze, ha a megfelelõ két objektum hasonlósága egy T küszöbértéknél nagyobb. Ezután ún. maximális teljes részgráfokat kell keresnünk, amelyek a lehetõ legtöbb pontot tartalmazó olyan részgráfok, ahol minden párosításban van él. Ezen részgráfok közül azok lesznek az átfedõ osztályok, amelyek legfeljebb k–1 pontban metszik egymást (k–1 pontban közösek). Egy ilyen esetet mutat be k=3-ra a 4.7 ábra. A keresést természetesen tovább folytathatjuk T csökkenõ értékeire, és ekkor átfedéses hierarchikus osztályozáshoz jutunk (vö. a következõ fejezettel). Ugyancsak változtatható k értéke is, tehát a kutatónak elég sok mindent át kell tekintenie egyidejûleg, hogy a Bk módszer eredményét megfelelõen értékelhesse. Az eredmények ábrázolása is nehézkes, s emiatt sokan nem ajánlják ezt az eljárást. A Bk módszer helyett a következõ részben tárgyalt, viszonylag újabb keletû módszert, a fuzzy osztályozást javasolhatjuk.

4.3 “Lágy” (fuzzy) osztályozások Gyakran találkozhatunk olyan osztályozási problémákkal, amikor bizonyos objektumok nem sorolhatók be egyértelmûen egyik osztályba sem. Ezt illusztrálta a 4.3c ábra is, és ezt a problémát próbáltuk áthidalni az átfedéses klasszifikációk segítségével az elõzõ részben. Mint már említettük, sok osztályra és nagyszámú objektumra az átfedéses osztályozások kevéssé alkalmasak, és az eredmények sem ábrázolhatók más eljárások, például ordinációk beiktatása nélkül. Fontos volt tehát az a felismerés, hogy problematikus osztályozások nem írhatók le egyértelmûen a korábbi, diszkrét módszerek alkalmazásával. Könnyebben interpretálható, a valós viszonyokat jobban tükrözõ eredményeket kaphatunk, ha az osztályba tartozás fogalmát kicsit “fellazítjuk”. Mindehhez Zadeh (1965) “forradalmian” új elképzelése a lágy (="fuzzy")

Nem-hierarchikus osztályozás

127

halmazokról adta a kiindulást. A klasszikus halmazelmélettel szemben itt megengedjük, hogy egy objektum több részhalmazba is tartozzon úgy, hogy a hovatartozás mértéke különbözõ is lehet. Fuzzy osztályozások esetén az osztályba tartozás erBUBUsségét súlyokkal fejezzük ki azzal a kikötéssel, hogy egy objektumra nézve a súlyértékek összege 1-et kell adjon. (Ez a feltétel a valószínûségeket juttathatja rögtön eszünkbe, hiszen egy teljes eseményrendszerre a valószínûségek összege is 1. Az analógia azonban nagyon távoli, hiszen a súlyértékek nem az osztályba tartozás valószínûségét jelentik, hanem az objektumok osztályokhoz való affinitását, “vonzódását” fejezik majd ki.) Az osztályozás tehát egy mátrixszal írható le, melynek sorai az objektumok, oszlopai az osztályok, s az egyes értékek a súlyok: U = { ujc }, j=1,...,m, c=1,..,k, és k

∑ ujc = 1 minden j-re

(4.5)

c =1

(az osztályok számát, k-t, elõre kell megadnunk, csakúgy, mint a k-közép módszernél). A kérdés “csupán” az, hogy miképpen állítható elõ egy ilyen táblázat? A legegyszerûbb és legáltalánosabban ismert fuzzy osztályozó módszer a c-közép (vagy fuzzy k-közép) eljárás (Bezdek 1981, 1987, Marsili-Libelli 1989). Ennek során az úgynevezett fuzzy eltérésnégyzet-összeget kell minimalizálni: m

FSSQ =

k

∑ ∑ ujcfd2jc ,

(4.6)

j = 1 c =1

ahol d2jc =

n

∑ ( xij − vic )2

(4.7)

i =1

a j objektum és a c osztály súlypontja közötti távolság, és f (>1) a lágysági paraméter. Minél nagyobb f értéke, annál lágyabb a kapott partíció, azaz annál elmosódottabb lehet az osztályok közötti határvonal. A fuzzy osztályozásnál tehát nemcsak az osztályok számát kell elõre megadnunk, hanem f-et is. Ez egyrészt újabb önkényes döntést igényel, másfelõl viszont lehetõséget ad arra, hogy a paraméterek változtatásával adatainkat alaposabban elemezhessük. Az osztályok súlypontjait a következõképpen határozzuk meg: m

∑ ujcfxij vic =

j =1 m

∑ j =1

(4.8) f ujc

Az osztályozás fõbb algoritmikus lépései: 1. A kezdõ osztályozást az egymástól legtávolabb esõ k kezdõpont kiválasztásával adjuk meg. Emellett természetesen más, a 4.1.1 részben ismertetett kiindulás is elképzelhetõ.

128

4. fejezet

2. A kiindulási súlyértékeket minden j objektumra úgy határozzuk meg, hogy azok a súlypontoktól vett távolságaikkal arányosak a (4.5) feltétel teljesülése mellett. 3. Az új súlyértékek meghatározása a következõ egyenlet alapján történik: 1

u’jc =

Fd I ∑ GH d JK k

(4.9)

2 /( f −1)

jc

h =1

jh

Amennyiben d = 0, vagyis a c osztály súlypontja egybeesik a j objektummal, akkor u =1 míg az összes többi súlyérték 0 lesz. 4. Kiszámítjuk az új súlypontokat a 4.8 egyenlet segítségével. 5. Az elemzés leáll, ha a mostani, q-adik ciklusban kapott új értékek és az elõzõ, q–1edik ciklusban kapott súlyok közötti eltérés nem lépi túl az elõre megadott ε küszöböt: ( q)

( q − 1)

ε = max max|ujc − ujc j

c

|

(4.10)

A leállítás kritériuma tehát a két iteráció közötti maximális változáson alapszik. Ha ε túllépi a küszöbértéket, akkor visszatérünk a 3. lépéshez. Egyéb esetben a legutoljára kapott súlyértékek jelentik az osztályozás végeredményét. A módszert illusztrálandó megvizsgáltuk a 4.3c ábrán látható ponthalmazt a következõ kiindulási paraméterekkel: k=2, f=1,5 és ε = 0,01. Ezt az ε küszöbértéket már a 4. iterációs lépés után elértük. Az objektumok jelentõs része erõsen “vonzódik” valamelyik osztályhoz, amint azt a 0,9-nél nagyobb súlyok jelentõs száma mutatja (4.1 táblázat). A sok problémát okozó 14. objektum két súlyértéke azonban csaknem azonos (vastagon szedve a táblázatban), jól mutatva a két osztály közötti átmeneti helyzetet.

A fuzzy osztályozások értékelésében rendszerint nem elegendõ a súlyértékek egyszerû megvizsgálása. Több lehetõségünk is van például arra, hogy az osztályok “optimális” számát meghatározzuk. Elsõként említendõ meg a Bezdek (1974, 1981) -féle partíciós koefficiens Fk =

m

k

∑ ∑ u2jc / m

(4.11)

j = 1 c=1

amely 1/k-tól 1-ig terjed. k különbözõ értékeire a függvény relatív maximumértékeket ér el ott, ahol k az optimális osztályszámmal megegyezõ. A F értelmezési tartománya azonban k-tól függ, s ezen úgy segíthetünk, ha azt a [0,1] intervallumra kiterjesztjük az alábbiak szerint: Fk =

kFk − 1 k −1

(4.12)

A partíció hatákonyságát Dunn szerint az entrópával is mérhetjük: H=−

m

k

∑∑

1 ujc log ujc m j = 1 c= 1

(4.13)

Nem-hierarchikus osztályozás

129

4.1 táblázat. A fuzzy osztályozás eredménye a 4.3c ábra pontjaira k=2 és f=1.5 mellett. 8 

#  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

$#  .9839 .9819 .9973 .9948 .9901 .9556 .9940 .9979 .9536 .9810 .9723 .9915 .9676 .5050 .0804 .0547 .1951 .0460 .0023 .0003 .0173 .0012 .0018 .0190 .0104

.0161 .0181 .0027 .0052 .0099 .0444 .0060 .0021 .0464 .0190 .0277 .0085 .0324 .4950 .9196 .9453 .8049 .9540 .9977 .9997 .9827 .9988 .9982 .9810 .9896

Ennek standard alakja a következõ: H′ =

H . 1−k / m

(4.14)

k különféle értékeit végigpróbálva a 4.14 függvény minimuma kikereshetõ, ezzel elõsegítve az optimális osztályszám megállapítását. A 4.3b ábra nyilvánvalóan 4 osztályt “rejtõ” példájára a k=2, 3, 4, 5 és 6 értékeket választva, illetve az f értékét is fokozatosan növelve (f=1,2; 1,5; 2,0; 2,5; és 3,0) meghatároztuk a fuzzy osztályozásokat. Az osztályszám és a partíciós koefficiens illetve a partíciós entrópia közötti összefüggést, f különbözõ értékei mellett, a 4.8 ábra két diagramja ábrázolja. Mint várható is volt, a partíciós koefficiens a maximumot a k=4 esetben éri el függetlenül f értékétõl (bár a maximum kevésbé kifejezett az f=1,2 esetben). Ezzel szemben a partíciós entrópia minimum helyét már f is befolyásolja: az erõsen fuzzy osztályozásoknál (f>2) a k=2 esetre adja a minimumot, s a várt eredmény csak a kevésbé fuzzy osztályozásokra adódik. E példa alapján tehát a partíciós koefficiens tekinthetõ az optimális osztályszám elõnyösebb indikátorának.

Az ún. szeparálódási együttható összefüggésben van a partíciós koefficienssel:

130

4. fejezet

b

a 1,8

1,2

3,0

1,6

0,9 1,4

1,5 1,2

0,7 2,5 1,0

2,0 0,8

0,5 2,5

0,6

2,0

0,4

0,3

1,5

3,0

0,2

1,2

1,2

0,0

0,1 2

3

4

5

Number of clusters

6

2

3

4

5

6

Number of clusters

4.8 ábra. A (4.12) partíciós koefficiens (a) és a (4.14) partíciós entrópia (b) változása az osztályszám függvényében, f különbözõ értékei mellett a 4.3b ábra pontjaira alkalmazott fuzzy osztályozásokban.

Ω=

m

k

∑ ∑ u2jc

(4.15)

j =1 c=1

Ennek értéke m/k és m közé esik. Minél közelebb van az m-hez, annál “keményebb” a felosztás, azaz annál inkább közelítik a súlyok az 1-es értéket. Szélsõ esetben minden súly akár 1 is lehet, azaz a hagyományos “kemény” partíció voltaképpen a fuzzy osztályozás egy speciális esetének tekinthetõ. A b és c osztályok közötti páronkénti elválás az osztályok súlypontjai közötti távolságok felhasználásával fejezhetõ ki: n

δ bc =

∑ (vib − vic )2 i =1

max( ujb djb ) + max( ujc djc )

(4.16)

j

A fuzzy osztályozás táblázatos eredménye grafikus formában is kifejezhetõ. Ehhez egy olyan koordináta-rendszert kell alkalmaznunk, melynek tengelyei az egyes osztályoknak, a koordináták pedig az objektumok súlyértékeinek felelnek meg. Miután egy objektumra nézve a koordináták összege 1, a koordináta rendszerben a pontok egy hipersíkon helyezkednek el, hasonlóan az összeggel történõ standardizáláshoz. (A 2.9c ábrán ui. az “átlóra” rajzolt telt körök fuzzy osztályozásnak is megfelelhetnek a k=2 esetre. Ugyancsak az átlón helyezkednek

Nem-hierarchikus osztályozás

131

4.9 ábra. Az A2 táblázatban szereplõ három Iris faj lágy osztályozása a lágysági koefficiens két különbözõ értékére, a: f=1,25; b: f=2,5.

el a 4.1 táblázat fuzzy osztályozásában szereplõ pontok is, a legtöbben az átló valamelyik végénél, míg a 14. pont az átló felénél, ezt azonban – úgy érezzük – felesleges lenne külön ábrán bemutatni.) A papír síkjában persze csak két osztály ábrázolható egyidejûleg a sokból, ennek ellenére a fuzzy osztályozások ilyen – tulajdonképpen ordinációs (vö. 7. fejezet) – ábrázolása megkönnyíti az eredmények interpretációját. Itt azonban máris javítani kell magunkat, mert ha az osztályok száma éppen három, akkor a pontok egy egyenlBUBU oldalú háromszögön helyezkednek majd el és ez két dimenzióba áttéve kiválóan ábrázolható. A háromszög csúcsai megfelelnek az egyes osztályoknak, s minél közelebb van egy pont valamely csúcshoz, annál egyértelmûbb a hovatartozása. Ha történetesen mindhárom súlyérték 0,33, akkor a pont a háromszög súlypontjába kerül, jól mutatva az objektum maximálisan “bizonytalan” helyzetét. Ha két súlyérték 0,5, a harmadik pedig 0, akkor a pont a háromszög megfelelõ szárának felezõjére esik majd. Ezt a háromszögdiagramos ábrázolást az Iris adatok (A2 táblázat) felhasználásával mutatjuk be a 4.9 ábrán, a lágysági együttható két különbözõ értékére, nyers adatokat elemezve. A fuzzy osztályozást eleve három csoportra hajtjuk végre, hiszen kiindulásképpen is három fajunk volt. Mint az ábra is mutatja, alacsony f értékre (f=1,25) a három faj elválása eléggé egyértelmû (igen sok pont egybeesik), bár az Iris versicolor és virginica között egy átmeneti sor is jelentkezik (4.9a ábra). Ha a koefficiens értékét nagyobbnak választjuk (f=2,5), a fajok közötti átmenet folyamatosabbá válik, és a setosa és a virginica között is “megindul” valami. A 4.9b ábra voltaképpen úgy értelmezhetõ, hogy a virginica egyedek egy része inkább a versicolor, másik része pedig inkább a setosa felé “húz”. A háromszögdiagramos ábrázolás voltaképpen minden olyan esetben használható, amikor objektumainkat 3 változóval írjuk le, s ezek értékeinek összege minden objektumra 1 (azaz elõzõleg összeggel való standardizálást hajtottunk végre).

4.4 Irodalmi áttekintés

A partíciós módszerek klasszikusnak tekinthetõ leírásait és alapos jellemzését Anderberg (1973) és Hartigan (1975) mûveiben találhatjuk meg. Különösen tág teret szentel e módszereknek Späth (1980) példákkal bõven illusztrált könyve. Everitt (1980) is részletesen tárgyalja a

132

4. fejezet

4.2 táblázat. Nem-hierarchikus osztályozási opciók egyes programcsomagokban.

/   %

BMDP 7

Statistica

SYN-TAX

9

9

9

 :/!"

   

9

    %

9

 %

9

! 

9

particionáló munkákat, s külön érdeme, hogy kitér a megoldatlan problémákra is (könyvének újabb kiadása: 1993). Azonban nem minden osztályozásról szóló kézikönyv ilyen részletes, mert a fõ hangsúly többnyire a hierarchikus módszereken van (pl. Clifford & Stephenson 1975, Gordon 1981). A biológiai alkalmazásokat áttekintve megállapíthatjuk, hogy a partíciók leginkább az ökológia/cönológia területén jönnek számításba (pl. Orlóci 1978, André 1988, Jancey 1974). Gauch (1982) a nem-hierarchikus osztályozás elsõdleges szerepét a nagy objektumhalmazok gyors osztályozásában látja, és ennek megfelelõen kezeli is a témát, jó néhány irodalmi hivatkozással segítve a további elmélyedésre vágyókat. Magyar nyelvû kézikönyvként Füstös & Kovács (1989) forgatható haszonnal. A fuzzy osztályozásról a legjobb összefoglalót Bezdek (1981, 1987) munkái adják, s ajánlható még Equihua (1990) és MarsiliLibelli (1989) cikke is. A nem-hierarchikus klasszifikáció és a mintázatfelismerés közötti kapcsolatról sok mindent megtudhatunk Therrien (1989) könyvébõl. 4.4.1 Számítógépes programok

Különféle nem-hierarchikus osztályozási módszerek programlistáit számos könyvben fellelhetjük, különösen a 10 évnél régebbi kiadásúakban (pl. Hartigan 1975, Anderberg 1973, Orlóci 1978, Späth 1980, ill. a COMPCLUS listája, Gauch 1979). Újabban már nem “divat” a programlisták közlése, hiszen a kutatók a könnyen alkalmazható, “felhasználóbarát” programokat keresik, melyeknél az osztályozást ténylegesen kiszámító programrészlet méreteiben szinte jelentéktelen a “kiszolgáló” rutinokhoz képest. A jelen fejezetben említett osztályozási eljárások “elõfordulási helyeit” a 4.2 táblázatban foglaltuk össze. 4.5 Kérdezz - válaszolok K: Egyértelmûnek tûnik számomra, hogy az általad említett módszerek kivétel nélkül “hipergömb alakú” osztályokat képesek csak kimutatni, a megnyúlt pontfelhõket nem érzékelik. Tudsz-e olyan módszert, ami mondjuk a 4.3d-e ábrák megnyúlt, ill. ívelt pontfelhõit is kimutatná, hiszen ezek is elsõ látásra “létezõ”, jól elkülönülõ osztályoknak tûnnek? V: A kérdésed teljesen jogos, hiszen a bemutatott példáknál megelégedtünk azzal, hogy láttassuk: az egyes módszerek bizonyos esetekben miként, azaz nem mindig a várt módon “viselkednek”. Természetesen van olyan eljárás, amely kimutatja akár a virsli vagy sarló alakú osztályokat is, de erre majd a következõ, a hierarchikus módszereket tárgyaló fejezetben kerül sor. Mindenesetre megemlítem, hogy az egyszerû lánc módszerrõl van szó, melynek alapelve egyébként bizonyos komplex particionáló algoritmusokban is szerepel (pl. Orlóci TRGRPS

Nem-hierarchikus osztályozás

133

módszere, 1976b, 1978). A hierarchikus osztályozásokból könnyedén elõállíthatunk partíciókat, de errõl is majd késõbb. K: A másik fõ gondom az, hogy valóban csak iterációs, próbálkozásos módon tudunk particionálni? Nincs egy olyan, egyértelmû algoritmus ami mindeképpen elõállítja az optimális eredményt? V: Igen, az osztályozási problémák jelentõs része olyan, hogy nagyon nehéz – vagy lehetetlen – optimalizációs számításmenetet megadni, ami minden esetben egyértelmû megoldást ad és egyben hatékony is. Ez azt jelenti, hogy ha mindenképpen az abszolút optimumot akarjuk, akkor az összes lehetõséget végig kell vizsgálnunk. Kivételes esetek is vannak, pl a “branch and bound” algoritmus (Grötschel & Wakabayashi 1990) az eltérésnégyzet-összeg minimalizálására pár tucatnyi objektumra egyértelmû optimumot talál, de ez is igen számításigényes és nagyobb mennyiségû adatra használhatatlan. K: Van-e egyáltalán olyan módszer ami mindig egy eredményre vezet? Fontos-e az a szempont, hogy a módszer végeredménye egy s csak egy legyen? V: Matematikusok szemszögébõl nézve feltétlenül. Más a helyzet persze a biológiában, ahol kérdéseinkre kielégítõ választ kaphatunk az ún. heurisztikus, azaz módszeresen keresgélõ, bár nem feltétlenül az abszolút optimumot adó eljárásokkal is. Gauch (1982) könyve, amely a legkevésbé sem vádolható meg azzal, hogy túlterheli az olvasót a matematikai részletekkel, meg is indokolja ezt. Érvei közül mindenképpen megfontolandó a következõ: a biológiai adatgyûjtés és feldolgozás minden lépése annyira telített a szubjektív elemekkel, hogy önbecsapás lenne egy ilyen módszerre való törekvés. Ha választhatunk, persze, a matematikailag is jobban definiált módszert részesítsük mindenképpen elõnyben. K: Tulajdonképpen hányféleképpen sorolhatunk be m objektumot k osztályba? V: A lehetõségek számát az elsõfajú Stirling-formula adja meg, miszerint: S=

k k 1 ( −1)k − i im i k ! i= 0



FG IJ HK

(4.17)

Könnyen meggyõzõdhetsz arról, hogy 20 objektumot (ami igazán nem sok) 2 osztályba éppen 524287-féleképpen rendezhetünk el! (A képlet egyébként a k=2 esetre a következõ egyszerûbb alakot ölti: S=2/2 –1; gondolj elemi kombinatorikai ismereteidre!) K: Még egy dolog furdallja nagyon az oldalam: többnyire meg kellett adnunk a keresett osztályok számát is. Ez eléggé önkényesnek látszik, de legalábbis kényelmetlennek, hiszen sokat kell “játszanunk” k-val, amíg végre “értelmesnek” látszó felosztást kapunk. V: Engedd meg, hogy erre a kérdésre egy kicsit részletesebben válaszoljak, hiszen az adatokban rejlõ osztályok száma a klasszifikáció egy központi kérdése. Nem is fogok itt mindenre kitérni, hiszen a késõbbi fejezetekben bõven lesz még utalás erre a problémakörre. A most ismertetett módszerek valóban olyanok, hogy sok mindent végig kell velük próbálnunk az adatstruktúra teljes feltárásához. Ez azonban valójában nem is olyan nagy feladat, hiszen a mai számítógépek már kellõen nagy kapacitásúak és megfelelõ sebességûek ehhez a – Te szavaddal élve – “játszadozáshoz”. El kell ismernünk azonban, hogy a nem-hierarchikus osztályozás eme módszerei önmagukban kevéssé állják meg a helyüket az adatfeldolgozó

134

4. fejezet

módszerek nagy családjában, s velük párhuzamosan célszerû más típusú módszereket is alkalmazni (a hierarchikus osztályozásra és az ordinációra gondolok). Az ordinációk révén például a sokdimenziós térben elhelyezkedõ pontfelhõ “láthatóvá válik” (hogy miként, azt majd késõbb), s ennek összevetése a partíciókkal már sokatmondó lehet. Egy hierarchikus osztályozás pedig partíciók sorozataként fogható fel, s igen sok olyan módszer van, amely e sorozatban próbál optimumot keresni (lásd az 5.5.3 részt). De, hogy ne maradj teljesen csalódott, meg kell mondanom: bizonyos újabb fejlemények már sejtetik, lesz a particionáló módszereken belül is megoldás. Téged mint biológust talán külön is érdekelni fog az úgynevezett “genetikai algoritmusok” (Holland 1975, Goldberg 1989) témaköre. (Jobb volna talán az “evolúciós algoritmus” elnevezés, mint majd látni fogod.) Arról van szó, hogy a lehetséges végeredményekbõl szimulációval elõállítunk egy “populációt”, megadunk egy “fitness” függvényt, ami a “populáció” egyedeinek az életrevalóságát (osztályozás esetében a jóságát) méri, és valamilyen trükkel lehetõséget nyújtunk arra, hogy a populáció egyedei megváltozhassanak (azaz a mutáció is lehetséges). Azon egyedeket, amelyek a fitness növelésének irányába mutálnak megtartjuk és “szaporodni” engedjük, a hátrányosan módosuló egyedeket pedig kiszelektáljuk. Az evolúció mechanizmusait bizonyos ideig szabadon mûködtetjük, majd megvizsgáljuk, hogy melyek a populáció legfittebb egyedei. Ezek között, ha az evolúció sokáig futott, nagy eséllyel találunk maximális fitnessû egyedeket is, amelyek már semmiféle módosítással nem javíthatók tovább (itt a fõ különbség a valódi, biológiai evolúcióval szemben, ahol elvben nem zárul le sohasem a “fejlõdés”). Partíciók ilyen evolúciós alakítgatásához szükség van egy új definícióra, ami a k-közép módszerrel ellentétben (ahol a középértékek többnyire nem létezõ objektumokat, csak átlagokat takarnak) a k osztályt egy-egy objektummal reprezentálja s a többi objektum az ezektõl vett távolságok szerint osztályozódik (k-medoid módszer, Lucasius et al. 1993). A populáció minden egyes egyede ekkor egy “kromoszómával” jellemezhetõ, amely m darab 1-es és 0-ás számérték füzére. A “kromoszóma” i-edik pozíciójában szereplõ 1 azt jelenti, hogy az illetõ objektum egy medoid, a 0 pedig azt, hogy az objektumot a hozzá legközelebb esõ medoidhoz kell sorolnunk. A kromoszóma tehát leír egy osztályozást, melynek jósága sokféleképpen mérhetõ (Moraczewski et al. 1995 javaslata szerint pl. a nem-metrikus többdimenziós skálázásban alkalmazott stressz függvényt, 7.66, célszerû figyelembe vennünk). A kromoszómán pontmutációkat, sõt két kromoszóma között átkeresztezõdéseket is végrehajthatunk, majd az új egyedeket megfelelõ módon kiszelektáljuk. Ezek a módszerek még csak kísérleti stádiumban vannak, hiszen a pontmutációk és az átkeresztezõdések gyakorisága, a kiinduló populáció nagysága stb. jelentõsen befolyásolja a hatékonyságot (l. Moraczewski et al. 1995 vizsgálatsorozatát). Nem kétséges, hogy idõvel az ilyen evolúciós algoritmusok is megjelennek majd a kommerciális programcsomagokban. K: Ez egy igen tanulságos kitérõ volt számomra, s megmutatja, hogy milyen érdekes kutatási témák rejlenek az osztályozás témakörében. De most hadd térjek vissza az általad bemutatott példákra, mert van velük kapcsolatban még néhány észrevételem. Érdekes, hogy a három összehasonlított módszer a random esetre és a jól elváló, négy aggregátumos esetre adott csak azonos eredményt (a és b esetek). Ez utóbbit még csak értem, hiszen valóban “ideális” csoportosulásokról van szó. Az azonban már nem világos elõttem, hogy miért pont a szabályos elrendezõdésre adták az egymástól legkülönbözõbb eredményeket (az f ábrákon)?

Nem-hierarchikus osztályozás

135

V: Hát éppen ez az: a szabályos elrendezõdés, amikor is a pontok – némi “zajjal” megspékelve (l. az A3 táblázat utolsó két oszlopát) – egy négyzetrács keresztezõdéseiben helyezkednek el, a lehetõ legkevésbé felel meg az osztályozhatóság követelményeinek. A példával tehát, miután a Te figyelmedet sem kerülte el a dolog, sikerült megmutatnunk, hogy az eredmények közötti jelentõs eltérés mindenképpen az osztályozhatatlanság jele. K: Nekem úgy tûnik, mintha az index-független particionálás általában jobb eredményt adott volna, mint a másik kettõ. Legalábbis... V: Hadd szakítsalak máris félbe. Ne hagyd magad félrevezetni! A példákkal nem “bizonyítottunk” semmit, s fõleg azt nem, hogy az A módszer minden esetben jobb a B-nél! Az viszont talán kiderült az eddigiekbõl is, hogy egy-egy eredménnyel nem szabad megelégednünk, s célszerû annyiféle eljárást kipróbálnunk, amennyit csak lehet. A mai számítógépeken ez már igazán nem lehet gond. K: Igen ám, de akkor mit csinálok azzal a sok-sok eredménnyel amit ugyanazon adatok különféle feldolgozásaival kapok? V: A kérdés – mint már korábban is sokszor – nagyon találó, de hadd várassalak meg a válasszal egészen a 9. fejezetig, amelyet szinte teljes egészében ennek a problémának szentelek. K: Akármi is lesz a megoldás, fogadjunk, hogy a térsorok itt is beugranak majd! V: Ördögöd van, a fejezet legutolsó példája erre szeretett volna közvetve utalni. Az f fuzzy paraméter változtatásával kapott osztályozások sorozata mi más, lenne mint egy térsor? Bár csak két értéket néztünk meg (a 4.9 ábrán), már az is igazolta: az f értékek fokozatos változtatásával létrehozható egy osztályozási sor, amely sokkal, de sokkal több információt nyújt az osztályozott objektumokról, mint bármelyikük önmagában. De mondom, az értékelés további lehetõségeivel még várnék. K: Jó-jó, de akkor még annyit árulj el, hogy mely területeken tekinthetõ kiemelten fontosnak a nem-hierarchikus osztályozás? V: Például a vegetációtérképek készítésében, hiszen maga a térkép – amennyiben különféle vegetációtípusokat más és más színnel jelölünk – is egy klasszifikáció. A rendszertanost is erõteljesen érdekelheti, hogy egy taxonon belül milyen egyenrangú kategóriák különíthetõk el (pl. egy faj populációin belül). De, hogy egy számunkra csupán különlegességnek tûnõ dolgot is említsek, Kanadában pl. áruházi tolvajok, helyesebben a tolvajlási “stílusok” tipizálására is alkalmazták már a particionálás módszereit (McShane & Noonan 1993).

136

4. fejezet

5 Hierarchikus osztályozás (A “természet rendjének” keresése) Az objektumok egyszerû felosztásán túlmenõen a klasszifikációtól azt is elvárhatjuk, hogy megmutassa az egyes osztályok között fennálló kapcsolatokat is. Erre kétféle módon van lehetõségünk, az exkluzív és az inkluzív hierarchiák révén (Mayr 1982, Panchen 1992). Az elsõ esetben a csoportokat egy lineáris rendezési reláció állítja sorba, és ez a sorbarendezés lesz az egyedüli többlet, amit az egyébként nem-hierarchikusnak is felfogható osztályozáshoz hozzáteszünk. Tipikus példa a rendfokozatok hierarchiája: egy katona csak egy csoportba tartozhat (váll-lapjának megfelelõen) amely a magasabb rendfokozatúaknak alárendeltje, az alacsonyabb rendfokozatúaknak felettese. A biológiában sem ismeretlen az exkluzív hierarchia; gondoljunk a régen oly népszerû fejlettségi sorokra (“scala naturae”). Például, az állatvilág hierarchiájában legelöl “természetesen” maga az ember szerepel, majd a fõemlõsök, a többi emlõs, a madarak, stb. következnek, az egysejtûekkel bezárólag (innen származik régies nevük: “véglények”). Könyvünkben ezzel a típusú hierarchiával nem foglalkozunk többet, és a hangsúlyt az inkluzív osztályozásokra helyezzük. Az inkluzív hierarchiában is van egy rendezettség: a kisebb osztályok nagyobb osztályokba vannak beágyazva. Egy objektum értelemszerûen több osztályba is beletartozik, a különbözõ hierarchikus szinteknek megfelelõen. Ez a típus is régen ismert a biológiában, s példaként elegendõ, ha a klasszikus rendszertani kategóriák (faj, genusz1, család, rend, osztály, törzs) jól ismert kapcsolatrendszerére gondolunk. Az inkluzív hierarchia partíciók sorozatának is felfogható, és egy klasszikus logikai mûvelettel, a divízió szukcesszív alkalmazásával állítható elõ. Mint majd rövidesen látni fogjuk, a divízió csak egy – és nem is a legfontosabb – módja a hierarchia elõállításának. Az inkluzív hierarchia-alkotás legalább olyan természetes képességünk, mint a particionálás. Az osztályok hierarchiába rendezése további könnyítést jelent a bennünket körülvevõ világban való tájékozódáshoz, s korántsem korlátozódik a tudományos gondolkodásra. A hierarchiák könnyû intuitív értelmezhetõsége az egyik oka annak, hogy a hierarchikus osz1

Magyar sajátosság: a genusz a növényeknél “nemzetség”, az állatoknál viszont “nem”, de ez az elkülönülés nehezen lesz tartható a legújabb makrotaxonómiai fejlemények tükrében.

138

5. fejezet

5.1 ábra. Hierarchikus osztályozások ábrázolásának alternatív lehetõségei.

tályozás központi szerepet tölt be a sokváltozós adatstruktúrák feltárásában is. Elõnyük, hogy – ellentétben az elõzõ fejezet módszereivel – az osztályok számát v. más paramétert nem kell elõre megadnunk. Könnyû szívvel ajánlhatók tehát a célból, hogy segítségükkel gyors, kezdeti eredményre jussunk az adatelemzés hosszadalmas folyamatában. Mint a jelen fejezet példái is szemléltetik majd, nincs kitüntetett hierarchikus eljárás, ami bármely esetben alkalmazható lenne, tehát érdemes több módszert is alkalmazni egyidejûleg. De még ekkor is fennállhat az a veszély, hogy félrevezetõ eredményt (rossz szóval: “mûterméket”) kapunk (lásd Everitt 1980, ill. a példák), s ezért a hierarchikus módszerek csak az ordinációs eljárásokkal kiegészítve ajánlhatók még akkor is, ha vizsgálódásunk végsõ célja az osztályozás (pl. taxonómia). A hierarchikus osztályozás többféleképpen ábrázolható, például egymásba ágyazott síkidomok segítségével (“kontúr-diagram”, 5.1a ábra). Ennek megrajzolása azonban sok osztály esetén nehézkes és csak az osztályok topológiai viszonyai látszanak. A legáltalánosabb és jobban interpretálható ábrázolás2 dendrogramok segítségével történik (5.1b-c ábra). A dendrogram egy fa-gráf, melynek végsõ (terminális) szögpontjai (“levelei”) az osztályozott objektumoknak felelnek meg3. A kontúr-diagramokkal ellentétben a dendrogram az osztályok közötti kapcsolatot (pl. távolságot, hasonlóságot) numerikusan is ki tudja fejezni: ezt a dendrogram belsõ szögpontjainak magassága jelzi a vertikális tengelyen felmérve (“hierarchikus szint”). Ez a magasság jobban látszik, ha az éleket derékszögben megtörjük, amint az az 5.1b ábrán is látható. Ezzel teljesen egyenértékû az 5.1c ábra dendrogramja, bár ez az ábrázolásmód csak akkor célszerû, amikor nem tulajdonítunk különösebb jelentõséget a szinteknek, mert az elágazások rendszerén van a hangsúly (pl. kladogramok, 6. fejezet). A dendrogram voltakép2

3

Vannak még más lehetõségek is, pl. a “jégcsap” diagramok (Ward 1963, Johnson 1967), de ezekre itt nem térünk ki. A kontúr diagramok egyébként nem vetendõk el teljesen; az ordinációs térben alkalmazva hatékonyak lehetnek az eredmények interpretációjában (vö. 7.2 ábra). A belsõ szögpontok nem azonosíthatók a vizsgálatban szereplõ objektumokkal. Az ilyen gráfokat a szakirodalom n-fa néven ismeri (n objektumra, vö. Bobisud & Bobisud 1972), ellentétben a minimális feszítõfával (5.4.3 rész), amelyben csak annyi szögpont van, amennyi az objektumok száma. n-fák a késõbb említendõ additív fák is.

Hierarchikus osztályozás

139 5.2 ábra. Egy hierarchikus osztályozás sokféleképpen felrajzolható, de ezek közül nem mindegy, hogy melyiket választjuk: az a ábra áttekinthetõbb a b-nél. A c dendrogram a politómiákat illusztrálja.

pen egy speciális fa-gráf, mert “gyökere” is van, a levelektõl legtávolabb esõ szögponthoz tartozó él (mint majd látni fogjuk az 5.4.3 részben, a gyökér nélküli fáknak is van szerepe a sokváltozós adatelemzésben). A fát rendszerint “lombozatával lefelé” szokták felrajzolni, azaz a levelek vannak legalul és a gyökér legfelül; a jelen kötet is többnyire ezt a konvenciót követi. Az ábrázolás persze fordítva is történhet sõt, a dendrogram fekvõ helyzetû is lehet; mindez teljesen a rajzoló ízlésére van bízva4. Bizonyos mértékben az objektumok sorrendje is önkényes: a belsõ szögpontokhoz tartozó rész-fák elfordíthatók a többihez képest (2m–1féleképpen). (A szögpontok felrajzolása egyébként felesleges is). Ugyanazon hierarchikus osztályozásnak tehát igen nagyszámú de azonos tartalmú ábrázolása lehetséges. Ezek közül a “legesztétikusabb”, a legáttekinthetõbb elrendezést érdemes választani (5.2 ábra), ezt rendszerint a dendrogramot rajzoló számítógépes rutin automatikusan elintézi számunkra. A dendrogram dichotomikus, ha minden belsõ szögponthoz három él tartozik (amint ez az 5.1b-c és az 5.2a-b ábrán látható). Ha van olyan szögpont, amelyhez ennél több él fut, akkor politomikus dendrogramról beszélünk (5.2c ábra). Az adatok szerkezete és maga a módszer is megszabhatja, hogy a dendrogram dicho- vagy politomikus lesz-e, pl. a kladisztika több eljárása (6. fejezet) szigorúan dichotomikus fák elõállítását célozza. A jelen fejezetben tárgyalt módszereknél a politomikus rész-fák jelentkezése a dendrogramban határozott jelentésû, mert az adatstruktúra bizonyos tulajdonságaira utalhat. A dendrogramok kapcsán egy speciális metrika-típusról is beszélnünk kell. Bármely dendrogram felírható egy szimmetrikus mátrix, E, formájában, amelyben ejk az a legalacsonyabb hierarchikus szint, amelynél a j és k objektumok még egy osztályba tartoznak. Ha bármely három objektumra, függetlenül attól, hogy melyiket jelöljük h-val, j-vel, illetve k-val, az alábbi egyenlõtlenség teljesül: 4

Sneath & Sokal (1973) immár klasszikus numerikus taxonómia könyvében például a három ábrázolásmód egészségesen keveredik egymással.

140

5. fejezet ejk ≤ max { ehj, ehk }

(5.1)

akkor a dendrogrammal implikált e függvény ultrametrika (Johnson 1967). A háromszögegyenlõtlenség axiómájánál szigorúbb megszorítást jelentõ fenti összefüggés valójában azt fejezi ki, hogy bármely objektumhármast megvizsgálva két távolságértéket egyenlõnek találunk, a harmadik pedig szükségképpen nem lehet nagyobb a másik kettõnél. Mindez a dendrogramon a hierarchikus szintek monoton növekedésében nyilvánul meg. Vannak olyan hierarchikus osztályozó módszerek (pl. a centroid eljárás), amelyeknél a fenti egyenlõtlenség nem mindig áll fenn, ami a dendrogramon visszafordulások (“reversal”) formájában jelentkezik (5.9 ábra). Ebbõl nem következik az, hogy az illetõ módszer “rossz”, hiszen a példaként említett módszer nagyon is értelmesen jellemezhetõ geometriailag. A dendrogramon esetlegesen jelentkezõ sok visszafordulás természetesen megnehezíti az eredmény értékelését.

5.1 A hierarchikus osztályozó algoritmusok fõbb típusai Hierarchikus osztályozások elõállítására nagyon sok eljárás közül választhatunk. Ezeket a módszereket az alapalgoritmus jellege szerint sokféleképpen jellemezhetjük, s akár hierarchikusan osztályozhatjuk is. Agglomeratív versus divizív algoritmusok Az osztályozás folyamata alapvetõen kétféle lehet. Az agglomeratív algoritmusok kiindulásképpen minden objektumot külön osztálynak tekintenek, s az egyes lépésekben ezeket az osztályokat páronként vonják össze növekvõ tagszámú csoportokba a közöttük mért távolság (v. más mérték, pl. homogenitás) figyelembevételével. Az agglomeratív osztályozás utolsó lépésében minden objektum egy osztályba kerül. A divizív algoritmusok éppen fordítva járnak el: kezdetben az összes objektum egy osztályt alkot, amelyet alkalmas módon két osztályra bontunk, ezeket további divízióval még kisebb csoportokra osztjuk fel, s a felosztást addig folytatjuk, amíg az egyelemû osztályokhoz el nem jutunk (bár a felosztást elõbb is abbahagyhatjuk valamilyen leállítási feltétel alapján). Egyik esetben sincs javítási lehetõség az elemzés közben: ha két objektum az elején egy csoportba került (agglomeratív módszerek), ill. elvált egymástól (divizív módszerek), akkor azon már nem lehet változtatni akkor sem, ha az egy másik szinten elõnyös lenne. Az ember szubjektív osztályozó tevékenysége a divizív eljárásokhoz áll közelebb, a klasszifikáció számítógépes végrehajtása viszont az agglomeratív módszerekkel tûnik egyszerûbbnek. Monotetikus versus politetikus osztályozások Ha az osztályozás egyes lépései egy kitüntetett tulajdonság szerint hoznak létre csoportokat, akkor monotetikus klasszifikációról beszélünk. Az osztályokon belül az objektumok szükségképpen azonosak erre a tulajdonságra nézve. A politetikus algoritmusok esetében viszont több változó “együttes véleménye” alakítja ki a csoportokat, az osztályon belül nem kell teljesen megegyezniük minden objektumnak egy változóra sem, mert az objektumok hasonlósága, ill. a sokdimenziós térbeli távolsága a döntõ. Az agglomeratív eljárások mindegyike politetikus (bár elvileg monotetikus is elképzelhetõ, de ennek kevéssé lenne értelme), a divizív módszerek között viszont egyaránt találunk mono- ill. politetikusakat is. A régebbi osztályozások (akár pl. a Linné-féle törzsek) szigorú monotetikus felosztási elvéhez képest a politetikus klasszifikáció jelentõs – de mondhatni: szükségszerû – engedménynek számít.

Hierarchikus osztályozás

141

5.2 Agglomeratív módszerek Az agglomeratív klasszifikáció során kétféle stratégia képzelhetõ el: a távolság-optimalizáló eljárások nemcsak az objektumok között, hanem a folyamat során képzõdõ osztályok között is távolságokat (ritkábban: hasonlóságokat) mérnek (“route-optimizing methods”, Williams 1971; d-SAHN módszerek, Podani 1989b, mely névben a betûszó a “sequential, agglomerative, hierarchical and nonoverlapping” jelzõk kezdõbetûibõl alakult ki, vö. Sneath & Sokal, 1973). Az osztályozás egyes lépéseiben a távolság minimalizálása (vagy a hasonlóság maximalizálása) a cél. E módszereknél döntõ, hogy miképpen számítják ki a két v. többelemû csoportok közötti távolságokat (5.5 ábra, 5.1 táblázat), s geometriailag rendszerint jól értelmezhetõk. A homogenitás-optimalizáló (=heterogenitás minimalizáló) módszerek, bár kiindulásképpen ugyanúgy távolság (hasonlóság) mátrixot alkalmaznak, az osztályok között már nem távolságokat mérnek. Két objektum vagy osztály összevonásának az ugyanis a feltétele, hogy a kapott új osztály valamilyen “homogenitási” mérõszáma optimális legyen a többi lehetséges összevonáshoz képest (h-SAHN módszerek, Podani 1989b). Ilyen mérõszám lehet a variancia, az entrópia vagy az osztályon belüli átlagos hasonlóság (gondoljunk vissza a 3.7 alfejezetre). E módszereknek nehézkes – vagy nem is létezõ – a geometriai interpretációja. Mielõtt a konkrét algoritmusokat bemutatnánk, meg kell ismerkednünk néhány további alaptulajdonságukkal is, amelyek már inkább az osztályozás technikai kivitelezésével kapcsolatosak, s nem feltétlenül érintik az elveket. Elõször az adattárolási lehetõségeket említjük meg (5.3 ábra). Legkisebb memóriaigénye van azoknak a módszereknek, amelyek a távolságmátrix kiszámítása után már nem kérik többet a nyers adatokat; ekkor a dendrogram felépítéséhez a távolságmátrixba kezdetben beírt információ is elegendõ, s e mátrix értékei íródnak felül az

5.3 ábra. Az agglomeratív módszerek számításmenetéhez szükséges mátrixok.

142

5. fejezet

algoritmus egyes lépéseiben (5.3a ábra). E módszereket kombinatorikus algoritmusok néven ismeri az osztályozás szakirodalma (Williams 1971, Lance & Williams 1966); e – kissé félrevezetõ – név arra utal, hogy az osztályok közötti távolságok vagy a homogenitás értékek a mátrix kezdeti értékeibõl “kombinálhatók ki” alkalmas formulák segítségével. Az algoritmusok következõ csoportja az adatmátrix és a távolságmátrix egyidejû tárolását igényli (5.3b ábra). Ekkor, az osztályozás egyes lépéseiben a távolságmátrix átszámításához továbbra is szükség van az eredeti adatokra (“stored data approach”, Anderberg 1973). A centroid módszernek, például, jól ismert mindkét változata. A harmadik algoritmuscsoport két szimmetrikus mátrix egyidejû tárolását igényli (Podani 1989a, 1994, 5.3c ábra). A nyers adatokra a távolságmátrix kiszámítása után már nincs szükség, a távolságmátrixból azonban egy újabb mátrixot kell kiszámítanunk az osztályozás minden egyes lépésében. Erre példa az osztályok közötti és az osztályokon belüli távolságátlagok hányadosának minimalizálása (5.2.4 rész): ekkor a második szimmetrikus mátrix tartalmazza az összes lehetséges páronkénti összevonás után adódó ilyen átlagokat. További szempont lehet az, hogy az analízis egyes lépéseiben hány összevonást hajtunk végre. Elsõ közelítésben azt gondolhatnánk, hogy minden lépésben csak azt az objektum(vagy késõbb: osztály-) párt keressük ki, amelyre legkisebb távolságérték adódik, s csak ezeket vonjuk össze (legközelebbi pár algoritmus). Bizonyos módszerek azonban jelentékenyen felgyorsíthatók, ha a kölcsönösen legközelebbi párokat összevonjuk akkor is, ha a közöttük mért távolság messze nem a legoptimálisabb a mátrixban (azaz, ha az A osztályhoz B van a legközelebb, és viszont; reciprok-pár algoritmus). Bruynooghe (1978) és Gordon (1987) mutatta meg, hogy mely módszerekre alkalmazható ez a felgyorsítás az eredmény megváltozása nélkül (5.1 és 5.2 táblázatok utolsó oszlopai). Az agglomeratív osztályozás egy kritikus, és gyakran figyelmen kívül maradó problémája az egyezések feloldása. Egyezésnek (“tie”) nevezzük azt a – bináris adatok esetében nem ritka – esetet, amikor a legkisebb távolságérték több helyen is szerepel a mátrixban. Ekkor sok módszer önkényesen kiválasztja valamelyiket, s az ahhoz tartozó két osztályt vonja össze. Nem kell hangsúlyoznunk, hogy ez a döntés nagymértékben befolyásolhatja a kapott eredményt (Podani 1980, ad meg egy konkrét cönológiai példát). Ha valamelyest objektíven akarunk dönteni, akkor figyelembe kell vennünk az alábbiakat. Az egyezéseket legjobban gráfokkal illusztrálhatjuk (Podani 1989a). Tekintsük a szóbanforgó objektumokat egy G “egyezés gráf” szögpontjainak. Két pont között akkor legyen él, ha a megfelelõ távolság éppen minimális a távolságmátrixban. A négy lehetséges alapesetet az 5.4 ábra foglalja össze.

5.4 ábra. Az agglomeratív osztályozás során felmerülõ egyezések különféle típusai (Podani 1989a).

Hierarchikus osztályozás

143

a) G egy teljes gráf (minden szögpont össze van kötve a többivel); b) G-ben izolált részgráfok vannak, azok mindegyike önmagában teljes; c) G-ben az izolált részgráfok legalább egyike nem teljes; és d) G nem teljes gráf, de nem esik szét izolált részgráfokra sem. Az a-b esetekben az egyezések feloldása eléggé egyértelmû: egy többszörös fúzióval minden objektumot összevonunk (a eset) vagy pedig szimultán (egyidejû) fúziókkal több osztályt alakítunk ki egyszerre, amelyek mindegyike egy részgráfnak felel meg (b eset). A másik két szituációban kétféle megoldás is lehetséges: – az egyszerû lánc feloldás annyi csoportot hoz létre, amennyi részgráf van (3 ill. 1 csoport az 5.4c-d ábrán). – a szuboptimális fúzió révén figyelmen kívül hagyjuk az egyezõ távolságértékeket, s a következõ legkisebb távolságot keressük meg a mátrixban, melyre nézve már nincsenek egyezések. Ha tehát kétségeink vannak az analízis egyértelmûségét illetõen – s ez különösen prezencia/abszencia adatok esetén lehet így – akkor célszerû az elemzést az egyezések mellõzésével és feloldásával is végrehajtani s utána összehasonlítani az eredményeket. A NT-SYS programcsomag (Rohlf 1993a) pedig lehetõséget ad arra, hogy az egyezések önkényes feloldásából adódó összes lehetséges dendrogramot megvizsgáljuk (bár ez áttekinthetetlenül sok is lehet!). Backeljau et al. (1996) összefoglalója azt vizsgálja meg, hogy egyes programcsomagok miként kezelik az esetleges egyezéseket.

Most pedig már valóban itt az ideje, hogy a konkrét módszerekkel részletesen is megismerkedjünk. 5.2.1 Távolság-optimalizáló kombinatorikus módszerek Kiindulópontjuk az objektumok D távolság- vagy különbözõség-mátrixa (amennyiben hasonlóságokkal van dolgunk, azokat elõzetesen különbözõséggé kell átalakítani a 3.4 formula alapján, hogy az 5.1 táblázat érvényes legyen). Az eljárás egyes lépéseiben megkeressük az egymáshoz legközelebbi objektumpárokat s ezeket egy osztályba vonjuk össze. Az összevonás szintjét a dendrogram mellé rajzolt tengelyen olvashatjuk le. Ezután kiszámítjuk az újonnan kapott osztályok és a többi osztály vagy objektum távolságait, miközben a távolságmátrix felesleges sorai és oszlopai kiesnek (két objektum összevonásával egy sor, ill. oszlop válik feleslegessé D-ben). A kulcskérdés az új távolságok kiszámításának módja, ehhez a Lance - Williams (1966, 1967a) féle rekurziós formula alkalmazható: dh,ij = αidhi + αjdhj + β dij + γ | dhi – dhj |

(5.2)

Amit keresünk, a dh,ij, az i és j objektumokból éppen létrehozott új osztály, valamint egy másik h osztály (vagy objektum) távolsága (vagy távolságnégyzete, 5.1 táblázat). dhi, dhj és dij a megfelelõ objektumpárok távolságai. A paraméterek az algoritmusra jellemzõek, sokszor az osztályokban elõzõleg egyesített objektumok számától függenek (5.1 táblázat). Egyszerû lánc (legközelebbi szomszéd) módszer (Florek et al. 1951, Sneath 1957). Két osztály távolságát az egymáshoz legközelebb esõ, de nem egy osztályba tartozó objektumaik távolságaként definiáljuk (5.5a ábra). Ez a módszer az osztályok szeparáltságát emeli ki: megnyúlt pontfelhõket is felismer, viszont “zavarba jön”, ha az osztályok között nincs éles elválás. Az osztályok belsõ kohéziója szinte teljesen mellékes, és könnyen elõadódik az az eset, hogy egy már meglévõ kis osztály egyenként magához vonzza a többi objektumot (ez a dendrogramon

144

5. fejezet

“lánchatásként” jelentkezik). A módszer rendkívüli elõnye viszont – a többivel szemben –, hogy az osztályozást nem befolyásolják az egyezések, és az eredmény változása arányos az adatok megváltoztatásának mértékével (Jardine & Sibson 1971). Az elmondottakat megerõsítik a 4.3a-f ábrák kétdimenziós ponteloszlásainak elemzései (5.6 ábra). Az egyszerû lánc módszer jól “felismerte” a b és e esetek elkülönülõ osztályait, alakjuktól függetlenül, és csaknem sikeresen elkülönítette a d ábra három megnyúlt pontfelhõjét is (itt a zavart a 8. objektum okozta, amely túlságosan távol esik mindentõl, s így a módszer kívülállóként [“outlier”] értékelte). Az egyszerû lánc módszer csoportosulásokat fedezett fel a random esetben is (a), ellenben nem lehetett “becsapni” a csaknem szabályos ponteloszlással (f). Leginkább zavarba ejtõ az egyszerû lánc módszer kudarca a c esetben, hiszen a két fõ osztály teljesen összekavarodik az erõs lánchatást mutató dendrogramon, s csak kisebb “csoportocskák” ismerhetõk fel az eredményben.

Teljes lánc (legtávolabbi szomszéd) módszer (Sorensen 1948, Lance & Williams 1967a). Minden szempontból az elõzõ ellentéte; két osztály távolságát a legtávolabbi objektumaik tá-

5.5 ábra. Hat távolság-optimalizáló osztályozó algoritmus alapelvének geometriai ábrázolása (Podani 1994).

Hierarchikus osztályozás

145

5.1 táblázat. A távolság-optimalizáló kombinatorikus algoritmusok paraméterei és fõbb jellemzõi. ni és nj az éppen összevont i és j osztályban elõzõleg meglevõ objektumok száma.

Név

αi

αj

β

γ

Kezdeti érték D-ben

Reciprok-pár algoritmus használható (+)

Egyszerû lánc

1/2

1/2

0

–1/2

dij

+

1/2

1/2

0

1/2

dij

+

ni / (ni+nj)

nj / (ni+nj)

0

0

dij

+

Teljes lánc Csoportátlag Egyszerû átlag

1/2

Centroid

ni / (ni+ nj)

Medián

1/2 1/2 (1-x)

β-flexibilis

1/2

0

0

dij

+

–ninj / (ni+nj)2

0

d2ij



1/2

–1/4

0

d



1/2 (1–x)

x ( %  '$ %       ,    #       (  , ,# $

Kladisztika

187

közepes-nagy-legnagyobb” és hasonló jellegû állapotsorozatokat is ilyeténképpen kezelik, pedig ezek csupán “tisztán” ordinális típusú változók. 3) Amennyiben a rendezett karakter egyes állapotai csak egy irányban alakulhatnak át egymásba, akkor a kladisztika irreverzibilis tulajdonságairól van szó (amit elsõ alkalmazóikról Camin - Sokal-féle [1965] karaktereknek neveznek, bár ez utóbbi terminus sok szerzõnél csak a bináris típusú irreverzibilis tulajdonságokra vonatkozik). Az ilyen tulajdonságok tehát nem “veszhetnek el” az evolúció során, csupán egy még újabb állapotba alakulhatnak át (6.6c ábra). Az irreverzibilis tulajdonságok meglehetõsen ritkán fordulnak elõ, és megfordíthatatlan jellegük állandó vita tárgya (pl. poliploidia). 4) Bizonyos értelemben a reverzibilis és irreverzibilis tulajdonságok közötti átmenetet jelentik a Dollo-karakterek (LeQuesne 1974, Farris 1977). Itt is létezik egy pleziomorf kiindulópont, amelybõl legegyszerûbb esetben csak egy új állapot jön létre (6.6d ábra), de új állapotok egy sorozata is elképzelhetõ. Az új állapot a törzsfa különféle ágain egymástól függetlenül többször is elveszhet (bármelyik elõbbibe, vagy a legõsibbe visszaalakulhat). Lényeges továbbá az a feltétel, hogy minden leszármaztatott karakterállapot egyszer és csak egyszer alakulhat ki a törzsfejlõdés során (“uniquely derived”), vagyis a parallelizmus és a konvergencia kizárt. Ez igen szigorú feltétel, s leginkább csak a restrikciós enzimek esetén tekintik érvényesnek (Swofford & Olsen 1990). Ide sorolhatók azonban egyes kemotaxonómiai bélyegek is, hiszen egy bonyolult szekunder anyagcseretermék szintetizálásának a képessége igen valószínûen csak egyszer következik be az evolúció során, míg ez a képesség könnyen elveszhet, ha bármelyik intermedier elõállításának a lehetõsége valami oknál fogva kiesik. 5) A fenti típusok azt feltételezik, hogy adott taxon minden egyede megegyezik a kérdéses tulajdonságban. Ha egy populációban adott gén több allélje is jelen van, akkor ez a tulajdonság a fenti módokon már nem írható le, s be kell vezetnünk a polimorf karakter fogalmát. Elemzésük viszonylag nehézkes vagy egyáltalán nem megoldható a jelen fejezet módszereivel, s inkább az allélgyakoriságokat is figyelembe vevõ genetikai távolságokból célszerû kiindulnunk. A téma legújabb áttekintését Wiens (1995) adja.

6.6 ábra. Karakterállapotok közötti lehetséges átmenetek egyes kladisztikai változók esetén. a: rendezetlen, b: rendezett és reverzibilis, c: irreverzibilis, d: a Dollo karakter csak egyszer alakulhat ki (+) az evolúció során, de többször is visszaalakulhat az õsi állapotba (*).

188

6. fejezet 6) Végezetül megemlítjük az ún. sztratigráfiai karaktereket is, amelyek fosszilis leletanyagból származó sorrendi (idõbeli) információt hordoznak, és Fisher (1992) munkássága nyomán nyertek alkalmazást a kladisztikában. A rétegtani karakterek voltaképpen irreverzibilisek, mivel a leszármazottak nyilván nem lehetnek az õsöknél idõsebbek. A legrégebbi réteg 0-val, a következõ 1-gyel kódolható, és így tovább.

A kladisztikai karakterek alaptípusainak ismeretében most már hozzáláthatunk a hipotetikus törzsfa megszerkesztéséhez. Két módszercsaládot említhetünk, amelyek közvetlenül a karaktereken alapulnak, a nagyobbik – és fontosabb – csoportot a parszimónia elvet alkalmazó módszerek jelentik, a kisebbikbe pedig a karakter-kompatibilitást értékelõ eljárások tartoznak. 6.3.1. Parszimónia módszerek Általánosságban a parszimónia módszerek az evolúciós fa ágainak összhosszúságát minimalizálják. Más szóval: olyan fát keresnek, amely a lehetõ legkisebb számú karakterállapotváltozást (evolúciós lépést) teszi szükségessé a leszármazási viszonyok megmagyarázásához. Mielõtt a matematikai részletek ismertetésébe belefognánk, a történetiség kedvéért nézzünk meg egy példát arra, hogy Hennig eredeti “kézi” módszere miképpen mûködött. Ilymódon a modern eljárásokkal való összehasonlításra is lehetõség nyílik. Tételezzük fel, hogy 6 taxonunk van, s ezeket 11 tulajdonság jellemez. Minden karakternek két állapota van, 0 jelöli az õsi, 1 pedig a leszármaztatott állapotot, és az átalakulás irreverzibilis (6.1 táblázat). Az adatokból elsõ látásra megállapítható, hogy sok az autapomorf karakter (1,4,7-11), a megmaradó négy karakterre pedig a következõ szünapomorfiát adó csoportok írhatók fel: 2: {A, B}, 3: {C, D}, 5: {A, B, C, D}, és 6: {E, F}. E megoszlásból arra következtethetünk, hogy az elsõ dichotómia az {A,B,C,D} és az {E,F} csoportok között jelentkezett az evolúció során. Ez utóbbiak állanak legközelebb a hipotetikus, “tiszta” 0-val leírható közös õstõl, hiszen attól csak 1 ill. 2 karakterben térnek el. A 2. és 3. karakter pedig egyértelmûen jelzi, hogy a következõ elválás az {A,B} és a {C,D} csoportok között következett be. Ezek után már nem nehéz a három kéttagú csoportot is tovább bontani, hogy megkapjuk a 6.7a ábra kladogramját. A fa egyes ágain az ott megváltozott karakterek sorszámai vannak feltüntetve. A változásokat összeadva megkapjuk a fa éleinek összhosszát, ami éppen a karakterek száma, azaz 11. Némi próbálgatással beláthatjuk, hogy a fa topológiájának bármilyen átalakítása ennél több állapotváltozást tenne szükségessé. A fentivel teljesen egyenértékû a Wagner-féle (1961) alaprajz/eltérés (“groundplan/divergence”) módszer, csupán az ábrázolásmód változik. A koncentrikus félkörök középpontja felel meg a hipotetikus közös õsnek, minden egyes ugrás egy karakter megváltozását jelzi, az üres körök a HTU-k, a telt körök pedig az OTU-k. A közös õstõl való távolodás mértéke itt jobban kifejezõdik mint a kladogramon, s ugyanakkor az is jól látszik, hogy az E taxon az F-tõl való elválás után nem is változott, tehát az F õsének tekinthetõ.

Ez a példa szándékosan olyan egyszerû, hogy a fa megszerkesztése nem okozhatott problémát. Könnyedén megtaláltuk azt a fát, amely homoplázia nélkül, a minimális számú állapotváltozás révén magyarázza meg az evolúciós viszonyokat. A gyakorlatban azonban ritkán van ilyen egyszerû dolgunk, hiszen sokkal több karakterrel ill. OTU-val kell számolnunk, és rendszerint nem létezik olyan fa sem, amelyben ne lenne homoplázia. Ha például a 6.1 táblázatban az A OTU 1. karakterállapotát 1-re módosítjuk, máris gondban vagyunk: az A és D taxonok külön ágon vannak a 6.7a ábra kladogramján, s eszerint a topológia szerint az elsõ karakter apomorf állapota kétszer kellett, hogy kialakuljon az evolúció során, mégpedig egymástól függetlenül. Ez pedig tipikus homoplázia. Ha más topológiájú fát keresünk, amely-

Kladisztika

189

6.1 táblázat. Mesterséges adatmátrix a Hennig módszer illusztrálására. Az utolsó elõtti oszlop a leszármaztatott állapotok számát, az utolsó pedig az autapomorfiák számát összesíti az egyes taxonokra. @AB * C D 3 

1 0 0 0 1 0 0

2 1 1 0 0 0 0

3 0 0 1 1 0 0

4 0 1 0 0 0 0

?   5 6 1 0 1 0 1 0 1 0 0 1 0 1

7 1 0 0 0 0 0

8 1 0 0 0 0 0

9 0 0 0 1 0 0

10 0 0 1 0 0 0

11 0 0 0 0 0 1

Σ1 4 3 3 4 1 2

Σ1 2 1 1 2 0 1

6.7 ábra. A 6.1 táblázat adataiból szerkesztett kladogram a Hennig módszerrel (a) ill. a megfelelõ Wagner-féle “groundplan/divergence” diagram (b).

ben A és D közelebb kerülnek, megszüntetve ezt a “rendellenességet”, akkor viszont a 2. és a 3. karakterek fognak homopláziát okozni. Egy lehetséges “megoldás” az 1. karakter kihagyása az elemzésbõl, de ezt nem igazán tekinti senki sem követendõnek (s ez végeredményben a 6.3.2-ben ismertetendõ módszerekhez vezet). Nem kell azonban semmit sem kiiktatnunk, ha a homopláziák megtûrésével a fa ágainak összhosszúságát minimalizáljuk, azaz a parszimónia módszert alkalmazzuk. Erre Hennignek és Wagnernek még nem volt lehetõsége, hiszen gyors számítógépekrõl az õ idejükben legfeljebb csak álmodni lehetett. Ma már rendelkezésünkre áll jó néhány számítógépes eljárás, amivel nagy – ha nem is száz százalékos – biztonsággal kikereshetõk a legrövidebb ágrendszerû evolúciós fák. Swofford & Olsen (1990) szerint a parszimónia módszerek célja az összes lehetõség közül megkeresni azt a τ-val jelölt fát, amelyre az alábbi általános optimalitási kritérium értéke minimális: NB

n

L(τ ) = ∑∑ w j ⋅ ∆( xk 1 j , xk 2 j )

(6.7)

k =1 j =1

ahol NB jelöli az ágak számát, n a változók száma, xk j és xkj a k-adik ág két végéhez tartozó szögpontok állapota a j-edik karakterre nézve, wj a j karakter fontosságát kifejezõ súlyérték (rendszerint 1), ∆(xk j, xkj) pedig a két karakterállapot közötti átmenet “költsége”. Eme két

190

6. fejezet

karakterállapot vagy közvetlenül az adatmátrix egy konkrét értékének felel meg (az ág megfelelõ végén egy OTU van), vagy pedig a fa belsõ szögpontjaihoz (HTU-k) rendelt állapotról van szó. Az L(τ) mennyiséget a fa “hosszának” (“tree length”) nevezzük. Az optimális fa4 hossza és szerkezete attól függ, hogy milyen állapot-átmeneteket engedünk meg és miként értelmezzük a költségfüggvényt. A feladat – hasonlóan a távolság-alapú módszerekhez – kettõs: 1) az adott topológiához legmegfelelõbb (legkisebb hosszúságot eredményezõ) állapotokat kell rendelnünk a belsõ szögpontokhoz, és 2) a fa topológiáját kell optimalizálnunk. A topológia változtatása minden karaktertípus esetén ugyanúgy történhet, a belsõ szögpontokhoz rendelendõ állapotok kikeresése azonban már más és más algoritmust igényel. Ezért kell tehát már a vizsgálat legelején tisztáznunk, milyen karaktertípusok szerepelnek az adatmátrixban. 6.3.1.1 Adott fa hosszának optimalizálása A feladat tehát az, hogy a h karakterre a fa végágain elhelyezkedõ OTU-k ismeretében meghatározzuk a belsõ szögpontok (HTU-k) állapotait amelyek minimális hosszt eredményeznek (ez a fa rekonstrukciója). A rendezetlen és a Wagner-féle karaktertípusok esetében – miután a karakterállapotok reverzibilisek – a gyökér helyzete nem befolyásolja az eredményt, s ezt majd ki is használjuk az elemzés során. Az optimalizációs algoritmust, Swofford & Maddison (1987) után, erõsen leegyszerûsítve mutatjuk be a rendezetlen (Fitch-féle) karaktertípusra és szigorúan dichotomikus fákra. Az eljárás lényege, hogy az egyik OTU-t gyökérnek tekintve kétszer végigpásztázzuk a fát, elõször a többi taxontól a gyökérig, majd visszafelé. Ha van olyan OTU, amely önmagában külcsoportot képvisel, akkor célszerûen ezt tekintjük gyökérnek. Az elsõ pásztázás során a belsõ szögpontokon kijelöljük a szóba jöhetõ állapotok kombinációit, majd a második fõ stádiumban, immár visszafelé haladva a fán, eldöntjük, hogy ezek közül melyiket tartjuk meg. 1) Az OTU-kra nyilván csak egyféle karakterállapotunk lehet, míg a HTU-kra kiindulásképpen nincs megadva karakterállapot, de ezek száma – mint említettük – késõbb ideiglenesen egynél több is lehet. Legyen a gyökérnek tekintett szögpont jele g. A fa hossza a h karakterre, LD, legyen kezdetben 0. 2) Válasszunk ki egy k belsõ szögpontot, amelynek mindkét közvetlen leszármazottja ismert állapottal rendelkezik. Jelölje ezeket i és j. Ekkor az alábbiak között kell döntenünk: 2a) ha van(nak) olyan állapot(ok) mely(ek)re nézve i és j megegyezik, akkor az összes ilyen állapotot hozzárendeljük k-hoz; 2b) ha nincs egy ilyen állapot sem, akkor k-hoz az i és j állapotainak az összességét rendeljük és LD értéke 1-gyel nõ. 3) Ha k éppen a g közvetlen leszármazottja, továbbmegyünk a 4. lépésre. Egyébként visszatérünk a 2. lépéshez. 4) Ha g állapota nem egyezik meg közvetlen leszármazottjának egyik állapotával sem, akkor LD értéke 1-gyel nõ. Az elsõ stádium ezzel befejezõdött, s LD értéke már meg is adja a fa 8

*       #    :$4 ( 

 # "  ,

   $ - ,,

#            $6$        $

Kladisztika

191

hosszúságát a h-adik karakterre. Ezután megkezdjük a HTU-k karakterállapotainak kiválasztását, a gyökértõl visszafelé haladva. 5) Válasszunk ki egy olyan k belsõ szögpontot, melynek állapotát még nem véglegesítettük, de közvetlen õséét, melyet o jelöl, már igen (elõször tehát a g-hez legközelebbi belsõ szögpontról van szó). 6) Ha az o állapota a k-hoz rendeltek között is megvan, akkor k végsõ állapota is ez legyen. Egyéb esetben k állapotai közül kiválasztjuk az egyiket, s azt tartjuk meg. 7) Ha minden belsõ szögpontot megvizsgáltunk, akkor a keresés ezennel véget ért. Egyéb esetben visszatérünk az 5. lépéshez. Az algoritmust a legáltalánosabban ismert rendezetlen karakter, valamely nukleinsav molekula egy adott pozíciójában lévõ nukleotid milyenségének (mondjuk A, T, G, C) a példáján mutatjuk be (6.8 ábra). A kiinduló fában kiválasztjuk az R taxont, mert ezt tekintjük külcsoportnak (bár az optimalizáció szempontjából ez most nem lényeges) és a 2-4. lépések szerint meghatározzuk a fa hosszát, ill. a belsõ szögpontok lehetséges karakterállapotait (6.8b ábra). Az elemzés szerint három él mentén kell változásnak bekövetkeznie, azaz L=3. Az utolsó feladat a belsõ szögpontok állapotainak a kijelölése, amelyet a 6.8c ábra illusztrál. A *gal jelölt pozícióban önkényesen döntöttünk, de könnyen meggyõzõdhetünk arról, hogy minden más választásra ugyanúgy 3 lenne a fa hossza. Az önkényes döntés miatt azonban a fának több lehetséges rekonstrukciója is lehetséges (lásd ACCTRAN és DELTRAN: D függelék).

A Wagner-karakterekre, mivel sorrendiséget és különbséget is értelmezünk, a fenti algoritmus 2a, 2b, 4. és 6. lépését kell módosítani a következõképpen: 2a) ha i és j állapotai átfednek egymással, akkor az átfedést adók legyenek a k állapotai (pl. ha i-t 1,2,3 ill. j-t 2,3,4 jellemzi, akkor k állapota 2,3 lesz).

O P 6.8 ábra. A fa hosszának és a belsõ szögpontok állapotainak a meghatározása egy Fitch-típusú (rendezetlen) karakter esetén (nukleotidok egy adott pozícióban) az M-R taxonokra. a: Kiinduló fa önkényesen kiválasztott gyökérrel, b: fa az elsõ pásztázást követõen, a lehetséges állapotok kombinációival, c: végeredményül kapott fa a belsõ szögpontok optimális állapotaival.

192

6. fejezet

6.9 ábra. A belsõ szögpontok állapotának meghatározása Wagner karakterek esetén. ac: mint a 6.8 ábrán.

2b) ha nincs átfedés, akkor a két legközelebbit és a közöttük lévõ többi állapotot rendeljük k-hoz , L pedig a két legközelebbi állapot különbségével nõ (pl. ha i-t 1,2,3 ill. j-t 5,6 jellemzi, akkor k ideiglenes állapota 3,4,5 lesz, LD értéke pedig 2-vel növekszik) 4) Ha g állapota nem egyezik meg a közvetlen leszármazottjának egyik állapotával sem, akkor LD új értéke LD+ | g állapota – a legközelebbi állapot a leszármazottban | . 6) k állapotai közül kiválasztjuk azt, amelyik o állapotához a legközelebb van (vagy azzal egyenlõ) s azt tartjuk meg. Mindez érthetõbbé válik a 6.9 ábra példáján. Tegyük fel, hogy hat taxont most egy négy állapotú rendezett reverzibilis karakter jellemez, amelyet a 0, 1, 2, és 3 értékekkel kódolunk (6.9a ábra). Az R taxont gyökérnek választva megint elindulunk felülrõl, s ideiglenes kombinációkat rendelünk a belsõ szögpontokhoz (6.9b ábra). A 2a) lépést alkalmazzuk a 3 illetve a 2 állapot, a 2b) lépést pedig a (0,1) és az (1,2,3) kombinációk megválasztásakor. A fán visszafelé haladva meghatározzuk a végsõ értékeket. A fa hossza egyébként 4 egység.

Az optimalizációt a többi karakterre is végrehajtjuk, és végül Σ LD lesz a fa teljes hossza. Az összegzés természetesen eltérõ típusú karaktereket is megenged. A többi kladisztikai karakterre alkalmas, illetve a többszörös elágazást is megengedõ parszimónia algoritmusok meglehetõsen bonyolultak, ismertetésüket ezért mellõzzük. Alkalmazásuk amúgy sem megy a megfelelõ programcsomag nélkül, így a részletekért a felhasználói kézikönyvet kell fellapoznunk (pl. Maddison & Maddison 1992, Felsenstein 1993).

Kladisztika

193

6.3.1.2 Evolúciós fák topológiájának optimalizálása Ha egy adott fa minden belsõ szögpontjára megtaláltuk a legmegfelelõbb karakterállapotokat, akkor a probléma kisebbik részét oldottuk csak meg. A 6.7 optimalitási kritérium ugyanis jóval nagyobb mértékben függ az elágazások topológiájától, mint a karakterállapotok elosztásától. A legjobb topológia kikeresése azonban további nehézségeket támaszt, amint az alábbi rövid ismertetésbõl is kiderül. Teljes enumeráció. Elsõként az a megoldás juthat eszünkbe, hogy az összes lehetséges fát “legyártjuk”, és mindegyiket megvizsgáljuk az elõzõ részben ismertetett módon. Ekkor biztosak lehetünk abban, hogy a 6.7 kritériumra minimális értéket adó fa a legmegfelelõbb (a parszimónia elv alapján, legalábbis). Az összes lehetõség megvizsgálása azonban nem is olyan egyszerû feladat, amint elsõ pillantásra látszik. Már említettük az 5. fejezetben, hogy milyen irdatlan nagyszámú különbözõ dendrogram írható fel már 10 objektumra is (5.16 formula), s ez a szám megegyezik a gyökérrel rendelkezõ kladogramok lehetséges számával (m=10 esetén, mint láttuk, több, mint 34 millió). Ha a gyökeret kiiktatjuk, akkor a következõ összefüggés adja meg a lehetõségek számát: m

(2m − 5)! m −3 (m − 3)

∏ (2i − 5) = 2 i =3

(6.8)

(Felsenstein 1978). Még ez is igen nagy szám lehet, hiszen m=10-re meghaladja a kétmilliót. A valóságban rendszerint jóval nagyobb számú taxonnal dolgozunk, amelyre már csillagászati számok jönnének ki, így az összes lehetõség számbavétele gyakorlatilag lehetetlenné válik. A teljes enumeráció egyébként a gyökér nélküli fákra a 3 objektumra felrajzolható egyetlen egy lehetséges fából indul ki, amelyben 3 él van. A következõ taxont e 3 él bármelyikére helyezhetjük, vagyis m=4-re három különbözõ elrendezés adódik. Ezen a fán már öt él lesz, ami az 5. objektum elhelyezési lehetõségeinek a száma, és ez szorzódik az m=4-re kapott fák számával: 3฀ 5=15 (6.10 ábra). Minden egyes taxon hozzáadásával az elõzõ lépésben elõállított fák száma 2i –5-tel szorzódik (i a taxonok száma az adott lépésben), s így már jobban érthetõ a fenti formula jelentése.

Exakt módszerek. Felmerül tehát az igény, hogy olyan algoritmust keressünk, amely nem vizsgál meg minden lehetõséget, de relatíve rövid idõ alatt mégis eljut a legkedvezõbb megoldásig.

6.10 ábra. A négy OTU-ra felrajzolható összes lehetséges dichotomikus kladogram.

194

6. fejezet

Ezt célozza az 5.3.1 részben már említett “branch and bound” módszer, melynek elsõ kladisztikai alkalmazása Hendy és Penny (1982) nevéhez fûzõdik. Kezdõ összehasonlítási alapként egy olyan fát választunk, amelyet – mondjuk – az alábbiakban ismertetett heurisztikus módszerekkel kaptunk, így az viszonylag közel áll az optimálishoz. Legyen ennek hossza Lmin (a “bound”). Ezután “0-ról” indulunk, mintha teljes enumerációt akarnánk véghezvinni a fent leírt módon. A fa hosszát azonban menet közben minden “rész”-fára kiértékeljük, és ha az túllépi Lmin értékét, akkor a kereséssel ebben az irányban (“branch”) már nem próbálkozunk tovább. Voltaképpen minden olyan fa, amelynek ez a részfa alkotóeleme, egyszer és mindenkorra kiesik, hiszen a továbbépítés során ezen fa hossza már csak növekedhet. Ha azonban felépül egy teljes fa, amelynek hossza kisebb, mint Lmin, akkor már javítottunk is a kiinduló eredményen. A további keresés során természetesen ez az új Lmin lesz a viszonyítási alap. Ebbõl a pár mondatos jellemzésbõl – amely persze nagyon távol áll az algoritmus pontos ismertetésétõl – talán belátható, hogy a módszer a legrosszabb esetben éppen a teljes enumerációval egyezik meg, de ha a kezdõ Lmin igen közel áll az abszolút optimumhoz, akkor sokszorta hatékonyabb annál. A módszer legjobb számítógépes implementációi sem képesek azonban több, mint 20-25 taxon értékelésére, hiszen a gépidõ rendkívül gyorsan növekszik m növekedésével. Nincs tehát garancia arra, hogy a “branch and bound” módszer akármilyen kiindulásból belátható idõn belül eredményre vezet mondjuk 100 taxonra. Ilyen módszert voltaképpen még nem ismerünk. A legoptimálisabb topológia megkeresése ugyanis egy, a matematikában már régen vizsgált témakörbe, az NP-teljes problémák körébe tartozik (Graham & Foulds 1982). Arról van lényegében szó – persze matematikailag elnagyoltan –, hogy egy adott számítási feladat megoldásához szükséges idõ hogyan változik m növekedésével. Átlagos többváltozós elemzések során az idõ négyzetesen vagy köbösen növekszik (pl. hierarchikus klasszifikáció, stb.) és ez a mai számítógépek gyorsaságát ismerve még könnyen elviselhetõ. Az optimális fa megtalálására azonban, ha m egy bizonyos határt elér, az idõ növekedése hirtelen kezelhetetlenné válik, nem-polinomiális összefüggés szerint változik (innen: NP). Kimutatták, hogy ha bármely NP-teljes problémára sikerülne egy gyors algoritmust találni, akkor az összes NPteljes probléma megoldható lenne vele (Lewis & Papadimitriou 1978).

Heurisztikus eljárások. Nagyszámú taxon esetén el kell fogadnunk tehát azt a tényt, hogy nem ismeretes olyan módszer, amely biztosan megtalálja a legjobb topológiájú fát (Day 1983). Csak abban bízhatunk, hogy a heurisztikus, keresgélõs/iterációs stratégia relatíve gyorsan kellõ közelségbe juttat minket az abszolút optimumhoz. E módszerek sokban hasonlatosak a nem-hierarchikus osztályozás k-közép módszeréhez (és még más, a késõbbi fejezetekben sorra kerülõ eljárásokhoz): valamilyen kiinduló eredményt javítgatunk bizonyos átalakítások segítségével, és ha már további javulás nem érhetõ el, leállunk az elemzéssel. Célszerû azonban többféle kiindulást is kipróbálni, mert a végeredmény erõsen függhet a kezdõ konfigurációtól. A sok lokális optimumból kiválaszthatjuk a legjobbat, tudva persze, hogy ez sem feltétlenül az abszolút optimális eredmény. Kladogramok esetében kétféle iterációs stratégia között dönthetünk. Ez egyik lehetõség a fa fokozatos felépítése egy-egy taxon hozzáadásával. Kiindulásképpen véletlenszerûen (vagy a fa hosszát minimalizálva) kiválasztunk három taxont. Az elsõ lépésben minden egyes további taxont végigpróbálgatunk az összes lehetséges helyen, s megvizsgáljuk, hogy menynyivel növekedett a fa hossza. Azt az esetet tartjuk meg, amelyre minimális volt a növekedés. A következõ lépésben újabb taxont “ragasztunk” a fához, s ezt a fa teljes felépüléséig folytat-

Kladisztika

195

6.11 ábra. Az a kladogram átrendezésének lehetõségei. b: szomszéd ágak felcserélése (a *-gal jelölt élre nézve), c: egy ág átoltása (a B-C részfát tettük át az F-hez futó élre), d: a fa elvágása két részfára és összekapcsolása új éllel (a *-gal jelölt élt megszüntetjük, majd a C-hez és F-hez futó két élt összekötjük).

juk. E módszereknél (akárcsak az agglomeratív osztályozásnál) az a gond, hogy egy adott taxon pozíciója a késõbbiek során már nem változtatható meg. Erre azonban jó megoldást ad a fa iteratív átrendezése, amely alapvetõen háromféle stratégiát követhet: •

Legközelebbi szomszéd felcserélése. A fa egy-egy belsõ éléhez tartozó rész-fákat egymással felcserélve (6.11a-b ábra) kis lépésekben érhetünk el javulást. Minden ilyen élhez négy részfa csatlakozik, s miután ezek háromféleképpen rendezhetõk el, a kipróbálandó új lehetõségek száma kettõ.



Ágak “átoltása”. A fa összes lehetséges rész-fáját áthelyezzük az összes lehetséges helyre minden egyes lépésben (egy ilyen áthelyezést mutat be a 6.11c ábra).



“Metszés” és újraegyesítés. A fát minden lehetséges helyen kettévágjuk, az elvágott élt megszüntetjük, s a kapott részfákat minden lehetséges módon újra összekötjük (pl. 6.11d ábra). E két utóbbi procedúra hirtelen nagy javulást is eredményezhet egy-egy lépésben. Példaképpen elõször a 6.1 táblázat adatait vizsgáljuk meg. A PHYLIP programcsomag MIX programja (Felsenstein 1993) egyértelmûen megerõsítette a 6.7a ábrán látható kladogramot. Ennél a 11-es hosszúságú fánál jobbat, vagy akár azzal megegyezõ hosszúságú, de más topológiájú fát sem talált. Rendszerint azonban nem ilyen egyértelmû a helyzet, amint azt az A6 táblázat adatainak elemzése is igazolja. A táblázat alapján 5 magvas taxon leszármazási viszonyait próbáljuk rekonstruálni a páfrányok (mint külcsoport) bevonásával. Az összes tulajdonság bináris típusú, tehát mindegy, hogy Fitch- vagy Wagner-karakternek fogjuk fel õket. A MIX program 50 random kiindulásból három optimális hosszúságú fát adott eredményül (6.12a-c ábra). A felhasznált információk alapján a fenyõk és a Ginkgo helyzete nem egyértelmû, felcserélhetõk egymással s akár egy külön csoportot is alkothatnak. Általános tapasztalat, hogy minél nagyobb a vizsgálatba bevont taxonok száma, annál több egyformán op-

196

6. fejezet 6.12 ábra. A magvas növények csoportjainak három optimális hosszúságú (“equally parsimonious”) kladogramja az A6 táblázat adataiból kiindulva (ac) és ezek szoros konszenzus kladogramja (d). PF: páfrányok (külcsoport), CI: cikászok, GI: Ginkgo, FE: fenyõk, GN: Gnetum, ZT: Zárvatermõk.

timális hosszúságú, de egymástól eltérõ topológiájú fa adódik eredményül. E fák az ún. konszenzus módszerek segítségével (9.4.2 rész) egy újabb kladogram formájában összegezhetõk, s ezt a konszenzus kladogramot fogadjuk el végeredményül. A 6.12d ábra – egy helyen politomikus – kladogramja adja a másik három fa egy lehetséges (ún. “strict consensus”) szintézisét. Az evolúciós viszonyok értelmezését az Olvasóra bízzuk. A következõ példa a molekuláris információn alapuló törzsfa-keresést illusztrálja. Az alábbi táblázatban az ember és négy fõemlõs két mitokondriális tRNS génjének az eltéréseit összesítjük, az elsõ öt oszlop a LEU tRNS-re, a többi pedig a SER tRNS-re vontakozik (Brown et al., 1982, adatai alapján). A két RNS szakasz összhossza 131 nukleotid. A nukleotid pozíciók túlnyomó többségében a fajok megegyeznek, ezeket az egyszerûség kedvéért be sem mutatjuk, hiszen egyáltalán nem befolyásolják az eredményt, a pozíciók számozása ezért teljesen önkényes (Megjegyzendõ, hogy az orángutánnál bekövetkezett nukleotid-kiesés (“gap”) sem számít majd bele a fa hosszába). A számunkra lényeges információk az alábbiak:

1 Ember A Csimpánz A Gorilla A Orángután G Gibbon A

2 T C T T T

3 A G A C A

4 C C A A A

5 C C C T C

6 T T T T C

7 A A G A A

8 C T T C C

Pozíció 9 10 11 A C A A T A G C A A C T A C A

12 T T T C C

13 G A A A T

14 C T C C A

15 C C C T T

16 C C C . C

17 A A G A A

18 T C C T T

19 C C T G A

A PHYLIP programcsomag DNAPARS programja (Felsenstein 1993) ill. a MacClade program (Maddison & Maddison 1992) is egyetlen egy, 24-es hosszúságú fát talált a legoptimálisabbnak. A gyökér pozícióját külsõ információ figyelembevételével állapítottuk meg, hiszen a gibbon számos szempontból a többitõl eléggé távoli taxonnak tekinthetõ (6.13 ábra). Az ábrázolás most szándékoltan dendrogram-szerû, hogy megkönnyítsük a karakterváltozások jelölését. Az orángutánhoz futó élen pl. az 1-es jel azt indikálja, hogy a többihez képest e fajnál következett be változás az 1. pozícióban (A helyett G), a csimpánz neve alatt a 2-es pedig a második pozícióbeli váltásra utal (T helyett C), és így tovább. A nukleotid váltások “múltja” a pozíciók többségében egyértelmûen kijelölhetõ, de a 4., a 6., a 13., a 14. és a 19. esetében voltaképpen önkényesen kell döntenünk (6.3.1.1). A 6.13a és b ábrák két ilyen döntési alter-

Kladisztika

197 6.13 ábra. Az ember és a fõemlõsök evolúciós kapcsolatának rekonstrukciója RNS parszimónia módszerrel a mitokondriális LEU tRNS és SER tRNS gének nukleotidszekvenciái alapján. A két kladogram egyes, önkényesen kijelölhetõ nukleotidváltásokban különbözik csupán.

natívát mutatnak be, mindkét esetben az ágakon feltüntetett változások száma azonos (24). Messzemenõ következtetéseket persze nem szabad levonnunk ebbõl a kladogramból, hiszen az elemzést egy relatíve rövid RNS-szakaszra alapoztuk csupán (a HIS tRNS gén alapján egyébként a csimpánz az emberhez áll közelebb, l. Weir 1990). Meg kell azt is jegyeznünk, hogy a nukleotidcserék során egyformán fontosnak vettük a tranzíciókat (A-G, ill. C-T cserék, azaz hasonló szerkezetû nuklotidok cseréjét), mint a transzverziókat (azaz amikor egy purinvázas nukleotid pirimidinvázasra cserélõdik, vagy fordítva). A valóságban azonban, bár az utóbbi esetben a lehetõségek száma kétszer akkora, kémiai okokból a tranzíciók sokkal gyakoribbak a transzverzióknál. (Példánkban a fa 24-es összhosszúságából mindössze 6 eltérés magyarázható transzverzióval.) Ezt súlyozással lehet kiegyenlíteni (pl. Williams & Fitch 1990, Williams 1992).

6.3.1.3 Kladogramok értékelése A – nem Dollo-típusú – karakter-alapon számított kladogramokat néhány egyszerû index segítségével értékelhetjük ki. Kluge és Farris (1969) javaslata szerint például minden egyes karakterre érdemes megvizsgálni, hogy a változások száma hogyan aránylik az elméletileg elképzelhetõ minimumhoz. Ha az adott fában a j-edik karakter éppen sj változást mutat, holott az adatokra felírható egy olyan fa is, amelyben a minimális számú mj változás következik csak be, akkor a (6.9) CI j =

mj sj

hányados (konzisztencia-index) fejezi ki a keresett arányt. CI értéke 1, ha a fában a lehetséges minimum fordult elõ, melynek jelentése: a karakter nem utal homopláziára. Minden egyéb érték homopláziát jelez, a CIj=0,5 érték pl. azt mutatja, hogy éppen kétszer annyi változás következett be, mint amennyire minimálisan szükség van. A konstans karakterekre, a 0/0 miatt, az index nem értelmezhetõ.

198

6. fejezet A 6.13 ábra kladogramján mindössze egy karaktert találunk, amire CI értéke nem 1, ez pedig a 4. nukleotidpozíció (CI"=0,5). A 6.13a kladogram szerint itt az A-t az embernél és a csimpánznál egymástól függetlenül C váltotta fel, a 6.13b fa szerint pedig az A (az õsi állapot) visszafordulással jelent meg újra a gorillánál, mert idõközben már C került arra a helyre. (Mindkét eset elképzelhetõ a szerkesztés során óhatatlanul felmerült önkényes döntések miatt.) A 4. karakter csak egy változást mutatna, ha a gibbon, az orángután és a gorilla ugyanazon az ágon, a csimpánz és az ember pedig egy másik ágon lenne, de mivel ez nem így van, 2 lépésre volt szükség. Mindez persze csak az index alkalmazásának illusztrációja, hiszen a szekvencia adatok esetében távolról sem olyan valószínûtlen a visszafordulás, vagy a parallel elõfordulás, mint mondjuk morfológiai bélyegek esetében, vagyis a homoplázia jelensége itt másként értelmezendõ. Az összes karakterre kiszámítható az átlagos konzisztencia index is: n

CI (τ ) = ∑ m j j =1

n

∑s j =1

(6.10) j

amely a példánkban 0,96 (a 16. pozíciót nem vettük figyelembe a kiesés miatt). Maddison & Maddison (1992) szerint azokat a karaktereket is mellõznünk kell, amelyek autapomorfiát mutatnak, hiszen esetükben CI értéke eleve nem lehet más, mint 1,0. Ezek bevonása csalóka módon felfelé torzítaná az átlagos konzisztencia-indexet.

Más szemszögbõl értékeli a karakter “viselkedését” a Farris-féle (1989) összetartási index, mert ez figyelembe veszi a lehetséges megváltozások maximális számát is, amit Mj jelöl:

RI j =

M j − sj M j − mj

(6.11)

Ennek értéke annál magasabb, minél kevesebb a homoplázia részesedése a szünapomorfiák kialakulásában. RIj=1, ha egyáltalán nincs homoplázia, és RIj=0, ha az összes szünapomorfiát homoplázia okozza. E függvény már nemcsak a konstans karakterekre ad 0/0-t, hanem az autapomorfiát mutató bélyegekre is. Így csak olyan esetekben van értelme kiszámítani, amikor homoplázia egyáltalán kialakulhat, vagyis a minimum és a maximum nem egyezik meg (a nevezõ nem nulla). A szekvencia-példánkban 5 karakter jöhet szóba RI kiszámítására. A 4. karakter a maximálisan lehetséges két változást adta (RI" = (2–2) / (2–1) = 0). A 8., 12., 15. és a 18. pozíciók esetén lehetett volna még elképzelni homopláziát, de mindegyik esetben ettõl mentes, “valódi” szünapomorfia alakult ki (a leszármaztatott állapot egy-egy kládon “összetartott”), s mindegyikükre RIj = (2–1) / (2–1) = 1. Az alábbi, ún. együttes összetartási indexbe is értelemszerûen csak azok a karakterek vonhatók be, amelyekre Mj > mj: n

RI (τ ) =

∑M j =1 n

∑M j =1

j

− sj

j

− mj

(6.12)

Ennek értelmezése hasonló a karakterenkénti RI értelmezéséhez. A 6.13 ábra kladogramjára RI(τ) értéke 4/5 = 0,8.

Kladisztika

199

6.3.2 A karakter-kompatibilitás elemzése A parszimónia módszerek alternatívája a karakter-alapú kladisztikában a LeQuesne (1969, 1972), Estabrook et al. (1976) és mások által kidolgozott kompatibilitás analízis. A feladat itt is az evolúciós fa rekonstruálása, azzal a döntõ különbséggel, hogy a homopláziát okozó bélyegeket (“hamis” karakterek) teljes mértékben kiszûrjük a vizsgálatból, s csak azokat tartjuk meg, amelyek nem mondanak ellent egymásnak (kompatibilisek). A feladat központi része az ilyen karakterek lehetõ legnagyobb részhalmazának a kikeresése, amelyen a kladogram szerkesztés alapszik. A kompatibilitás alapelvét az alábbi egyszerû illusztrációval igyekszünk világosabbá tenni. Tételezzük fel, hogy az A és B karakterek összeférhetõségét szeretnénk megállapítani; mindegyiküknek két állapota lehetséges, 0 az õsi és 1 a leszármaztatott. Kezdetben csak a (0,0) kombináció fordult elõ a vizsgált taxonok körében (amelyek természetesen más karakterekben többé-kevésbé különböztek egymástól). Az evolúció során elõször az A karakter változott meg a 0→1 módon, s így megjelent az (1,0) kombináció. A késõbbiek során a B karakter is evolválódik, mégpedig vagy a (0,0) õsi kombinációból kialakítva a (0,1) kombinációt, vagy pedig az (1,0)-ból tovább “fejlõdve” az (1,1) kombinációt (6.14a-b ábra). Az a lényeg, hogy vagy csak a (0,1) vagy az (1,1) kombináció fordulhat elõ a vizsgált taxonok között, mindkét kombináció jelenlétéhez ui. az kell, hogy a B karakter 1-es állapota kétszer, egymástól függetlenül jelenjen meg parallel evolúció révén (6.14c ábra), vagy pedig az A karakter visszafordulást mutasson (6.14d ábra). Ha ezeket, az evolúciós utak feltárásában zavaró jelenségeket – vagyis a homopláziát – kizárjuk, akkor a négy lehetséges kombináció közül legfeljebb három fordulhat csak elõ a vizsgált csoportban. A két karaktert tehát akkor tekinthetjük kompatibilisnek, hogyha nem találtuk meg az összes kombinációt. A kombinációk értékelését minden párosításban elvégezzük, s az eredményt egy kompatibilitási gráfban (6.14e ábra) összesítjük. Ebben a gráfban a szögpontok a karaktereknek felelnek meg, s az egymással kompatibilis karaktereket él köti össze. A gráfból kikeressük a legnagyobb teljes részgráfot (“clique”,

6.14 ábra. Két bináris karakter kompatibilis egymással, ha állapotaiknak legfeljebb csak három kombinációja fordul elõ a vizsgált taxonok között (a-b), mert a negyedik kombináció megjelenése csak homoplázia révén lehetséges (c-d). A további elemzésre alkalmas karaktereket a kompatibilitási gráf maximálisan összekötött részgráfjának a kikeresésével választjuk ki (e: B,C,D).

200

6. fejezet

amiben minden pont össze van kötve az összes többivel), s ezeket a karaktereket vesszük csak tekintetbe a fa szerkesztésénél (a 6.14e ábrán a B, C és D). Ide vehetjük még az – eddigi páros összehasonlításokból nyugodtan kihagyható – autapomorfiát mutató karaktereket, amelyek minden ilyen részgráfnak elemei, mert eleve nem adhatnak négy kombinációt. A parszimónia algoritmusokkal ellentétben könnyen elõfordulhat, hogy a tulajdonságok jelentõs részétõl meg kell “szabadulnunk”, ami a taxonómusok legfõbb ellenérve a kompatibilitás elemzésével szemben. Meacham & Estabrook (1985) úgy találták, hogy az addig publikált kutatások során általában a tulajdonságok felét kellett kihagyni, de volt, amikor majdnem 90 %-át! További problémát jelent az, hogy a módszer csak bináris karakterekre alkalmas, és a kapott fa rendszerint politomikus. Alkalmazásainak száma – a vonzó elméleti megalapozás ellenére – szinte elhanyagolható a parszimónia módszerekéhez képest. A módszer további részletezésétõl ezért eltekinthetünk. Az érdeklõdõk pl. Mayr & Ashlock (1991: 307-313) könyvében találnak példát a teljes számításmenetre.

6.4 Nukleinsav-szekvenciák elemzésének egyéb lehetõségei Mint láttuk, nukleinsav-szekvencia adatokra a távolság- és a karakter alapon mûködõ módszerek is alkalmasak, és ezzel még távolról sem zártuk le a kipróbálható lehetõségek körét. A teljesség kedvéért röviden megemlítünk két olyan eljárást is, amelyek – a speciális alkalmazási terület és más okok miatt – nem illeszkednek az elõzõ fejezetek tematikájába. A hangsúly is eltolódik: a fa topológiáját optimalizáló algoritmusok helyett a nukleotidátmenetek megfelelõ interpretálása ill. modellezése kerül elõtérbe. 6.4.1 Az invariánsok módszere A transzverziók és tranzíciók problémáját már röviden említettük a 6.3.1.2 rész végén is, a mitokondriális tRNS gének példájával kapcsolatban. Míg a parszimónia-algoritmusok nem tesznek különbséget az egyes átmenetek között, az invariánsok módszere (Lake 1987) a leszármazási viszonyok feltárásában kizárólag a transzverziókra épít. Sõt, még ennél is tovább megy: egyidejûleg csupán négy szekvenciát tud értékelni, s csak azokat a pozíciókat veszi tekintetbe, amelyeken két szekvenciában purin-, a másik kettõben pedig pirimidin-vázú nukleinsav található. A fa végágaira összpontosít, s a rajtuk végbemenõ transzverziókat negatív elõjellel veszi figyelembe. A négy szekvenciára felírható három lehetséges gyökér nélküli fát alaposan megvizsgálja minden egyes értékelhetõ pozícióra és egy speciális pontrendszer segítségével választja ki közülük a legmegfelelõbbet. Anélkül, hogy a módszer teljes bemutatására törekednénk, érdemes a pontozási szisztémát röviden illusztrálni. Tegyük fel, hogy az éppen értékelt fában az 1. és a 2. taxon van egy ágon, ill. a 3. és a 4. pedig a másikon. Ha az elsõ két taxonnak azonos purinbázisa van, s emellett a 3. és 4. taxonnak pedig azonos a pirimidinbázisa, akkor ez a pozíció támogatja a kérdéses fát (6.15a ábra). Az 1. és 2. taxon közös leszármazása ugyanis igen valószínû, mert bármely más topológiára két végágon azonos jellegû transzverziót kellene feltételeznünk, s ez már jóval valószínûtlenebb (tévedés forrása, 9

5   (    )!   0    (   $ * 1   ( 2    1 " ( 2  !   " ,() ($ D !  > ;&C!E '$

Kladisztika

201 6.15 ábra. A Lake-féle módszer annak eldöntésére, hogy egy adott pozíció támogatja-e (a-b) vagy ellenzi (c-d) az 1-4 szekvenciák bemutatott leszármazási viszonyait.

ha mégis ez történt, de ez a hibalehetõség elkerülhetetlen). Hasonló a helyzet akkor is, ha 1. és 2. szekvencia különbözõ purinnal, a 3. és 4. pedig különbözõ pirimidinnel rendelkezik (ui. csak tranzíciókat kell két végágon feltételeznünk, 6.15b ábra). Ha azonban az elsõ két szekvenciában eltérõ purinbázis van, míg a második két szekvenciában azonos pirimidinbázis található, akkor az illetõ pozíció “ellene van” a kérdéses topológiának, hiszen ennek kialakulásához két, parallel (bár nem azonos) transzverzióra lenne szükség (6.15c). A fordított eset (6.15d ábra) ugyanez okból szintén ellenszavazatnak tekinthetõ. A negatív és pozitív “szavazatok” pozíciók szerinti összegzése után kiderül, hogy melyik fát támogatja a pozíciók többsége. Jelentõs hátrány azonban, hogy négynél több szekvenciára nincs még megfelelõ algoritmus (Swofford & Olsen 1990:474). 6.4.2 A maximum-likelihood módszer Ennek az eljárásnak az alkalmazása már egy konkrét evolúciós modell alkalmazását igényli: az evolúciós mintázat feltárásához pontosan meg kell adnunk, hogy miképpen alakulhat át az egyik szekvencia a másikba (morfológiai karakterekre ilyen célra használható általános modellrõl még nem tudunk). A maximum likelihood módszer a modell ismeretében megadja, hogy a sok lehetõség közül melyik fa kialakulása a leginkább valószínû (a fa megváltoztatása nem része a modellnek, ez a 6.3.1.2 részben ismertetett módokon történhet). A legegyszerûbb az ún. Jukes & Cantor modell (Felsenstein 1981), miszerint a bázisok gyakorisága azonos és minden nukleotidcsere egyformán valószínû. A Kimura-féle kétparaméteres modell a k tranzíció/transzverzió hányados bevezetésével már különbséget tesz a behelyettesítések kétféle alaptípusa között. Ennek általánosított változata a nukleotidgyakoriságok eltérését is megengedi (Kishino & Hasegawa 1989). A számítások során a teljes szekvenciát figyelembe kell vennünk, nemcsak az eltéréseket okozó pozíciókat (ahogy a parszimónia esetben tettük). A gyakoriságokból és k-ból meghatározható a modell “szíve”, egy 4×4-es mátrix, amely a nukleotidcserék rátáit tartalmazza az evolúciós idõegységre vonatkoztatva. A mutációs ráták segítségével kiszámítható annak az eseménynek a valószínûsége, hogy t idõ elteltével mondjuk az A bázis helyére a G bázis kerül (a részleteket lásd pl. Swofford & Olsen 1990:477-478). Jelöljük ezt a valószínûséget P(t)-vel. Annak az esélye (L=likelihood!), hogy adott szekvencia valamely pozíciójában az A nukleotid van, s ezt t idõ elteltével G váltja fel, a következõ:

202

6. fejezet

LAG (t ) = f A PAG (t )

(6.13)

ahol f az A nukleotid relatív gyakorisága a kezdeti szekvenciában. Ha feltételezzük, hogy a szekvencia minden egyes pozíciója függetlenül változik a többitõl az evolúció során (bár ez a valóságban nem így van, vö. Weir 1990), akkor annak az esélye, hogy az X szekvenciából t idõ elteltével éppen az Y szekvenciát kapjuk, a következõ likelihood-függvénnyel kapható meg: s

LXY (t ) = ∏ f xi Pxi , yi (t )

(6.14)

i =1

ahol s a két lánc hosszúsága (ezek tehát egyformák; helyesebben: az esetleges nukleotid-kieséseket a modell nem kezeli), x és y pedig az i-edik pozícióban található nukleotid az X ill. az Y szekvenciában (vagyis A, G, C vagy T (U)). Miután ez rendszerint igen kicsiny szám, célszerû az ln L (t) átalakítás, így a számítások is jelentékenyen leegyszerûsödnek. A 6.13 függvény voltaképpen az X és Y molekulák hasonlóságának tekinthetõ, minél nagyobb a likelihood, annál közelebb áll a két szekvencia egymáshoz. Most már “csupán” az a kérdés, hogy miképpen térünk át a kettõnél több szekvencia rokonságát kifejezõ kladogram megvalósulási esélyének a kiszámítására. Anélkül, hogy a komplikált számításmenetet részleteznénk, megemlítjük, hogy a fa egy-egy taxon hozzáadásával épül fel, minden pozícióra külön-külön ki kell számítani az átmenet valószínûségét a már meglévõ részfák között, s az utolsó szorzat adja teljes fa likelihood értékét. A feladat egy olyan fa megtalálása, amelyre a szorzat maximális. Ez a fa mutatja a legvalószínûbb leszármazási mintázatot, feltéve, hogy a modell kiindulási feltételei helyesek voltak. A belsõ szögpontok meghatározását és a részletes számításmenetet lásd pl. Felsenstein (1981), Weir (1990:276-286) és Swofford & Olsen (1990:478-482) munkáiban.

6.16 ábra. Az ember és egyes fõemlõsök evolúciós kapcsolatának rekonstrukciója a maximum likelihood módszerrel a mitokondriális LEU tRNS és SER tRNS gének teljes nukleotid-szekvenciái alapján.

Kladisztika

203

A LEU és SER tRNS gének teljes szekvenciáira (vö. 6.3.1.2 rész) végrehajtott maximum likelihood elemzés eredményét mutatja a 6.16 ábra. A számításokat a PHYLIP programcsomag DNAML rutinja végezte, az adatokból számított nukleotidgyakoriságok, és az általunk becsült k=3,0 paraméter (várható tranzíció/transzverzió hányados) figyelembevételével. Mivel az összes lehetséges – gyökér nélküli – fák száma 5 taxonra csupán 15, bizonyosak lehetünk abban, hogy megtaláltuk a legoptimálisabb fát. Az élek hossza az egy pozícióban átlagosan várható változások száma a két valós vagy hipotetikus szekvencia között (kizárva persze egy bázis önmagával történõ helyettesítését, ami nem számít mutációnak). Ez nem jelenti azt, hogy a 0,05-ös élhossz esetén éppen 5 %-ban különböznek a kérdéses szekvenciák, hiszen mindig van olyan pozíció, ahol több mutáció is elõfordul, s ez a “végeredményen” nem látszik. A tényleges eltérések tehát mindig kisebb mérvûek az élhosszaknál. Az ábrán bemutatott fa gyökér nélküli, de a gibbont külcsoportnak véve a topológia megegyezik a parszimónia módszerrel kapott kladograméval. A hasonlatosság nem véletlen, mivel a karakter alapon ill. a maximum likelihood alapján mûködõ eljárások sok szempontból analógnak tekinthetõk egymással (Swofford & Olsen 1990).

6.5 Kladisztikus biogeográfia A mikrovilágból most egy hirtelen ugrással a kladisztika legnagyobb léptékû alkalmazási területére érkezünk. Az állat- és növényföldrajz egyik ága, a történeti biogeográfia kifejezetten azt célozza, hogy múltbéli események rekonstruálásával magyarázza meg az élõvilág mostani elterjedését. Miután elsõsorban a mai állapotról vannak ismereteink, magától értetõdõnek tûnik, hogy a probléma a kladisztika módszereivel is megközelíthetõ. Az irányzat Nelson (1975), Nelson & Rosen (1981) és Parenti (1981) munkásságával kezdõdött (ichtiológiai témában) és kladisztikus vagy vikariancia biogeográfia néven ismert. Bár az ilyen kutatások léptéke bizonyosan nagyobb, mint amit Magyarországon belül egyáltalán megtehetünk, érdemes legalább három oldalnyit szánni erre a témára is. A biogeográfiai mintázat feltárásának az alapja számos, erõteljes endemizmust mutató rendszertani csoport kladisztikus elemzése. Feltételezzük, hogy az egyes csoportokon belüli leszármazási viszonyok egyúttal az elõfordulási helyek közötti kapcsolatrendszerrõl is informálnak bennünket. Logikusnak tetszik, hogy két, közeli rokonságban álló taxon biogeográfiailag is közel áll egymáshoz, míg a nagyobb mérvû rendszertani eltérés már jelentõsebb földrajzi távolságra utal. Mindez csak akkor igaz persze, ha a vikarianciát tekintjük minden eltérés magyarázatának a migrációval szemben: vagyis a közös õs mindenütt jelen volt a speciációt megelõzõen, s a fajok nem vándorlással sugároztak szét. (Ez bizony nem általános érvényû, mutatva a kladisztikus biogeográfia korlátait.) A módszer lényege röviden az, hogy a – kettõ vagy több monofiletikus rendszertani csoportra vonatkozó – kladogramokon a taxonok helyére az egyes területeket írjuk be, és az így kapott área-kladogramok összevetésébõl vonjuk le a biogeográfiai következtetésket. A taxon-kladogramokat a fentebb leírt kladisztikai módszerek valamelyikével hozzuk létre, módszertani újdonság tehát az alternatív kladogramok értékelésében van. “Tökéletes” egyezés ugyanis ritkán áll fenn az área-kladogramok között: az egyes rendszertani csoportok múltja nem feltétlenül utal hasonló biogeográfiai kapcsolatra. Az egyes taxonok vándorlása vagy a kihalás csupán két lehetõség az eltérések magyarázatául. Rosen (1978) módszerének lényege, hogy az área-kladogramokból csak az egyezéseket hangsúlyozzuk, ami sokszor a kladogram méretének csökkenésével jár (“reduced area cladograms”). Példaként vizsgáljuk meg a 6.17 ábrát, amely két rendszertani csoport kladogramját

204

6. fejezet 6.17 ábra. A Rosen-féle redukált área kladogram (c) mint a kiinduló kladogramok (a-b) egy lehetséges konszenzusa.

tünteti fel, a taxonok fölött bejelölve az elõfordulási helyeket is. Az a-f taxonok alkotta rendszertani csoport mind az öt területrõl informál bennünket, a másik csoport egyetlen tagja sem fordult elõ viszont a C-n, így ez az área eleve kiesik. Az E területre nézve a két kladogram rendkívül eltérõ interpretációt sugall, ezért ezt is mellõznünk kell. Marad az A, B és D areákra vonatkozó viszonylag jelentõs egybeesés, így a 6.17c redukált konszenzus kladogram lesz az, ami maximálisan adódhat az elemzésbõl: az A és B régiók biogeográfiailag hasonló múlttal rendelkeznek, s a D régió történetileg távolabb áll tõlük. A konszenzus elv tehát már kezdettõl fogva lényeges alkotóeleme a kladisztikus biogeográfiának. Amennyiben több área-kladogram is rendelkezésünkre áll, de ezek között ugyanúgy eltérések, sõt: ellentmondások vannak, mint a 6.17 ábra példáján, akkor Nelson & Platnick (1981) eljárása alkalmazható a közös információ “kihámozására”. Elõnye, hogy nem kell egyetlen areát sem kihagyni az elemzésbõl, bár a hiányos információ megmutatkozik a végeredményben. A szerzõk az área kladogram rész-fáit komponenseknek nevezik, magát a módszert pedig komponens elemzésnek (ami persze nem tévesztendõ össze a fõkomponens analízissel, 7. fejezet). A komponenseket minden egyes kladogramon meghatározzuk, meg is számozzuk, majd ezek összesítõ értékelése adja a keresett végeredményt. A komponensek azonosításának alapesetei a következõk: •

Minden areának egy taxon felel meg a kérdéses rendszertani csoportban (6.18a ábra). Ez a legegyértelmûbb eset, az ábra példáján az 1-3 komponensekre (az 1. triviális).



A taxonok száma kevesebb, mint az areáké, ezért a hiányzó areák helyzete ismeretlen a kladogramon, megengedve számtalan alternatív lehetõséget (6.18b ábrán bemutatunk hármat). Ezek a 2-3. komponenseket megerõsíthetik, de újakat is eredményezhetnek.



Az areák száma meghaladja a taxonokét. A redundáns információ ekkor egy kisebb fába sûríthetõ, s csak ebben kell komponenseket keresni (6.18c ábra). A példában a 7. új komponens jelentkezik.



Egy vagy több taxon több területen is elterjedt, ami az área kladogramon feloldatlanságot idéz elõ. Ebben az esetben Nelson & Platnick (1981) után vagy azt feltételezzük, hogy 1) a több helyen élõ faj valójában mindenütt jelen volt, csak a többi területrõl kihalt, a feloldatlan areák tehát monofiletikus ill. parafiletikus kapcsolatban vannak egymással (ezek láthatók a 6.18d ábrán) vagy pedig 2) a kladogram csak az egyik ilyen areára nézve informatív, míg a másikra nézve nem, mert a faj elterjedését is megengedjük, ami a kladisztika nyelvén a feloldatlan areák polifiletikus eredetét is jelentheti (mint a 6.18e ábra kladogramjain, ahol az A pozícióját vesszük bizonytalannak).

Kladisztika

205

6.18 ábra. Komponensek azonosítása különbözõ típusú área-kladogramokon (a-e). f: Az áreakladogramok összesítése minden komponens alapján egy triviális politómiára vezet, g: Az áreakladogramok összesítése a 2., 3., 4. és 10. komponensek figyelembevételével.

A komponensek listája attól függ tehát, hogy a nagy elterjedésû taxonok esetében melyik feltételezést alkalmazzuk. A listában minden bizonnyal lesznek egymásnak szögesen ellentmondó komponensek is (a 6.18 ábra – szándékosan – ezt illusztrálja). Ha ezeket egyidejûleg figyelembe akarjuk venni, akkor könnyen kaphatunk egy igencsak triviális politómikus konszenzus kladogramot (6.18f ábra), ami nem biztos, hogy továbblépés a Rosen-féle redukált kladogramhoz képest (legfeljebb annyiban, hogy minden área benne van). Azt is megtehetjük, hogy a komponensek egy részét, mint “hamisat” elvetjük, s a megmaradtak segítségével állít-

206

6. fejezet

juk elõ a végeredményt. (Például a 2., 3., 4. és 10. komponensek alapján kapott, részben dichotomikus kladogram a 6.18g ábrán.) A fenti módszer nem nélkülözi a szubjektív elemeket, s ezen egy “trükkel” segíthetünk Brooks (1981) nyomán. Az egyes komponensek bináris adatvektorok formájában is felírhatók (xij=1 ha a j área benne van az i komponensben, xij=0, ha nincs). Ezek a vektorok egy taxon × komponens adatmárixban összesíthetõk, s a szokásos karakter-alapú parszimónia elemzéssel vizsgálhatók (vö. Humphries et al. 1988). Az így kapott maximálisan “takarékos” kladogram már mentes a konszenzus keresés problémáitól. Persze “cseberbõl vederbe” is eshetünk, hiszen számos, egyformán optimális parszimónia kladogramot is kaphatunk eredményül.

6.6 Irodalmi áttekintés

A kladisztika irodalma eléggé bõséges, és – valljuk be – nehezen áttekinthetõ, különösen a témával éppen csak ismerkedni szándékozók számára. Mi sem jellemzi jobban a helyzetet, mint Hull (1984) szarkasztikus megjegyzése: “Ha valaki megkérdezne, hogy mibõl kezdje megtanulni a kladisztika alapelveit, nem ajánlanám Hennig (1966) alapmûvét”. Valóban, még egy rovarász is jobban jár, ha máshol kezdi az ismerkedést, s az ugyancsak rovarász Hennig könyvének böngészését inkább a tudománytörténészekre hagyja. A zoológusoknak talán Mayr & Ashlock (1991), a botanikusoknak Stuessy (1990), a molekuláris alapra helyezkedõknek pedig Swofford & Olsen (1990) ajánlható a viszonylag friss irodalomból. E mûvekre mi is számtalanszor hivatkoztunk ebben a fejezetben. Sokkal régebbi irodalmat nem nagyon érdemes elõvenni, kivéve ha valaki részletesebben akar elmélyedni valamely résztéma múltjában. A módszertani vonatkozásokat illetõen elég gyorsan elavulnak az ismeretek. A változásokat, és a fõbb trendeket természetesen inkább a folyóiratokból érzékelhetjük. A kladisztika saját folyóirata a Cladistics (mi más is lehetne a neve) természetesen nem az egyedüli a biológiai irodalomban, amire figyelnünk kell. Lagalább ennyire jelentõs orgánum a Systematic Biology (korábban Systematic Zoology), a Systematic Botany, a Taxon és a Plant Systematics and Evolution is. A legújabb biogeográfiai alkalmazásokról a Journal of Biogeography tájékoztat bennünket elsõ kézbõl. A molekuláris kladisztika iránt érdeklõdõknek az Evolution és a Journal of Molecular Evolution ajánlható elsõsorban, de ezzel semmiképpen sem teljes a felsorolás. Ma már szinte minden taxonómiai és genetikai folyóirat közöl kladisztikai alapon végzett vizsgálatokat, ami egyben a téma növekvõ fontosságára (és népszerûségére) is utal. Jelentõs a speciális cikkgyûjtemények (pl. Duncan & Stuessy 1985) és konferencia-kiadványok (pl. Duncan & Stuessy 1984, Funk & Brooks 1981) száma is, hogy csak néhányat említsünk közülük. Az általános mûvek sorában megemlítendõ még Forey et al. (1992), amely kifejezetten egy bevezetõ tanfolyam anyagának szánja a leírtakat. Ebbõl a könyvbõl a DNS szekvenciák elemzésétõl a kladisztika biogeográfiai alkalmazásáig sok mindenrõl informálódhatunk. Hasonlóképpen ajánlható Quicke (1993) könyve is, amely általános rendszertani alapozást ad, kiemelve a kladisztika módszereit. 6.6.1 Számítógépes programok

A kladisztikai programcsomagok “piacát” négy program uralja, mert ezek adják a legtöbb lehetõséget a kladisztikai adatelemzésre. A 6.2 táblázat segít bennünket abban, hogy a jelen kötetben is szereplõ módszerekre megfelelõ programot találjunk (az általunk nem említett módszereket nem tüntettük fel a táblázatban). Az összeállítás csak részben támaszkodik saját tapasztalatainkra, mert sokat merítettünk Sanderson (1990) összefoglaló értékelésébõl is. A táblázatbeli információn túlmenõen meg kell jegyezni, hogy a MacClade (Maddison & Maddison 1992) csak Macintosh gépeken futtatható. Mellette szól viszont a könnyû használ-

Kladisztika

207

6.2 táblázat. A fejezetben tárgyalt módszerek elõfordulása a négy legfontosabb kladisztikai programcsomagban (mindegyik tartalmaz mást is, pl. bootstrap, konszenzus, stb.).

PHYLIP

5 F  & /  ,"

G

! & 5   

G

PAUP

9  "

HENNIG

G

H  $ (  ($ 3/F

G

G

G G

9  ( 

G

G

3 ( 

G

G

G G G

F     ( 

G

D &F  (  1C !  2

MacClade

G G

G

I"  

G

G

5 = 

G

?  &(  

G

G

      3         "    3                 ' MacClade                   3  3       3        @           66 3  C!D7EC      "<    #$$B'          3   "F'   3          3    " = 3  ' >        6    3     "0   #$$1'     *          PAUP "02 33  #$$1'   HENNIG "     3      3  COMPONENT "C #$%$' <    "#$$B'  PHYLIP      #;       " 7          '   3    3       6       

   PHYLIP*     6.7 Kérdezz – Válaszolok! K: Ahogy a fejezet végére jutottam (okoztál néhány “kellemetlen” órát), végül is nem igazán látom be: miért is olyan veszekedõsek e tudományág mûvelõi? Láthatóan itt is sokféle módszer leledzik, de ez a többi témakörben is így van, s ez még nem lenne önmagában ok a civódásra. V: Igen, a technikai részleteken a kladisták éppen úgy vitatkoznak, mint a többiek a saját problémáikon. Viszonylag kevés helyem jutott viszont túllépni a módszertani aszpektusokon; a biológiai vonatkozásokról, pláne a filozófiaiakról már tényleg kevesebb szó esett, holott

208

6. fejezet

vitára ezek lennének inkább alkalmasak. Csak egy példát: a transzformált kladisták (“pattern cladists”) szerint a kladisztikus módszer alkalmazásához nem feltétlenül szükséges az evolúcióra gondolnunk. A kladisztika számukra mint egy hierarchikus mintázatot feltáró technika jön számításba. Rettentõ nagy vihart kavartak ezzel a kijelentésükkel, bár egyikük sem tagadta az evolúció létét (elsõsorban a kladisztikus biogeográfusokról van szó, pl. Nelson, Platnick és Rosen). A továbbolvasáshoz melegen ajánlhatom Gould (1990) utolsó fejezetét, és Dawkins (1994) 10. fejezetét. K: Gondolom, akkor itt beszélhetnénk a kladisztika és az osztályozás kapcsolatáról, mert ezt is éppen csak megemlítetted a 6.1 rész vége felé. V: Rátapintottál a lényegre: a kladisták és a – tradicionális – taxonómusok rengeteget vitatkoznak arról, hogy a kladogramok mennyire alkalmasak formális osztályozások létrehozására. Ha mondjuk a kladista egy, a 6.19a ábrán látható – vagy ahhoz hasonló, “fésûszerû” – eredményre jut, akkor a taxonómus csak legyint: “jó-jó, hogy ez a legoptimálisabb leszármazási mintázat, de akkor hogyan definiálsz különbözõ szintû taxonokat? Még ha valóban így is zajlott le az evolúció, csak nem gondolod, hogy ugyanannyi rendszertani kategóriát fogok bevezetni, amennyi hierarchikus szinted van? Mert akkor elvesznénk az alalcsaládok és a fõfõalrendek dzsungelében!” De még egy ideálisnak látszó topológia (6.19b ábra) sem mentes a problémáktól! Egy végsõ kládon ugyanis sok autapomorfia jelenhet meg, de ezek kialakulása (az anagenezis) nem igazán érdekli a kladistát! •t csak az elágazásrendszer izgatja, tehát számára a B és a C taxonok tartoznak együvé, mondjuk egy génuszba. A rendszertanos viszont – az évszázados gyakorlat alapján – némi joggal tenné a B-t inkább az A-val egy génuszba hiszen csak két karakterben különböznek egymástól, míg a C a B-tõl négyben! Ez azonban a kladista számára egy parafiletikus csoport lenne. A ma általában alkalmazott rendszerek sok ponton parafiletikusaknak bizonyulnának egy alaposabb kladisztikus vizsgálódás során, s ez a nomenklatúrát is alaposan felborítaná. Elég, ha elolvasod De Queiroz & Gauthier (1990) és Bryant (1994) cikkeit, melyekben teljesen világos kladisztikai álláspont fejezõdik ki: az elnevezéseknek holofiletikus csoportokon (“korona kládokon”) kell alapulniuk. K: Ez valóban érdekes vitatéma. De akkor hol van az a terület, ahol úgy tûnik, harmonikusabb az egyetértés a kladista és a taxonómus között?

6.19 ábra. Fésûs elágazási mintázat (a), amely “megnehezíti” a kladisztikai eredmények alkalmazását a formális osztályozásokban. A b kladogram a taxonómia és a kladisztika egy másik lehetséges konfliktusát illusztrálja: az autapomorfiák nagy száma miatt a C taxon klasszifikációs helyzete vitatott.

Kladisztika

209

V: Nos, a makrotaxonómia területén, az élõvilág regnum szintû osztályozásában és azon belül nem túl nagy mélységig már – vagy még? – kevesebb a konfliktus. A kladisztika módszereinek alkalmazásával sok érdekességre derült fény pl. a szárazföldi növények fõbb csoportjainak kapcsolatáról (lásd Mishler & Churchill 1984, Bremer at al. 1987), vagy a zárvatermõkön belüli evolúciós viszonyokról (lásd Stuessy 1990 összefoglalóját). A kladisztika eredményei azonban – meg kell vallanunk – még nemigen jelentkeznek a rendszertanban. K: Sok mindent megtudtam a nukleinsav-szekvenciák értékelésérõl, de támadt egy hiányérzetem: miért mellõzted az aminosavláncok, azaz a fehérjék kladisztikai alkalmazhatóságának bemutatását? V: Ha már megkérdezted, akkor tényleg kell néhány szót szólnom errõl. Kladisztikai következtetésekre ugyanis az aminosav szekvenciák is alkalmasak. Swofford & Olsen (1990) szerint proteinekre alapozva három fõbb lehetõség merül fel: 1) Az aminosav behelyettesítések számának minimalizálása (vagyis a Fitch-féle rendezetlen karakterekre vezetjük vissza az elemzést, akár a nukleinsavak esetében). Itt a fõ problémát az jelenti, hogy az egyes aminosavcserék mögött eltérõ számú báziscsere áll. 2) mRNS szintre visszavezetve az aminosav láncot, az átalakításhoz szükséges nukleotid-szubsztitúciók számát minimalizáljuk (vö. Goodman 1981), figyelembe véve tehát a genetikai kód degenerált jellegét. Itt viszont a “csendes” szubsztitúciók túlhangsúlyozásának a veszélye áll fenn, ugyanis bizonyos báziscserék (a kodonok harmadik pozíciójában) nem változtatják meg az aminosavat. 3) A Felsenstein (1993) féle PROTPARS programban a csendes szubsztitúciók is kiküszöbölõdnek. Láthatod tehát, hogy végeredményben a fehérjék nem önmagukban, hanem a mögöttük álló genetikai kód figyelembevételével csak közvetve alkalmasak igazán a vizsgálódásra. K: Kiderült számomra, hogy a kladisztika eredményét legalább annyira befolyásolhatja a kutató egyéni ízlése, mint mondjuk a hierarchikus osztályozásét. Abban a fejezetben be is mutattad a módszerek közötti választás jelentõségét. A kladisztika esetében azonban mintha jóval kevesebb ilyen összehasonlítást tettél volna... V: Erre már – õszintén megvallom – nem jutott se helyem, se idõm, se energiám. De az irodalomban bõven találsz olyan cikkeket, amelyek ezt már megtették helyettem, sokkal alaposabban, mint amire itt egyáltalán mód nyílna, például Duncan et al. (1980) és Astolfi et al. (1981). A nukleotid-szekvenciákra alkalmas módszerek összehasonlító értékelését Saitou & Imanishi (1989) és Nei (1991) végezte el. Az is elõfordul, hogy ugyanazon módszerre írt különbözõ programokat értékelnek, mint például Luckow & Pimentel (1985) a Wagner parszimónia módszerek esetében. Ennek okát már sejted: a fa keresgélés egy NP-teljes probléma, és nagyon sok múlik a programokon. K: A maximum likelihood módszernél úgy tûnt számomra, hogy a modellrendszer változtatásával végül is felmérhetjük: miként változik a kapott eredmény. A modell tovább csiszolásával várhatóan még pontosabb eredményeket kaphatunk. De, mint írod, morfológiai bélyegekre ilyen modellek nincsenek. Valóban nincs semmi esélyünk arra, hogy karakter alapú módszereknél is megnézzük bizonyos változtatások hatását az eredményre? V: Vannak próbálkozások ilyen irányban is. Figyeld meg a 6.20 ábra “élõlényeit”, amelyek voltaképpen mesterséges organizmusok, és éppen egy megfelelõ elméleti modell híján születtek. A mesterséges organizmusok esetében az evolúciót maga az ember szabja meg, ismeri az

210

6. fejezet 6.20 ábra. Egy-egy “példány” a mesterséges organizmusok Caminalcules (a, J. H. Camin, vö. Sokal 1983), Didaktozoa (b, Wirth 1995) és Dendrogrammaceae (c, W. H. Wagner, vö. Duncan et al. 1980) csoportjaiból.

egyes lépéseket, és úgy változtatgatja a feltételeket, ahogy akarja. E taxonok segítségével azután összehasonlíthatóak a kladisztika – és a fenetika – különféle módszerei is, ahogy azt Sokal tette négyrészes nagy cikksorozatában (Sokal 1983). A Caminalcules “csoport” elemzése azzal az eredménnyel járt, hogy kiderült: az összes karakter esetében a kladisztika módszerei jobban “eltalálták” az igazi törzsfát, mint a numerikus klasszifikáció. Érdekes módon azonban a karakterek számának csökkentése már az utóbbi módszereknek kedvezett, ami azt támasztja alá, hogy a kladisztikai következtetéseket is nagyszámú tulajdonságra kell építeni... K: Tényleg, van valami kikötés a tulajdonságok számát illetõen? V: Általános szabály nincs, de nyilvánvalóan annál nagyobb esélyünk van egy teljesen feloldott kladogram elõállítására, minél több tulajdonság szerepel az adatokban. És a fent említett Sokal-féle vizsgálat is a karakterek számának növelése mellett szól. No de visszatérve az elõzõ kérdésedre, van azért lehetõség az evolúciós folyamatok számítógépes “lejátszására” is, melynek során összehasonlítható az egyes kladisztikus módszerek hatékonysága. Fiala & Sokal (1985) és Rohlf et al. (1990) nominális karakterek véletlen megváltozásával szimulálták a speciációs folyamatokat (“random walk”), vagyis közvetlenül a tulajdonságok szintjén vizsgálódtak. Persze evolúciós távolságok mátrixa is elõállítható egy alkalmas modell felhasználásával (pl. Lynch 1989). Javítanom kell tehát magamat, több modell is van, amely alkalmas a kladisztika karakter-alapú módszereinek szimulációs értékelésére, de még sok új eredmény várható ezen a területen.

7 Ordináció (A hatékony dimenzió-redukálás “mûvészete”) A 2.1 részben már említettük, hogy az adatmátrixnak kétféle geometriai reprezentációja képzelhetõ el: a változók mint dimenziók alkotta térben az objektumokat pontok képviselik, vagy fordítva: az objektumokat feleltetjük meg a tengelyeknek és ekkor a változók lesznek pontok. A 2.2 részben már meg is ismerkedtünk néhány módszerrel, amelyekkel – egyszerû módon – bepillanthatunk a sokdimenziós adatstruktúrákba. A megelõzõ három fejezet módszerei az adatszerkezetet speciális szempontok szerint elemzik az osztályok ill. az evolúciós mintázatok feltárásával, ezért náluk a dimenzionalitás redukciója legfeljebb közvetetten vagy rejtetten jelentkezik. Erre a fejezetre maradt minden olyan eljárás ismertetése, melyeknek már elsõdleges feladata a sok dimenzió behelyettesítése kevés számú, de az eredeti adatstruktúrát többé-kevésbé jól tükrözõ dimenzióval. Az ezt célzó elemzéseket Goodall (1954) nyomán ordináció néven foglalhatjuk össze, bár a módszerek távolról sem alkotnak matematikailag egységes csoportot (pl. a többdimenziós skálázás eljárásaira “scaling” néven is hivatkozhatunk). Az elemzett objektumok többnyire egy halmazba tartoznak, de itt mutatjuk be a diszkriminancia-elemzést is, amelyben az új tengelyek keresésével objektumok a priori meglevõ csoportjai között mutatkozó eltéréseket tárjuk fel. De nemcsak az objektumok, hanem a változók is besorolhatók egymástól logikailag elkülönülõ csoportokba, s a dimenzió redukciót ennek figyelembevételével is végrehajthatjuk, mint például a kanonikus korreláció és a kanonikus korreszpondencia-elemzés esetében. Az ordináció fogalmát voltaképpen tehát minden más eddigi értelmezésnél tágabban fogjuk majd fel ebben a könyvben, ordinációs módszer alatt értve minden olyan eljárást, amelyben a dimenzionalitás csökkentése mesterséges változók bevezetésével történik. Ezeket a különféle módszerek esetében, a hagyományoknak megfelelõen, más és más elnevezés illeti, mint például komponens, faktor, kanonikus tengely és így tovább. Míg a kladisztikában a legnagyobb “szellemi megterhelést” a sok-sok, esetleg ismeretlen vagy nem eléggé tisztázott fogalom jelenti, az ordinációs metodológia elsajátításának lényeges

212

7. fejezet

feltétele a mátrixszámítás alapjainak az ismerete. Enélkül nehezen vagy egyáltalán nem írhatók le és nem érthetõk meg a legegyszerûbb módszerek alapvetõ lépései sem. Mindenesetre megpróbálkozunk majd a lehetetlennel, hogy a matematikai részletezés elõtt minden módszerrõl egy intuitíve érthetõ bevezetõ jellemzést is adjunk (némi grafikus segédlettel, mivel a biológus Olvasó – mint a bevezetõben említettük – elsõsorban vizuális típus). Mindenképpen javasoljuk azonban az alaposabb elmélyedést, hogy az adott problémához legalkalmasabb ordinációs módszert mindig ki tudjuk választani. Szemben a klasszifikáció eljárásaival, az ordinációk alkalmazásához bizonyos kezdeti feltételeknek is teljesülniük kell1, ellenkezõ esetben az eredmények értelmezésében könnyen tévútra juthatunk.

7.1 A legfontosabb ordinációs módszer: a fõkomponens analízis A fõkomponens elemzés (principal components analysis, általános rövidítéssel2: PCA) központi szerepet tölt be a többváltozós adatstruktúra-feltárásban, csakúgy mint a variancia analízis a hagyományos biometriában, így a többi módszernél részletesebben tárgyaljuk. Kifejlesztése Pearson (1901) és – elsõsorban – Hotelling (1933, 1936) munkásságának köszönhetõ. Széles körû elterjedése és valós, nagyméretû problémákra való alkalmazása azonban csak a megfelelõen gyors számítógépek kifejlesztésével vált lehetségessé. A módszer lényege többféleképpen is elmondható, számunkra a grafikus illusztráció a legjobb kiindulópont. A 7.1a ábra egy nagyon egyszerû esetet mutat be, hiszen a pontfelhõ dimenzionalitása eleve kettõ és ezt kell “leegyszerûsítenünk”. (A könnyû illusztrálhatóság kedvéért választjuk ilyennek a példát, realisztikus esetekben persze a leegyszerûsítendõ dimenzionalitás sokkal nagyobb.) Megfigyelhetõ, hogy a két változóra (az x1 és x2 tengelyre) a tíz pont összvarianciájából (3.108 egyenlet) kb. azonos rész jut (vetítsük le gondolatban a pontokat az egyes tengelyekre). Ha azonban egy teljesen új tengelyt fektetünk a pontokra olymódon, hogy az egybeessen a pontfelhõ fõ irányával (hosszú, szaggatott vonal az ábrán), akkor ez már az összvarianciának a jelentõs hányadát megmagyarázza, míg az erre merõleges második új tengelyre csak az összvariancia töredéke jut. Ezeket az új tengelyeket nevezzük komponenseknek. Összefoglalva az eddigieket: a pontok helyzetét változatlanul hagyva az eredeti koordinátarendszert egy új koordinátarendszerrel helyettesítettük úgy, hogy az elsõ új tengely (komponens) maximális varianciát sûrítsen magába, s a lehetõ legkevesebbet hagyja a második komponensre. A fõkomponens analízisben sokkal több kiinduló változó esetén is hasonlóan járunk el: elõször a legnagyobb variancia-hányadot lefedõ komponenst keressük ki, ezt követõen a megmaradó varianciát legjobban magyarázó másodikat, és így tovább. A komponensek száma tehát nem feltétlenül kevesebb, mint az eredeti változóké volt: a variancia-hányadok “átrendezése” nem jelenti automatikusan a dimenziók számának csökkentését (a lehetséges komponensek számát l. lentebb). Az új dimenziók egy része azonban – a rájuk esõ jelentéktelen variancia-hányad miatt – számunkra teljesen érdektelen lesz. Az átrendezhetõség hátterében a változók közötti pozitív (vagy negatív) lineáris korrelációk (3.70 képlet) állanak, de ez a komponensekre már nem igaz: közöttük a lineáris korreláció értéke 0. Következésképpen, ha az eredeti változók 1 2

Ez alól a nem-metrikus többdimenziós skálázás (7.4.2 rész) egyértelmûen felmenthetõ. Eltekintve Digby & Kempton (1987)-tól, mert õk a PCP rövidítést részesítik elõnyben. A lényeg persze az, hogy a rövidítés egy könyvön belül következetes legyen.

 



A fõkomponens analízis grafikus illusztrációja. a: hatékony variancia-sûrítés korrelált változók esetén; b: lineárisan korrelálatlan változók esetén a komponensek sem segíthetnek, c: vázlat a P pont koordinátáinak kiszámításához a komponensek alkotta térben. (Megjegyzés: az y2 és B, valamint az y 2 és D egy pontra vonatkozik!) 7.1 ábra.

eleve korrelálatlanok, akkor a fõkomponens analízis nem eredményez lényeges változást, legfeljebb a koordináta-rendszert csúsztatja el a súlypontba (7.1b ábra). Ekkor ugyanis nincsenek “kitüntetett irányok”, amelyre hatékonyabb komponenseket illeszthetnénk. A PCA “sikerességének” az tehát a feltétele, hogy a változók lineárisan korreláljanak egymással, ami biológiai objektumok esetében gyakorlatilag mindig teljesül. A PCA alkalmazásának részeredménye éppen az egymással korreláló változócsoportok azonosítása, mint a késõbbiekben látni fogjuk.

Az alábbiakban elõször megmutatjuk, hogy a komponensek és a tengelyek közötti szögek és a pontokhoz tartozó eredeti értékek felhasználásával – némi geometriai ismeret birtokában – megkaphatók az új koordináták. A 7.1c ábrán az eredeti két változó jele x és x , míg a komponenseket y és y jelöli. Az áttekinthetõség kedvéért mindössze egyetlen egy, P-vel jelölt pontot tüntettünk fel. α az x változó és az y komponens közötti szög. Az elsõ lépésben az adatokat centráljuk (2.2 képlet), azaz minden értékbõl kivonjuk az adott változó átlagértékét. Ennek révén az új koordináta-rendszer origója, O, a ponthalmaz súlypontjába kerül (az x’ és x‘ tengelyek metszéspontja). A P pont centrálás után kapott koordinátáit jelölje x‘2 és x‘ 2, vagyis (7.1) x’2 = x2 – x, ill., x’ 2 = x 2 – x A P pont koordinátáit az új tengelyeken az OA és az AB, illetve az OC és CD szakaszok felhasználásával számíthatjuk ki elemi trigonometriai megfontolások révén: (7.2a) y2 = OA + AB = cos α x‘2 + sin α x’ 2



 

- +/ 2 /0 -   α ,2 2 " α 2 ' () o o 5   α - " '78  α)   '78  α)                 (  &   &  "  &       # 1 o 2 - " α ,2 2 " (90 − α) 2 ' 9) o  2 -  " '78  α) ,2 2 " α 2 ' 9) :        1  %     1       1   1      "      1$          2   1      "$      2$            ';   D  ?9D)    "              !C9?$  "   " 7 D$ # "  "  9D          "$ 3 #   $ #&              "    =  #        ' E F) * λD    # $     100 × λD G  E F       &        '77)       "$ "  =     '!8 ×฀ CC7  CC7 )  $      &                        !$            =  '        &)1 V=

LM0,685 N0,729

0,685 0,729 −0,729 azaz V' = 0,685 –0,729 0,685

OP Q

LM N

OP Q

%  >      9        ?$  @$  "  1 " - 8@C? '9  ?) 2 8 (7 '?  @) - (877  " -  8 (7 '9  ?) 2 8@C? '?  @) - 8 9         !          & H           "     

          $                         1     '  &  )        I &       =         '        !) J "                  "       !  ΣD ED - !           1  A kétváltozós kiindulás csupán egyszerû illusztrációja volt a fõkomponens-analízis számításmenetének. A leírtak természetesen érvényesek kettõnél több változóra is (a számolást persze jobb, ha a számítógépre hagyjuk). A PCA leírásakor úgy is fogalmazhatunk, hogy a komponensek az eredeti változók lineáris kombinációi (amint a 7.3 egyenletek ezt mutatták is) a fentiekben ismertetett feltételek mellett (pl. Manly 1986). A fõkomponens-analízist a legkisebb négyzetek elvén mûködõ regresszió-analízis általánosításának is tekinthetjük (Jongman et al. 1987). A 7.1a ábrán látható elsõ komponenst voltaképpen úgy fektettük le, hogy a pontoknak az egyenestõl vett távolság-négyzetösszegét minimalizáltuk. A komponens és az eredeti tengelyek közötti szög pedig – a sajátérték számítást megkerülve – egy iterációs eljárással is meghatározható.



 

Meg kell említenünk a komponensek lehetséges számát is. A 7.7 egyenlet megoldása t pozitív sajátértéket eredményez, az alábbi korlátozással: t ≤ min {n, m–1 }

(7.8)

ahol – az eddigieknek megfelelõen – n a változók száma, m pedig a pontok (objektumok) száma. Abban esetben tehát, amikor a pontok száma meghaladja a változókét, legfeljebb n komponens vonható ki az adatokból. Ennél természetesen kevesebb is lehet, mégpedig akkor, amikor a változók közötti kapcsolatrendszerben egyértelmû függvénykapcsolatok jelentkeznek (az eredeti változók valamelyike elõállítható a többi változó lineáris kombinációjaként). Ha pedig m – 1 < n, akkor már ez dönt a maximális komponensek számát illetõen. Ennek pedig az az oka, hogy a sok változó mintegy “túldefiniálja” a kis számú pontot, hiszen m pont távolságviszonyainak a feltüntetéséhez maximum m–1 dimenzióra van csak szükség. (Két pont távolsága az egyenes mentén – azaz egy dimenzióban – hûen ábrázolható; három pont távolságait két dimenzióban tökéletesen feltüntethetjük, míg négy ponthoz három dimenzió elegendõ, és így tovább.) A pozitív sajátértékek számát, vagyis t-t, a C mátrix rangjának nevezzük, s ez valójában az adatokban rejlõ háttér dimenziók száma, az adatrendszer valós dimenzionalitása (C függelék).

B  &            &         $   3         "   "         H             &     #                 "        ';      "! :

  !        4 +,  A-  !  +     +  4  A +,    !   9 ,  4   G     ! +,     !    !     !    2      !

  -+      /4A  9    !+   +  -                   :

           +,  "!        67           +       ,+

#  

$$'

  +  E +F  4 +, !   A  G  C  / +,   !

 -+   !+    ,   

  +&  

  ,       -   &     ! &  -+  H        !  H  !+  67      ' !

          E     F +    +, "    E-    F +!  6   *4.,      +3/9   &%  # -        -          % 4     #      0          #  #   0  #                  #         #       #          % '               0                 $   ., J  /, J&% 7.4 Többdimenziós skálázás Az elõzõ részekben megismert ordinációs eljárások közös sajátossága, hogy a számítások során a nyers adatokra mindvégig szükség van. Sok esetben azonban a mintavételezés vagy a mérés közvetlenül távolság- vagy különbözõség-mátrixot eredményez, mint erre már a kladisztikáról szóló részben (6.2 alfejezet) utaltunk (ismert példa a Sarich-féle immunológiai távolságok A5 mátrixa). Felmerül a kérdés, ha távolságok alapján lehetõségünk van az evolúciós utak rekonstrukciójára, akkor van-e mód hatékony dimenzió-redukcióra is? E kérdést persze nem tettük volna fel, ha nem az igen lenne rá a válasz: az ún. többdimenziós skálázás (rövidítve: t. d. s.) módszerei képesek az objektumok távolságmátrixából ordinációt elõállítani. A többdimenziós skálázás tematikája önmagában is rendkívül szerteágazó, figyelmünket azonban két területre összpontosítjuk. A metrikus t.d.s. módszere az elgebrai megoldást tekintve közvetlen rokonságban áll a fõkomponens-elemzéssel. A nem-metrikus t. d. s. eljárásai sokkal kevesebb feltételt szabnak a kiinduló mátrixszal szemben, mint a metrikus módszerek, és sok esetben az egyetlen megoldást adják az adott problémára. Algoritmikus elveik alapján teljes mértékben különböznek az eddigiektõl. 7.4.1 Metrikus többdimenziós skálázás avagy a fõkoordináta módszer A módszer eredetileg Torgerson (1952) nevéhez fûzõdik, de igazán Gower (1966) munkássága révén fõkoordináta módszer néven vált népszerûvé (alkalmas rövidítése: PCoA, míg Digby & Kempton [1987] a PCO betûszót használja). A PCoA azért metrikus, mert az ordinációban megõrzi az objektumok közötti távolságviszonyokat (akár csak a PCA). Annyi ordinációs tengelyt állítunk elõ, amennyi a kiinduló mátrixban lévõ metrikus információ tökéletes megtartásához szükséges. Alkalmazásának feltétele tehát, hogy a távolságok teljesítsék a metrikus axiómákat (3.1.1 rész), bár – mint ezt majd a késõbbiekben részletezzük – ezek kismértékû megsértése sem teszi lehetetlenné a PCoA eredmények interpretálhatóságát. A fõkoordináta-módszer illusztrálásának tipikus példája nem biológiai ugyan, de – szemléletessége miatt – sok könyv ezt említi elõször (pl. Manly 1986) és mi is ezt tesszük. Nagyvárosok közötti úttávolságok félmátrixa gyakran szerepel a térképek hátoldalán. Ennek alapján a PCoA képes a városok relatív pozícióját, azaz egy térképet rekonstruálni, bár ennek

248

7. fejezet

G   #  0        0 -   9 " 0         % 7.18 ábra.

sikere az utak kanyargósságának a függvénye. Ha az utak nem nyílegyenesek (s rendszerint nem olyanok), akkor a PCoA eredménye az elsõ két dimenzióban csupán megközelíti a valós helyzetet, és további dimenziók kellenek a “kanyargósság” megmagyarázására. Teljesen egyenes utak esetében viszont a távolságmátrix belsõ dimenzionalitása (rangja, C függelék) kettõ, így a térkép a papír síkjában torzítás nélkül elõállítható PCoA-val.

2 #      #  "   $ 7  &%   0   $7%/3 &           0   #             #  0    #      %                -         %                % A fõkoordináta-elemzés két fõ lépésben hajtható végre. Az elsõ lépés az igazi “trükk”: a távolságok felhasználásával egy szimmetrikus mátrixot állítunk elõ, amely éppen a késõbbiekben meghatározandó koordinátákból kiszámítható keresztszorzat mátrixnak fogható fel (csakúgy, mint a kovariancia vagy a korrelációs mátrix a PCA-ban, vagy a Z'Z mátrix a COAban). A következõ lépés ezen mátrix sajátérték elemzése, amely a már ismert módon a sajátértékeket és sajátvektorokat, ezekbõl pedig magukat a koordinátákat eredményezi.

  × 0   A 0  Xn,m       0             #  n

a jk = ∑ x ij x ik i =1

$7%,+&

     A * X'X % $7%,/& #               -                $   () 0& 

Ordináció

249

m

∑x

ij

minden változóra

= 0,

(7.52)

i

j =1

Ebbõl következõen az ) mátrixban a sorösszegek és az oszlopösszegek értéke is 0: m



m

∑a

a jk =

j =1

jk

(7.53)

=0

k =1

Most feltételezzük, hogy a kezdeti, alapján a következõk:

négyzetre emelt

távolságok,

d

2 jk

n

d jk2 = ∑ ( x ij − x ik ) 2

a keresett koordináták (7.54)

i =1

ami ekvivalens a következõ felírással: n

d jk2 = ∑ [ x ij2 + x ik2 − 2 x ij x ik ] = ∑ x ij2 + ∑ x ik2 − 2∑ x ij x ik i =1

i

i

(7.55)

i

A 7.50 összefüggés alapján ez az alábbiak szerint írható át: 2 = jj kk – 2 jk (7.56) Ezután 7.56-ból jk-t kifejezzük: 2 (7.57) jk = 1/2 [– jk jj kk] amelyet, itt nem részletezett behelyettesítések után (l. például Pielou 1984, p. 184) teljes egészében átírhatunk a távolságnégyzetek felhasználásával: 2 2 2 2 (7.58) ..] .k j. jk = 1/2 [ jk ahol d jk

a

+ a

a

a

a

d

a

d j2. =

+ a

– d

d

+ a

– d

+ d

1 m 2 ∑ d jk m k =1

(7.59)

a objektum és a többi objektum közötti távolságnégyzetek átlaga, és j

d..2 =

1 m2

∑∑d j

2 jk

(7.60)

k

pedig az összes távolságnégyzet (ide értve az átlóban lévõ 0-kat) átlaga. A fenti levezetésbõl látszik, hogy a PCoA a 7.58 egyenlet szerint kapott ) mátrixból indul ki. Miután a már ismert módon meghatároztuk ennek sajátértékeit és sajátvektorait: () – λ1) L =  (7.61) úgy, hogy a sajátvektorok egységnyi hosszúságúak, a sajátértékeket pedig nagyság szerint csökkenõ sorrendbe tesszük, akkor a mátrixok spektrálfelbontásának tételét (C függelék) alkalmazhatjuk. Eszerint az ) szimmetrikus mátrix a következõképpen is felírható:



 

) + 8 Λ 8: + 8 Λ1/2Λ1/2 8:

-

& Λ &       '  * 0  - &  '  '.      : + Λ1/2 8; + 2√λ1 L1$ √λ2 L2$ $ ฀√λm Lm3 -  A fõkoordináta módszer megértéséhez valamint eredményének értékeléséhez az alábbiakat vehetjük figyelembe: •

Egy n×m-es adatmátrixból, az n változó között számított kovarianciákból kiinduló PCA (centrált PCA) és az m objektum közötti távolságnégyzetek mátrixából végrehajtott PCoA teljesen azonos objektum-ordinációt eredményez, legfeljebb a koordináták elõjelében lehet eltérés. Mindez nem lephet meg bennünket: a megoldás alapja, a sajátértékelemzés, ugyanis közös a két módszerben. A COA (az objektumok koordinátáit a fajok koordinátáinak súlyozott átlagaként véve) és a χ -távolságokon alapuló PCoA az összes dimenzióra nézve ugyanazt a távolságstruktúrát tárja fel, bár itt az elsõ két dimenzióra már eltérések adódhatnak (vö. Digby & Kempton 1987).



Ha a kiinduló távolságmátrix hiánytalanul megfeleltethetõ euklidészi távolságok segítségével, akkor legfeljebb m–1 pozitív sajátértéket kapunk, s az m-edik értéke 0. Ebben az esetben az A mátrix átlójában a pontoknak a centroidtól vett távolságnégyzete szerepel. Ezek összege, vagyis tr { A }, az összes pontra vonatkozó négyzetösszeg, amelyet a pontok közötti páronkénti távolságok segítségével is kifejezhetünk (vö. 3.106 egyenlet). Ez a mennyiség éppen a sajátértékek összegével egyenlõ:

tr{A} =

m



a jj =

j =1

∑∑ j

d jk2 / 2 m =

k

m −1

∑λ

k

(7.64)

k =1

Következésképpen, az elsõ t dimenzió a teljes távolságstruktúrát t

m −1

k =1

k =1

100 × ∑ λ k / ∑ λ k (7.65) százalékban magyarázza meg. Egy két-dimenziós PCoA diagram, amely a teljes négyzetösszeg 20-30 %-át értelmezi csupán, sok esetben félrevezethetõ lehet bizonyos pontpárok közelségét illetõen. Amelyek az elsõ két dimenzióban közel állanak, még nem biztos, hogy az összes dimenzióra nézve is közeliek. Mindezt a minimális feszítõfa (5.4.3 rész) segítségével ellenõrizhetjük legegyszerûbben, amelyre majd a 9. fejezetben is kitérünk. •

Ha egyes sajátértékek negatívak, akkor ez annak a jele, hogy a kiinduló mátrix nem feleltethetõ meg tökéletesen az euklidészi térben. Néhány, relatíve kicsiny negatív sajátérték voltaképpen még figyelmen kívül hagyható, és a nagy pozitív sajátértékekhez tartozó tengelyek továbbra is interpretálhatók maradnak. Nagy negatív sajátértékek már gondot okoznak, mert ekkor a kiinduló különbözõségi struktúra már csak nagy torzításokkal ábrázolható az euklidészi térben, és ekkor a PCoA eredményét nem szabad elfogadnunk kritika nélkül. Ebben az esetben a nem-metrikus skálázás (következõ rész) módszerei jelenthetnek megoldást.



 

* 06      ' (-$(  6$      %    ;  0-=   ?    

   !         !                   # % % #    Iris setosa  % %       # !     %  ?9 00    "      @/                % %  #     !   ?9    

      "  #       !             #      0-     

 Iris faj  -          #        a:        # 8  01/  A b(         %    # B 8  00>   C ( D Iris setosa, &( Iris versicolor! E( Iris virginica.

7.23 ábra.

264

7. fejezet

Iris  9:     ( ( I. setosa! -( I. versicolor! =( I. virginica  %    "   #  #      #   #  

     !   

 # "#          "!      %   : %       ?9   00    G 7.24 ábra.

 "  #     ;!        !      # %       F  G 6"   # !   

 #        % !  '  #      ;   " H      X   I@I!-  " χ   ,7 α,>!>I   I!I!     !          " # #      # ;   !       %         "      X ,=0!- ,=! α,>!>I    "   χ ,0!7I!   " !     -             !    #   H           0-@  (  I. setosa     % % !                !   -    I. versicolor "         ""    !    

%   ;!        ;  % %   # !     '        J %             % %    

          0-    0-@       

  # !    F  "   %      #   !             % %  *      # #  # # H       "       7.6 Morfometriai ordináció Az Iris adatok különféle elemzéseivel voltaképpen már eddig is érintettük a biológiai adatelemzés egy speciális területét, a morfometriát. Ennek elsõdleges célja az alakbeli és méretbeli változatosság vizsgálata és elemzése, különös tekintettel e két tényezõ elválasztására. Az eddig ismertetett dimenzió-redukáló módszerek több-kevesebb sikerrel alkalmazhatók a morfometriában (míg azelõtt szinte kizárólagosak voltak e területen, vö. Blackith & Reyment 1971 klasszikus monográfiájával). Ma már azonban számos olyan speciálisan morfometriai célú eljárás áll rendelkezésünkre, amely sokkal alaposabb vizsgálódást tesz lehetõvé, s az alakbeli változás értelmezését is megkönnyíti (Rohlf & Marcus 1993). E módszerek – a statisztikai értékelésen és a biológiai interpretáció elõsegítésén túlmenõen –

Ordináció

265

adatfeltárásra is alkalmasak a taxonómiai és evolúció-biológiai vizsgálatokban, így mindenképpen szólnunk kell róluk. A téma azonban – szinte már közhelyként mondjuk, ha valami “új” következik – olyan szerteágazóvá vált röpke tíz esztendõ alatt, hogy e kötetben csak egy rövid összefoglalást adhatunk – különös tekintettel az ordinációs szempontokra –, megmutatva a tovább-informálódás lehetõségeit mindazoknak, akik úgy érzik, hogy problémáik csak ilymódon oldhatók meg. Az Iris példákban voltaképpen távolságértékekkel dolgoztunk: a lepellevelek bizonyos kitüntetett pontjai (csúcsa, töve, szélsõ pontok mindkét oldalon) közötti távolságok szerepeltek változóként. Ez sok más esetben is így van, az egyedeken felvett tájékozódási pontok (mérõpontok, kulcspontok, “landmark”-ok) közötti távolságok adják a morfológiai bélyegeket.9 E távolságok azonban nem alkalmasak arra, hogy az eredeti alakot pontosan reprodukáljuk belõlük, vagyis a méretek alkalmazásával nem használunk fel minden alakbeli információt. Amennyiben a vizsgált objektumok teljes alakját szeretnénk elemzés tárgyává tenni, sokkal kifinomultabb technikákat kell igénybe vennünk. A “kifinomultság” nem azt jelenti, hogy az alkalmazandó adatfeltáró módszerek gyökeresen eltérnének az eddig megismertektõl, hanem arra utal, hogy az adatrögzítés módszerei lényegesen mások. Az esetek jelentõs részében ugyanis a speciális módon nyert adatokat késõbb éppen a már jól ismert és bevált módszerek értékelik. Megjegyezzük továbbá, hogy eme új adattípusok – minden látszólagos és valós elõnyeik ellenére – nem teszik feleslegessé a korábbi, “tradicionális” morfometria távolságokra alapozott eljárásait, amint azt pl. Reyment (1990) és Marcus (1990, 1993) is hangsúlyosan kiemeli. 7.6.1 Kontúr-elemzés A szervezetek alakjának teljesebb figyelembevételére az elsõ lehetõség az objektum kontúrjának, külsõ körvonalának (“outline”) elemzése. Rohlf (1990a) tekinti át részletesen azokat a módszereket, melyek révén a teljes kontúrvonalra (zárt kontúr), vagy két kitüntetett kulcspont közötti szakaszra (nyitott kontúr) függvényeket illeszthetünk. A kapott függvények paramétereit – mint input adatokat – szokványos többváltozós elemzésnek vethetjük alá. Ez a megközelítés persze teljes mértékben “elfeledkezik” a kontúrvonalon belülre esõ jellegekrõl, s ezért csak akkor célszerû alkalmazni, ha az objektumok kifejezetten szegények belsõ bélyegekben (pl. Ostracoda és Mollusca héjak esetében). Figyelmünket a továbbiakban a zárt kontúrral leírható alakokra összpontosítjuk, mert ezek lényegesen fontosabbak – és gyakoribbak – a morfometriai vizsgálatokban, mint a nyitott görbék. Az elemezni kívánt objektumokon találnunk kell egy kulcspontot amely biológiailag “azonos jelentésû” (azaz homológ) minden esetben. Ettõl a ponttól kezdjük a görbe leírását és ide térünk vissza. Célszerû egy másik homológ kulcspont kijelölése is, mert kettõjük segítségével minden objektum egyértelmûen elhelyezhetõ egy derékszögû koordináta-rendszerben. A standardizált elhelyezésmód kötelezõ, mert máskülönben az objektumok összehasonlítása értelmét veszti. Az objektum alakját vagy a centroidtól (vagy más középponttól) húzott su9

A landmark voltaképpen olyan speciális mérõpontnak felel meg, ahol valamilyen struktúrák kicsúcsosodnak, keresztezõdnek, stb. Az objektum szélsõ pontjait inkább pseudo-landmark-nak nevezik (Rohlf & Marcus 1993), bár ez a megkülönböztetés a mi céljaink szempontjából most nem lényeges. A landmark-ok finomabb osztályozását lásd Bookstein (1991) könyvében.

266

7. fejezet

Egyenlõ szögben felvett rádiuszok alkalmazása kontúrvonalak leírására, az Unio pictorum példáján. 7.25 ábra.

garak hosszúságai, vagy pedig a kontúr mentén megfelelõ sûrûségben felvett pontok x,y koordinátái képviselik majd az elemzésben. A zárt görbe matematikai leírására a legismertebb módszerek a következõk: •

Nem túl bonyolult10 kontúrvonalak egyszerû leírására alkalmas a rádiusz-függvény (Scott 1980, Lohmann & Schweitzer 1990). Az objektum súlypontjából az elsõ kulcspontig húzott sugárt tekintjük majd hivatkozási alapnak. Ettõl számítva egyenlõ közökben (helyesebben szögekben) sugárirányú egyeneseket húzunk a kontúrvonalig; legyen a sugarak száma p (7.25 ábra). A rádiusz-függvény valójában az elfordulási szög és a hozzátartozó sugár hossza közötti összefüggést adja meg [r , θ] értékpárok formájában. Az objektumok alakja elég jó közelítéssel leírható a p számú hosszértékkel, különösen akkor, ha p elég nagy. (A sugarak alkalmazásával voltaképpen a kontúrvonal szisztematikus “mintavételezését” hajtjuk végre, amely annál hatékonyabb, minél több pontot veszünk fel.) A hosszértékek egy p × m-es mátrixba összesíthetõk, amelyet azután standardizált fõkomponens elemzésnek vethetünk alá. Ez a PCA egy speciális esete, hiszen a korrelációt az objektumok (és nem a változók, vagyis a kontúr adott pontjaira mutató rádiuszok) között számítjuk ki. Lohmann & Schweitzer (1990) alakkomponens-elemzés (“eigenshape analysis”) néven tárgyalja a PCA ilyen speciális alkalmazásait (lásd még lentebb). A PCA diagramok közül az objektumok és a komponensek közötti korrelációk diagramja lesz igazán érdekes, amit Unio kagylók kontúrvonalainak elemzésével szemléltetünk.

A vizsgálatban 4 faj szerepel, az U. pictorum és U. crassus három, más és más lelõhelyrõl származó egyeddel, az U. tumidus és U. elongatulus pedig egy-egy egyeddel (részleteket lásd az A8 táblázatban). A rádiusz-értékekbõl végrehajtott alakkomponens-elemzés egy igen magas sajátértéket adott (97 %), ami nem szokatlan, ha a kontúrok erõsen hasonlítanak egymásra (a legkisebb korreláció az U. pictorum és az U. crassus között volt (COR=0,926), a legmagasabb pedig az U. pictorum és U. tumidus között (COR=0,99). Ez a nagy sajátérték lényegében véve egy általános méretbeli komponenst fed le, az 1. komponensen mind a nyolc kontúrvonal nagyon magas értékekkel szerepel (0,971 és 0,994 között), s így nincs értelme ábrázolni. Emiatt – bár kicsiny variancia jut rájuk – a második és a harmadik komponens jelentõsége megnövekszik, s az egyedeket a 2-3. dimenzióban ábrázoljuk (7.26a ábra). Felmerül persze egy “szokványos” standardizált PCA végrehajtásának a lehetõsége is, amelyben a változók a sugarak hosszértékei, az objektumok pedig maguk a kagylópéldányok. 10 A “nem túl bonyolultság” tartalma majd késõbb, a harmadik módszer tárgyalásában válik nyilvánvalóvá.

Ordináció

267

7.26 ábra:      %      a:    ((  '   +  0     b:  ! ((  '   .+    b    &    2      ;

-

       .     !  ".0 $      +      7+ $  &   '  2  2   # +,        2  8    2            '  9          3  4   !    '  (  + $  ( '    (

         -     56     ",7 $      

 3  4  '  -    :       !' 2 3(  4       !   2  (     %  (           :    •

A fenti módon megmért rádiuszok az ún. Fourier-analízis (harmonikus analízis) segítségével egy függvénysor összegeként is elõállíthatók (Rohlf 1990a). Az elemzés azt a matematikai törvényszerûséget használja fel, hogy – Fourier francia matematikus tétele szerint – minden “görbe” elõállítható egyszerû “hullámok” (harmonikusok) összegeként. Az elsõ (referencia) sugárral θ szöget adó sugár, vagyis r(θ), hossza a következõ sor segítségével közelíthetõ: k

r(θ ) = a0 + ∑ ai cos iθ + bi sin iθ

# *

i =1

ahol k a kiszámított harmonikusok száma (k < p/2), és

a0 =

2 p

p

∑r , j

j =1

ai =

2 p

p

∑ r cos iθ j

j =1

j

, bi =

2 p

p

∑ r sin iθ j

j =1

j

,

# .'

A Fourier-elemzés a k számú harmonikusra becsli az aE és bE paramétereket, amelyek az objektum alakjának absztrakt, közvetett leírására használhatók fel. A hE = aE + bE

268

7. fejezet

ábra.  Unio      56   !        1!2     7.27

mennyiség a harmonikus amplitúdó, a sor i-edik tagjának relatív “hozzájárulása” a kontúrhoz. Több objektumról származó Fourier-koefficiensek (ha az 1. sugár minden esetben homológ kulcspontra mutat) egy nyers adatmátrixot szolgáltatnak a többváltozós elemzés számára. Ha azonban nincs homológ kulcspont, csak a harmonikus amplitúdók jöhetnek számításba, de ez már kétségtelen információvesztéssel jár. Maguknak a harmonikusoknak nemigen tulajdoníthatunk biológiai jelentõséget, de leíró – következésképpen ordinációs – célra viszont alkalmazhatók (Rohlf 1993a).

 Unio       1!2      56           

      &    λ)0+ $ λ2)+0 $  λ!)., $    '   # +#       2( 

(         

      U. pictorum  .      (

    U. crassus      '         U. elongatulus 2( 2        # +,   U. tumidus     3   4 &'    pictorum   crassus  (( •

A fenti két módszer “hibájaként” leginkább azt róhatjuk fel, hogy a súlypont kijelölése valójában egy teljesen önkényes lépés, és egy másik – biológiailag esetleg még logikusabb – referenciapont alapján könnyen eltérõ eredményt kaphatunk. Bonyolultabb körvonalakra pedig, amikor ugyanaz a sugár esetleg két v. több helyen is metszi a kontúrt, már egyáltalán nem alkalmazhatók. E problémák legismertebb módon a Zahn & Roskies (1972) javasolta “alakfüggvény” révén küszöbölhetõk ki, ϕ  2  &    :  !  !  # +     '%'   ! .+   (2           2  +π  !   ( +π?.+)*7+   .   %       '  ϕ  2     ( # +    ϕ =  /)2; #$ %> =# #$ %>  !3$* # )#   )2# #$)3$%'   ) !3" " 7.7.1 Számítógépes programok

B    )" + #$ % ! !")# ' + # )  /" )%## %  #* )% & =  > ##!  !  # ( "   )#  ( !/! #  )   ! ) # * /" 3  ! )  *(( ) /" /* !# # #4!/"  *  )" #$ ) & 3 /*3 # # !'  #$  *' )%#   4# $) 6 )   3* ! $#%  !* 7 0*#  B /" ( ! **#** # * )' #  ! %0# F (*4  !   #4 '* *)0 # 4!#4 !* # 3  & ' #!(!)* * #)(/   2)     ( )   !33 !  # ( !  / '* #%* ( SYN-TAX ! # 93 %)  #* ( 4! #4 !32** ) ! 3 '%*  & CANOCO (  ! !  # /" * /"**#' (/"   ! ) ) (/   #*)0 ! #)#  3  #4 4##   ! . G! 4   #) CANODRAW-LITE %  CANODRAW 3.0 G! 4 H ( !# =  3 >  #

! #!  3" !'*; #$)!* # )   ) "  3)#  ( * (  )  & CANOCO  *#* '  # #4 #)(/  * 4 / !)* 3 34#  * !")# #%** ! )# ! (  !/! #  #$  *'# & Statistica  #4 4(43 #   '   3 %2 " 2)* )   #2 " 1% )!(  )" #$ )8 ) (/"# #$ ; !  " % ) '*# !0E  #   =9"> (

3* * 2 % B # Statistica ;# 3 % ) # !   #  2) # % 3  ! 34# 3" !#0$$)% '#!( !)*'  !  !")#  3  ) #  6 )   & !!#4 $!)" #) !")* + *!  );2* + / # $!)" #) # %) 7.3 táblázat. Ordinációs módszerek különféle számítógépes programcsomagokban.

Módszer Fõkomponens-elemzés Faktoranalízis Kanonikus korreláció Redundancia analízis Korreszpondencia elemzés Kanonikus korreszpondencia-elemzés Fõkoordináta módszer Nem-metr. többdim. skálázás Diszkriminancia-elemzés Vékonylemezes interpolációs függvény

Statistica

+ + +

+ +

SYN-TAX

NT-SYS

CANOCO

NuCoSA

BMDP

+

+

+

+

+

+

+ + +

+ + + +

+ + + + +

+

+

+

+

+

+ +

+ + +

+

Ordináció

275

 )" #*)#$ % !#)% !#4 !")' &   (  / %) (   #$0!*  & ( !#  %*  ! !*#8 6 )  ( !3  D #)(/  !)* +  ## * '  )"34# )* + !! *(); ( !3

  ?    * ! ! 3  ( =# *> (/"#  #% C0$ *! !!   !)* ! )!4#    *#  !  ( !#   )34# $%)" !")# (4    # '2  &)  ##! ( !)* / ( !3 /  6 3) # . # !  @IJ D@< )%#   ! *   "# ! # ! !! )#$) )# *'%*  )#  *)   ( !/!    !%  % *)#'

7 0*# !  I !/" 2 

7.8 Kérdezz – Válaszolok! K: Nyilván nem állítod – nem is állíthatod –, hogy minden ordinációs módszerre jutott hely e könyvben, de – az ökológiai irodalmat böngészve – egy dolog feltûnõ: nem szólsz egy szót sem a polár-ordinációról. Sokfelé láttam ezt említeni, s ezért kíváncsi vagyok: mi az ördög ez voltaképpen és miért nem szerepel a könyvben? V: A polár-ordinációnak elsõsorban történeti jelentõsége van; ma már nemigen használják. A módszert ökológusok (Bray & Curtis 1957) “spekulálták ki” még akkor, amikor a számítógépek nem tették lehetõvé nagy adatmátrixok gyors elemzését, mondjuk a PCA segítségével. Lényege az, hogy a távolságmátrix alapján kiválasztjuk a két egymástól legtávolabbi objektumot, s ezt tekintjük az elsõ ordinációs tengely két pólusának. Feltételezzük ugyanis, hogy a vizsgált közösségekre nézve ezek jelentik valamely ökológiai háttérgrádiens végpontjait. Az összes többi objektum közbülsõ helyét a két végpont-objektumhoz való relatív hasonlóság határozza meg. Ezután egy második ordinációs tengely is megkapható a második legtávolabbi objektumpár kiválasztásával. Részletesebb leírást Gauch (1982) könyvében találhatsz, de nem nagyon biztatlak a keresgélésre, mert már magam is rendkívül elavultnak tekintem a módszert. A NuCoSA programcsomagban egyébként benne van, ha ki akarod próbálni. K: Van még más is, amirõl nem ejtettél szót? V: Hogyne, bõven. Gauss-ordináció, maximum likelihood-ordináció és még sorolhatnám, de ezekrõl már nemigen szólhatok részletesebben, mert akkor sosem érnénk a könyv végére. K: Ha már volt fuzzy osztályozás, akkor van-e fuzzy ordináció? V: Nem tudom, hogy jutott eszedbe ez a kérdés, nyilván az elõzõ fejezetekbõl “extrapolálsz”, mint eddig sokszor. Gondolom úgy véled, hogy egy fuzzy ordinációban a pont pozíciója lesz bizonytalan (amennyire az objektum osztályba tartozása a bizonytalan a fuzzy osztályozások-

276

7. fejezet

ban). Ilyen értelemben azonban nincs olyan módszer, amely közvetlenül fuzzy ordinációt adna, de a 9. fejezetben majd említendõ konszenzus ordináció (9.18 ábra) akár fuzzy ordinációként is értelmezhetõ. Van azonban lehetõség ordinációt szerkeszteni fuzzy alapokon. Roberts (1986) javasolta elõször, hogy fuzzy halmazokból kiindulva állítsunk elõ ordinációt, de ez az ordináció bizonyos értelemben “direkt”, mert rendelkeznünk kell a fajok és a környezet kapcsolatáról szóló adatokkal v. legalábbis feltételezésekkel. Továbbmenve: ordináció lehetséges osztályozásból is! Olvasd el Feoli & Zuccarello (1986) nálunk is könnyen hozzáférhetõ cikkét ebben a témában! K: Rövid kérdés: ordináció vagy klasszifikáció? V: Igen, volt idõ, amikor ez valóban kérdés volt, például a növényökológusok körében. Gondoljunk az elhíresült kontinuum vitára a 60-as évek végérõl, amelyben a klasszifikáció és az ordináció hívei “veszekedtek”, hogy melyik az elõbb való. Ma már nyugodtan mondhatjuk, hogy az osztályozás és az ordináció együttes alkalmazása többet mond az adatstruktúráról, mint bármelyikük külön-külön. Ha mindenáron meg akarod állapítani, hogy mégis melyik legyen az elsõdleges, akkor azt mondanám, hogy sose osztályozzunk ordináció nélkül, míg az ordináció jól megvan klasszifikációs ellenõrzés nélkül is. K: Mondd, nem akarsz egy rövid döntési kulcsot is mellékelni az ordinációs módszerek kiválasztására, hasonlóan a 3. fejezetbeli kulcshoz? Ezzel megkönnyítenéd a kezdõ felhasználó dolgát. V: Megpróbálhatjuk, bár a legfontosabb lépéseket már a 0.1 ábra is bemutatta. Nos, íme egy bõvített kulcs, amely persze csak egy a lehetségesek közül: 1a Az objektumokat vagy a változókat eleve csoportokba osztjuk (kanonikus módszerek)......... 2 1b Semmiféle a priori csoportosítás nincs ..................................................................................... 5 2a Az objektumok 2 vagy több csoportba vannak beosztva. A változók egységes halmazt képviselnek ........................................................................................ Diszkriminancia elemzés 2b A változók két csoportot alkotnak, az objektumok egyet ......................................................... 3 3a A változók csoportjai közötti viszony szimmetrikus, egyikük sem kitüntetett ...................................................................................Kanonikus korreláció elemzés 3b A változók 1. csoportja megszabja a 2. csoport szerinti ordinációt (kötött ordináció) ............. 4 4a A 2. csoport változói között lineáris a kapcsolat ....................................... Redundancia elemzés 4b A 2. csoport változói unimodális reakciót adnak a háttérgrádiensre ..............................................................Kanonikus korreszpondencia elemzés 5a Az elemzett objektumok távolság- (különbözõség-) mátrixa áll csupán rendelkezésünkre, ill. ha az eredeti adatok is megvannak, a változók ordinációja most mellékes ............................ 6 5b Az eredeti nyers adatok is megvannak, és az objektumok és változók ordinációja egyaránt lényeges számunkra ................................................................................................................. 7 6a Az ordinációban megtartjuk a metrikus információt ...............................Fõkoordináta módszer 6b A metrikus információ elvész, csak a távolságértékek sorrendisége lényeges ........................................................................Nem-metrikus többdimenziós skálázás 7a Az összvariancia közös részét magyarázzuk csupán ............................................Faktoranalízis 7b A teljes variancia megmagyarázására törekszünk ..................................................................... 8 8a Az adatstruktúra – közelítõleg – lineáris ................................................. Fõkomponens elemzés

Ordináció

277

8b Az adatstruktúra unimodális jellegû, gyakorisági adataink vannak . Korreszpondencia elemzés

Természetesen a döntéshez olyasmi is kell, amire csak az elemzés közben derül fény, ezért a fenti kulcs semmiképpen sem helyettesítheti az értelmes, többirányú vizsgálódást. K: Úgy tûnik számomra, hogy a patkó-jelenség kizárólagosan csak ökológiai ordinációkban, hosszú, gyors fajcserékkel jellemzhetõ háttér-grádiensek esetében “fenyeget”. Egy taxonómusnak vagy morfológusnak tényleg nem kell tartania ettõl? V: A patkó-jelenség természetesen nemcsak az ökológiai adatok ordinációjának lehetséges kísérõ jelensége. Reyment (1991: 51) be is mutat egy példát, amelyben Leptograpsus rákok egyedeinek fõkoordináta-ordinációja produkál egy csaknem tökéletes parabola-menti elrendezõdést. Ennek a Reyment-féle magyarázata (“a majdnem egyenlõ változók közötti nagyon magas korrelációk”) nem világosít fel bennünket az okokról. Az elemzést megismételtem többféle módszerrel is, és a patkó-jelenség csak akkor adódott, ha Manhattan-metrikával hasonlítottam össze az egyedeket, más esetben nem (a Reyment által alkalmazott Gower index “kvantitatív” esetre valójában Manhattan metrika, vö. 3.6 rész). Euklidészi távolságból pl. egyáltalán nem ilyen, hanem a várt eredmény jött ki, s bevallom, a jelenség magyarázatával még tartozom. A dolog annál is inkább “zavaró”, mert ugyanazon Manhattan-távolságmátrixból a nem-metrikus többdimenziós skálázás távolról sem patkó-szerû elrendezõdést, hanem méretbeli sorrendet adott. Tapasztalataim szerint egyébként akkor is kaphatunk patkó-szerû elrendezõdést, amikor az adatmátrix sorainak vagy oszlopainak az összege konstans (ez a statisztikában “záródás” vagy closure néven ismert). Ha például a változók összege minden egyes objektumra 100-at ad (vagyis objektum-szerinti százalékokról van szó, mondjuk talajminták százalékos anyagtartalma), akkor a változók ordinációjában figyelhetjük meg gyakran – nem mindig – az ívet. Ez fordítva is igaz: amikor az objektumok összege ad 100-at minden egyes változóra, az objektumok kerülnek a patkóra. A Reyment-féle illusztrációban pedig a változók értéktartomány-szerinti standardizálása szerepel, s ez közelítõen konstans összegre vezethetett minden változóra. Azt hiszem ezt a problémát érdemes lenne jobban megvizsgálni. K: És térsor vajon elképzelhetõ-e az ordinációs térben? V: A kérdést már vártam, s bizonnyal nem lepõdsz meg nagyon, ha válaszom igenlõ. Nemcsak olyan térsorra gondolok persze, amelyet az ordinációs térben voltaképpen egy adattranszformációs függvény, vagy mondjuk a mintavételi feltételek fokozatos megváltoztatása generál, hanem olyanra is, amelyet magának az ordinációs módszernek a szukcesszív változtatása hoz létre. Vagyis a primer sor maga is ordinációs. Láthattad a korreszpondencia elemzésrõl szóló részben, hogy α értéke bizonyos korlátok között szabadon módosítható. Nos, α függvényében egy ordináció-sorozatot készíthetünk, amely megint csak jobban tükrözi az adatok szerkezetét, mint α bármely, önkényesen kiragadott értéke. Hasonlóan változtatható paraméter szerepel pl. Noy-Meir (1974) “catenation” módszerében. A biplot szerkesztése is elképzelhetõ egy térsor mentén. Gondolj vissza az euklidészi és Mahalanobis biplotra, amelyek Jackson (1991) javaslata szerint csupán két szélsõ esetei egy “biplot grádiens”- nek, melynek végtelen számú esetei egy hatványkitevõ változtatásával egyszerûen elõállíthatók. K: A morfometriai ordinációról szóló rész mintha egy kicsit kilógna ebbõl a fejezetbõl, ugyanis itt szinte több szó esik az újszerû adattípusokról (kontúr, mérõpontok, stb.), mint

278

7. fejezet

magáról az ordinációról. Az itt alkalmazott ordinációs módszerek voltaképpen ugyanazok, amelyekrõl az elõzõ fejezetrészek szólnak! V: Ebben van némi igazad, de úgy éreztem, hogy a könyv olvasása közben – feltéve, ha akad valaki, aki e kötetet szabályosan, oldalról oldalra tanulmányozza végig –, az Olvasó ekkor “érik meg” igazán a téma befogadására. Az osztályozás és különösképpen az ordináció módszereit ismerve viszont már jöhet a “nehezebb falat”. Az alak leírása önmagában a 2. fejezetben még eléggé érdektelen lett volna. K: Mi van akkor, ha nekem nem szokványos fajok × helyek mátrixom van, hanem egy harmadik szempontom, – vagy dimenzióm? – is van. Például évek munkájával összeállítottam egy fajok × helyek × idõpontok táblázatot, s ezt szeretném részletesen kiértékelni. Úgy tûnik, errõl mintha megfeledkeztél volna, holott a biológiában egyáltalán nem lehet ritka az ilyen típusú adathalmaz. V: Nos, megfogtál, mert erre eddig valóban nem gondoltam. A háromutas (three-way vagy three-mode, de persze nem “három-dimenziós”) “mátrixok” vagy inkább “tömbök” elemzésére többféle lehetõség adódik. Elõször is természetes, hogy a tömböt valamelyik szempont szerint kétutas “szeletek”-re bonthatod, s ezek a már ismert módon elemezhetõk. Ha pl. az idõ szerint osztod fel a kiinduló adatokat p számú mátrixra, akkor az egyes idõpontokra kapott “sima” ordinációs elemzéseket összehasonlíthatod egymással (lásd majd a 9. fejezetet), s ebbõl az összehasonlításból hámozhatod ki az idõbeli trendeket. Azt is teheted – bár ez eléggé “quick-and-dirty” (“gyors és nem igazán matematikai”) eljárás –, hogy minden egyes kétutas szeletet egy vektorrá “nyújtasz ki”, s ezeket a vektorokat egy új “adatmátrixba” egyesítve hajtod végre az ordinációs értékelést (erre példa volt a “relative warp analysis”). Sokkal jobb persze a kifejezetten ilyen céllal kidolgozott nem-metrikus INDSCAL módszer (Carroll & Chang 1970), a faktor-analízis háromutas kiterjesztése (PARAFAC; Harshman 1970, Tucker 1972), a korreszpondencia-elemzés háromutas verziója (Carlier & Kroonenberg 1996). Természetesen a PCA-nak is megvan a háromutas megfelelõje (Kroonenberg 1983). Ha ezeket a cikkeket megkeresed, persze gondban lehetsz, mert a terminológia a legkevésbé sem biológiai. Ennek ellenére ajánlhatom ezeket a komolyabb utánaolvasás céljára. Nekem azonban már nincs helyem és idõm a probléma – és a lehetséges megoldások – további részletezésére.

8 Táblázatok átrendezése (Áttekinthetõség – elsõ látásra) Dendrogramok, kladogramok, háromszög-diagramok, gyökér-nélküli fa-gráfok, komponensek és egyéb tengelyek, és így tovább... Mind megannyi mesterséges, a megértést közvetve segítõ matematikai eszköz, amelyek értelmezése – akárhogy is vesszük – igényel némi ismeretet az elõállításuk módjáról, sokszor pedig még a szakembert is nehéz helyzetbe hozhatja. Megkönnyítené a dolgunkat, ha a végeredmény elsõ pillantásra mindenki számára felfogható módon érzékeltetné az adatszerkezetet. Mi lenne akkor, ha nem vezetnénk be semmiféle új matematikai objektumot, vagyis a végeredmény ugyanolyan típusú lenne, mint a kiindulás? Ilyen szempontból az adatmátrixok jöhetnek elsõsorban számításba, amelyek sorai és/vagy oszlopai valamilyen feltételrendszer szerint úgy rendezhetõk át, hogy ezután már – puszta ránézésre – olyasmit is észrevehetünk az adatok alapján, ami azelõtt rejtve volt elõttünk. Hasonlóan érdekes lehet a távolság- vagy hasonlóság-mátrixok átrendezése is, bár ezt már valamilyen más módszerrel együttesen szoktuk alkalmazni. Ebben a fejezetben olyan eljárásokat tekintünk át, amelyek – más program elõzetes futtatásával vagy anélkül – alkalmasak az ilyen intuitíve értelmes átrendezõ mûveletre. Nem ígérjük persze, hogy maga az átrendezés algoritmusa is mentes lesz a matematikától, de a végeredmény biztosan. Azért nem került ez a fejezet elõbbre, mert elég sok ponton jól jönnek majd az osztályozásról és az ordinációról szerzett eddigi ismereteink. Elõször csak a változók sorrendjének átrendezésérõl lesz szó, majd rátérünk olyan módszerek tárgyalására is, amelyek osztályozós, ill. ordinációs szempontokat érvényesítenek az elemzésben.

8.1 Változók rangsorolása fontosságuk alapján Az adatmátrixokban a változókat rendszerint teljesen véletlenszerû vagy önkényes sorrendben adjuk meg, pl. neveik szerinti abc felsorolásban. Mindezt nyugodtan megtehetjük, hiszen a többváltozós elemzés eredményének – ha minden egyéb azonos – teljesen függetlennek kell lennie ettõl a sorrendtõl (ha ez nem áll fenn, akkor nagy baj van, mert a módszer rosszul de-

280

8. fejezet

finiált, vagy a számítógépes programot írták meg hibásan). Felmerülhet az igény azonban, hogy a változók sorrendje ne akármilyen, hanem az adatszerkezetbeli fontosságuknak megfelelõ legyen. Legelöl szerepeljenek a meghatározó, döntõ fontosságú változók, majd lefelé haladva a táblázatban sorakozzanak az egyre kisebb jelentõségûek, vagy az elhanyagolhatóak. A kulcskérdés persze az, hogy mi is valójában a fontosság, mert ennek bizony – mint meglátjuk – többféle meghatározása lehetséges. A fontosság elõször is mérhetõ, objektív formában kifejezhetõ, s az, hogy milyen függvénnyel mérünk, megfelel majd a vele kapcsolatos elképzeléseinknek. Továbbá, a változók rangsorolása attól is függ, hogy ez minden egyéb elemzés nélkül, ill. azt megelõzve – mintegy elõzetes tájékozódásként – történik-e (a priori rangsorolás) vagy pedig valamely többváltozós adatelemzést követõen, utólagosan (a posteriori rangsorolás), tükrözendõ a változóknak az illetõ vizsgálatban betöltött “szerepét” és súlyát. Ez utóbbi szorosan kapcsolódik az eredmények értékelésének témaköréhez. Dale et al. (1986) egyébként a rangsorolások három fõ funkcióját emeli ki: •

A legfontosabb változók kiválasztása, mert a számítógépes program nem tudja kezelni az összes változót. Ez a probléma ma már egyre kevésbé súlyos, tekintve a számítógépek egyre növekvõ kapacitását.



Bonyolult, sokváltozós esetek leegyszerûsítése egyváltozósra (pl. a diszkriminancia függvények komplex sokváltozós elkülönítést tesznek lehetõvé, míg a dichotomikus határozókulcsokban egy-egy változó a lényeges minden lépésben).



Az irreleváns, a mintázat lényegi részeihez hozzá nem járuló változók kiszûrése. Ezek rendszerint “háttér-zajt” produkálnak csupán, így elhanyagolásuk révén az adatszerkezet lényeges jellemzõi világosabban kimutathatók.

Itt nem szerepel ugyan a táblázatok átrendezése, de ezt is a rangsorolás egyik fontos – bár nem minden esetben hangsúlyos – céljának tekinthetjük. 8.1.1 Elõzetes (a priori) rangsorolás A rangsor felállításához azt kell kimutatni, hogy melyik változónak a legnagyobb a részesedése az adatstruktúra meghatározásában. Ennek mérése attól függ elsõsorban, hogy milyen skálán vettük fel az adatokat. Intervallum- és arányskálán mért változóknál meghatározható a kovariancia vagy korrelációs, esetleg a keresztszorzat mátrix (3.68-70 formulák). Prezencia/abszencia, vagyis bináris adatok esetében emellett információelméleti mérõszámok és a χ statisztika jönnek szóba elsõsorban, és a nominális skála esetén is ezek jelentik a megoldást. Ezen kívül még egy választás elé kerülünk: vagy az eliminációs vagy pedig az egyszerû rangsorolásos technikát választjuk. Eliminációs módszer. A sorrend felállítása itt több lépésben történik, de legfeljebb annyiban, ahány változónk van. Elõször kiválasztjuk a legfontosabbat, majd ennek részesedését kivonjuk, elimináljuk az adatokból (Orlóci 1973, 1978). Így az adatstruktúrának a most kiválasztott változótól – valamilyen kritérium szerint – független összetevõi maradnak csak meg. Az elimináció után megkeressük a második legfontosabb változót, és így tovább. Mindezt addig folytatjuk, amíg a maradvány (reziduális) 0-ra nem csökken. Ezt biztosan elérjük az utolsó változónál, bár az is lehetséges, hogy a már rangsorolt változók jóval elõbb elérik a 100 %-os

Táblázatok átrendezése

281

részesedés szintjét, s a megmaradt változókra már semmi sem jut: közöttük további sorrendet nem is lehet felállítani. Az eliminációs technikát elõször az intervallum skálán mért adatokra, az Snxn = {sjk} keresztszorzat, kovariancia vagy korrelációs mátrix elemzésével mutatjuk be. Mint látjuk, itt valójában a nyers, vagy a centrált, vagy pedig a standardizált adatok négyzetösszegébõl való részesedés a rangsorolás alapja. A lépések a következõk: 1. A kezdõ sorszám r=1. Kiszámítandó a tr{S} mennyiség, amely a teljes négyzetösszeg (keresztszorzat esetén) vagy a variancia (a centrált és standardizált esetben). 2. Minden j oszlopra elõállítjuk az elemek négyzetösszegét, s ezt osztjuk az sjj értékével. Az r sorszámot a legnagyobb eredményt adó változó kapja. Formálisan: megkeresendõ az a változó, amelyre a n

g j = ∑ s 2jk / s jj

(8.1)

k =1

mennyiség maximális. Jelöljük ezt a változót h-val. Ennek relatív fontossága százalékban 100 × gh/tr{S}. 3. A h változó hatását most kivonjuk S-bõl. A mátrix egy eleme – beleértve az átló elemeit is – ekkor a következõképpen számítandó át:

s jk = s jk −

s jh skh shh

(8.2)

Ezek után a mátrix h-adik sorában és oszlopában minden érték 0 lesz, a többi pedig olyan arányban csökken, amennyire az illetõ változó “kovariál” h-val. 4. r értékét 1-gyel megnöveljük. Ha még van nem zérus érték a mátrixban, akkor visszatérünk a 2. lépéshez. Ellenkezõ esetben a rangsorolás befejezõdött.

Ezzel kiszûrtük a teljes négyzetösszeg (vagy variancia) megmagyarázásához szükséges minimális számú eredeti változót. A procedúra megértését geometriai illusztráció segítheti elõ, amint a PCA esetében. A változókat egy m-dimenziós tér pontjaiként kell elképzelnünk, az s értéke ekkor a j pontra mutató vektor négyzete (önmagával vett skaláris szorzata, C függelék), tr{S} pedig az összes vektor hosszának a négyzetösszege. Minden egyes változót sorra veszünk úgy, hogy a vektort tengelyként fogjuk fel. Mindegyikre létezik egy rá merõleges hipersík, amelyre a többi változó vektorai rávetíthetõk. A levetített hosszak és az eredeti hosszak különbségei a 8.1 képlet számlálójában szereplõ tagok. A legfontosabb változó tehát az lesz, amelyik saját magával együtt (hiszen a levetített saját-rész 0 hosszúságú) a legnagyobb négyzetösszeg csökkenést eredményezi. A 8.1a ábra ezt az m=n=2 esetre mutatja be. A 8.1b ábra érzékelteti, hogy ha a változók teljesen korrelálnak (a vektorok egy egyenesen vannak), akkor egyikük “felesleges”. Amikor a változók eleve ortogonálisak, akkor – az elõzõ szituáció ellentéteként – a két változó nem magyaráz semmit egymásból (8.1c ábra). A legfontosabb változó kiválasztása után a dimenzionalitás eggyel csökken, és a kapott altérben új változót keresünk. jj

282

8. fejezet

              +   &  -  

    aC 0     " " (          !        0D    # b: 0       " " (   ' #  c:         8.1 ábra.

Mindebbõl látszik, hogy a módszer alapja a négyzetösszeg ortogonális összetevõk szerinti felbontása. A felbontás azonban nem mesterséges változók (komponensek) szerint történik, így a sorba rendezett változók kumulatív %-os részesedése mindig alatta marad az ugyanolyan számú sorba rendezett fõkomponens %-os részesedésének. (Éppen elérné azt, ha az eredeti változók egybeesnének a komponensekkel, amire gyakorlatilag nincs esély valós adatmátrixok esetében.) Az eredeti változók hallatlan elõnye a komponensekkel szemben azonban az, hogy “ismerjük” õket, közvetlenül értelmezhetõk.

$      - &      #             ,- & !  4   & ,# !   "  3    3  &&     -.. 5'      #         6   % (         &(      & ,-  "   #  (  &&   ( &   #      -,#.  (    789 8 :.0.#.  ; ; ;<  =>-?#.    &&"   ' #    &   !  &     #    irányultság#  (     &  + %8 @A+'  &"       =-#> 5'    #   &&#  &  (  &             ,-7#        B         (    # !    '    (  & 

  &  ;     ,-% 3    3        #   "#     !      & &    &&  #   ""   &  Mikor érdemes az eliminációs rangsorolást alkalmazni? Nos, minden olyan esetben, amelyben túl sok változónk van és az alkalmazandó számítógépes módszer •

csak jóval kevesebb változóval tud dolgozni, mint amennyi az adatokban szerepel és



olyan alapelven próbálja meg a dimenzionáltság csökkentését, amelyet maga a rangsorolásos technika is alkalmaz (kompatibilitás).

Táblázatok átrendezése

283

 -    & (          ' "    -.. 5      (     & &  4&&   !  &&   8.1 táblázat.

)

Keresztszorzat

Rangszám 1 2 3 4 5 6 7 8

*

1 2 3 4 5 6 7

+

1 2 3 4 5 6 7

Kovariancia

Korreláció

Változó CAR HUM SES LEU BRO ERE CHR GRY FUM PRO SCA CAN CAM SIB SES SAD Total: SES SAD BRO ERE SES LEU CHR GRY FES PAL SCA CAN KOE CRI Total: CAR LIP FUM PRO CHR GRY SES SAD SES LEU BRO ERE FES PAL Total:

Specifikus rész Relatív fontosság 5297.278 41.935 3629.493 28.733 2656.635 21.031 549.148 4.347 284.417 2.252 123.509 0.978 50.065 0.396 41.487 0.328 12632.000 100.000 651.905 53.642 318.132 26.178 161.852 13.318 59.445 4.891 18.822 1.549 4.483 0.369 0.647 0.053 1215.286 100.000 4.061 33.840 2.372 19.763 1.961 16.345 1.576 13.131 0.951 7.925 0.882 7.346 0.198 1.650 12.000 100.000

Kumulatív % 41.935 70.668 91.699 96.046 98.298 99.275 99.672 100.000 53.642 79.820 93.138 98.029 99.578 99.947 100.000 33.840 53.603 69.949 83.080 91.004 98.350 100.000

A rangsorolást követõen az adatmátrix mérete erõteljesen redukálható anélkül, hogy a végeredmény jelentõsen megváltozna. A centrált PCA például a rangsorban elsõ három faj alapján (93 %, 8.1B táblázat) gyakorlatilag ugyanolyan eredményt ad az elsõ két komponensre, mint amikor az összes faj benne van az elemzésben (ki lehet próbálni!). Nincs értelme azonban adott rangsort alapul venni a “felesleges” változók kiszûrésében, ha az eliminációs technika logikailag nem kompatibilis a módszerrel, mint az osztályozások esetében. Ekkor az egyszerû rangsorolásos technikák közül válasszunk. Az elimináció, bár táblázatok átrendezésére elvileg alkalmas lenne, mégsem jön számításba ilyen szempontból (egyetlen kivételként e fejezetben), mert a változók elhagyása miatt a táblázat nem igazán informatív.

$  E &   & # 9 ->F?     #        '        (  :--G (           #    &  C      (     &&     (  &&         #   &&  (      && 

     "  (  &&  #        (   1("2#  ! &&     3        3   1  2       #     6  !  !    (  &"!   "  &&         

284

8. fejezet

  (    0n     & χ   !   H & ->F. Egyszerû rangsorolás. A numerikus osztályozásban, akár hierarchikus, akár nem-hierarchikus, az azonos módon “viselkedõ” változók erõsítik egymást, és ha sok változó ugyanazt “mondja”, akkor az osztályozás is általánosabb érvényû lesz. Nem volna értelme tehát az elsõ változó kiszûrése után a vele erõsen korreláló ill. asszociálódó változókat idõ elõtt kiiktatni. Más típusú rangsorra van itt szükség, ami a változó abszolút részesedését mutatja. Miután nem ortogonális felbontást végzünk, az összes változó rangsorolására is lehetõség nyílik, és a rangsor szerint átrendezett adattáblázat is informatív lesz. Elõször a változó varianciájára gondolhatunk, mondván, hogy a kis varianciájú változók valószínûleg sokkal kevésbé értékesek az osztályok elkülönítésében, mint a nagy varianciát felmutató változók (más kérdés, hogy utólag mégis interpretatívak lehetnek, de errõl már szóltunk, vö. 5.5.3 rész). Ezt a típusú rangsorolást – tudatosan vagy kevésbé tudatosan – igen sokan használják szerte a világon, amikor pl. feldolgozhatatlanul terjedelmes cönológiai táblázataikból a ritka fajokat egyszerûen elhagyják. Szóba jöhet a keresztszorzat, a kovariancia és a korreláció is – de elimináció nélkül. Ez azt jelenti, hogy az eliminációs algoritmus 2. lépésében kapott értékek alapján végzünk egyszerû rangsorolást (Podani 1994). Ez – ha visszagondolunk a 8.1 ábra értelmezésére – végül is a változók fontosságát attól teszi függõvé, hogy saját irányultságukban mennyire képviselik a többieket. Azaz mennyire “reprezentatív” az egész adatmátrixot tekintve a változó vektora az m-dimenziós térben. Az egyéni módon viselkedõ vagy csak sztochasztikus zajt okozó változók ebben a rangsorban bizonyosan hátulra kerülnek. (Az egyes változókra kapott fontossági értékek formailag összegezhetõk ugyan, s így százalékos “hozzájárulás” is meghatározható, de ez csak arra alkalmas, hogy a változók egymáshoz viszonyított relatív fontosságát megmutassuk.)

I     - & (      !  ,0 &   "      &     #   &&    '          3  %8 @A+    3   &              !  

&  " (  (                    && #  ,- & &            & #    & 

  "         '                    &&    ! & #        !    J   &   !  #        C SES CAR FES SES BRO CAR CAM CHR FUM SCA CEN KOE

SAD HUM PAL LEU ERE LIP SIB GRY PRO CAN SAD CRI

0 1 20 25 5 2 0 30 3 1 1 5

0 0 11 15 7 0 1 8 11 10 1 1

0 0 5 0 18 1 0 5 7 0 1 2

0 0 15 8 0 1 0 0 5 0 4 1

0 0 25 25 1 3 0 4 7 0 1 1

0 0 4 1 0 1 0 0 12 0 2 0

4 1 6 1 50 0 2 0 3 2 3 2

70 4 2 0 11 0 1 0 2 8 3 1

   " &       &  "   (" 1(" 2     " (    &  && 1 2'   !  K 

Táblázatok átrendezése

285

8.2 táblázat.  -    & (         



  " ( ' ! + $ & # ,  "

) 5 - .) )

) *)  / 0 1) 2*

 3 1 2 . .)  4   )3 5  *42  4-

  



+,'%!, "&,%"& #%+# ,'%" +#%' +%"+ (%#" "%"+ %#" %'" %' ,%!$



'#%$'   "(%,+ ) 5 #%&' 1) 2* &%!+ ) *) !%+& .)  4 %((  4%' - . ) ) ,%& )3 5 ,%!  3 ,%  *42 ,%,#  / 0 ,%,' 1 2 .

  

!"#$%" !""% (&',%& ($"(%, (+$(%( (+$(% (+"+% (',$% (,"'%" "#+'%! "$#+%$ "(%(

"% %# &%& &%! &%' &%' &%( $%& +%# +%& +%' !%(



) 5   1) 2*

) *) - .) )  *42  4 / 0 1 2 .

 3 )3 5 .)  4

   

+!%# !#'%# ($'%" (+(%$ (""%& "#$%! "&#%" ""$%+ ",$%$ ",,%+ +$%$ '&%(



+%#  *42 !%' ) *) #%$ 1) 2* #%'  4&%(   $%$ ) 5 $%!  / 0 !%# .)  4 !%' - . ) ) !%" )3 5 '%( 1 2 . (%&  3

 '%, ,%& (%& ,%( (%& ,%" (%( &%& (%" &%$ (%" &%$ (% &%! "%+ $%" "%! +%& "%! +%& "%' +%' "%( +%"

  &  

   & #         

  '   @    &  ("      & #  (      '       (  &&  &              4!           &&  többszörös korrelációja        3 F0  3   #    & n–-# &       &&            8( ->FF  9 ->F, '         # ! #    !  &&#  &&  <  L M  ->F,    &       ' &      %9    & #   '      !               ::? (   & " 

    &     1   2                      "#     &   (  &&     #     6&        #  ! && 7           "&  χ ( '   (      #   !   (     G:0   +   ( &        (( '   6 #  

         GF (    '

&&      "  &&  &&          '  &   G, (     && (" &  '  # a priori    8.1.2 Utólagos (a posteriori) rangsorolás A változók fontosságának meghatározása egy eredmény kialakulásában szinte minden többváltozós elemzés szerves része kellene, hogy legyen, melyet szinte természetes módon követhet az adatmátrix átrendezése. Errõl már szóltunk egyszer-kétszer az elõzõekben is, pl. a hierarchikus osztályozás értékelésével kapcsolatban (5.3.3 rész). Most röviden felvetünk néhány rangsorolási lehetõséget, a többváltozós módszerek fõbb csoportjainak megfelelõen.

286

8. fejezet

Minden esetben lényeges, hogy a rangsorolás mérõszáma logikailag kompatibilis legyen a többváltozós elemzés során alkalmazott távolság- s egyéb függvényekkel. Változók szerepe a partíciókban. A k-közép módszer “jósági” kritériumában (J, 4.1 függvény) a változók összhatása additív (i szerinti összegzés!). A J felbontása változók szerinti összetevõkre ennek alapján nem okozhat nehézséget, majd az összetevõk nagyság szerint emelkedõ sorrendje megadja a változók hozzájárulásának “erõsorrendjét”. Az ideális, a partíciót tökéletesen megmagyarázó változó 0-val járul a J értékéhez (ami azt jelenti, hogy a változó minden egyes osztályon belül konstans értéket vesz fel), míg az osztályozást nem támogató változók hozzájárulása a legnagyobb. Az index-független particionáló módszer esetében már jóval rejtettebb a változók szerepe. Elõször ugyanis különbözõségeket számolunk, majd ezeknek képezzük az átlagait, s emiatt viszonylag nehéz követni a változók hatását. Az 5.3.3 rész végén leírt általános értékelõ módszert azonban éppen az ilyen esetekre dolgoztuk ki. A Ψik mérõszám azt fejezi ki, hogy k csoport esetén milyen mértékben járul az i változó az osztályokon belüli távolságokhoz (vagy különbözõségekhez) az osztályközötti hozzájárulásokhoz képest. (Ezek kiszámítását egyes távolság- és különbözõség-indexekre l. Podani 1997). A Ψ függvény felhasználásával a változók – a particionálásnál választott különbözõségi indexszel összhangban – sorba rendezhetõk. Lágy osztályozásoknál a változók hozzájárulásai a “fuzzy” eltérésnégyzet-összeghez a 4.6 és a 4.7 összefüggések segítségével számolhatók ki, majd ezután rangsorolhatók – a k-közép módszerhez hasonlóan – emelkedõ sorrendben.

  Iris (   &  f      -#0G'    => &          "    C 7N;O -.#F5# 4N;O ->#F 5# 4N@ ::#0 5  7N@ :?#= 5      && "#      '  #       &    f/0#G  &      # &  '  #   "       '  &&       P&&  "   (      "           &         .    # (  F-        Q  ->F>   '            N  L M  ->FF      && " &        &      (!       &    #          %   6 ::F     '  !    Hierarchikus osztályozások. A hierarchikus osztályozások partíciók sorozataként foghatók fel, így a változók szerepe minden egyes hierarchikus szintre külön-külön értékelhetõ a már említett módszerek valamelyikével (tipikus példa erre Lance & Williams (1977) módszere). Egy változó, amely kiemelkedõ az objektumok – mondjuk – két osztályra történõ felosztásában, már erõteljesen ellentmondhat a három vagy több osztályba csoportosításnak, amelyet persze más változók viszont támogathatnak. Emiatt nincs különösebb értelme olyan módszert keresni, amely a változók globális, a teljes hierarchiát meghatározó szerepét rangsorolná. Kladogramok. A változók fontossága egy kladisztikai hipotézisben a konzisztencia index (6.9) és az összetartási index (6.11) felhasználásával értékelhetõ. Az adott kladogramot egyértelmûen támogató karakterek az 1-es értéket veszik fel, s természetszerûleg ezek kerülhetnek az átrendezett adattáblázat elsõ soraiba, majd ezeket követik az egyre csökkenõ értéket adó tulajdonságok. Az egyezések miatt a sorbarendezés sok esetben csak részleges lehet.

Táblázatok átrendezése

287

A változók súlya az ordinációban. A rangsorolás alapja ekkor sokféleképpen megválasztható, és természetesen attól függ elsõsorban, hogy milyen ordinációs módszert alkalmaztunk. Mivel az ordinációt rendszerint két dimenzióban ábrázoljuk, számunkra többnyire az az érdekes, hogy az 1. és 2. tengelyen kapott elrendezést mely változók értelmezik a legjobban. A fõkomponens elemzésben a rangsorolás alapja az lehet, hogy a változók saját varianciájából hány százalékot fed le a két kiválasztott komponens, tehát a 7.12 formulát kell alkalmaznunk.

 F- &  & #  "  & "        #  F0 &       && ; ; ;< >> 5# 789 8 ,F#F 5# %8 @A+ ,?#, 5# ; ; N A ?:#, 5# H ; $N ?0#G 5# %+ ;B7 ?-#? 5#  %8 NB$ G=#G 5 1  2 #  & 49 %8B ?#0 5          a priori           ,0 &   49 %8B       &         A standardizált PCA esetében a változók rangsorolása hasonlóan történik. Egy változó és a két kiválasztott komponens közötti korrelációk négyzetösszege pontosan megadja a megmagyarázás mértékét (emlékeztetõül: egy változónak az összes komponenssel vett korrelációi 1-es négyzetösszeget adnak). A kanonikus korreláció elemzésben a 7.26-27 függvények alkalmasak a két változócsoport tagjainak sorbarendezésére, külön-külön természetesen. A korreszpondencia-elemzésben a változók pozícióinak az origótól vett távolsága ad információt fontosságukról. Minél nagyobb ez a távolság, annál lényegesebb az illetõ változó szerepe az objektumok elrendezõdésében. Csakúgy mint a standardizált PCA-nál, az éppen vizsgált két komponensen lényegtelen változók az origó közelébe kerülnek. A többdimenziós skálázásban szóba se jön a változók értékelése, hiszen ezekre nincs is közvetlenül szükség. A diszkriminancia-elemzésben pedig a változók kommunalitása (7.79 formula) lehet a sorbarendezés alapja, amint ezt a 7.2 táblázat már példázta is. Átrendezett táblázatok. Mindeddig visszafelé lapoztunk a könyvben, most pedig egy kicsit elõrefelé tekintünk. Az adattáblázatok blokkos (8.2.3) vagy átlós (8.3) szerkezetének optimalizálását követõen megállapítható az egyes változók (és az objektumok!) relatív hozzájárulása az eredményhez1. Blokk-osztályozásoknál a módszer a jackknife eljárás alapelvét követi: a blokkok “élességét” mérõ függvényt meghatározzuk úgy is, hogy az adott változót kihagyjuk, s az ilymódon redukált mátrixra valamint a teljes mátrixra kapott két érték különbségét kiszámítjuk. A χ2 esetében ez a különbség negatív és pozitív is lehet: negatív irányú eltérés (a χ2 csökkenése a változó kihagyására) azt jelenti, hogy az illetõ változó jelenléte elõsegíti a blokkosodást, míg a pozitív változás annak a jele, hogy a változó zavarja a blokk-szerkezetet, és eltávolítása az eredetinél erõsebben strukturált adatmátrixot eredményezne. A rangsor tehát a legnegatívabb eltérést okozó változóval kezdõdik s a legnagyobb különbséget adókkal záródik. Ha a blokk-szerkezet mérõszáma az entrópia vagy az eltérésnégyzet-összeg, akkor a változás legfeljebb csak csökkenés lehet. Itt azok a változók a legjobbak, amelyek kihagyása kis csökkenést eredményezne, míg a viszonylag nagy csökkenést adó változók a blokk struktúrának leginkább ellentmondóak. Az átlós szerkezet optimalizálásában a változók hozzájárulása additív, s a 8.10 függvény szerint könnyen megkapható. Minél 1

Természetesen – az eddigiekkel ellentétben – ebben az esetben nem egy újabb táblázat szerkesztése az rangsorolás célja, hanem a blokkok értelmezésének a megkönnyítése.

posteriori

a

288

8. fejezet

nagyobb a hozzájárulás mértéke, annál kevésbé egyértelmû a változó helyzete az átrendezett mátrixban. Mindezekre példákat is láthatunk majd az alábbiakban.

8.2 Blokk-osztályozás A változók rangsorolása természetesen csak részlegesen alkalmas – ha egyáltalán alkalmas – táblázataink átrendezésére, hiszen nem feledkezhetünk meg az objektumokról sem. Amennyiben mind a változók, mind pedig az objektumok értelmes módon csoportokba oszthatók, azaz osztályozhatók, akkor a táblázatos átrendezésnek célszerûen tükröznie kell e csoportokat. Ennek az a hallatlan nagy interpretatív elõnye, hogy a változók osztályai jól értelmezhetik az objektumok osztályait és viszont. A sorok és az oszlopok szerinti klasszifikáció ugyanis a táblázatot téglalap alakú részmátrixokra, ún. blokkokra darabolja – minden egyes blokk mutatva az adott változócsoport és objektum-osztály kölcsönös viszonyát. Bináris adatok esetében például ez a kapcsolat akkor a legegyértelmûbb, ha bizonyos blokkok csupa 1-esbõl, a többiek pedig 0-ból állanak. A blokkok szerinti strukturáltság azonban nemigen látszik egy szabadon felírt adatmátrixban; az ilyen típusú adatszerkezet feltárása a blokk-osztályozás feladata. Az alapproblémát a 8.2 ábra egyszerû mátrixa illusztrálja. Adatmátrixok blokkos háttérszerkezetének keresése a tudomány legkülönfélébb területein merülhet fel. A biológiában például nagyméretû növénycönológiai tabellák megfelelõ átrendezése a kezdetektõl számítva egyik fõ célja a Zürich-Montpellier-i iskola követõinek (vö. Braun-Blanquet 1965, Mueller-Dombois & Ellenberg 1974). Ez, számítógép és megfelelõ módszerek hiányában, manuálisan igen fáradtságos munka volt, bizonytalan értékû végeredménnyel. Kézenfekvõ megoldásként kínálkozik az, hogy végezzük el a változók osztályozását és az objektumok osztályozását ugyanabból az adatmátrixból, ugyanazzal a módszerrel, majd az átrendezést a kapott csoportok szerint végezzük el. Az elsõ ilyen vizsgálat Williams & Lambert (1961a,b) nevéhez fûzõdik. Az attribútum dualitás elvének megfelelõen az asszociáltság analízis módszerét (5.3.2 rész) alkalmazták a cönológiai kvadrátokra (normál elemzés) a fajok χ -összegzése szerint, majd a fajokra (inverz elemzés) a kvadrátok χ2 összegeit figyelembe véve. A dendrogramokat megfelelõ helyeken elmetszve kapott csoportok szerint rendezték át az adattáblázatot. Módszerük “nodal analysis” néven vált ismertté, utalva arra, hogy az átren-

a ..1..11.. .1..1...1 1..1...1. .1..1...1 ..1..11.. 1..1...1. ..1..11.. .1..1...1 1..1...1.

b 111...... 111...... 111...... ...111... ...111... ...111... ......111 ......111 ......111

8.2 ábra.        6 a ( "

  

    "    b#   (!  &'        .'    '  

Táblázatok átrendezése

289 8.3 ábra.  - & &'

     &'        euklidészi távolság R teljes lánc       "   &        !   6     '    ( #  G0   & '        részben   #     &  '    

dezés után a blokkok jól mutatják a faj-kvadrát egybeeséseket, csomósodásokat . A divizív módszer helyett természetesen bármilyen más hierarchikus és nem-hierarchikus osztályozás is elképzelhetõ, amely mindkét irányban alkalmas a táblázat elemeinek osztályozására. A két osztályozás “egymásra vetítésébõl” pedig kialakítható az átrendezett mátrix, abban a reményben, hogy a változók és objektumok csoportjainak kölcsönössége maximálisan kirajzolódik (8.3 ábra). Ez azonban nem mindig van így. A két osztályozás – eltekintve persze attól, hogy ugyanabból az adatmátrixból történik – némileg “független” egymástól. Az oszlopok osztályozása során nem vesszük figyelembe, hogy a változók is csoportosulhatnak, és fordítva: a változók osztályozásából is hiányzik az objektumcsoportok osztályainak ismerete. A változók és az objektumok közötti “interakció” akkor mutatkozik meg igazán a táblázatban, ha a blokkokat közvetlenül állítjuk elõ valamilyen keresõ vagy optimalizációs technikával (Gordon 1981). Erre a célra új, speciális módszerekre van szükség, így ezt a részt akár a klasszifikációs fejezetek kései folytatásának is tekinthetjük. A blokk-osztályozás módszereit négy fõ csoportra oszthatjuk aszerint, hogy milyen megszorításokat alkalmazunk a sorok ill. az oszlopok klasszifikációjában: •

A legegyszerûbb esetben voltaképpen nincs semmiféle sor- vagy oszlop szerinti osztályozás, az átrendezés feladata a táblázaton belüli maximálisan homogén blokkok, adatcsoportosulások kikeresése (8.4 a ábra).



A részleges blokk-osztályozásban a sorok p az oszlopok pedig q osztályba tartoznak, de egy sor szerinti blokk egyidejûleg kettõ vagy több oszlop szerinti osztályt is jellemezhet és fordítva (8.4b ábra).

   !"#$%     & '    &  &(  &  

290

8. fejezet

a

b

c

8.4 ábra.  &'    !   a: +!    &# bC  &!  cC  '  !#     (p฀ q# dC &' p=q# J   & &" '    



Ha az átrendezett mátrixban bármely érték sor szerinti besorolása egyértelmûen megadja az oszlop szerinti osztályba tartozást és viszont, akkor teljes blokkosításról, vagy kereszt-partícióról beszélhetünk (8.4c ábra). A p ≠ q itt megengedett,



Ha viszont kikötjük a p=q feltételt, és a sorok ill. oszlopok osztályai között egyegyértelmû megfeleltetést keresünk, akkor a 8.3 rész felé átmenetet mutató problémáról, a blokk-szeriálásról (8.4d ábra) van szó. Ekkor figyelmünket az átlós blokkokra összpontosítjuk, az átlón kívülre esõket “egy kalap alá” véve.

8.2.1 Blokkok keresése megszorítások nélkül Ilyen típusú módszereket elsõsorban Hartigan (1975) könyvében találhatunk. Egyik módszere, a “two-way joining” v. kétutas összevonó algoritmus bináris adatokra való. Az egyezési koefficiens (3.6) komplementjét alkalmazza távolságfüggvényként, s az elemzés minden lépésében az egymáshoz legközelebbi két sort vagy oszlopot vonja össze, azaz helyezi el egymás mellé a mátrixban. A maximálisan homogén blokkok száma az elemzés közben alakul ki. Egy, a blokkon belüli homogenitást kontrolláló küszöbérték bevezetésével a módszer intervallumskálán mért változókra is alkalmassá tehetõ.

 - & &              ,G &   

 &  ! # 

     #    &                &   #   '             ,: &      "  (  "      #  &&   6     

                   @   ->,-               '  #   " leader)     =-=  !     & "  #   "    &    && 

 && "  "   -   -        & (     #     @   &       '  #    '      &  #       &&  & 

Táblázatok átrendezése

291 8.5 ábra.  - & & 

            &&    "         ! 

   E &    7  L H  ->>=    &    '    C &     #  & &      && ε  & 

  (!        (    '    !  &        &   &    &! #   &        6&  " , &    ->>G     '      !   '   &    1centroid effect method2     &      &'  & "      && #      ' '     3    GG     "    '     &   & ( !      "  #     1"   2#          & 8.2.2 Az adatmátrix részleges blokkosítása Gordon (1981) több, részlegesen particionáló módszert is említ, külön kiemelve a Hartigan (1972) -féle divizív eljárást. Ez intervallum/arány-skálán felvett adatokra alkalmas, ugyanis a blokkokon belüli eltérésnégyzet-összeget minimalizálja. A kapott blokkokon belül az értékek tehát a lehetõ leghasonlóbbak egymáshoz. Kezdetben nincs semmiféle kikötés a blokkok számára vonatkozóan. Jelölje zij annak a blokknak az átlagértékét, amelybe xij tartozik, s ekkor a feladat a következõ mennyiség minimalizálása:

J=

n

m

∑ ∑(x

ij

− zij )

(8.3)

i =1 j =1

A minimumot Hartigan (1972) egy hierarchikus stratégiával próbálja meg elérni. Az adatmátrixot, késõbb pedig az egyes blokkokat szukcesszíve osztja két részre az oszlopok v. a sorok szerint, attól függõen, hogy melyik adja a maximális csökkenést J értékében. A sorok és oszlopok sorrendisége azonban nagymértékben befolyásolja az eredményt, s nem világos, hogy a módszer mennyire képes a permutációkat is figyelembe venni. Ez a divizív stratégia tehát csak akkor használható, ha a sorrendet valamilyen más módszerrel egyértelmûen meghatároztuk ill. rögzítettük. Dale & Anderson (1973) monotetikus divíziókkal éri el az adattáblázat hasonló jellegû felosztását.

292

8. fejezet

8.2.3 Kereszt-partíciók Ebben az esetben a feladat a változók p csoportba, az objektumok pedig q számú csoportba történõ felosztása olymódon, hogy a kapott kereszt-partíció, azaz a mátrix p×q darab blokkja kielégítsen valamilyen optimalitási feltételt. Podani & Feoli (1991) három ilyen “blokkélesség” kritériumot emel ki a lehetõségek tárházából: •

a blokkok eltérésnégyzet-összege intervallum és arányskála esetén (8.3 függvény, jele legyen most J );



a blokkokon belüli súlyozott entrópiaösszeg nominális karakterekre:

F ∑ ∑ GH k k log k k − ∑ f p

H( p , q ) =

q

s

i

i =1 j =1

j

i

j

h =1

hij

log fhij

I JK

(8.4)

amelyben k az i-edik változócsoport elemeinek száma, k a j objektumcsoport elemszáma, s a karakterállapotok száma (s=2, 3, ....) és f a h-adik karakterállapot gyakorisága az ij blokkban; •

a blokkokat egy p×q méretû kontingenciatáblázat celláinak tekintjük, az ij blokkon belüli értékek összegét pedig az illetõ cellához tartozó gyakoriságnak (f). Ekkor alkalmazható a 3.36 függvény, amit most jelöljünk χ !%-val. A formula nyilvánvalóan megfelel bináris adatok feldolgozására, de formálisan akkor is alkalmazható, ha az adatmátrix elemei gyakoriságértékek (pl. egyedszámok).

Feladatunk az elsõ két kritérium minimalizálása vagy a harmadik maximalizálása, mert így kapunk maximálisan homogén blokkokat. Sejthetõ, hogy egy nagyon nehéz problémával állunk szemben, hiszen adott n, m, p és q mellett a lehetséges táblázat-átrendezések száma a Stirling formulával (4.17) számítva S S , ami rendszerint csillagászati szám (a blokkokon belüli sorrend itt érdektelen). A biztosan az abszolút optimumot adó algoritmus hiányában tehát kénytelenek vagyunk valamilyen más keresõ technikát alkalmazni. Podani & Feoli (1991) heurisztikus eljárása egy iteratív procedúra, amely az adatmátrixban azt a sort vagy oszlopot helyezi át minden lépésben egy másik csoportba, amelyik a legnagyobb javulást eredményezi bármelyik kritériumot alkalmazzuk is. Az iteráció akkor ér véget, ha már nincs olyan sor és oszlop, amelynek áthelyezése tovább javíthatná az eredményt. A J  kritérium esetében ez a módszer voltaképpen egy kétutas k-közép osztályozás. Iteratív módszerrõl lévén szó, a végeredményt nagymértékben befolyásolja a kiindulás, és – az adatszerkezettõl függõen – az iterációk könnyen konvergálhatnak valamilyen szuboptimális konfigurációba. Nincs tehát garancia arra, hogy akár több száz, különbözõ random kiindulásból végrehajtott elemzés meg fogja találni a legjobb megoldást. Bizonyos azonban, hogy ezek legjobbika közel lehet az abszolút optimumhoz. A módszer relatív számításigényessége a mai számítógép-korban már nem jelenthet komoly problémát még nagyméretû mátrixok esetében sem.  &       "       &#     '    &  p=q/0       -   6 &      & -..'-..  #     &            ,? &       &         "C

Táblázatok átrendezése

293

 χ               χ =-#FG#   '      # !  6 χ ' -.#-    " =0'    ,? &         &" "(    J "      &&    Jmax/-0#FG  #     -..  &   S    (    &    # (   &        ,?& & # Hmax/00:#GF# ?0' B      &    00=#F?  00G#G=   &          &     &&  N    #       (         #    #        # ! 1 &&2    

     !  a &  .'&  & #   b &  #      -'&  &         & #  &&    "  T  #         &&         &&  

       !      & (        !   ,-0 &         '   &&  #       (   C

1 2 3 4 5 6 7 8 9 10 11 12

SCA CAM CAR SES CAR CEN FES FUM SES CHR KOE BRO

CAN SIB HUM SAD LIP SAD PAL PRO LEU GRY CRI ERE

∆chi2 % -27,08 -20,31 -20,31 -13,54 -11,38 -2,88 -2,88 -2,88 -2,16 -1,44 1,55 6,42

1 2 3 4 5 6 7 8 9 10 11 12

FUM FES CEN SCA CAR CAM KOE SES SES BRO CAR CHR

PRO PAL SAD CAN HUM SIB CRI SAD LEU ERE LIP GRY

∆J% -2,52 -2,52 -2,52 -2,61 -5,88 -5,88 -7,28 -10,46 -12,04 -12,61 -18,49 -22,69

1 2 3 4 5 6 7 8 9 10 11 12

SES CAR CAM SCA CHR CAR BRO SES KOE FUM FES CEN

∆H% -5,83 -7,24 -7,24 -8,69 -9,31 -11,54 -12,17 -12,49 -13,01 -13,01 -13,01 -13,01

SAD HUM SIB CAN GRY LIP ERE LEU CRI PRO PAL SAD



    #        &    "    

# (  (    & 

   S  %8 NB$  " '      #        χ     A  (  & &   &    '  "   9  &!  (  & &&      @        & '     C

a

b

1 2 7 8

3 4 5 6

1 2 7 8

3 4 5 6

CAM CAR SCA SES

SIB HUM CAN SAD

. 1 1 .

1 . 1 .

1 1 1 1

1 1 1 1

. . . .

. . . .

. . . .

. . . .

CEN FES FUM KOE

SAD PAL PRO CRI

1 1 1 1

1 1 1 1

1 1 1 1

1 1 1 1

1 1 1 1

1 1 1 1

1 1 1 1

1 1 1 .

BRO CAR CEN CHR FES FUM KOE SES

ERE LIP SAD GRY PAL PRO CRI LEU

1 1 1 1 1 1 1 1

1 . 1 1 1 1 1 1

1 . 1 . 1 1 1 1

1 . 1 . 1 1 1 .

1 1 1 1 1 1 1 1

. 1 1 . 1 1 1 1

1 1 1 1 1 1 1 1

. 1 1 . 1 1 . .

BRO CAM CAR CAR CHR SCA SES SES

ERE SIB HUM LIP GRY CAN LEU SAD

1 . 1 1 1 1 1 .

1 1 . . 1 1 1 .

1 1 1 . . 1 1 1

1 1 1 . . 1 . 1

1 . . 1 1 . . .

. . . 1 . . 1 .

1 . . 1 1 . 1 .

. . . 1 . . 1 .

8.6 ábra.  - &   E &    (     &   χ  J    a  H b      p=q=0

294

8. fejezet

1 2 3 4 5 6 7 8

∆chi2 % -25,92 -23,08 -18,27 -15,90 -13,70 -11,42 6,00 11,72

8 7 5 3 4 6 2 1

1 2 3 4 5 6 7 8

5 3 4 1 7 2 6 8

∆J % -2,94 -7,19 -12,09 -13,40 -14,71 -17,65 -17,65 -20,26

1 2 3 4 5 6 7 8

4 6 3 5 2 8 1 7

∆H % -11,57 -11,57 -13,24 -14,94 -17,79 -17,79 -19,14 -19,14

B     &

 #   "   &   &   '   #     #    

Kötött blokk-osztályozás. Az osztályozásról és ordinációról szóló fejezetekben már tárgyaltunk néhány eljárást, amelyek az elemzés menetét bizonyos korlátok között tartják. A blokk osztályozásban ilyen korlátozás lehet az, ha az oszlop vagy a sorok szerinti partíciót nem engedjük megváltoztatni. Például adott a mintavételi helyek egy klasszifikációja (mondjuk sok egyéb osztályozás konszenzusaként, 9.4 alfejezet), és ehhez keressük a legoptimálisabb blokk-szerkezetet. Ekkor az elemzés során csak a sorok besorolása változhat. Fordított szituáció is elképzelhetõ, amikor a változók partícióját rögzítjük, és ehhez keressük a legjobb objektum-klasszifikációt (mondjuk egy határozókulcs készítésével kapcsolatosan). Koncentráció-elemzés. Prezencia/abszencia adatok blokk-osztályozását követõen lehetõségünk van a sorok és az oszlopok osztályai közötti kölcsönös megfeleltetés ordinációs elemzésére is (“analysis of concentration”, Feoli & Orlóci 1979). Ez voltaképpen az osztályok szimmetrikusan súlyozott korreszpondencia elemzése (7.3 alfejezet) a blokkokon belüli fij összegek alábbi átalakítása után: f.. fij

Fij =

nij p

q

f gh

∑∑ n g =1 h =1

(8.5)

gh

amelyben Fij az új érték, nij pedig az ij blokk mérete. Ilymódon a blokkok méretében mutatkozó különbségeket eltüntetjük, azaz minden blokk egyformán fontos lesz (Orlóci & Kenkel 1985). A lehetséges ordinációs tengelyek száma t=min{p–1, q–1}. Az átalakított blokkok alapján számolt χ (ami nem egyezik meg az iterációk során maximalizált értékkel) a következõképpen alkalmassá tehetõ az átrendezés relatív jóságának a mérésére:

RD =

χ2 tf..

(8.6)

(“relative divergence”). RD értéke 0-tól 1-ig terjed, jelezve a blokkok élességét a minimális ill. maximális határ között. Ennek segítségével p és q különbözõ értékeire végrehajtott mátrixátrendezések közül kiválaszthatjuk a legélesebb blokk-szerkezetet mutató eredményt. 8.2.4 Blokk-szeriálás Az elõzõ rész módszerei csak a blokkok belsõ homogenitását veszik tekintetbe, a sorok és oszlopok osztályainak táblázatbeli sorrendjét szabadon választjuk meg. A blokk-osztályozás

Táblázatok átrendezése

295

talán legspeciálisabb módszerei viszont arra törekszenek, hogy az átló mentén elhelyezkedõ blokkok és a többi közötti kontrasztot maximalizálják, s ezáltal minél egyértelmûbb megfeleltetést keressenek a változók és objektumok csoportjai között (8.2 és 8.4d ábra). Ekkor tehát, mint említettük, p=q. Míg a kereszt-particionálásnál minden blokkot egyformán fontosnak tekintünk, az átlós szerkezetre összpontosító blokk-szeriálás3 módszere (Marcotorchino 1991) az átlón kívülesõ blokkokat gyakorlatilag egyetlen egységként kezeli. Blokk-szeriálásra leginkább prezencia/abszencia adatok esetében merül fel az igény, hogy az objektumok csoportjait minél egyértelmûbben definiálhassuk a változók egy-egy csoportjával. Az X prezencia/abszencia adatmátrix blokk-szeriálása p csoport szerint (sorok egy csoportja Ak, az oszlopoké Bk) a Garcia - Proth (1985) féle kritérium maximalizálását jelenti: p

p

GPp =

∑ ∑ x +∑ ∑ (1 − x ij

i =1 i ∈Ak , j ∈Bk

ij

)

(8.7)

k =1 i ∉Ak , j ∉Bk

ami szavakban talán sokkal egyszerûbben kifejezhetõ, mint képletben: legyen minél több 1-es az átlós blokkokban, s minél kevesebb az átlón kívüliekben. Ideális esetben az átlós blokkok csupa 1-esbõl állanak, a többiek pedig 0-ból, ekkor GPp értéke nm. Vagyis, GPp/nm az átlós blokk-élesség egy relatív, a [0,1] intervallumba esõ mérõszáma lesz. Az index optimalizálásánál éppen olyan problémákba ütközünk, mint az elõzõekben, bár viszonylag kis n értékre (n!

?               ! $     % !     $  #    *$ -     &,  &   $ $ = .( 14# @ A * * * * * B $ )C! % )>!           ( I                  .    E $ %

      '   "  *        $



% 5   .  "

'      7 # 8 #        $ ( %    -   5    "      &  .  .          5    "$ =5 5"   D$*D$

     "  % )      )     .   )  &5  #   $ = .(

A 6,4

LM 03 73 8 = M 24 10 MM 6 2 N10 5

4 8 4 1 9 6

OP PP PQ

12 3 0 7 3 , ill. A ′ = 3 7 4 ,6 4 8 9 12 7 5 11

LM MM N

4 8 4 3

2 10 1 9

6 2 9 5

10 5 6 11

OP PP Q

$

)D!

6

%      )E    )   $ %        &'$ F'  5 "          '. &   )2!$

    F   )         )@)    )     $ ?" 5  .         ij

ji

" "$ 3  .  5  5"         "         "   &#

  . !$ F ij √ ji,   ?    '    ,   .  &,"    ,    !   $  2$+ !$

)

 *



 ! 

+   F        " .          , )      &  . "  ij

ji

#$

    % ) ,

n n .  &,"  ,    $ 1 )!     G)!   !(



 %

n

tr( A ) = ∑ aii .

)H!

i =1

Alapmûveletek mátrixokkal Az aritmetikából ismert mûveletek nemigen alkalmazhatók közvetlenül a mátrixszámításban, s vannak olyanok is, amelyek egyáltalán nem “mûködnek”. A mátrixmûveletek jelentõs része ezen túlmenõen csak akkor van definiálva, amikor a tényezõként szereplõ mátrixok teljesítenek bizonyos feltételeket, azaz konformábilisek egymással.

    /    5    ,

       & '. . .  !          $ I   )@*  ij ij   $

-



"

.   /   - & '.    

,       

    $ % 

+ @ ) J *    %  0       -  )     -   . 

. -$ ij

ij

ij

)K!   )     

358

C függelék

Két vektor skaláris szorzata: Azonos elemszámú sor- és oszlopvektorok skaláris szorzata az a szám,

amelyet a megfelelõ elemek szorzatainak összegeként állíthatunk elõ. Formálisan:

LM b OP MMb... PP = ∑ a b . MM ...b PP Nb Q 1

a'b = a1 , a2 , ..., ai , ..., an

2

n

i

i =1

(C10)

i i

n

Felíráskor a sorrend fontos, hiszen a fentitõl eltérõ sorrendben már nem skaláris szorzat, hanem a most következõ mûvelet adódik. Két vektor diadikus (mátrix-) szorzata: Egy oszlop- és egy sorvektor diadikus szorzata egy olyan C mátrix, melynek c eleme az oszlopvektor i-edik és a sorvektor j-edik elemének szorzataként kapható meg. Vagyis: ij

LM a OP Ma P ab' = M ... P b , MM a... PP Na Q 2

1

LM a b MMa b = MM a b MNa b

2 1

a1 b1 a2 b2

a1 b j a2 b j

i 1

ai b2

ai b j

n 1

an b2

an b j

1 1

1

b2 , ..., bi , ..., bn

i

n

OP PP . ab P PP ab Q a1 bm a2 bm

(C11)

i m

n m

Mint látható, ebben az esetben a két vektor nem feltétlenül azonos elemszámú (típusú). Ha n=m, akkor négyzetes mátrixot kapunk eredményül. Két mátrix szorzata: Két mátrixot csak abban az esetben tudunk egymással megszorozni, ha a baloldali mátrix oszlopainak a száma megegyezik a jobboldali mátrix sorainak a számával (ebben a sorrendben konformábilis mátrixok). Igy volt ez a vektorok kétféle összeszorzási mûveletében is. Ha az összeszorzandó mátrixok A és B , akkor a kapott C szorzatmátrix típusa n,p lesz. Mindezt a C1 ábra illusztrálja. A C mátrix c eleme az A mátrix iedik sorvektorának és a B mátrix j-edik oszlopvektorának a skaláris szorzataként számítható ki: n,m

m,p

ij

m

C = AB vagyis cij = ∑ aik bkj .

(C12)

k =1

C1 ábra. Mátrixok összeszorozhatóságának illusztrálása. Ha a téglalapok arányosak az összeszorzandó A és B mátrixok rendjével, akkor a bal felsõ vonalkázott terület négyzet alakú, a C szorzat pedig a jobb alsó téglalapnak felel meg. A c értéket az A mátrix i sorának és a B mátrix j oszlopának a skalárszorzata adja. ij

Amit célszerû tudni a mátrixokról

!#'

A fentiekbõl következik, hogy A és B csak akkor szorozhatók össze mindkét irányban, ha azonos típusúak. A mátrixszorzás viszont nem kommutatív mûvelet, vagyis általában AB √ BA. (Vannak olyan mátrixok is, amelyek szorzása kommutatív, pl. a diagonálmátrixok.) A szorzással kapcsolatos két fontos összefüggés - kommentár nélkül - a következõ: IA = AI = A ; (C13a) (AB)' = B'A'. (C13b) Ha például Xn,m egy adatmátrix n változóval és m objektummal, akkor a Cn,n=XX' mátrix a változók skalárszorzat mátrixa lesz. Centrált adatokból ugyanezt a mûveletet végrehajtva, majd az eredményt az 1/(m-1) skalárral szorozva, a variancia/kovariancia-mátrixot kapjuk. Több mátrix szorzata: Mátrixok egész sora is összeszorozható egymással, ha balról jobbra haladva minden mátrix-pár konformábilis egymással, pl. An,m Bm,p Cp,q. Mivel minden négyzetes mátrix konformábilis önmagával, a négyzetes mátrixok hatványozhatók is, vagyis kiszámítható az Ak mátrix, ahol k természetes szám. Definíció szerint A0= I. Megemlítendõk az úgynevezett projektor vagy idempotens mátrixok, amelyekre minden ilyen hatvány önmagával egyenlõ, azaz A=Ak, k=1, 2, .... Idempotens például az egységmátrix. Mátrix szorzása vektorral: Eredményül csak vektort kaphatunk, amint az eddigiekbõl is kitûnik. Elöl-

rõl csak sorvektorral szorozhatunk, és az eredmény csak sorvektor lehet (pl. a'1,nXn,m=b'1,m) Hátulról csak oszlopvektorral szorozhatunk, s az eredmény is oszlopvektor lesz (pl. Xn,mam,1=bn,1). Ha ugyanazzal a vektorral oszlop-, ill. sorvektor formájában is megszorzunk egy – szükségképpen kvadratikus – mátrixot, akkor skalárt kapunk eredményül, ez az ún. kvadratikus alak: Q(A)= x'Ax (pl. a 3.3 és a 7.19 formulákban).

Geometriai értelmezések A mátrixok és a koordináta-geometria között igen szoros a kapcsolat. Mint már utaltunk rá a 2. fejezetben, az adatmátrix például kétféle koordináta-reprezentációban is elképzelhetõ. Ezen kívül érdemes még a következõket is figyelembe vennünk.

Az Xn,m adatmátrix egy xj oszlopvektora a j objektum helyére “mutat” a koordináta-rendszerben. A vektor hossza – a Pitagorasz tétel alapján – a következõ:

Vektorok hossza, vektor normálás:

| x j | = (x' j x j )1/ 2 =

n

∑x ,

(C14)

2 ij

i =1

amelyet a vektor “abszolút értékének” is nevezhetünk. Vektor normáláson a vektor egységnyi hosszúságúra történõ standardizálását értjük, amelyet úgy érünk el, hogy a vektor minden értékét osztjuk a vektorhosszal. A normált vektor elemeinek négyzetösszege (a vektor önmagával vett skalárszorzata) tehát 1. Az xj és xk vektorok hajlásszögének cosinusa a két vektor skalárszorzata osztva a két vektor hosszának a szorzatával:

Két vektor hajlásszöge:

cosθ jk =

x' j x k ( x ' j x j )1 / 2 ( x ' k x k ) 1 / 2

.

(C15)

Ezt alkalmaztuk például a húrtávolság kiszámításában (vö. 3.54 formula). Ha a cosinus értéke 1, akkor a két vektor egybeesik (egy irányba mutat), ha pedig 0, akkor a vektorok

360

C függelék

!  

   "    $                  *+=    / >&       ' n,m   &    "? @ A  +88,$  &     &    5   /                  ;  '

"*+B$

OP L PQ MN

"*+7$

OPLM QMN

1 2 0 . X' X = 12 −13 11 1 −3 = 03 14 1 1

LM N

! 

OP Q

C !   "         %   # 5      /           /'  ( ( "*+D$     .  *+B   /           /               5        %   E      /   ( ( "*+8$ E                 &  F     $ % "  $    (3    &  ' P2 ,2 =

LM cosϕ N− sin ϕ

sin ϕ . cosϕ

OP Q

"*3>$

5 2,m&             %  ϕ         ' G2,m ( 2,2 2,m  "*3+$ H           ;  &   "83<  $ &                    %  ' jk ( I j 6 k I ( J"j 6 k$- "j 6 k$K1/2  "*33$

5  /  ,  +  * , 

  + ,  *!  6     (  $ &        '



!     * '      +  ! *   ,       $    !  '  *         ' 6  

  & Aldetermináns: /    

  ( !  '      !        

    "#; *  *          

         ' '       '   '        *  (    

    

      (        !  5 

 

   

   '       pozitív definit ' 5

   

    ' $'  >   &     pozitív szemidefinit / ! ? >  ' ≥

Mátrixok szingularitása:

Mátrixok invertálása Az alapmûveletek között az osztást nem említettük, hiszen ez nem értelmezhetõ mátrixokra. A szokásos aritmetikában – mint tudjuk – egy számmal való osztást úgy is felírhatjuk, hogy ennek a számnak a reciprok értékével szorzunk. A reciprok értékre jellemzõ, hogy magát a számot megszorozva 1-et kapunk eredményül. Ez már általánosítható négyzetes mátrixokra az ún. invertálás révén.

  '  .  '  ' !     ' 

    !     0 2 2  $")#& /         6    $

            *6        

  .        &     ' 6  $ ''      &   '  

   

  0  szinguláris mátrixoknak   nincs inverze. $ '

  '          4%8 * &   '    *!     *            '   /     '    *  0 .& <      '           *        6   @   2   $. A d & B'                

    4)%49> * $ !   2   $.A√ d &  '  2   $√d &&

Az inverz mátrix definíciója:

 -1

-1

-1

-1

EE

-1/2

1/2

EE

EE



6    

!$!

#&           !      $".= *& ")#

       !   ''0     /    '            6 '!       ! ' !   ( '          

   $        & '!       (       *    2 5       2  -1

-

-

-1

-

Mátrixok belsõ struktúrája

              *        '           *  ! ' *          $    &     ' *      #9  ! (  #×.# 9×% >;×98   '  /                *         / *    ! !      ! "     '  $' & '   6   (    '  !           '         6 !          ' 0  2  C  C C  C C  $"))& 5     '         6 !         

       !     "    '   7       3.2D # . .E  3#2D . > # E   6  2 2>  '  ")) *             6      (    '         "   / '   '  !           '      !      *         *  C  CC  C  C  2 > $")9& 6 ( !  2>

      *      '  6 $'   '  &  !    !       F       !  '                            @            

     ##   ! $& /   * 6   ' 0     !         *   $' &      > ≤ $& ≤

 $$ & 

'       '       G        ! *!  +,                ")            +

,      !   '   ")     #×)  

  '   ! $     &0 2 2 3O X = L− $");& NM−4 4 6QP.        



n,m

m,p

n,p

1

1

1

2 2

i

i

m

2

i,

m

m

i

i

i

1

2

n,m

1 1

2 2

i

i

n

m

i

n,m

n,k

k,m

n,m

'   ' 

   !  '    *   F            '         6 !    2 :.A#  : .A)   / *  +' ,     . 6 , 

  4   $& 2 /      "     (  $& 2 63 ' '   "   $             6   & 

  #   &                '        $      (        $ &

    

9        )   9  !  #    6             #      )       



9           >    $#         &       #      #          

9 # !     ! * +%    9    !      6      #         $  #      $  6   +             

    

:   ! %$    $      $#         

            #     % +     &

       -$.   #                     $    4 +    !            # $  +    4        

:   '

      "$      $4  $          



;8      ;8    "        4      #               

3        "$   #      4 $    $   %               !         #     +     4    $ 

3     3    



 

3 0  

    "  ## "    . >                  #                         ?     #     

3     1 '    %

    

I B   &

  +#         

< !  # #  < !  # 

)      "$      &  

$#                #     $   #              $   

< !  #    < !  #   ) ,  < .       (## "    "   

 #               #  ;: N

< !

  ( ! %   < =>  !                  <     <    #  ?        )      #       )           $&

< *   * >      4    < *     *  6  )                 $

  

< *    *    6 &    

   )                 #      $   #         )  

< * !  !   *!  

8               #     4     $  L   #            

                  4              #                  



 

   &       #         #   )         -!   +(#  $ ,( '     -   .  #       &     ?   (      )        

-      " & !    B   4#  $  &#  

  4      #     &                      #     

         &

     $ #   & &            '             &#        & 

--7    0        *  " (  "      *  '    )        $ @                 ) $ 

- #   #   3 (                

   '       &   #       4               4   

-          !                      #       &

      H  4                    + 

- ?         " )     "  !        0     $  0 $#                     #      $           &   

-       # '            $  -     6               L 

       #                       

-       & $    "          # 

       #               

-#  # !   "  #      '        #      $     &

-  0   " (  '           - !  '   ( 6    '*          '      %  %     

- !  '   6    '*           L     $   

    ! (    "              #        1   $ 

!     +" ,   '" B  $             &

  '        

           



  



!?   *  ! (# "

  #      $       $   &       #      B     )#    )     

  "  1

B         I '         )            $ #         R        4     #   #     $  &    

& 

  

     ""  !     $     %             '

  #    



         B                        ,        

          !       0       0

&

     #           , @$                #     $              

    " #      #     $             % 

  0    ! ()  "

!   )  #   

            #         

4    0        )  " !          %   #     $          #    &             -   %   .        

4  !             !      #                 &

#  &

            A   (           J              #              & 

4  *    $  "   #    $    $     $

4  !            /    4       

( !    !             #        #         &  B      & &

  #        %      

4    (" "'   C #     #         

>        '                         > *  (  '    $     %    #         

B  !     B  "  .  

" $  #            #           

B   !  B  "   !        % $ 



 

B!     $

    D      #   $

   $   &  $        %    $

B!    $

 "  #        %   & 5  

%  #       %          

B!   $  >           +#          

    &  + '               %        +#          &  +

B C  #  B  "  #  A       $ #       

             B!L">!#       S  1#       $      &         #  :   )     

D   (##   $  ""  6  %       &     

    #    $      4#     &     & #  & $       $

Irodalomjegyzék Az alábbi lista a könyvben idézett mûvek teljes felsorolása. Minden egyes bibliográfiai tétel után szögletes zárójelben adjuk meg a hivatkozás oldalszámát. Abban az esetben, ha egy konferencia-kötetet vagy hasonló cikkgyûjteményt több közlemény is képvisel, akkor a felesleges ismétlések elkerülése végett csak az oldalszámot adjuk meg; maga a kötet a szerkesztõk neve alapján kikereshetõ (lásd ezen az oldalon pl. Ashlock 1984).

Abrams, P. 1980. Some comments on measuring niche overlap. Ecology 61:44-49. [105] Adams, E. N. 1972. Consensus techniques and the comparison of taxonomic trees. Syst. Zool. 21:390-397. [336] Adegoke, J. A., U. Árnason & B. Widegren. 1993. Sequence organization and evolution, in all extant whalebone whales, of a DNA satellite with terminal chromosome localization. Chromosoma 102:382-38. [178] Aldenderfer, M S. & R. K. Blashfield. 1984. Cluster Analysis. Sage, Beverly Hills. [169] Anderberg, M. R. 1973. Cluster Analysis for Applications. Academic, New York. [24, 27, 35, 67, 68, 75, 105, 111, 119, 121, 132, 142, 151, 153, 169, 170] Anderson, E. 1935. The irises of the Gaspe peninsula. Bull. Amer. Iris Soc. 59:2-5. [54, 346] Anderson, E. 1936. The species problem in Iris. Ann. Missouri Bot. Gard. 23:511-525. [54, 346] Anderson, T. W. 1958. An Introduction to Multivariate Analysis. Wiley, New York. [38] André, H. M. 1988. Variable centered methods and community classification. Coenoses 3:69-78. [122, 132] Arabie, P. & S. A. Boorman. 1973. Multidimensional scaling of measures of distance between partitions. J. Math. Psychol. 10:148-203. [311] Archie, J. W., C. Simon & A. Martin. 1989. Small sample size does decrease the stability of dendrograms calculated from allozyme-frequency data. Evolution 43:678-683. [34] Arvanitis, L. G. & W. G. O’Regan. 1967. Computer simulation and economic efficiency in forest sampling. Hilgardia 38:133-164. [31] Arvanitis, L. G. & R. M. Reich. 1989. Sampling simulation with a microcomputer. Coenoses 4:73-80. [32] Ashlock, P. D. 1984. Monophyly: Its meaning and importance. In: Duncan & Stuessy (1984), pp. 39-46. [176] Astolfi, P., K. K. Kidd & L. L. Cavalli-Sforza. 1981. A comparison of methods of reconstructing evolutionary trees. Syst. Zool. 30:156-169. [209] Austin, B. & R. R. Colwell. 1977. Evaluation of some coefficients for use in numerical taxonomy of microorganisms. Int. J. Syst. Bacteriol. 27: 204-210. [104] Austin, M. P. & P. Greig-Smith. 1968. The application of quantitative methods to vegetation survey. II. Some methodological problems of data from rain forest. J. Ecol. 56:827-844. [33, 54]

386

Irodalomjegyzék

0+E ; ? 408 9 4 1' 7 ,    4 / 0 1+(

* 5 - G ?  /