172 58 67MB
Portuguese Pages 399 Year 2010
Redes Neurais Artificial
yan Nunes daNiyva
Danilo rlarnana sot
3
nogarlo Andimeed eMail
rtliber
Ivan Nunes da Silva Danilo Hernane Spatti Rogério Andrade Flauzino Universidade de Sao Paulo
Redes Neurais Artificiais para engenharia e ciéncias aplicadas
Copyright© 2010 by Artliber Editora Ltda. Revisao: Maria Antonieta M. Eckersdorff
Capa e composigao eletrénica: Espago Edttorial
Dados Internacionais de Catalogagao na Publicacgao (CIP) (Camara Brasileira do Livro) Silva, Ivan Nunes da Redes neurais artificiais: para engenharia e ciéncias aplicadas / Ivan Nunes da Silva; Danilo Hernane Spatti; Rogério Andrade Flauzino. — Sao
Paulo: Artliber, 2010. ISBN: 978-85-88098-53-4
1. Redes neurais 2. Inteligéncias artificiais 3. Arquitetura de redes neurais ]. Titulo II. Spatu, Danilo Hernane; Flauzino, Rogério Andrade 10-0725
CDD-004.032.62
Indices para catalogo sistematico: 1. Redes neurais: Engenharia e ciéncias aplicadas 004.032.62
2010 Todos os direitos desta edigao sao reservados a Artliber Editora Ltda.
Av. Didgenes Ribeiro de Lima, 3294 05083-010 — Sao Paulo — SP — Brasil Tel.: (11) 3832-5223 Fax: (11) 3832-5489
[email protected]
www.artliber.com.br
Para
Sileide, Fernanda e Solange
Soin ns
KOA a
EBS ees
onOK
PEREZASE, EL
Moe
EY
COCOOOOCOCOOOOOOOOOL SOO COC POOOOOOO OO? COCO Oe
LOOX vote NOS o> Ree
SOOO
Oe
OP
.
ON Se
CONS?
$6-6466666666660664
OO OOOO
on
CHOREOOOO
BOOM DO CACO
MO DEO
DOO OO
es Pes SRMOOOTOOOOOOOOOOOOC BOOS SOSOOSE od
S
Prefacio
Sereereoaereesegseaervesgseeseaaseaae
eee
SFHOSCOHCOSHCSSSHOAESESE
HOT
OS OOK
oe CROOK IO
wv
@
SHSEHHSCHSHSASHOCOTCAESHEHCHSESESEHSTEHSCERPTECH CER ECECEOOSD
13
Organizagad ......eecee seseesceneeseecenseeeeees seseeeesasessceseeesecsessessees seseeeaeeeeees seseseeesevenseans sectseneeeceascen 15 Agradecimentos
Coerceoseaseeanesananeace
Pe
ded
See
HOSS
OhE
DES
SEHOEH
EEE
EERE
RHAAREREDEEEEAEHEEPAEPESEEEPEH HOSP OOH OHOHEHE OSH VDEbvebtOreEES
eee
17
Parte 1 — Arquiteturas de redes neurais artificials € seus ASPECtOS LEOTICOS.......eereene 19 Capitulo 1 — Introducao............... sesenesssasenesssereescacserensensaers secereaceavsecesrsevecseceacucersacacceneeeeeeseres 21 1.1
COMCEITOS IMICIAIS ........ccccceessecesseesseeesees seasenecenreess bisa secseasaseesecsecssesensses deteesseesaesens 24
1.1.1 Caractetisticas principals ......sssessssesseseesseseeess
reese O4
1.1.2 Resumo historico................. seseseeesnsensaeteees veadseessesenseccncsenseereceeesess ecestecensteoteesenreees DO
1.1.3 Potenciais areas de aplicagGeS......cccceatseeseseseseseees sesesaeseneneaens sessssesesegesoneense 27
1.2
Neuronio biolOgico .......seeseees
1.3
sssescesncesseceacsusceccusceceessssscsssesseussae sevesecesseese OO
Neuronio artificial ............
ecuceucsesseseteesess sesecteeeeeeees posers DD
1.3.1 Fungées de ativagdo patcialmente diferenciavels ......... eee sesaeseeseens 1 30 1.3.2 FungGes de ativacao totalmente diferenciavels .........cccececcsesersescecsecseesescecseees 38
1.4
Pardmetros de desempenho.......cccscssssssssssseessssseessssesssaseneessssesseseseees 42
1.5
EXCICiClOS.....cccccscsecsscsecsscsecsesssescescescrecesens seceeseeseesusescessvecsesceeesenssecsssueasesseeeesens veee 43
Capitulo 2 — Arquiteturas de redes neurais artificials e processos de treinamento........vee 45 2.1
TmtrOGued0 ........ccessesescsccsceseeceetsececsceaceessneensssacsecsenesesceaseaceaceeseecenssavaecaereeseeseatsacenees 45
2.2
Principais arquiteturas de redes meurals artifiClals ......cccessesescstssrssereeeenes 1 46
2.2.1 Arquitetura feedfonvard de camada simples ... 2.2.2 Arquitetura feedforward de camadas multiplas oc
2.2.3 Arquitetura recorrente ou realimentada.......
saoreersosee 4G sseseecstssceseessseressseseenes 47
eee seseseeesens seseecaevessaceaereeses 49
2.2.4 Arquitetura em estrutura reticulada es eseseeeseseseseeeeneeeteesseseereenenenien 50 2.3 Processos de treinamento e aspectos de aprendizado..... seeeseeseeee OO
2.3.1 Treinamento supervisionado
sas
sssesssucuccasaussesssoeasonenoseneesrepteseeesessees 51
2.3.2 Treinamento na@o-supervisionad ..........scesscsessctesesssessceeesecseeceetesenesneasenseeneees 52 2.3.3 TreimaMentO COM TeEfOLGO .....cssecsececcsersecsesecensssessssassesesssasscecessssencacecesearsesacenees 33
2.3.4 Aprendizagem usando lote de padrées (off “itt.sesvesaee
sasasacssesseveeesesssesreaees 53
2.3.5 Aptendizagem usando padr§o-por-padrao (OM-HNE) ...eecseerecssereseecsctenseesterene 54 2.4 EXCL CICIOS 0... cece cee seseesscsnsscseesecseaeenseseeesssesecesssscanseseetsecesesereceesceceeeceaeeeeeqeeees 54 Capitulo 3 — Rede Perceptrott.ccesssssscsssssssecssssscssssssssnsesssnssecssscesersetsneasssnsseseacsssesenesensneseacseseees 57 BL [ntroducdo .0...e ee eeeecscsesssscsessesesssessessseseesesssssecsesesesessssateavscssessassencaeseeseaeacsesssseaessnesacaees 57
3.2 Principio de funcionamento do Perceptron.icscusesssrecessssecsssessecssssescesessnessesseesseeese 59
3.3
Amalise matematica do Perceptron.....sesssscsssccssssssssnsssssecsacsessssscaesensaessseessacsesssenensaes 61
B.S 3.6
EXrcichOs....ccccecsssesscsescecseecseseeseneseseecseseaesecsanseseensnecauenscauencaeseccaeseseacseseacasesseseseasseees 68 ProjetO Pratico oc cssssscscerseceereesesessasseerseseereseeseeeee , sseseeessseaseaeseesees 70
3.4 Processo de treinamento do Perceptron ...cscessscsssssesscsscesnessssessessesssceaessseseeseaseasseees 63
Capitulo 4 — Rede Adatine e regra Delta...
cee sccessessseetesecsscseetencaeeacseseeaeatsecatseqeersees 73
AL 4.2
[mtroducao 20... eee eesssecseseesssesesseasenscnseacseseseacsesssssacaesessscuceseasacsesesesacsesssrsnesessseensaesesees 73 Principio de funcionament0 do Adahine...cceccecssssseeesssersessesssrssesescessearsessesscns 74
BS 4.6
EXCL CiClOS oo. ceceeseseessesssesesessenseacceseasecsceeseseaeeeceaeeeccesesscesucseseseacseacaesestecssacoessoeseaeees 86 Projet Pratico oc ceeesseeseeees seseuseesessesssecsescessacseseecscesessesscssssessessessaseneecaceceoesanseseses 87
4.3 Processo de tretnamento do Adahine..ccsssascsssessersssscsensscateneseseresseesarseseeserssees 76 4.4 Comparacao entre o processo de treinamento do Adaline e Perceptron......c0.0 83
Capitulo 5.1 5.2 5.3 5.3.1
5 — Redes Perceptron multicamadas ........escescsceeessscsecssssaeseceeseaceeseacceseerenseeneneeeen Introdugao.... sesacsacsssensesaconcncenssacsasenssaceusancaneasessenssaesassucassassoucaucasenseaesonssnsseess Principio de funcionamento do Perceptron multicamadas .........csscceeseeeeseenes Processo de treinamento do Perceptron multicarmadas ..........ececeesesceeeeereeeeeees Derivacao do algoritmo backpropagatt0n....scesseoe sseseeenseacsssessscssesencesesesseneenes
91 91 92 94 95
5.3.2 Implementacao do algorito backpropagation .rscecseessersssserserscrescscsscrereecesenees 108 5.3.3 Versdes aperfeigoadas do algoritmo backpropagation .o..ececscccsescessseesesessssenens 111 5.4 Aplicabilidade das redes Perceptron multicamadas .........cscsscesecsesenesesteeceeeee 120 5.4.1 Problemas envolvendo classificagao de padrOes 0.0... esssscsssesssessessereeeseeeesees 121 9.4.2 Problemas envolvendo aproximagao funcional... esssssreeeseneeseeeeseens 132
5.4.3 Problemas envolvendo sistemas variantes NO teMPO...........ceceeceseseseseeeeees 137
5.5 Aspectos de especificacao topoldgica de redes PMC......cesssssseesseseseaseeeeee: 146 5.5.1 Aspectos de métodos de validacao Cruzada ......ssececsesscssetsesectseceessstsetseteesee 147 53.9.2 Aspectos de subconjuntos de treinamento € teste .......esesseseessessssesteeeseseaans 151
5.5.3 Aspectos de situagdes de overfitting © Underfitling, oceans 153 5.5.4 Aspectos de inclusdo de parada antecipada.........csssssesssssersesssceessesseseesseeeens 155
5.5.5 5.6 5.7 5.8 5.9 5.10
Aspectos de convergéncia para MIMIMOS lOCAIS.........ceccecseeeeeesseesteteeeeaeeneess Aspectos de implementagao de redes Perceptron multicamadas ............000 EXCL CiClOS......cesescsesssssessessscsecscscsssssssevasserseseesentenssesceseessessacsreaeensuerentenegsensseecsenes Projeto pratico 1 (aproximacao de fUNGGES) ......eceeececeesessenenesseneseeesesenenees Projeto pratico 2 (classificacao de padrOes) ........sssssserseesessesseseseseeseceeeseseseees Projeto pratico 3 (sistemas variantes MO tEMPO) «.....escecerereseeeeeesetsserteerseeees
157 158 163 164 166 169
Capitulo 6 — Redes de fungces de base radial (RBF)..........-scssscssseseesesserencsesensereeseeeseeees 173 6.1
6.2
IntrOduca ......cecsscssceecerseseecesseessasscceasseseeseeves
seasons
sesee
wel 73
Processo de treinamento de redes RBP...0..ssssssssssseeseessssecensseecssceaceeseates 174
6.2.1 Ajuste dos neurénios da camada intermediaria (estAgio I) ........csesseeeeeeeees 6.2.2 Ajuste dos neurénios da camada de saida (estagio I)... eessssseeeeceeseeees 63 Aplicabilidades das redes RBF........cssscssssscsssserescsssssssnssesesesseeessrserenesereses 6.4 Exe rciCiOS.....csecsescecsaccersccsessssessecssceesssssassssearseseesecseacseneassesenseasenspecessegseenenesesenees 6.5 Projeto pratico 1 (classificagdo de padrG6S) ........essssseeceessesseseessssessseceneeeeenees 6.6 Projeto pratico 2 (aproximagao de fungGes) ........... sesescesseesseres
174 181 183 190 191 194
Capitulo 7 — Redes recorrentes de Hopfield... ceccescscsesessesseseerserenesseenestenesneneeeeneeness 199 7.1 7.2
7.3.
Tntroducd .....ececceseeecesseeescseteseeenenssscessesescanseassaseasasseesseseassnseesessssvanseesseseecenscaseaees 199 Principio de funcionamento da rede de Hopfield... e ses esesce se e s .201
Condic6es de estabilidade da rede de Hopfield ...neccccsssssssssssesesssessssssieesssnsen 204
7.4 Memo ias aSSOCIALIVAS ....,....sscssessssesscsesesssescecstesecscseecenssereessaseessceeeseesensencseneneegees 207 7.4.1 Método do produto extern .....cccececccsesssessssesssssessssessesseaseasesseseesseseaseasentaees 208 7.4.2 Método da matriz pseudo-inversa............. sececcsssssceeseesscssssoassesssssasessesseesssesess 210 7.4.3 Capacidade de armazenamento das MEMOSIAS .......ceseesserereeeessseneseersseersess 211
7.5 7.6
Aspectos de projeto de redes de Hopfield .......... ce eseceseteeseeestesneresnersetensaen 213 Aspectos de implementacao em hardware sesesescscsessevensecsessesseesessnenssens 215
V7 7.8
EXerciciOS.........000. sesecesdeesessecsacseserssssersecsavssecensssssasacusseasesesseeassasensasesense 217 PLOjetO PLAtiCO ...cecsesssssssereecserserserserensnensscsssnsessseseassessensnssesenscesearsestareasansessenseces 218
Capitulo 8 — Redes auto-organizaveis de Kohomena.......ccesssessssesssseessrserensesssessessenenseeees 221 B.1
[ntroducdo......ccccescsssscssssscsscsecssccececscarcassaceaceactacsacsacsacsacsacsacacsacsassacsassaesaeeaseasensenaes 221
8.2 Processo de aprendizado COMPCHUOVO........ccceessecssesesstsssseerenseatsnseeseeseaeesenesseseees 222 8.3. Mapas auto-organizaveis de Kohonen (SOM) .....csseessserssesseseeseessetensseneesseneness 229 8.4 EXeCrciClOS.....cccsssscececessecssesecserssssesscscssssscssecsossesssssareccssssavesssacesssaesassessecessessenseeseeesvets 237 8.5 PLrOjetO PLatiCO ...ccescsssecereerssrsercecssssesesssessenssssesseeencassesessssessersnssessenenssersasenseesaseeneenes 238 Capitulo 9 — Redes LVO e€ counter-propagation ....sserrssssrserssssseserersesssssescssesseesssensssensness 9.1 Tmtrodugao ....... eeessscccesesseecssssssscesssssssasesscssesssecsscerssrsecserssesessscarsecasatarsassassnscaesserenes 9.2 Processo de quantizagao vetorial ssoeageavsessaesssesersesecsserssssersescgneysepenenssnseneeseneasenensaees 9.3 Redes LVO (learning vector GUantezart0nt) ...cccecsscesssscsccsscesesssiereneenersstsntussnaeaeseasassenes
243 243 244 247
9.3.1 Algoritmo de tretnamento LIQ-1 oo
ec cseseseeseeeeeeseeessacnenenseesacenssasseneseeesses 248
9.3.2 Algoritmo de treinamentO LI/O-2. i eecsecessesserssseeeseesessecseseesseseeceeseeeies 252 9.4 9.4.1
Redes comnter-PrOopaQattOn ..ccsescsccesssccsvesscscsecnscesseassessacsecssesecssesensesssesessesasssesseuasees 254 Aspectos da carmada OMfStr ..cccceesetesessseteessereesserecssseersecsasseseaeansernessssseeseeses 256
9.5 9.6
ENCLCICIOS.....esccessessesenssevsessecceessessessscneeessssoesseeesesessessesssssssesscasuasesesssesseseeseeseneouees 259 PrOJetO PLAOCO wee eee sseceacseceaeeessseeseeteseeseatssassesssesesssesensesssossacessessseneseoeeens 260
9.4.2 Algoritmo de treinamento da rede conster-PropagatiOn ....ccecscecererereneernes 257
Capitulo 10 — Redes ART (adaptive resonance theory) ..ceesesecssseseneaneesseeeeen LOL TemtrOduGao no. ee escescsessessonseeceseesencoesseseesencsescessnsaccnssescansassessescassasaesesesecsacseneees 10.2 Estrutura topologica da rede ART-1 ou... ceceeeseseeeeesreeeeseasseneesrerspseesaeseaseaes 10.3 Principio da ressonancia adaptativa sc ceecesecneesetseesseseeceesneeeeseseeesseceess
10.4 10.5
10.6
263 263 265 268
Aspectos de aprendizado da rede ART-1 .eccecccesesssssssesssssessessessasessensecseens 269 Algoritmo de treinamento da rede ART=1 we ecesssesessssessesssessessesseessssnenes 279
Aspectos da versao original da rede ART-1 ou. ceeeeeeseeneneeereneseteneneenees 281
10.7 EX rch ClOS cs etesseeteeeseneerseseeeee seeesscsescessaceeseessesssssnesenseneessnteassaesesenseeses 284 10.8 —— Projeto pratico oe seceesseseesetstersessessescesescenreeeescssenanentes seveeseeseace wove 200
Parte I] — Aplicagoes de redes neurais artificiais em problemas de engenharia e ciéncias aplicadas ...........0 seseseesessececeseeceonsoecssaesasensseececsseecsseesacaeestaees 287 Capitulo 11 — Estimacao da qualidade global de café utilizando o Perceptron MUTI CAMACAS .0......eeeseccsscnseecstssnssncsecseecaessecsccsessensessesseesseseestesesseesesseseessesenssaseseqesassseseeseeregsens L112 [mtrodugao .....eceeessssscssssssecsecccsscssessessessensessensnseccaesacsaessessssesenssnsatsarsecensasseassee: 11.2 Caractceristicas da Rede PMC... seaeuescensecsaerescoesacsesseneaseatseeaesnsansaseeses 11.3) Resultados computactOnats ..... ce ssesesseenseessseescsssseseeassereesssssensscsaseeseasseneessers
289 289 290 292
Capitulo 12 — Analise do trafego de redes de computadotes utilizando protocolo SNMP ¢ rede LEO... csessssecscesessecceseensessereesseveseseneseacseseeesadsessnseacsaseaeasecs 12.1 [ntrOduG dO... ee eeccsessesssssecsceseessacscssescessssseesesessssesesecsessersacsesssscassecapsanseesensseees 12.2 Caracteristicas da rede LIQ i sesseeeesseeseeeseseetsntenesnsensesetsssensesacseees 12.3 Resultados computacionals .......ssesssssscsesscsesssseesesserseceereececsseseesenseeesnseeeeseaven
295 295 297 299
Capitulo 13 — Previsdo de tendéncias do mercado de agées utilizando PCUCS PECOLFENECS ...cesecsssseseeseseeseeeceeesesesenscsescsesseaesoeesesesaeseeesnseseasecscanssststeestamisecseneeaeasees 301 V3.1 [mtroduCdo 2... eee ecesesssssessesseseacesscsscscecesenseeseesenceccssesseesesseeacsenensteeseneassersesesneesaes 301
13.2
13.3
Caracteristicas da rede recorrente oo. cecsesessesetsessseesssceeseessarsncsessacseseeneeeses 303
Resultados COMpUtACIONAIS «0... eee
ee sees eescnceeseeenssecesegerecueecsesentansaceaeesereas 304
Capitulo 14 — Sistema para diagnostico de doengas utilizando redes ART..........000.. 309 14.10
[mtrodugao wee eeeseecessecenesesscesesensceaeseseseseesentacsesescseeceasacseeceseseaeseeseasenenses 309
14.2 14.3
Caracteristicas da Rede ART oie eesessseeseesecssscsarsesesssersssnssessersssassssseeceeees 311 Resultados COMpPutaciONals......ceccsssesessersereerseseesenserensserssceseseeesceseenssetsersates 312
Capitulo 15 — Identificacao de padrdes de adulterantes em po de café usando mapas de KOhON en... cssessssseeseseesesseesssssessessesenssssenssesenssersnssseeneseseneserenseereeees 315 15.1 [ntrOduGao ..... ce ceesceesescsccsccenescsecesncaetaseceeancaseassacgsensegseecsecagseessereeseeseessarsaseanas 315 15.2
Caracteristicas da rede de Kohonen ou... cece ceccecceceeccesceteeteetecteesessaaeetsensenaes 316
15.3
Resultados COMputaciOnals .0.... eee seceesecenseesseseeseetsneneseneeaseersetesseaseeees 319
Capitulo 16 — Reconhecimento de disturbios relacionados 4 qualidade da energia elétrica utilizando redes PMC... cece ecessecceesnseeneereeeananseeseneneneneesssarenenenes 16.1 TrtrOdua oo. ecessesscsssesssecscssecsscesseessnsescaseseeseessesseasecseessacsessnscessasensasssenseresees 16.2 Caracteristicas da rede PMC wo. eeeeseestescetseceesceeesseeseessasesssessesesreceseecesseess 16.3 Resultados computacionals ........csccccsccecesceescceseereaneneavenencaresscsnerenceesesseeseneneass
321 321 325 326
Capitulo 17 — Controle de trajetoria de robos moveis usando sistemas fozzy © tedes PMC wceeccsssssssceesssseesseseesesssssnsconsensessessenssesassscneasensassassecasaneneeeansasssssegatsesessanss DOD 17.1 [ntrOducd occ eecsessesseececececeneseecctassesessseeseaeacsesearaseeeesseacansseesecanscesesateceauees 329
17.2
Caracteristicas da rede PMC... cesessssessessssesesssasssessssssnssssssescsssserssssessseseees Oo L
17.3
— Resultados COMputaciONals .......csecssessecesesssecseeserseceseesessesasenssnseseneasseneeeneaseess 334
Capitulo 18 — Método para classificagdo de tomates usando visao computacional © redes PMC oo. icccccecsescessessescsssessssesesessecesesencaceesencsesaeceseneeesencneseeceneseeseeseeaeaseeeseessensssoesss 339 18.1 [mtrOduiCa wee eeeessesseseeceeseesseeeesesssereesensctassessasssessssesssessssesssessssevssesensessessensaees 339 18.2 Caracteristicas da rede nettral oo. ee cscceeenceacsarseeseeseesesesnesesensaveeessessessoseens 341
18.3.
Resultados computacionals ........ccscsssesssceseenesessesseesessseeseseenesesnseasescseesessneseees 345
Capitulo 19 — Andalise de desempenho de redes KBP’ e PMC em ClassificaGio de padrGes.... eee cesecessneeeseeesessesseseeseesesssesecsesseeseeseasesseneeseeseeneenseesseeseeseeneneens 19.1 Introd ucao vnc cceecseeccsesseesessaseesesceeseesesseavenseavanseseansssssesseeseensssssssssensesssseseseesenss 19.2 Caracteristicas das redes RBF ¢ PMC wu. ccsccsscsscceccsesscsecseseesesseseraseeesenns 19.3 Resultados COMpPULACIONAIS ......scsecerecseessereeserereeceseenssssesqenssseteecseseaeseneeesneraneees Capitulo por redes 20.1 20.2
20.3
20.4
347 347 348 349
20 — Resolugao de problemas de otimizacgao com restricdes de Hopfield ...ccccseessssesesesseessssseseenessensesessenssesseseesenssesseseasenenersesensesseaseeeeen 355 Introducad hu... cececscessstessencscceseceecesssccecsereessereeseacscsserseseosenssesesenssgessnsepssersersevenes 355 Caracteristicas da rede de Hopfield oe eeescereeccesesesesssssseesseeseeseetatsnens DOP
Mapeamento de problemas de otimizacao pela rede de Hopficld............... 359 Resultados computacionais......
Bibliografia
sas
sesesesesessessesacssesontasseeseaseess 364
es eesssessssessssssssesseeseseesessessessessensnessssesssssessarsacsesserserearenssnenesesieeasaesnsagsesneanentae 371
Apéndice Doi. eeesecesteenees
ses
secacsesenesescssessesearensessescsessedesadsserenseseqseseaeeess 381
Apérndice ID wc esesssessssssessscsscesscersseacepssssersasssssssssesessesssssersecacessesessssesessossessensessssanseess 383 Ap@ndice LLL... escscscesscccessscssesencecscecssssesessssssesesssessacsesencaaseacassancarsesescasesereseseneneaesenesaranse 385 Apendice TV uc
eecesenesesceesesesetesoeeteeees seseseseseacsesessesssosssesescsesessseseensessssssesssesnsesienseasetes 391
Ape nice V wocecssecseessetsssesesessesssssesesececeserssesessesesansasssssseeesesssesssesstessaseesnsseeesosesesersseaess 395 Indice reMiSSivO........ccccccccccccccccccccsscccsseccessessenssessesecesecseseuceesepsecsansccsensacsonsensacceccosecsecssessescenss 397
DODOO OOO COOOOOCO OOOO OOOOOOOOOOOCOOOOOOOOPOOOO>OOL OI OOOOLOOOOOOOOOOO COC OOOOOCOOOD OO OOO OOOOOOOOOOOOOOCOOOOOOCOOOOOOOOOOOOCOOOOOOOOOOOOO, COOCOOOOOCOOCOOOOO©O DOOOOCOOOOOOOO DOOOOOOOOOOO O H. .
oOo x . ’ Mw a LN
Ne
. ee c . ~ BNNNN eS NE
PN
ANS. a ne a
r “
. NS Coo. Ne Noe ea NO SL
Fo .
fs
so
* . r , SOLS
ee re ‘ wees
PT, : a we +e
: “ aos
ae
sa
—
ues
eas . !
os
~ wot
NN
oe Pat
eA eT Ne a . ee a : ee
FN
4 pe wa
, ea Dy eG
:
NF
: :’ soe
7 A
ow oe :
ttf
sos ve
. a!
.a
7s°
ee. : aN : yg os
we
eT
at
Prefacio
O que sao redes neurais artificiais? Para que servem? Quais as suas potencialidades de aplicagdes praticas? Quais tipos de problemas podem solucionar?
A partir da consideracgao de tais questionamentos, o livro foi redigido com a preocupacao primeira de atender aos diferentes perfis de leitores, que
estejam interessados tanto na aquisicao de conhecimentos sobre arquiteturas de redes neurais artificiais, como aqueles que estejam mais motivados pelas suas diversas aplicacgdes (de cunho pratico) em problemas do mundo teal. A sua audiéncia com carater multidisciplinar, conforme podera ser atestada nos diversos exercicios e exemplos aqui tratados estende-se para diversas areas do conhecimento, tais como engenharias, ciéncias de computacao, matematica, fisica, economia, finangas, estatistica e neurociéncias. Adicional-
mente, espera-se ainda que o livro possa ser também interessante para diversas outras areas, cujas aplicagoes tém sido também foco de redes neurais artificiais, como em medicina, psicologia, quimica, farmacia, biologia, ecologia, geologia, etc.
Em relacao ao perfil académico e ao publico-alvo do qual o livro esta direcionado, tentou-se elaborar cada um de seus capitulos de maneira a dissettat, passo a passo, os conceitos relacionados em seus assuntos tematicos,
com niveis bem abrangentes de informagoes técnicas e tedricas. Assim, além de atender aos anseios daqueles profissionais, que desejam comegar ou aprofundar os seus estudos sobre as redes neurais artificiais c suas potencialidades de aplicacao, espera-se também que o material possa ser adotado como livro texto em disciplinas de graduacao e pds-graduacdéo que abordem o tema de redes neurais artificiais em seus conieudos programaticos, Complementarmente, buscou-se ainda redigir 0 texto usando uma linguagem acessivel e que pudesse ser apreciado por profissionais, estudantes ¢€ pesquisadores, com perfis também autodidatas, como um guia direto e inde-
pendente no que tange ao aprendizado de temas basicos e avancados relacionados as redes neurais artificiais. Para tanto, as exigéncias de pré-requisitos para o entendimento dos assuntos do livro sao bem basicas, necessitando-se apenas de conhecimentos elementates sobre algebra linear, algoritmos com-
putacionais e cAlculo.
A parte I do livro (capitulos de 01 a 10), directonada mais para aqueles lettores que buscam iniciar ou aprimorar as suas investigacdes teoricas em redes neurais artifictais, trata das principais arquiteturas que sao passiveis de implementagao em varios cenarios de aplicacao. Na parte II do livro (capitulos de 11 a 20), concebida especificamente para a apresentacao de solugcdes que utilizam redes neurais artificiais para resolver problemas praticos, decorrentes de diferentes areas do conhecimento, descrevem-se os varios detalhes de implementacio que foram levados em consideragao para que se alcancassem os resultados relatados. Tais aspectos contribuem para o amadurecimento e aprimoramento, por parte do leitor, das técnicas experimentais que visam especificar a arquitetura de rede neural artificial que seja mais apropriada para determinado escopo de aplicacao.
OPOOQOOOLY SROKROOOOOCOOCOOOO CT? OCOOOO. OOOOOOOOOOOOOOOOOOOOOOTOOOOO OOD? SODOOOCO DOOOCOODOOOT OOOO OOOO OOO ODO OOOO POO OOO Re
eS, a
a
of
oe
EE
Oe
7
CNN
OR OO
Oo COO
“
ON POOLS om SS
IN
EN
.
as
OL
vr
.
“Lo
ORT
‘
-
ee
UO Oe!
mm,
a
O livro foi cuidadosamente concebido com a miss4o de apresentar um texto objetivo, amistoso, acessivel e ilustrativo, cuja preocupacao principal estava justamente em seu formato didatico. Para tais propdsitos, a organiza¢ao em duas partes, e a redacao recheada por mais de 200 ilustragoes tacilitam a transmissao dos conhecimentos aos diferentes perfis de leitores. A bibliogratia, constituida por mais de 160 referéncias, lastreta os temas tratados, enquadrando-se ainda os assuntos frente a um contexto mais atualizado. A organizac¢ao do livro foi meticulosamente repartida em duas pattes. A primeira (Parte I), dividida em 10 capitulos, abrange os aspectos tedricos referente as principais arquiteturas de redes neurais artificiais, incluindo Perceptron, Adaptive linear element (Adaline), Perceptron multicamadas, Radtal basts function (RBE), Hopfield, Kohonen, Learning vector quantization (LVQ), Counter-propagation e Adaptive resonance theory (ART). Em cada capitulo foi inserida uma secao de exercicios, em que o leitor podera gradualmente testar os seus conhecimentos adquiridos no decorrer dos diversos assuntos tratados no livro. Complementarmente, estes capitulos, que tratam diretamente das diferentes arquiteturas de redes neurais, sAo ainda contemplados com segoes que envolvem projetos praticos, cujos conteudos auxiliam o leitor nos aspectos experimentais que visam a modelagem de problemas por redes neurais artificiais. Tais atividades também contribuem para a aquisic¢ao de conhecimento de
cunho pratico, que podem auxiliar na especificacao, parametrizacao € no ajuste das arquiteturas neurais que sejam mais apropriadas para determinados fins. A segunda parte (II) aborda varias aplicagoes, abrangendo também diversas areas do conhecimento, cujas solucdes e implementag6es sao advindas do emprego das atquiteturas de redes neurais que foram exploradas na parte I. As diferentes aplicagdes refletem o potencial de empregabilidade das redes neurais na solucao de problemas em engenharia e ciéncias aplicadas, apontando-se ainda na direcao de prospectar ao leitor as diferentes estratégias de modelagem e mapeamento, por intermédio das redes neurats artificiais, de problemas de naturezas diversificadas. Diversos matetiais didaticos relacionados com o
livro, incluindo-se fi-
guras, dicas de exercicios e conjuntos de dados para treinamento das redes neurais (em formato de tabelas), estao também disponibilizados na pagina da internet: http:/ /laips.sel.eesc.usp.br/ Em suma, espera-se que a leitura do livro possa ser realizada de forma bem agradavel e prazerosa, contribuindo assim para a aquisicao de diversos conheci-mentos tedricos € praticos envolvidos com a area de redes neurais artificiats.
PDD DODD ODDDDPDPPDPDDPPDPDDPDPDDPDPPDPDDDDQDODQD OD DDDPO DDD DPD DPOODO OOD OOOO} DDD DDDO DODO DPPOODDDDQDQD DDD DDO DODO ODPDDDPODDDOOOQO OOOO QO OODOODO OOOH
Os autores sao imensamente agradecidos aos varios colegas que conttribuiram para a realizacao desta compilacao, dispondo de preciosos momentos a fim de auxiliar prontamente nesta importante e nobre empreitada. Em especial, gostariam de expressar seus agradecimentos aos colegas que colaboraram na formulacao da Parte II deste livro: Alexandre C. N. de Oliveira, Anderson da Silva Soares, André L. V. da Silva, Antonio V. Ortega, Débota M. B. S. de Souza, Edison A. Goes, Ednaldo J. Ferreira, Eduardo
A. Speranza, Fabiana C. Bertoni, José Alfredo C. Ulson, Juliano C. Miranda,
Lucia Valéria R. de Arruda, Marcelo Suetake, Matheus G. Pires, Michelle M.
Mendonca, Valmir Ziolkowski, Wagner C. Amaral, Washington L. B. Melo e Wesley F. Usida.
Parte | Arquiteturas de redes neurais artificiais e seus aspectos teodricos
Be
Re
SOBY o
e
Si
BR
ee
ecea B58 Bese ; e E85ss
o
SARS 5 ReaeBS O $ e R B 3 RSoa s sS ein e s 5 3 BEEBe Se R E R ea Se e S s ee
SO
B O S S sa SS SxRXO OQ Bo SSOQS() S SSSO SIS o re E K S o H S e xYx APIISOSS Seo oe8 SSCheHKBSR osSS B xB S RS E Se 4 R a SK ox SES Ley e X SSE x S 3 etn % B ve S S33SS So c 2 a a e ¢ S SR SEH °Y B B os BY % E x S OSSé K E IS S OORK BI x e e O a o S X isean L e S ee B SO o BE OS Ro dS do OS SS & e S‘S SS k E 5 RO ° K S OL? 0 S B 0 0 S % xoX $ 5 s ESEE S LSS eee OOO Se r S e . B $2 R~S EE e 554. o R 2 e S 0 * e 5 S Y e o e 45RS3 B3ee ©OX e S b x SS OOa R 85 “ R 0 S BB CX 585 S YH So S,O0,O SScxSB a X SE 5 us aX 8 OO S i aSS O 0 ” S O S E
S * e iS C“ © e BoASSAR80 oY Y 5 O OS SS é S o .s
.
.
S
.
os
eetQS E5S°B §Eoses mS
H
SS
RO
mK ‘ )
O > Rs 5
Be LY 050oo AS L S s x OOOLY O B8 e a )ox eOSS8S e oS oY S rere S eAoxoO 9 e S e e 5 O e o a 04 oe Se s La oe S S E LO e NeSeSEOSS S 85 bo S eB os RO
Se
SO 532 X o E S R e S E e s E XS 3s 5 oS Be Be EBE SB Ks B2
55 K B5S3E Oe eeS
8BES
e o R 3 5 as SBS s e XErar‘e 5 s 83 xX Ss e % SS % e o sieo s S 90 9 *x x es AOSRRaSRSee x o B SR xr ee O e RR2Y6 aX K n e BS X es x ns c SS BH S B eOS S8 S x S BS Xa S e x O e e S O 5 K e n eaSe 8 oS Q N c s os O CH m g xe 8 x S e e B x a C2 ee o o O e B YL r X y L r e R S e eSS y e ‘O ec E e sOY s SO YaEtRS B oS Res S e 8 e Y 's N 0 S e e o e x 5 e s 8 B8 PO O 58 Scs ae S Sg oo % BB S S2S C t x o 5 S x OS i a s§eene oOSRs $C S05S e s ER SSR 6 S o oe e ees 0E Oo e SOSe x x S ee o P Rexs s S A ER RB nese S008 ero5te 50h S S SO 9 s S es O oSOo S EA x S .5 0x8 ee 5
o
Sa
o e B EOD SnSeoxxX a aoes SSS ES G< C
2ONK SO O oS
°s 2ONOYSxX S
oe
SY
SSE 30S8O5 o a 25 L OKK 05 o S O o e O oo SR S e OSH E
O
OO S CeOK OH © RS
PDPPDDPPDPDPDDPDPDDPPDPDPDDPDDDDDP
ODDO
DD
DODD
OOOO OOO OOO DO
an
em
On
ODOOHO?
Oe
Introducao
A ideia de se construir uma maquina ou mecanismo aut6nomo, que seja dotado de inteligéncia, se constitui um sonho antigo dos pesquisadores das areas de ciéncias e engenharias. Embotra os primeiros trabalhos em redes neurais artificiais (RNA) tenham sido publicados ha mais de 50 anos, tal tema comecou a ser fortemente pesquisado a partir do inicio dos anos 1990, tendo ainda um potencial de pesquisa imenso. As aplicagdes que envolvem a utilizacao de sistemas considerados inteligentes sao as mais variadas possiveis, por exemplo: * Avaliagao de imagens captadas por satélite; Classificacao de padroées de escrita e de fala;
* Reconhecimento de faces em viséo computacional; * Controle de trens de grande velocidade; ¢ Previsao de acdes no metcado financeiro; * Identificagao de anomalias em imagens médicas; * Identificagdo automatica de perfis de crédito para clientes de instituicOes financeiras;
¢ Controle de aparelhos eletrdnicos e eletrodomésticos, como maqui-
nas de lavar roupa, fornos de microondas, geladeiras, cafeteiras, fritadeiras, filmadoras, etc.
22
Redes neurais artificiais para engenharia e ciéncias aplicadas
Além dessas aplicacdes, as potencialidades das redes neurais artificiais permitem a resolucgao de outros tipos de problemas advindos das mais diferentes areas do conhecimento, conforme testemunhados em diversos periodicos cientificos. E o caso da medicina, em que se utilizam redes neurais ar-
tificiais para classificagocs ¢ predi¢ces de cancer com base no perfil genético
do individuo [I...
W
116
Redes neurais artificiais para engenharia e ciéncias aplicadas
Em termos matematicos, a avaliacao da condigao de mudanca de sinal
do gradiente é dada pelas seguintes expressdes:
nt A(t - 1), se GE(t-1) dE(t),
aw
ow
AD =4 yo Abt-1), se oE(t ». aw?) sett 1) sao constantes responsaveis por incrementar ou
decrementar as taxas de aprendizado individuais de cada um dos pesos. Finalmente, as matrizes de pesos do PMC sao em tal situa¢ao alteradas da seguinte forma:
-A4)(), se ZO 50 awi)
AW) (t) =
+ A(t),
GE(t
Figura 5.14 — Ilustragao da saida proporcionada pela funcao ldgistica do neuronio A
Ja a figura 5.15 ilustra a combinagao das duas func¢odes logisticas efetuadas pelo neurdnio Y, na qual se verifica que o mesmo inverteu a funcgao logistica relacionada ao neurdnio Ba fim de classificar corretamente as classes do problema do ou-exclusivo. Resultado do neurénio de saida (Y)
Figura 5.15 — Llustracao da saida do neurénio Y que combina as duas fungées logisticas advindas dos neurdnios Ae B
Redes Perceptron multicamadas
125
Finalmente, a figura 5.16 mostra as fronteiras de classificagao associa-
das ao problema do ou-exclusivo, as quais sao delimitadas por duas retas, quando se executa a intersegao da superficie ilustrada na figura 5.15 proximo ao plano y = 0. x
2-
1
Bocoo0000co0 00d «+ «+ x x «QO
COCOCOOODCOCOOCOO Os * * x x x x CODDDDCOOOCOOCO OSE * «x» x x COGCN0NDAOCODOOOCOCOCE «= « x COCKCDCD0DDCVDNCOOOCCOOCKe « «x * q0cacOONDCANCONODCOOC Ow ~ « OO0CO000CON000OCOOOOCOO™ «x ODCDD0N0DCNDOCOCOCOCOOCOoO QDCOOCDODCONDOCODCNNOCOOOG, caocooo0oco0c0o—0coO0OCcCa000* CRoneneOReROROno neko menenonenonenenonenene ~9COCOD0ODTCOCVDOCOCOTCOVOCONO0N sOCDCDNOCAOCACNOCOACCNOOCOO0N0 ©FNCOOCAOCCNOOOCOCCOOCNOO00
0.8 0.6 O04F
~FOOO0000COOCOOCOOOOOSCOCO
** ~«© x *« xe
0.2
0
®OOOCOCNDOODONOCNOGCADONO x ROODOOOOOOCOCIVONONOCNOOONO * x BOOCOIDOOINOACCAONADCOOO x *¥ X BOCOONODCDOOVOOOCAO ea x eK KROOOCOOCOOVOODCOSO
Ox
rx
0
ee
* FOOONDADONDAOCO® 0.4
0.2
0.6
0.8
>
1
Xx,
Figuta 5.16 — Fronteiras de classificagéo para o problema do ou-exclusivo
De forma similar, pode-se entao deduzir que um PMC de duas camadas neurais, sendo uma delas a camada escondida e a outra a propria camada de saida, é capaz de mapear qualquer problema de classificacao de padrées cujos elementos estejam dentro de uma regiao convexa, tais como aquelas ilustradas na figura
5.17.
xX, A
Xo A O
\ 1256 Oo 5O
O
O
“ok
*
x*
DS \* ok felxo + O . * \, Convexo ~ # Xx VO
¥
O\*
O
‘,
(a)
* &
¥e
~
O7
O
‘me
o
O
xX O
On O/ % * * y 29 oe ok ok LO
0990 0 0 O
o}* Seo * * >
DO
5 00 26% 80
O
ST
Ys ‘
x O \
ak
*
x
*
ool
*
0900
=>
x
00
\
QO
oO
5
O 520
O-
O
‘\
x
Mg
0
O\ » * \
*
*
0 OO Oo
e
Uo
COCK\ * 4 y7. * O 0 0 O\* 2. O_O ~~. 9, 0 o0, O
0/0
(b)
oO
*°.0 00.7 * ye Pong
“oO yy *€/ O /. Oo F/O 7 9
0
A
>
X
O”
Oo.
oO
(c)
Oo
a
ms
Figura 5.17 — Exemplos de regides convexas para o problema de classificagao de padroes
as Redes neurais artificiais para engenharia e ciéncias aplicad
126
Em
tais exemplos, a classificacdo das amostras representadas pela fi-
gura 5.17(a) necessitaria de dois neurénios na camada escondida do PMC,
enquanto que para aquelas amostras das figuras 5.17(b) e 5.17(c) haveria
entao a necessidade de se utilizar seis e quatro neurdnios nas respectivas camadas escondidas.
Do ponto de vista geométrico, uma regido é considerada convexa se,
e somente se, todos os pontos contidos em quaisquer segmentos de reta, os quais estao também definidos por quaisquer dois pontos delimitados pelo respectivo dominio, estiverem ainda dentro desta. A figura 5.18(a) apresenta uma ilustracdo de regido convexa, enquanto a figura 5.18(b) mostra uma regiao nao-convexa.
Figura 5.18 — Ilustragao de repiao convexa e regiao nao-convexa
Assim, considerando que redes PMC de apenas uma camada escondida conseguem classificar padrdes que estejam dispostos em regides convexas, pode-se também deduzir que redes PMC de duas camadas escondidas sao capazes de classificar padroes que estejam em quaisquer tipos de regides geomeétricas [Lippmann, 1987], inclusive com formato nao-convexo como esta da figura 5.19.
127
OO
00
Redes Perceptron multicamadas
Figura 5.19 — Separabilidade em problemas com fronteiras naéo-convexas
Para tanto, a configuracao de rede PMC mostrada na figura 5.20 representa uma topologia passivel de implementar a classificagao de padres envolvida com a ilustragao da figura 5.19,
Figura 5.20 — Exemplo de rede PMC aplicada em problemas de classificagao de padroes com fronteiras nao-convexas
128
Redes neurais artificiais para engenharia e ciéncias aplicadas
Neste caso, pode-se considerar, por exemplo, que os neurdnios A, B e C da primeira camada intermediaria seriam responsaveis pela delimitagao da regiao convexa (triangulo) da esquerda, enquanto que os neuronios D, E
e Festariam envolvidos com a regiao convexa (triangulo) da direita. Por sua vez, o neur6nio G da segunda camada intermediaria poderia ser responsavel por combinar as saidas advindas dos neurdnios A, B e C a fim de enquadrar a parcela dos padrdes que pertencem 4a regiao convexa da esquerda, sendo que nesta condic4o a sua saida seria igual a 1. De maneira similar, o neuronio H produziria valor igual a 1 com o objetivo de representar a regido convexa da direita, cuja geomettia cercaria o restante dos demais padrodes pertencentes a mesma classe. Finalmente, o neurdnio Y da figura 5.20 estaria entéo incumbido de efetuar uma operacao de disjuncao booleana (porta OR), pois se qualquer uma das saidas produzidas pelos neuténios G ou H for igual a 1, a sua resposta final y seria também igual a 1. Adicionalmente, o PMC com duas camadas escondidas poderia ainda mapear outros tipos de regides geomeétricas, tais como aquelas formadas por conjuntos disjuntos (desconexos), conforme ilustradas na figura 5.21. xX
XM
A
O
Oo
Of 5 0 oft
O/t “
c ov«
oO
0°"
7 AN
O
O
O
| O
#
loo
*
0
O
oO’,
ovo?
'
0
0.900,
2?
*/O kw;
*x*
0.” oO Oo~
4 *JOO\%
~~ CO, */5-4i
0
2
O
*. oO” oO
6
70
*
ww * x ~ x A. ‘ weoon
*
+
/o0 'O
oO
/ 79 #000
: e**\
52
O00
*
Seat
5 GO o
Fae
* x
.0 OFthe 0
*
\x
a \ * Os
* (Dol *©
as
* O7> 0%
*4#/0 0 oO
SK
yt
x,
"
x
* *« *
4-07
7*
x
xy
Figura 5.21 — Exemplos de regides disjuntas em classificagdo de padroes
Por outro lado, embora um PMC constituido de duas camadas escon-
didas seja suficiente para reconhecer padrdes que estejam delimitados por quaisquer repides geomeétricas, ha situag6es em que se utilizam mais de duas camadas escondidas, pois tais configuragdes podem ser apropriadas tanto para o proposito de incrementar o desempenho do processo de treinamento como de reduzir a topologia estrutural da rede. Além disso, ha outras situagGes particulares, conforme relatadas em
Redes Perceptron multicamadas
Makhoul ef af (1989) e Lui (1990), em que redes PMC
129
com apenas uma
camada escondida seriam ainda capazes de mapear problemas cujos padrdes estariam também dispostos em regides disjuntas ou nao-convexas.
Em suma, pode-se concluir que os neur6nios de saida das redes PMC, quando aplicadas em problemas de classificagao de padrdées, realizam combinagées ldgicas, tais como AND e OR, das regides que foram definidas pelos neurdnios das camadas anteriores, independentemente da dimensao associada aos padroes de entrada. Tais operagdes logicas somente sao passiveis de mapeamento em virtude de serem linearmente separaveis. A figura 5.22 ilustra algumas dessas operagoes ldogicas (linearmente separaveis) em que estes neurOnios de saida poderiam estar implementando. Assim, considerando duas variaveis légicas x, e x,, tem-se entao a possibilidade de se implementar 16 operacdes booleanas; dentre as quais, apenas duas (ou-exclusivo e seu respectivo complemento) deixam de ser linearmente separaveis. Xa 1
0
o> 1
x, | %»
Py
0
0
Oy
*2
x, | x»
Py
0
0
0
0
1
0
0
1
1
1
0
0
1
0
1
1
1
1
1
1
1
xy
X>
y
0
0
1
Xx;
0
(a) y — (x4) AND (x2)
-O
:
o> 1
4
xX;
(b) y « (x1) OR (x2) X2
x;
X2
y
0
0
0
oj}
191
1
0
0
1
1 | 1
Fo
17491
x
(c) y — (NOT x,) AND (x2)
1@-
o | 141
1
0
0
0
XxX,
(d) y — (NOT x,) OR (x2)
Figura 5.22 — Exemplos de operacdes logicas linearmente separaveis
Complementarmente, em se tratando de problemas de classificagao de padrdes com mais de duas classes, ha entao a necessidade de se inserir mais
130
Redes neurais artificiais para engenharia e ciéncias aplicadas
neurOnios na camada de saida da rede, pois um PMC com apenas um neuronio em sua camada de saida é capaz de distinguir somente duas classes. Como exemplo, um PMC composto de dois neurénios em sua camada de saida poderia representar, no maximo, quatro classes possiveis (figuta 5.23), ao passo
que trés neurdénios poderiam diferenciar oito classes no total. Generalizando, um PMC
com m neuronios em sua camada de saida seria capaz de classificar,
teoricamente, até 2” classes possiveis.
Entretanto, em termos praticos, devido a eventual complexidade do
problema a ser tratado, a adogao desta codificagao sequencial de conjuntos pode tornar o treinamento do PMC bem mais diticil [Hampshire Hl & Pearlmutter, 1991], pois as classes estariam sendo representadas por pontos que estao espacialmente bem proximos entre si. Tal situacao poderia entao demandar um incremento substancial no numero de neurdnios de suas camadas intermediatias, além da ocasional dificuldade de seu ajuste topoldgico.
y2 Classe
Figura 5.23 — Codificagao sequencial para problemas de classificacao de padroes envolvendo quatro classes possiveis
Alternativamente, um dos métodos mais utillizados é aquele denominado one of ¢-classes, oO qual consiste em associar a saida de cada neurdnio diretamente a classe correspondente, sendo que neste caso a quantidade de neurOnios na camada de saida é igual ao numeto de classes do problema. Na condic¢ao de se ter quatro classes possiveis, a configurac4o de saida da
rede PMC seria igualmente composta de quatro neurdnios, conforme ilustragao da figura 5.24.
Redes Perceptron multicamadas
131
OK FY y; XxX 4
\\
x
Ld
\
Vp
ERA A XK
SOR
?
°
V4
Figura 5.24 — Regra one of ¢-classes para Classificagao de padrdes envalvendo quatro classes possiveis
Como exemplo, a tabela 5.1 descreve também as codificagées dessas qua-
tro classes, considerando-se para os neurdnios de saida tanto a regra de codificacao sequencial binaria (figura 5.23) como a regra one of c-classes (figura 5.24).
Tabela 5.1 — Codificagao de classes em problemas de classificagao
de padroes
_Codificacao sequencial y,
y,
0 0 Poo | 4 { 0
4
ft
Classe
A B C
D
|
-——Godificacao. one of c-classes Y=}
Vo
0 |
0
1 0 0 4 0 | 0
|
|
Ss
y,
0
1
oO 0 4
,
_
Classe
0 | A 0 2B o | ¢c
D
Km referencia ainda a regra ove of ¢-classes, inspecionando-se a tabela 5.1, verificou-se que uma detetminada amostra pertenceria a c/asse B somente se a saida do neuronio y, fosse igual a 1, sendo que todas as saidas dos demais devem ser iguais a 0. Conforme relatado antetiormente, tal estratégia de codificagao ortogonal ficou conhecida como representagao one of «classes [Duda ef ali, 2001], em que se assume que cada uma das classes do problema sera
representada por um neurOnio de saida.
132
Redes neurais artificiais para engenharia e ciéncias aplicadas
Finalmente, menciona-se que os valores y*" produzidos pelos neur6nios da camada de saida da rede PMC, considerando os problemas de classificacao de padrdes, devem ser pds-processados, pois as funcgdes de ativagao
produzem numetos reais que, no caso da fungao logistica, podem estar proximos de um ou proximos de zero. Face a esta circunstancia, dependendo da precisao requerida, os valores y*** advindos desta operagao de pds-processamento podem set obtidos pela aplicagao da seguinte sistematica: ,
pos =
1,
se yS2l28 > jimnSuP
O,
se y sada < fimint
(5.58)
onde lim*” e lim definem, respectivamente, os valores de limiares superiores e inferiores para os neurO6nios da camada de saida da rede visando propésitos de atribui¢gao das classes, isto é, se a saida do neurdnio for maior ou igual ao fim”, atribui-se entao o valor unitario; caso contrario, se for menor ou igual ao lim", assume-se 0 valor zero. As especificagdes de tais limites dependem essencialmente da precisao requerida, sendo que para a fungao de ativacao logistica sao tipicamente adotados valores de lim“? € [0,5 ; 0,9] e lim" © [0,1 ; 0,5]. Outros
detalhes desta implementagao sao apresentados na secao 5.9.
5.4.2 —- Problemas envolvendo aproximacao funcional A outra classe de problemas em que as redes PMC podem usufruir de maior destaque é€ aquela envolvida com a aproximagao funcional, a qual consiste em mapear 0 comportamento de um processo baseando-se em diversas medicdes efetivadas em suas entradas e saidas. De fato, considerando tal aspecto,
observa-se aqui uma das principais caracteristicas inttinsecas das redes neurais artificiais, ou seja, o aprendizado a partir de exemplos, sendo que no caso de aptoximac¢ao de fungoes, traduz-se na disponibilizagao de um conjunto de entradas e saidas que reproduzem o comportamento do sistema a ser tratado. Em virtude desta capacidade de mapear processos por intermédio de exemplos, as redes PMC se tornam candidatas a muitas aplicagGes em que as unicas informacoes disponiveis se resumem a uma colecao de dados de entradas e saidas. Nesta direcao, constata-se que as tedes neurais artificiais tém sido extensivamente aplicadas em situagdes em que 0 processo a ser modelado é de certa forma complexo, nas quais as utilizacdes de métodos convencionais
Redes Perceptron multicamadas
133
produzem resultados insatisfatérios,; ou entdo, naquelas situagdes em que o
sistema j4 modelado se torna demasiadamente particularizado em torno de alguns pontos de operacgdes que produzem solugoes satisfatorias. © teorema da aproximac¢ao universal aplicado ao PMC, o qual é baseado nas demonstragoes de Kolmogorov (1957), fornece as bases necessarias
para definir as configuragdes estruturais destas redes com a mapear fungoes algébricas [Cybenko, 1989].
finalidade de
Assumindo que a funcao de ativacao g(.) a ser adotada nas redes PMC sejam continuas e limitadas em suas imagens, tais como sao a funcaéo logistica e
a tangente hiperbolica, demonstta-se entao que uma topologia de PMC, constituida de apenas uma camada neural escondida, é capaz de mapear qualquer fun¢ao continua no espaco das fungodes reais. Em termos matematicos, tem-se: m
VX XQ
Xp) = > Aj
gM ul)
i=1 parcela (') n
ul = SW .x; -, 1
1
(5.59)
—parcela (ii)
°
j=
(5.60)
~
1 onde i, sao constantes que ponderam as fung6es g'.).
As expresses (5.59) e (5.60) podem ser traduzidas para uma represen-
tacao de rede PMC, como aquela ilustrada na figura 5.25, em que é composta de fato por apenas uma camada neural escondida, tendo-se a fungao logistica (1.8) como ativagao pata os respectivos neuronios desta camada. Em outras
palavras, conclui-se que a fun¢ao y a set mapeada pelo PMC sera ent4o tituida por uma superposicao de fung6es de ativacaéo do tipo logistica cela (ii)$, representadas pelos termos g (u™), as quais sao ponderadas fatores 4, {parcela (i)}. Similarmente, a demonstragao € igualmente
cons{parpelos valida
quando se assumem a tangente hiperbdlica como fungoes de ativacao para os
neurOnios da camada escondida.
Por conseguinte, utilizando como ativagao da camada de saida a fun¢ao
linear (1.14), tem-se entao que o unico neur6nio de saida realizara ta0 somente uma combinagao linear das funcdes de ativacao logistica implementadas
pelos neurénios da camada anterior.
134
Redes neurais artificiais para engenharia e ciéncias aplicadas
~O,
logistica
Camada neural
Camada de entrada
ny - wi?) 1,
(1)
de saida
Ay f?
Camada neural! escondida
Migura 5.25 — [lustragao de rede PMC aplicada em aproximagao funcional
Portanto, apds 0 processo de treinamento da rede PMC, a matriz de pe-
sos referentes ao neurdnio de saida correspondera aos prdéprios parametros i, : A (5.59), isto €,‘ A; -=W,7’.ywi2) da expressao Para fins de mera elucidagao, considera-se que o PMC seja utilizado pata implementar o problema de aproximagao funcional, cujas amostras de treinamento estao dispostas na figura 5.26. y
a
>.
vetor de. entradas (x) Figura 5.26 — Amosttas de treinamento ao problema de aproximacio funcional
Redes Perceptron multicamadas
135
Neste caso, deseja-se implementar um PMC para mapear (aproximar) oO comportamento funcional do processo. Como exemplo de topologia, utilizar-se-4 um PMC composto de trés neurdnios {A, B, C} em sua camada escondida, conforme ilustrado na figura 5.27.
vetor de entradas
(x)
Finalmente, para este exemplo ilustrativo, a figura 6.13 mostra a saida do neurdnio Y, cujo objetivo é realizar uma combinagao linear das duas funGGes gaussianas implementadas pelos neuronios A e B, frente aos propdsitos da correta classificacao dos padroes. Resultado do neurénio de saida (Y) 1
t
‘ i i
15.
F wees
7
~ |
ir
'
'
i
t t
i '
\ {
'
-
'
;
oF
| | | |
' t “
ti
t
et
3
i
i
i
.
2s
r—
I
t
e , 05 -F¢
a
2
t
j
“+
t..
1
fe
1
t t
Q--
|
=
| t
| | ~ +}
Bows at
1 i
a+
1
“
|
ee
:
:
;
|
7 , (eth at ee ee ae ge eg ge Ue oe gg ne HS we hare wan gS a ot ge et ee at ge or ne i
stag ae "ag oF a7 Of
On A Ga caaa? ga eta Xp
7
0
1 A Figura 6.13 —— Hustracao da sa ida do neurénio Y que tealiza Saneke linear |i a combinac4o das duas
- gaussianas produzidas . fungGes
pelos neuronios A e B.
188
Redes neurais artificiais para engenharia e ciéncias aplicadas
Por intermédio ainda da analise da figura 6.13, constata-se que o neuronio Y acabou invertendo a fungao gaussiana produzida pela saida do neuronio A, tendo-se puramente como objetivo a correta classificacao das classes do problema. Para tanto, o valor do peso conectando o neurdnio A ao neurOnio Y sera entao negativo, ao passo que o valor do peso conectando o neurdnio B ao Y sera positivo. Finalmente, a figura 6.14 ilustra o campo receptivo, com formato hiperesférico (padrao circular em 2D), proporcionado pelo neurénio de saida da RBF. Diferentemente daquelas fronteiras que seriam produzidas pelo PMC, as quais sao delimitadas por hiperplanos (retas em 2D), tem-se aqui uma fronteira radial resultante da combinagao linear das saidas produzidas pelos neuronios A e B. 4¥
oo
ws
0.9 +
a
a
x
x
Fronteira de separabilidade da RBF
ef «
moor
«
”
“
™
» 08
r
“
"
a
$*
x
x
x
«=
©
O7t
moon OG
«©
«©
x
MS O5f 040
nx
m
x
x
”
x
&
#
”
x
ew
wv
«
we
noe
we
kK
we
©
wm
Re
wm
Ke
ew
we
we
Ke
we
KR
Um
x
ok
no»
x
x
om
”
“
«
"
0
OS
OO
Ron
x wR
a nm
«©
9
9
CC
OO
09
02
0
6
00
0606060
0
O09
O42
0606
00
00 060600
Doc
0
0
0
—-8 0
Ot
0.1
0.2
8
03
8 808 0.4
GC
oO
600
0.5
ow
f
Kx x
x
«
*
*
0
x
000 9
0
Kx
Re
89
0006064600009
0
wR
0
0
0
x
060
0
0
«x
0646
9
39
0
x
600600600606
0
G6
0
&
«©
«
0060C00d0mUmlUmUODUDUCUCOUCUCOUClUlU
0
0
40
we
8G
064600600660 006
O80
«
909
0 6-4
480
8
ww
* ee
x
©
01
ow
re
«
&
0000C0UCUMOUOUCUDUCUCONWUUCOUlUCOUUlUl GOGO
9
nw
mw x
=
0
ne
0
00
x
"
»
a0
™
™
©
00
x
™
Ǥ
99
a
x
0
C¢
a
x
«
O80
»
”
0
0
a
x
x
»
0
a
ee
xX
~ooo6d oO
x
»
x
5°
026
oe
ee
@oocC¢ 036
oe
G0
8
OG
AG 0.6
oe
t
&€
9
6000
0.7
ee
0
0
.
0
0
x
OBO
0 oo
0.8
«+
0
«
eo 0.9
1
x;
Figura 6.14 — Frontetra de classificacao radial para a rede RBF
Caso o problema de classificagao de padrées tivesse trés entradas, o campo receptivo seria representado por uma esfera, de modo que se teriam hiperesferas para quatro ou mais sinais de entrada.
Pata propdsitos de entendimento sobre as diferencas entre o PMC ea RKBF, quando aplicadas a um mesmo problema de classificagdo de padres, consideram-se novamente dois tipos de amostras que devem ser classificadas
Redes de funcdées de base radial (RBF)
189
eV
em funcao de seus sinais de entrada, caracterizados por x, e x,, conforme ilustracao da figura 6.15.
Figura 6.15 — Disposigao de amostras visando classificacao de padroes utilizando PMC e RBF
A figura 6.16 mostra uma concepcao geomeétrica das eventuais fron-
teiras de decisao apds o treinamento analise da figura, depreendé-se que a ser constituida por oito neurdénios em de segmentos de retas; ao passo que
de ambas as abordagens. A partir da camada intermediaria do PMC poderia virtude de se visualizar esta quantidade a camada intermediaria da RBF seria
composta por somente dois neur6nios, os quais sao caracterizados pelas cir-
cunferéncias que delimitam as fronteiras.
X O
0 O 0°9-00 05/8 95 0
o7
OO.
¥r--
»
0,
*
*
» * *
*
*t
0
O ‘oO
#*y
9% 6°
oO
0
e400
00
Vy yg HO ee ao 0 700 ON 09°79 O
——
Fronteiras do PMC
O
o O 0°9-700_0 % 6°
i*
1,
*
O 9
-=~.
4¥S
ne Fy
‘ “0
* *\) Fx
1
oy AFH!OO 0 OO sn nr"00 © 00 O
>
X4
O
O
>
Fronteiras da RBF
Figura 6.16 — Delimitacao de fronteiras de classificagao do PMC e RBF
xX
190
Redes neurais artificiais para engenharia e ciéncias aplicadas
Assim, destaca-se aqui novamente que os limitantes das fronteiras de classificacdo sao sempre definidos por hiperplanos quando da utilizacao de rede PMC, sendo os mesmos caractetizados por campos receptivos hiperesféricos quando da aplicagao de rede RBF. A figura 6.17 ilustra de forma tridimensional as regides de separabilidade baseadas nos resultados da figura 6.16.
Figura 6.17 — RegiGes de separabilidade produzidas pelo PMC e RBF
Em geral, quando se tem disponivel uma grande quantidade de amostras de treinamento, independentemente do problema a ser mapeado, as redes KBF podem requerer mais neurénios em sua camada intermediaria quando comparada com as redes PMC. Entretanto, o treinamento de redes RBF é normal-
mente muito mais rapido em relagao as redes PMC [Chen ef a&7, 1991]. 6.4 - Exercicios
1) Considerando os aspectos de arquitetura neural, discorra sobre trés diferengas entre redes PMC e RBF.
2) Explique quais seriam as eventuais implicagdes em se assumit a mesma variancia para todas as func6es de ativacao dos neurénios que compdem a camada intermediaria da rede RBF.
3) Discorra sobre a necessidade de se utilizar os limiares de ativacao {6} em todos os neurdnios que compdem a camada de saida da rede RBF. 4) Descreva qual a finalidade dos campos teceptivos hiperesféricos produzidos pelas func¢Ges de ativacgao gaussianas que compdem os neur6nios da camada intermediaria da rede RBF.
Redes de fungoes de base radial (RBF)
191
5) Escreva em pseudocddigo os passos necessarios para o ajuste de We
8. durante a aplicagao do segundo estagio de treinamento da rede RBF. 6) Considerando o problema do ou-exclusivo {porta X,,}, discorra sobre a quantidade minima de neur6nios que seriam necessatios na camada intermediaria da RBF visando a solugao do problema.
~
7) Mostre que, em termos vetoriais, a expressao dada em (6.2) € equiva-
lente a seguinte equacao:
gi"(x)=¢@
- [x-w(i} ) (x49) 20%
2
onde wii é o vetot de pesos associados ao j-ésimo neuronio da camada intermediaria. 8) Explique quais as modificac6es a serem impostas na expressao vetorial do exercicio anterior para que esta funcao de ativacao produza campos receptivos hiperelipsoidais. 9) Considerando novamente o problema do ou-exclusivo, explique se © mimero minimo de neuréntios, a ser utilizado na camada intermediaria da
RBF, seria também o mesmo quando do uso de fungoes de ativagao que produzam campos teceptivos hiperelipsoidais ao invés de radiais. 10) Para problemas de classificagao de padres, quais seriam as eventuais vantagens e limitacdes da rede RBF frente ao PMC. 6.5 — Projeto pratico 1 (classificacao de padroes) A vertificagao da presenga de radiagao em determinadas
substancias
nucleares pode ser efetuada por meio da andlise da concentracao de duas varlaveis {x, e x,}. A partir de 50 situagdes conhecidas, resolveu-se entao treinar uma RBF para a execugao da tarefa de classificacao de padrdes neste
processo, cuja topologia esta ilustrada na figura 6.18.
192
Redes neurais artificiais para engenharia e ciéncias aplicadas
A
gaussiana
linear
/
gaussiana
Figura 6.18 — Arquitetura da RBF (projeto pratico 1)
A padronizagao para a saida, representando a presenga ou auséncia de sinais de radiacao, ficou definida conforme a terminologia introduzida na tabela 6.1. Tabela 6.1 — Padronizacao de saida da RBF
|
Status de radiagdo Presenga
Saida (y) OT
Auséncia
-1
Utilizando os dados de treinamento apresentados no apéndice IV, execute oO treinamento de uma RBF (2 entradas e 1 safda) que possa classificar, em fungao
apenas dos valores medidos de x, € x,, se em determinada substancia ha a presen¢a ou auséncia de radiacéo. Em sequéncia, realize as atividades seguintes: 1) Execute o treinamento da camada escondida por meto do algoritmo k-means. Em se tratando de um problema de classificacao de padres, compute os centros dos dois agrupamentos (c/usters), levando-se em consideragao apenas aqueles padrdes com presenga de radiagao. Apos o treinamento (primeiro estagio), fornega os valores das coordenadas do centro de cada agrupamento e€ sua respectiva variancia. Tabela 6.2 — Resultados do primeiro estagio de treinamento Agrupamento 1
2
Centro
Variancia
Redes de fungées de base radial (RBF)
193
2) Execute o segundo estagio de treinamento utilizando a regra Delta generalizada, com taxa de aprendizado de 0,01 e precisdo de 10°’. Apds a convergéncia ser alcangada, fornega os valores dos pesos e limiar referentes ao neuronio da camada de saida. Tabela 6.3 — Resultados do segundo estagio de treinamento Parametro
wii
(2)
| a
Valor |
(2) Wo 6
3) Dado que o sificacdo de padr6es, mento das respostas Os numeros inteiros sinal definida por:
yo
1
problema se configura como um tipico processo de clasimplemente o procedimento que realize o pdés-processacomputadas pela rede (valores reais), a fim de produzir padronizados na tabela 6.1. Para tanto, utilize a fun¢ao
pos_| 1,8ey20 ® -1,sey
h
tan(a) = ov(t)
Gu(t)
1t--
°
i
we
a
-. “\G@ o
"4
r
¢
7
o
e
¢
o
¢
&
c V
. .
”
1
°
Vv
v
°
i}
c
e 4
oe
Vv
>0
Fungao logistica
Tangente hiperbdlica
{7-1
Figura 7.3 — Ilustragao de derivadas parciais de primeira ordem
206
Redes neurais artificiais para engenharia e ciéncias aplicadas
Claramente, pode-se observar que todas as derivadas de primeira ordem (coeficientes angulares das retas tangentes aos pontos da curva) serao
positivas em todos os pontos de seus respectivos dominios de definigao.
Portanto, tem-se assim as duas condigoes essenciais para que 0 comportamento dinamico da rede de Hopfield seyja estavel, isto ¢: i.
A matriz de pesos {W} deve ser simétrica.
ii. A fungao de ativacdo {g(.)} deve ser mondtona crescente.
Em suma, considerando a condicao de que a matriz W seja simetrica, e que sua funcao de ativagdo seja monétona crescente, os resultados da demonstragdo estabelecem que, dado qualquer conjunto de condi¢oes iniciais
x, a rede convergira para um ponto de equilibrio estavel.
A figuta 7.4 mostra de forma ilustrativa um conjunto de pontos de equilibrio e seus reciprocos campos de atracg4o, que foi produzido por uma tede de Hopfield constituida de dois neurdnios, cujas saidas sao dadas por vy, € V,. V2 -
-=23=n — \ 14777 VoYg
i}
Pop
ot
pl ty
ow
a
a
“
~-
oe
fo”
Oh@s{~ ,2 = xo) £4 !
coun
e7F
(3
“~- Zl
bye ~
~
=
Ss
hy
7
Vang 27>\ 4 +P
“y
NeW
rity
f
WoL hg “7-7 /
fy
”
~
>?
==
s x(a)
pO
@
‘
~
NS ~\ ‘ \
4
NU7
2.2
ZiT rfa4ctrnr —_
.
.Ns
mw
NS “NS ANN
TANNA
Hl ®) Poy oy pty Wey —~’ y py ty VN ew 4 owe TF Ss
ok
7. fo 47,7
Go-
/
bale
Virals Oy Vie dy 6
Se
/
"4
/
23-4
“-
OE?
Figura 7.4 — Pontos de equilibrio ¢ seus campos de atragao
Os cinco pontos de equilibrio (atratores), representados sequencialmente na figura 7.4, seriam entao aqueles que produziriam os menores va-
Redes recorrentes de Hopfield
207
lores para a fungdo de energia dada em (7.5), ou seja, so os estados que
minimizam a fun¢ao de energia da rede. Como exemplo, conforme também mostrado na figura 7.4, a saida da rede convergiria para 0 quinto ponto de equilibtio caso fosse inicializada no ponto x®, pois este estatia posicionado em seu respectivo campo de atragio; de modo que a convergéncia se daria para o terceiro ponto de equilibrio se a rede fosse inicializada no ponto x”. Generalizando, como a rede de Hopfield é deterministica, tem-se que,
pata quaisquer posic¢Ges iniciais que estejam dentro da regido de atragao de um ponto de equilibrio, a rede entao sempre tendera a convergir (de forma assintdtica) para aquele referido ponto. A quantidade exata de pontos de equilibrio e suas localizac6es sao determinadas pelos parametros livres {We FP} da rede
de Hopfield (equac4o 7.5), sendo que os formatos geométricos de seus respectivos campos de atracao estao também relacionados com as caracteristicas da funcao de cnergia que foi definida para o problema. 7.4 -—- Memorias associativas
Uma das aplicagées mais difundidas das redes de Hopfield diz respeito as memorias associativas binarias, também denominadas de meméorias en-
derecdveis pelo contetdo. A finalidade embutida por tras de uma ria associativa esta em tecuperar (restaurar) corretamente um padrao previamente atmazenado em sua estrutura, a partir de uma amostra (incompleta) ou ruidosa (distorcida) do mesmo [Hopfield, 1982]. Para sitos de elucida¢ao, a figura 7.5 ilustra a versdo original de um padrao fico e duas versoes incorretas de sua amostra.
CI
Ct
nn CL oF
—
(a) Padrdo original
—_—_
An
L) TRO
(b) Amostra incompleta
Ce
(c) Amostra distorcida
Figura 7.5 — Versoes de padrodes incorretos em memorias associativas
memoque fol patcial propoespecti-
208
Redes neurais artificiais para engenharia e ciéncias aplicadas
Para a situacao deste exemplo, dado entao uma amostta incompleta (figura 7.5b) ou ruidosa (figura 7.5c), o objetivo da memoria associativa seria
recuperar o padrao originalmente correto (figura 7.5a) que ja tinha sido anteriormente armazenado em sua estrutura.
Face ao problema especificado aqui, a rede de Hopfield pode também ser utilizada com a finalidade de funcionar como uma memoria associativa. Assim como em todas as aplicacoes relacionadas com o uso de redes de Hopfield, o desafio esta na especificacao apropriada dos seus parametros livres que levem a minimizacao da funcao de energia correspondente. Para tanto, dois métodos classicos tém sido utilizados com frequéncia, ou seja, o método do produto externo e 0 método da matriz pseudo-inversa. 7.4.1 —- Método do produto externo A forma mais simples para a determinagao da matriz de pesos We do vetor de limiares P, visando-se parametrizacao de memorias associativas, é aquela proposta pelo proprio Hopfield, cuja inspiragao advém da aplicacao do método de aprendizagem de Hebb. De acordo com Hopfield (1982), dada uma quantidade p de padr6es
{z} a serem atmazenados na memé6tia, constituidos por n elementos cada
um, os parametros livres da rede de Hopfield s4o definidos por: p
W - 4 ¥' 20) (27
(7.10)
k=1
j> -0
(7.11)
em que utiliza como ativacao a funcdo sinal dada na expressao (1.6). De fato, neste
caso, tal fungao seria similar 4 fungao tangente hiperbdlica com B elevado.
No caso das memorias associativas, a diagonal da matriz de pesos deve ter valores nulos (indicagao de auséncia de auto-realimentacao). Para tanto, reescrevendo a expressao (7.10), tem-se: _ 1 W=-—)
p
Tek=1
P 2’ (k) -(z ;o(k)\T —-=.]
ey
parcela (i)
-F
—~—, parcela
C)
onde fe R"«" é a matriz identidade.
(7.12)
Redes recorrentes de Hopfield
209
Certamente, a parcela (i) da expressao (7.12) realiza o produto externo entre os elementos de cada um dos padroes a ser armazenados, sendo que a parcela (ii) simplesmente neutraliza os elementos da diagonal principal (W,, = 0). Como exemplo do processo de montagem da matriz W, considera-se dois padroes a serem introduzidos numa memoria associativa, conforme diagramados na figura 7.6.
Primeiro padrao // z™
Segundo padrao // z)
Figura 7.6 — Exemplos de padrées a serem armazenados na memoria
Nas imagens a set armazenadas, definidas em grids de dimensdo 3 x 3, as quadriculas (pixels) escuras s4o representadas pelo valor 1, ao passo que as quadriculas brancas pelo valor -1. Tais atribuigdes sao diretamente assumidas por corresponder aos valores de saida da fungao de ativacao sinal. Nesta condicao, os vetores Z” e 22) sao constituidos pela concatenacao
das linhas que comp6em cada um dos seus grids, isto é:
z) =[-1
44-1
—_—a-
# linha
Zz?) [44-1 yw
—-
?* linha
44 41 47 -1 414-17"
”
2° linha
44-1 A
~
nee
oOo
37 linha
47 --1 41 --1 «4177 a
2° linha
Neen
ee
3 linha
Aplicando-se a expressao (7.12), com p = 2e n= 9, obtém-se a referida
matriz de pesos da rede de Hopfield, ou seja:
210
Redes neurais artificiais para engenharia e ciéncias aplicadas
0
-022
-0,22
0
0,22
-0,22
0
-022
0,22
-0,22
0,22
-022
022
0
0,22
-0,22
0,22
-0,22
022
-0,22
0
-0,22
0
-0,22
0,22
-0.22
0,22
-0,22
0,22
-0,22
0
0
0,22
-022
022
-0,22
0
0
0
0
0
0
0
0
0,22
022
-0,22
0,22
0
0
0 -022
022 -022
-0,22
0,22
-022
0,22
-022
0
-0,22
0
-0,22
022
-022
022
0
O22
-0,22
0
-0,22
0,22
| 0,22
-0,22
0,22
-0,22
0
-022
0,22
—-0,22
0
Desta forma, considerando uma versao parcial ou ruidosa dos padrées 2") ou Z®), na qual sera apresentada as entradas da rede, esta convergira para uma das respectivas versoes que foram originalmente armazenadas em sua estrutura. 7.4.2 - Método da matriz pseudo-inversa
A obtengao da matriz de pesos W, por meio do método da matriz pseudo-inversa, é€ realizada a partir da minimizacao do erro entre uma versao parcial (ou ruidosa) frente 4 sua respectiva versao original. Para tanto, sejam as seguintes matrizes:
Z=[z)
72
73)
zl)
(7.13)
R =[r
r(2)
83)
r'P)}
(7.14)
onde Z é uma mattiz que contém todos os p padroes de dimensao n, representados pelos vetores 2), ao passo que R € uma matriz que contem as versGes ruidosas 4) desses p padres. O erro existente entre Ze R pode ser computado por intermédio da norma euclidiana, que é dada por: Erro =|Z - v||
(7.15)
onde Vé a matriz representando a saida da rede em relacdo 4 matriz R, que
Redes recorrentes de Hopfield
711
foi apresentada em suas entradas. Em situacéo de convergéncia, tem-se 0 seguinte relaclonamento para a memoria associativa: V=W-R
(7.16)
Substituindo o valor da expressao (7.16) em (7.15), obtém-se: Erro = |Z -W -R|
(7.17)
Portanto, deseja-se obtet valores para os elementos da matriz de pesos
W que minimize a expressao (7.17). Por meio da algebra linear e das técnicas de identificagdo de sistemas [Ljung, 1998], a minimizacao desta norma pode
ser obtida por:
W=Z.(R’-R)'-R! -
(7.18)
Em que a parcela (R’ -R)'-R’ é a pseudo-inversa da mattiz R, conhecida também como pseudo-inversa de Penrose-Moore. 7.4.3 - Capacidade de armazenamento das memorias Um dos questionamentos frequentes a respcito da rede de Hopfield, quando
usada como
mem6éria associativa, diz respeito 4 quantidade de pa-
drdes que podem ser inseridos em sua estrutura, visando-se, posteriormente, as respectivas recuperacoes destes frente a apresentagao de uma amostra incompleta ou distorcida. Baseado em inumeros experimentos computacionais, descreve-se, em
Hopfield (1982), que a capacidade de armazenamento {C**'} de padrdes das memorias associativas, objetivando uma recuperacao de padroes relativamente com poucos ertos, é dada por: CHopf 9 15-n
(7.19)
212
Redes neurais artificiais para engenharia e ciéncias aplicadas
onde n, conforme definido antetiormente, é a quantidade de elementos (dimensado) de cada padrao a ser armazenado. Por meio de andlises de probabilidade, apresentam-se, em Amit (1992) e Haykin (1999), alguns resultados mais precisos e elaborados sobre a capacidade de armazenamento das tedes de Hopfield. Os estudos realizados revelam que a capacidade maxima de armazenamento {C“*}, considerando uma recuperacao quase sem erros, seria definida por: Max
oe
_
n
2-In(n)
(7-20)
Ja para uma recuperacao perfeita, com probabilidade beirando 100% de acertos, a capacidade de armazenamento de padrées {C*} seria estimada em:
c100% -§__t_
(7.21)
4-In(n)
Pata efeitos comparativos, em fungao dos resultados advindos dessas trés expressOes anteriores, a tabela 7.1 mostra as capacidades de armazenamento da rede de Hopfield para diversos valores de n. Tabela 7.1 — Capacidades de armazenamento da rede de Hopfield Dimensao
n=20 n=50 n= 100 n= 500
n= 1000
Chopt
Crex
C100%
150.0 |
72,4
36,2
3,0 7,5 15,0 75,0
3,3 6,4 10,9 40,2
1,7 3,2 55 20,1
Pela analise da tabela 7.1 é possivel verificar que, quando a precisao requerida durante a recuperacao deixar de ser um fator tao imperativo, pode-se entao armazenar muito mais padrdées na memoria associativa, conforme os valores refletidos por C’*". Em contraste, quando a precisao
Redes recorrentes de Hopfield
713
da recuperacao se torna muito elevada, a quantidade maxima de padrées a serem armazenados
{C“} decai substancialmente com o aumento de suas
dimensoes, atingindo-se valores minimos de armazenamento quando se espetra 100% de acertos na recuperacao.
Com efeito, uma das principais tragilidades das redes de Hopfield, funcionando como mem6tias associativas, seriam as suas baixas capacidades de armazenamento, que sao proporcionais as dimensGes dos padtGes a serem guardados. Por outro lado, quando a capacidade de armazenamento despreza as quantidades recomendadas por (7.19) e (7.20), isto €é, numeros excessivos de padroes passam a ser inseridos dentro da estrutura da rede, ha entao o aparecimento de estados espurios. Embora sejam pontos de equilibrio estaveis, tais estados nao corresponderao a nenhum dos padroes previamente armazenados. Neste caso, a matriz W possuira autovalores degenerados. Uma detalhada investigagao tedrica sobre este topico, que envolve a convergéncia da rede de Hopfield frente as propriedades da mattiz We de seus subespacos, é examinado em Ayer ef adi (1990). Diversas outras investigacdes tém sido ainda conduzidas com a finalidade de se incrementar a capacidade de armazenamento de padrGes nas memOrias associativas, quando da utilizacgao de redes de Hopfield, tais como aquelas propostas em Garcia & Moreno (2004), Lee (2006), Li e¢ adi (1989) e Muezzinoglu ef a&i (2005).
7.5 —- Aspectos de projeto de redes de Hopfield Diferentemente das arquiteturas de redes neurais artificiais apresentadas nos capitulos anteriores, tem-se que os parametros livres da rede de Hopfield, definidos pela matriz de pesos We pelo vetor de limiares #, sao obtidos de maneira explicita em grande parte de suas aplicagdes, o que implica na dispensa de algoritmos de treinamento. De fato, a maioria dos problemas tratados pela rede de Hopfield é derivada da especificagao de uma fungao de energia, conforme expressao defini-
da em (7.5), a qual é representativa de seu comportamento dinamico. Quanto mais conhecimento se tenha da area tematica que envolve um problema especifico, mais subsidios estarao disponiveis pata se projetar adequadamente as respectivas funcoes de energia.
214
Redes neurais artificiais para engenharia e ciéncias aplicadas
Em suma, 0 projeto de uma rede de Hopfield pode ser desenvolvido atentando-se para Os seguintes aspectos:
i.
A fungdo de energia do problema deve ser escrita na forma dada
por (7.5); ii.
Pata problemas envolvendo otimizacdo de sistemas, a fungao de
energia normalmente é formulada por intermédio da funcao objetivo (fun¢gao custo ou fun¢gao de desempenho); ii. Pata problemas de otimizaca4o restrita, tanto a fungao objetivo como as restricdes estruturais devem ser também escritas conforme
a expressao (7.5). Um exemplo deste mapeamento é apresentado no capitulo 20;
iv. A matriz de pesos W pode ainda ser composta por elementos que sejam representados por funcoes algébricas. Entretanto, tais fun¢gdes precisam ocupar posicGes simétricas dentro de W; v.
Independentemente do problema a ser mapeado pela rede de Ho-
pfield, deve-se sempre observar a simetria em sua matriz de pesos;
vi. A fungao de ativagao da rede de Hopfield deve ser sempre monsétona crescente, visando-se para tanto os propositos de gatantia de estabilidade; vii. Em diversas aplicagdes de cunho pratico, os elementos do vetor de limiares {?} podem assumir valores nulos;
vit. O dominio de variacdo de cada variavel do problema a ser mapeado deve ser abtangido pelos limites da fungao de ativagao considerada; ix. O resultado da rede de Hopfield, correspondente a alguma solucdo do problema que esta sendo tratado, é sempre representado por um de seus pontos de equilibrio; x. No caso de problemas de memorias associativas, deve-se atentar para as suas capacidades de armazenamento frente a precisao requerida para a recuperacao dos padroes. As instrugdes (em pseudocddigo) descrevendo a operagao da rede de
Hopfield discreta, representada pelas express6es (7.3) e (7.4), sao fornecidas na sequéncia.
Redes recorrentes de Hopfield
215
Inicio {Algoritmo Hopfield - Operagao em Tempo Discreto}
( Especificar a matriz de pesos W e 0 vetor de limiares 7°: Apresentar vetor inicial de entradas { x (9) }:
yatual —
(9).
.
Repetir as instrucdes:
yantenor
yatual .
ue W.yamtencr . 75.
tconforme (7.3)}
ytual «yy:
{conforme (7.4)}
Até que: v
atual
=v
anterior
yiinal _ yatual final rapresenta um ponto de equilibrio} Fim { Algoritmo Hopfield — Operagao em Tempo Discreto}
A fungao de ativacgao a set utilizada no algoritmo depende do tipo de problema a ser mapeado pela rede de Hopfield, sendo que, pata o caso das
memoOrias associativas, a fun¢do sinal é uma das mais empregadas.
Em resumo, a partir de um estado inicial x, a rede tende a convergir para um. de seus pontos de equilibrio que sejam estaveis, cuja evolugao permanecera estatica (v4! = ya'eror) quando esta condigao for atingida.
7.6 —- Aspectos de implementacao em hardware A relativa facilidade de implementagao em hardware analdgico é também um dos principais motivos da popularidade da rede de Hopfield. Para tanto, em Hopfield (1984), além da proposigao da rede em tempo continuo, foi ainda demonstrado que esta poderia ser representada por componentes eletronicos bem basicos, tais como amplificadores operacionais, resistores e capacitores. Nesta situa¢ao, os neuronios em si sao modelados pelos prdéprios amplificadores operacionais, cuja relag¢do entrada/saida destes faz o papel da funcao de ativagao logistica. A figura 7.7 ilustra o diagrama esquematico de implementacdo da rede de Hopfield em hardwate.
216
Redes neurais artificiais para engenharia e ciéncias aplicadas
cy
RY
Figura 7.7 — Diagrama do hardware analdgico da rede de Hopfield
A constante de tempo que define a evolugao de cada j-ésimo amplificador operacional {AO} é especificada pelo ajuste dos seguintes parametros internos: Ri — Resistor de entrada do j-ésimo amplificador operacional. Ci — Capacitor de entrada do j-ésimo amplificador operacional. O parametro U. na figura 7.7 indica a tensao na entrada do amplificador operacional, sendo que V, é a sua tespectiva tensao de saida. Os pesos W, da rede, representando a conex4o entre dois neurdnios, sao definidos por uma condutancla que interliga a saida do j-ésimo amplificador a entrada do /-ésimo amplificador. Esta conexdo é realizada por meio de um resistor cujo valor é dado por:
Ry _= Wy1
(7.22)
Sendo que, se a sinapse (conex4o) for excitatéria (W, = 0), entdo este resistor sera
diretamente conectado 4 saida convencional (+) do j-ésimo amplificador; caso
Redes recorrentes de Hopfield
217
contrario, considerando-se uma sinapse inibitoria (W, < 0), o resistor sera entao conectado a saida inversora (—) do respectivo amplificador. Portanto, os sinais dos elementos da matriz W definirao os pontos de conectividade entre todos os amplificadores operacionais (neurénios). A corrente de entrada de qualquer neuronio é formada pela soma das correntes fluindo através do conjunto de resistores que conecta suas entradas as saidas dos outros neur6nios. Conforme também indicado na figura 7.7, 0 circuito equivalente representativo da rede de Hopfield inclui ainda uma corrente de entrada |, a ser
fornecida externamente para cada neuronio, que é correspondente ao respec-
tivo valor de seu limiar, ou seyja, /, = i?.
Finalmente, a equacdo que descreve a evolucao deste circuito em relaG40 ao tempo, constituido tipicamente por amplificadores operacionais, pode ser obtida mediante a aplicagao das leis de Ohm e Kirchoff [Boylestad & Nashelsky, 2004]. Assumindo que todos os amplificadores operacionais possuem as mesmas configurac¢6es internas {R = RreC= C*}, obtém-se:
C.
dU; (t)
== Uj(the
at
1 onde: n=—+
:W Wy
Vi()+4;,
|
onde / =1,...,n
(7.23)
jot n
1
5 — R dR, i=1
Normalizando (7.23) em relacao ao valor da capacitancia C, conclui-se que é similar Aaquela expresso definida em (7.1). Portanto, o diagrama eletronico mostrado na figura 7.7 corresponde ao circuito equivalente, em hardware analdgico, da rede de Hopfield. Consequentemente, qualquer problema de cunho pratico que seja mapeado por meio de simulagdes computacionais pode
também ser convertido pata o seu respectivo circuito equivalente. 7.7 — Exercicios
1) Explique quais sao as condigdes essenciais que devem ser impostas as equacdes que definem a dinamica da rede de Hopfield a fim de que produza solucoes estavels.
2) Discorra sobre a importancia do parametro P para o processo de convergéncia da rede de Hopfield em direcgao aos pontos de equilibrio estaveis.
218
Redes neurais artificiais para engenharia e ciéncias aplicadas
3) Explique se a funcdo de ativacao do tipo gaussiana poderia ser utili-
zada nos neurénios da rede de Hopfield.
4) Mostre de maneira detalhada qual a sequéncia de passos necessarios para projetar redes de Hopfield que sejam dinamicamente estaveis. 5) Considerando um problerna relacionado com memOrias associativas, discorta se a aplicacdo da rede de Hopfield pode produzir pontos de equilfbrio estaveis que nao sejam uma solucao valida para o problema. 6) Discorra se ha alguma objegao a ser realizada nos parametros da
rede de Hopfield em tempo discreto quando da sua inicializagao com valores nulos {x = O}.
7) Uma equipe de engenheiros e cientistas projetou uma tede de Hopfield visando uma aplicagao especifica. Contudo, todos os elementos da matriz de pesos possuiam os mesmos valores, que eram diferentes de zero. Explique se a formulacao alcangada poderia estar incorreta. 8) Discorra como deve ser ajustada a fungao de ativagao tangente hi-
perbdlica com o intuito de utiliza-la no mapeamento de memorias associativas em hardware (rede de Hopfield continua). 9) Considerando um problema de memérias associativas usando rede de Hopfield, em que cada padrao a ser armazenado é€ constituido de n componentes, determine qual seria a quantidade maxima de pesos sinapticos nao nulos que a respectiva matriz de pesos poderia conter. 10) Seja um problema de otimizacao combinatorial que utiliza uma rede de Hopfield para a obtencao da solucao. Nas diversas simulac6es executadas
observou-se que ha somente dois pontos de equilibrio estaveis. Discorra entao sobre os seguintes itens: a) Quais $40 OS possiveis parametros que condicionam a convergencia para um desses pontos de equilfbrio? b) Que critério deve ser utilizado para escolher qual desses pontos
de equilibrio que correspondera a solucao final do problema.
7.8 — Projeto pratico Um sistema de transmissao de imagens (codificadas por 45 bits) envia seus sinais através de um link de comunicagao. Ao chegar no sistema de
Redes recorrentes de Hopfield
219
recepgao, a informagao é decodificada visando a recuperac4o fiel da imagem previamente enviada. As quatro imagens (informac6es) que estéo sendo transmitidas sao representadas pela figura 7.8.
Figura 7.8 — Imagens a serem enviadas pelo transmissor
Entretanto, durante a transmissdo, as imagens s40 corrompidas por ruidos, transformando-as em representacGes incompletas ou distorcidas, quando de suas decodificagées pelo receptor de imagens. Visando resolver o problema, pretende-se implementar uma memoria associativa, por meio de uma rede de Hopfield constituida de 45 neurdnios, a fim de armazenar e recuperar as imagens (padroes) definidas na figura 7.8. Para tanto, consideram-se as seguintes convencoes: ¢ Pixel branco é codificado com valor -1; e Pixel escuto é codificado com valor +1;
* Cerca de 20% dos pixels sao corrompidos aleatoriamente durante a transmissao, ou seja, alguns que valiam -1 passam a valer +1 e vice-versa; ¢ A matriz de pesos W sera definida por meio do método do produto externo;
¢ A funcao de ativacdo a ser utilizada em todos os neurdnios sera a funcao sinal (1.6), ou a tangente hiperbdlica (1.11), com parametro de inclinagao {6} igual a 100. Utilizando-se tais informagoes, faca os exercicios seguintes quando do término da implementagao computacional da rede de Hopfield. 1) Simule doze situagdes de transmissao (trés para cada padrao), conforme esquema ilustrativo apresentado na figura 7.9.
220
Redes neurais artificiais para engenharia e ciéncias aplicadas
= TT
Imagens transmitidas (sem rufdos)
Imagens recebidas (com ruidos)
Tr
Imagens recuperadas (sem ruidos)
Figura 7.9 — Esquema iustrativo de imagens transmitidas, recebidas e recupetadas
2) Mostre, em cada situagao, a imagem distorcida e a imagem limpa ja
recuperada.
3) Explique o que acontece quando se aumenta de maneira excessiva o nivel de ruido.
Aleksandr Mikhailovich Lyapunov (AaekcaHap Mirxaitaosua Aaryros)
OOCOOOOOOOOOOOOOOOOOIIIJ000 000000 OO OOOO OO OOOO OOOO OQOOD? QQOOCCOOOOOOOQOOOOOOOOOOOOOQOOOOQOO OP POOQ QO
OOOO OOO
CA OOOO OOO" LPO OOOO ODO OOOO OOOO OO COODO OO KOO II OO, OOOO IOC
DEER OCIE
OK OD OOOPOOOOOO COLO LOLLOOOOO
Capitulo 8 *
negeS
e
wT
AUTO-OFdanhiZave
e
ne
ROnHOHnELr
8.1 - Introducao Grande parte das estruturas de redes neutais artificiais apresentadas nos capitulos precedentes necessita de um conjunto de padroes de entradas e saidas para que possam ser devidamente treinadas. Os ajustes de seus parametros livres (mattizes de pesos e limiares) sao realizados a partir das apresentacgdes sucessivas dessas amostras de treinamento, configurando-se assim numa aprendizagem supervisionada. Entretanto, em certas aplicacdes, somente 0 conjunto de padrdes de entradas esta disponivel, inexistindo, para tanto, as respectivas saidas deseja-
das. Por outro lado, essas amostras possuem informagoes relevantes sobre o
comportamento daquele sistema em que foram extraidas.
A maioria das redes utilizadas em problemas com essa configuracao se auto-organizam por meio de métodos de treinamento competitivos, os quais tem a capacidade de detectat similaridades, regularidades e correlagoes entre os padrdes do conjunto de entrada, agrupando-os em classes (c/usters). Cada uma possui entio caracteristicas particulares que estado relacionadas com situagdes e condicdes que regem o funcionamento do processo. Assim, a identificagao destes clusters € importante pata o entendimento das relagdes entre os seus elementos constituintes, permitindo-se ainda identificar as funcdes de um componente ou amostta com base nos atributos dos outros elementos que fazem parte do grupo.
222
Redes neurais artificiais para engenharia e ciéncias aplicadas
Uma das estruturas de redes neurais artificiais mais difundidas, em face
ao contexto de auto-organizacao, sao os mapas auto-organizavels propostos pelo finlandés Teuvo Kohonen, os quais ficaram também conhecidos como
tedes outo-otganizaveis de Kohonen, ou, simplesmente, redes de Kohonen,
cujo trabalho pioneiro foi formulado em Kohonen (1982, 1984).
Assim como as redes recorrentes de Hopfield, as pesquisas desenvolvidas por Kohonen ainda atrafram a atencaéo da comunidade cientifica daquela época, contribuindo pata o avivamento cada vez mais crescente da area de redes neurais artificiais, cujo renascimento definitivo se desdobrou com a
proposicao do algoritmo backpropagation por Rumelhart ef aé7 (1986).
As redes de Kohonen encontram inspiracdo biolégica no cortex cerebral,
onde a ativagao de uma regiao especifica corresponde 4 resposta frente a determinado estimulo sensorial, por exemplo, estimulo motor, visual ou auditivo.
Embora a rede de Kohonen seja utilizada para diversas aplicacoes, em
diferentes areas do conhecimento, os trabalhos mais bem disseminados ver-
sam sobre problemas que envolvem classificacao de padroes e agrupamento de dados (clusterizacao).
8.2 —- Processo de aprendizado competitivo Para descrever os passos envolvidos com o processo de aprendizado competitivo utilizado na rede de Kohonen, considera-se uma estrutura neural
/
constituida de apenas uma camada neural, conforme ilustrada na figura 8.1.
x, 0
pf 5 *
»y,
NAA XeE
O
Figura 8.1 — Estrutura neural basica de rede competitiva
> Vn
Redes auto-organizaveis de Kohonen
223
As conex6es laterais entre os neurOnios da figura 8.1 assumem aqui o papel de que um neurdnio pode influenciar na resposta de saida produzida por outro neurdnio. O significado dessas conexoes laterais sera detalhado na proxima segao. Para efeitos de simplicidade de notag¢ao, visto que a estrutura neural ilustrada na figura 8.1 é constituida de apenas uma camada, assume-se entao
a scguinte convencao para os seus vetores de pesos: w!)) = [Wi4
Wea
w'?) =[Wo4
Woo
w'?) = [W314
We.
-
Waal”
Won ’
{vetor de pesos do 1° neurdnio}
{vetor de pesos do 2° neur6énio}
... Wan |’ — f{vetor de pesos do 3° neurénio}
(...) wih) — [Wat
Wiz
Wan J’
{vetor de pesos do ultimo neurénio}
O ptincipio basico para o processo de aptendizado competitivo é a concorréncia entre os neurdnios, tendo-se 0 objetivo de se sair vencedor da prova de competicao, pois se ressalta que aqui 0 processo € nao-supervisio-
nado (sem saida desejada). O premio para aquele que venceu a competi¢ao com os outros neurdnios sera o ajuste de seus pesos, proporcionalmente aos valores do padrao de entrada apresentado, visando-se assim aperfeicoar 0 seu estado para a proxima competi¢ao (proximo padrao a set apresentado). Nesta circunstancia, se todas as conex6es laterais deste neurOnio vence-
dor forem nulas (auséncia de conexGes laterais), implica que somente os seus pesos serao ajustados, isto é, assume-se a estratégia do “vencedor leva tudo” (winner-take-all. Caso contrario, para a situacao de haver valores para as cone-
x6es laterais com os seus vizinhos, entao um ajuste proporcional a tais quantidades sera também efetuado no vetor de pesos desses neurdnios adjacentes. Considerando
tal contexto, haveria, portanto, a necessidade de se es-
tabelecer uma regra que defina quem vai ser o neurénio vencedor. Uma das medidas mais utilizadas consiste em determinat o nivel de proximidade exis-
tente entre o vetor de pesos de cada neurOnio, frente ao vetor de entrada
contendo os elementos da k-ésima amostra {x}, a qual sera apresentada nas
224
Redes neurais artificiais para engenharia e ciéncias aplicadas
entradas da rede. Uma
métrica de proximidade normalmente usada é a dis-
tancia entre esses dois parametros, ou seyja: n
dist\*) =
YO? j=
—wh?,
onde j =1...,.1%
(8.1)
onde dist quantifica a distancia (norma euclidiana) entre o vetor de entrada, representando a k-ésima amostra
ésimo neurénio {w}.
{x}, em relacao ao vetor de pesos do j-
Assim, aquele neur6énio j que obtiver a menor distancia sera declarado o vencedor da competicao frente 4 amostra k. Como prémio pela vitdoria, o vetor de pesos do neurdnio vencedor sera ajustado de maneira que este se aptoxime ainda mais daquela amostra. Para tanto, utiliza-se o seguinte meto-
do de adaptacao:
Watual ~
v
k
anterior +(x ")
Wonterior )
(8.2)
Em nota¢ao algoritmica, esta expressao (8.2) é equivalente a seguinte: Ww) — wl) 4
(x) —w))
(8.3)
onde w” denota o vetor de pesos do neurdnio vencedor e o parametro n define a taxa de aprendizagem. Visando obter uma maior eficiéncia do processo de aprendizagem, é desejavel que se normalize (de forma unitaria) todos os vetores de pesos dos neuronios, assim como todos aqueles vetores de amostras, A normalizagao unitaria
é efetuada bastando-se dividir cada vetor pelo seu respectivo modulo. A figura 8.2 ilustra a regra de ajuste de pesos para o neuronio vencedor do ptocesso competitivo, em que trés neurdnios (representados por Ww"), we w®)) disputam o torneio frente a apresentacao do padrao x”, sendo oO mesmo composto por duas entradas x, € x,.
Redes auto-organizaveis de Kohonen
(3) Ww anterior
225
(1)
--"74
be
—
W anterior —_
7s
~
W (2) . ~™ anterior
.
"
\
‘Ww
yk) _ ay (2) (x
(2) atual
W anterior )
; (ja normalizado)
Figura 8.2 — Processo de ajuste do vetor de pesos do neurdnio vencedor
A partir do exame desta figura, considerando que todos os vetores ja se encontram unitarlamente normalizados, observa-se que o vetor W* é o vence-
dor da competic¢ao com w" e Ww), pois é aquele que esta mais perto do padrao x), Consequentemente, como recompensa, 0 seu vetor de pesos sera ajustado, conforme a expressao (8.2), com o intuito de deixa-lo ainda mais préximo do vetor x”, Por certo, o verdadeiro ajuste consistiu tao scmente de rotacionar o
neurOnio vencedor em direga4o ao vetor representando a amostra. Inicio {Algoritmo Competitivo — Fase de Treinamento} f Obter o conjunto de amostras de treinamento { x) }. Iniciar o vetor de pesos de cada neuronio considerando os valores das n, primeiras amostras de treinamento; Normalizar os vetores de amostras e de pesos;
Especificar a taxa de aprendizagem { n }: Iniciar o contador de numero de épocas { época < 0 }: Repetir as instrugdes: ( Para todas as amostras de treinamento { x‘*)}, fazer: Calcular as distancias euclidianas entre x‘*) ew")
conforme a expressao (8 1).
Declarar como vencedor o neurdénio j que contenha a menor distancia euclidiana:
Ajustar o vetor de pesos do neurénio vencedor conforme a expressao (8.3); Normalizar o vetor de pesos que foi ajustado na instrugao precedente;
\
\ 6poca
A
ae
da camada intermediaria (Kohonen) em relagao a
\. epoca
pe
“Ss
o4
mo
N. tT
peeES
(nec
10.1 - Introducgao 7~
A teoria da ressonancia adaptativa (adaptive resonance theory - ART), proposta ofiginalmente por Grossberg (1976a, 1976b), foi desenvolvida a partir da observacao de alguns fendmenos bioldgicos envolvendo a visao, a fala, o desenvolvimento cortical € as iteragGes cognitivo-emocionais. A motivacgao desta teoria é baseada em trés principios biolégicos que sao destacados pelas sepuintes caracteristicas:
¢ Normalizagao de sinais —> capacidade dos sistemas biolégicos em se adaptar a ambientes que se alteram em todo momento. Como exemplo, temse o sistema oftalmologico humano que se adapta rapidamente frente a quantidade de luz disponivel;
° Intensificagao de contraste —> potencialidade partir de sucessivas observagoes realizadas sobre oO sistema respiratorio é capaz de diferenciar de um ambiente limpo que comecou a ser poluido
de identificar detalhes sutis a o ambiente. Como exemplo, forma quase que instantanea com monoxido de carbono;
¢ Meméria de curto prazo — possibilidade de armazenar momentaneamente as informac6es sensotiais advindas do mecanismo de intensificagao de
contraste, antes que possam ser decodificadas visando a tomada de decisoes.
264
Redes neurais artificiais para engenharia e ciéncias aplicadas
Assim, por intermédio da proposicao desta teoria, varios modelos de redes neurais artificiais, com treinamento tipicamente n4o-supervisionado (com caracteristica recorrente), foram sequencialmente propostas. Um dos principais atributos das redes ARTé a sua habilidade de aprender novos padr6es sem destruir os conhecimentos ja anterlormente extraidos, por ocasiao da apresentagao de outras amostras. Esta caracteristica esta diretamente associada ao intrigante dilema plasticidade/estabilidade [Carpenter & Grossberg, 1988], no qual o sistema deve ser flexivel (adaptativo) o suficiente para incorporat mudangas ocorridas no ambiente, ao passo que deve ser ainda bem estavel a fim de preservar o conhecimento ja adquirido no decotrer do tempo. As topologias baseadas na arquitetura ART podem ser divididas em cinco grupos principais que sao classificadas em funcao do tipo de suas entradas e seus processos de treinamento, ou sejam: ¢ ART-1 — Padr6des com entradas binarias e treinamento nao-supervisionado [Carpentet & Grossberg, 1987a]; ¢ ART-2 — Padroes com entradas binarias ou analogicas (continuas) e treinamento nao-supervisionado [Carpenter & Grossberg, 1987b]; ¢ ART-3 — Padtrodes com entradas binarias ou analdpicas e treinamento nao-supervisionado, usando-se aqui topologia multinivel e¢ “transmissores quimicos” para controle do processo de busca pela melhor solu¢ao [Carpenter & Grossberg, 1990]; ¢ ART-Map — Padr6des com entradas binarias ou analdgicas e treinamento supervisionado em tempo-real [Carpenter ef af7, 1991a], utilizando-se duas redes_ART em sua estrutura;
¢ Fuzzy-ART — Versao fuzzy da ART-MAP e que possui também aprendizado supervisionado [Carpenter ef af, 1991b]. Em fungao da elevada aplicabilidade, assim como de sua relativa simplicidade de implementagao, abordar-se-4 neste livro somente a topologia AART-1, sendo que as propriedades e os principios relacionados a teoria de ressonancia adaptativa sao os mesmos pata os cinco grupos de redes ART. Por certo, conforme enfatizado anteriormente, a esséncia de todas as
Redes ART (adaptive resonance theory)
topologias ART esta baseada no tos associados a novos padroées substancialmente o aprendizado médio da apresentacao de outras
265
principio de como incorporar conhecimende entrada, sern a necessidade de modificar ja inserido anteriotmente na rede por interamostras.
As aplicacées das redes ART-1 sao as mais vatiadas possiveis, sendo encontradas em diversas ateas do conhecimento. Como exemplos, em Young et a/z (2007) foi utilizada uma arquitetura ARI-1 para detectar regiGes espaciais de interesse astrondmico, assim como caracterizar os ruidos que estao presentes nas informag6es coletadas. Ja em Cho ef afi (2006) foi descrita uma metodologia utilizando tredes ART-1 para classificacao baseada em grid computacional visando aplicacGes
em problemas de bioinformatica. Em Tateyama & Kawata (2004) foi desenvolvida uma tecnologia de agrupamento usando redes ART-1, a fim de dividir as maquinas de uma planta industrial em células de fabricacao, tendo-se o intuito de se aumentar sua produtividade. Em Rajasekaran & Raj (2004) foi apresentada outra aplicagao de redes
AART-1 para extracao de caracteristicas e reconhecimento de imagens monocromiaticas de satélites. Em Baraldi & Alpaydin (2002) foi também proposta uma estrutura neural baseada na rede ART-1 visando clusterizacao de dados
em tempo-real. Finalmente, em Srinivasan & Batur (1994) foi apresentada uma abordagem integrando redes de Hopfield e redes ART-1 para detectar e isolar faltas em sistemas dinamicos lineares.
10.2 — Estrutura topologica da rede ART-1 A estrutura topologica representando uma rede do tipo ART-1, idealizada por Carpenter & Grossberg (1987a), € ilustrada na figuta 10.1, cujas amos-
tras (vetores) de entrada sao tipicamente compostas por valores binarios. A principal aplicabilidade das redes ART-1 esta na solugao de problemas de classificacao de padrdes, sendo também considerada como um sistema classificador de vetores.
266
Redes neurais artificiais para engenharia e ciéncias aplicadas
F(1)
Figura 10.1 — Estrutura topologica da rede ART-1
Em resumo, considerando uma amostra representada pelo vetor de entrada {x}, sua finalidade consiste em classifica-la em uma das classes repre-
sentativas do problema, utilizando-se para tanto uma medida de similaridade deste vetor em relacao aos outros vetores que j4 compoem as referidas classes. E valido ressaltar que, em se tratando de aprendizado nao-supervisionado, ha entao a inexisténcia da saida desejada.
Em complemento, observa-se por meio da figura 10.1 que a rede ART-1 € constituida de duas camadas de neurdnios (campos representativos F” e F*), que estao totalmente conectados uns aos outros, ou seja, todos os neurdnios da camada A" estao conectados a todos os neurdnios da camada F® ¢ vice-versa. A camada FP”, denominada de camada de entrada ou camada de com-
paragao, possi uma quantidade de neurdnios que coincide com a dimensao das amostras de entrada (dimensao do vetor x), sendo que sua finalidade esta também incutmbida de repassar tais padroes originals para os neuronios da camada F*. Assim, conforme representado na figura 10.2, o fluxo de informagoes impetrado pela camada FP” é continuamente adiante (feedforward), isto é, sempre em direcao a camada F®).
Redes ART (adaptive resonance theory)
267
y
| Saida
Camada
de reconhecimento
(representacao de categoria)
A
wr)
2
Fi)
win
Elfementos continuos
Elementos binadrios v
Camada de comparagao
(representagao de caracteristica)
F(t)
atin
1 Entrada X
Figura 10.2 — Fluxo de informagoes na rede -1R1-1
Por conseguinte, as informa¢oes realimentadas (feedback), a partir da camada F?), constituem assim os seus respectivos sinais de entrada, os quais serao entao ponderados pela sua matriz de pesos (definida por W°), composta por elementos binarios. ~
Portanto, a missao principal da camada F” consiste em realizar uma operacao de compatacao a fim de verificar se o vetor de entrada {x}, previamente associado a uma das classes representadas pelos ncuronios da camada de saida, possui similatidade com 0 conjunto de vetores j4 armazenados. Ja a camada F?, denominada de camada de safda ou camada de reconhecimento, tem a eventual missao de reconhecer e incorporar o conhecimento trazido por um vetor de entrada para uma das classes que estao sendo representadas pelos seus neuronios. Portanto, a quantidade de neuronios desta camada é dinamica, e varia de acotdo com a necessidade de se adicionar
novos neurOnios, para que novas classes possam ser representadas. Esta caracteristica dinamica é uma das principais potencialidades de tedes ART. Outra particularidade desta camada F”), diferentemente do compotta-
mento entre os neutdnios da camada de entrada PF", ¢ que estes sao competitivos entre si (apresentam conexoes laterais). O fluxo de informagoes desta
camada (FP?) realimenta (feedback) os neurOnios da camada de entrada (F").
Sua matriz de pesos (definida por W‘), constituida de elementos reais, fica incumbida de ponderar as catacteristicas das componentes do vetor de en-
trada que é aptesentado, de tal modo a esttmulat que um dos neuroénios re-
268
Redes neurais artificiais para engenharia e ciéncias aplicadas
presentativos das classes do problema possa ser entao ativado como sinal de reconhecimento do referido vetor. Similarmente as redes de Kohonen, apenas um unico neurdénio da camada de reconhecimento
da ART-1
estara ativo em cada ciclo, sendo este
considerado 0 vencedor da competicao de proximidade.
10.3 —- Principio da ressonancia adaptativa © funcionamento da rede ART-1 é baseado no proprio principio da ressonancia adaptativa, quando da apresentacao de um novo vetor (representando uma amostra) em sua camada de entrada. Em primeira instancia, cada vetor {x} apresentado sera propagado da camada de entrada PF” em direcao a camada de saida FP”), cujos valores de seus sinais Componentes serao ponderados pela respectiva matriz de pesos {W®! da camada F?), tendo-se o intuito de extrait as suas caracteristicas dis-
criminantes, as quais visam a estimulacgao de uma das classes que estao sendo representadas pelos seus neurOnios.
Em segunda instancia, quando da chegada do referido padrao (ponderado por W") junto a camada de saida F®, os neurdnios desta camada, os quais estarao representando as classes do problema a ser mapeado, entrarao, portanto, em competicao com o objetivo de verificar qual deles possui maior proximidade com aquele vetor que acabou de chegar, sendo assim declarado
um vencedor pata esta competicao.
Em terceira instancia, o neurOnio ganhador encaminha a classe vencedora de volta a camada de entrada PF”. Durante este processo, os neurdnios da camada F™, por intermédio dos pesos armazenados na matriz W°), realizam
entao o teste de similaridade a fim de verificar a aderéncia daquele vetor de entrada a classe representada pelo neurdnio vencedor de F®. Em quarta instancia, em decorréncia do resultado do teste de similaridade, se o vetor de pesos do neurdnio vencedor for “parecido” com o respectivo vetor de entrada, levando-se em consideracao um limiar de aderéncia (parametro de vigilancia), havera entao o processo de ressonancia entre ambos. Em consequéncia, o referido vetor de entrada sera assim associado aquela classe que 0 neurdonio vencedor esteja representando, sendo que a finalizagao deste ciclo de reconhecimento é executada por meio da atualizacao de ambas as mattizes de pesos.
Redes ART (adaptive resonance theory)
269
Caso contrario, em quinta instancia, o atual neuronio vencedotr (ativo), embora tenha ganhado a competigéo com os demais neurdnios em F®), nao é
aquele mais apropriado para representar a classe associada ao referido vetor de entrada. Nesta situacao, no proximo ciclo, este deve ser desabilitado para que outro neuronio da camada F* possa entao ter a chance de vencer a competic¢ao, repassando-se (em seguida) a nova classe vencedora para a realizagao do teste de similaridade. Tal processo se repete a cada novo ciclo até que haja defini¢ao de uma classe que seja compativel com o referido vetor de entrada. Finalmente, em ultima instancia, caso nenhum dos neur6nios da cama-
da F®) seja aprovado no teste de similaridade, um novo neuronio deve ser entao adicionado/habilitado na camada F® a fim de identificar esta outra classe
representada pelo vetor de entrada em questao. De fato, tratar-se-a entao de uma nova Classe, pois todas as outtas ja existentes, as quais estao sendo repre-
sentadas pelos outros neurdnios da camada P*), nao sao passiveis de englobar as novas catacteristicas de conhecimento e/ou comportamento trazido pelo teferido vetor de entrada.
Na realidade, o processo de ressonancia realiza basicamente um teste de hipdtese. Nesta circunstancia, uma hipdétese sobre a classe apropriada pata incorporar o vetor de entrada é formulada pela camada de reconhecimento FP), Em seguida, a camada de comparacdo FP” entra em operacao a fim de validar a hipdtese proposta, ou seja, se o vetor de entrada tiver um grau de similaridade aceitavel a classe sugerida, ha entado a validagao da hipotese; caso contrario, a hipotese previamente formulada estava equivocada e outras classes (neurOnios) devem set entao avaliadas, ou até mesmo criadas, nos proximos ciclos.
10.4 - Aspectos de aprendizado da rede ART-1 O processo de aprendizado de novos conhecimentos pela rede ART-1 pode ser mais bem entendido por meio do fluxograma sistematizado na fieura 10.3.
270
Redes neurais artificiais para engenharia e ciéncias aplicadas
yi
ye
Ys
ceae
Ym
Indice do vencedor | (VI) Disponibilizar classe | atual em Fa A
oo
@)
@)
CG)
(~)
| Ajuste de W
Existet}
_Ok!
(x)
(2)
Verificagao de
Desabilitar neurénio
seeee (m)
busca
existéncia de mais neuronios em Fie) ‘
vencedor em Fie)
Fase de
T Nao Ok!
.
—
(frente ao parametro de vigilancia)_—s (3)
@)
|. neurdnios em FY Neurdnio vencedor
selecionado em Fe)
“eee (m)
(aplicagao de processo compefitivo)
1) Inicializar parametros
Xp
Ky
Xp
comparacao
Executado pelos
(Il) Obter neurdnio vencedor atual | Referente aos
X,
Fase de
atualizacao
Fase de
(i!) Efetuar teste de similaridade
CG)
e Ww!)
novo neurénio em F*)
(IV) Checar disponibilidade de neurénios (frente a camada Fi2))
()
disponibilizagdo
Adicionar/habilitar
'
t Nao existe!
[
peewememepeaean ep ea=e as ah aw a= wz
r- — — — >{_(V) Atualizar matnizes de pesos
} Fase de
neurénios em Fe)
Referente as matrizes de
Fase de , reconhecimento
J
} Fase de
pesos e parametro vigilancia [ Inicializagao
ligura 10.3 — Fluxograma de funcionamento da rede ART-1
Baseado nos blocos deste fluxograma poder-se-a entao dividir 0 processo de aprendizado da rede ART-1 em seis etapas principais, as quais coincidem com os blocos sombreados na figura 10.3. (1) Primeira etapa: fase de inicializagao de parametros
As instrucgdes que comp6em esta fase comprcendem a atribuicao de valores para as matrizes de pesos W" e W2), assim como a especificagao do parametro de vigilancia {p}, cuja missao é arbitrar o teste de similaridade a ser executado pelos neurdnios da camada de entrada FP". Os elementos da matriz de pesos W", referentes a camada de saida P,
devem ser inicializados com valores pequenos, tendo-se o objetivo de evitar a saturacao dos resultados produzidos pelos neurdénios desta camada, quando da apresentacao dos vetores de entrada. Assim, tém-se os seguintes valores para os elementos de W:
Redes ART (adaptive resonance theory)
wi) =)
onde +
nem
271
(10.1)
onde né 0 numero de neurénios na camada de entrada FP” e m é a quantidade de neurdnios habilitados na camada de saida FP. Ja os elementos da matriz de pesos W®), referentes a camada de entrada FO, sao todos inicializados com valores unitatios, os quais indicam que cada
neurOnio pertencente 4 camada F® estara a principio habilitado para enviar sua resposta aos neuronios da camada FP". Portanto, tem-se: w;
b
)=1,
onde
f=1,...,n
ae
m
(10.2)
Em relacao ao parametro de vigilancia {p}, o seu valor deve estar compreendido entre 0e 1 (0 < p < 1). E também vilido ressaltar que quanto mais elevado for o valor de p, mais detalhes discriminantes serao levados em
consideracgdo pelos neurdnios da camada P” quando do teste de similaridade. Esta estratégia permite que diferencas sutis entre padrdes de entrada possam implicat na criagdo de novas classes, isto é, necessitar-se-a adicionar ou habilitar mais neurOnios junto a camada F. Por outro lado, valores muito baixos para o parametro de vigilancia 1mplicam em relaxar a capacidade de discriminagao da rede, que estara avaliando somente diferengas que sejam muito estruturais entre as amostras, sendo que
nesta condi¢gdéo o numero de classes sera também bem pequeno. (Il) Segunda etapa: fase de reconhecimento
A fase de reconhecimento consiste de tentar categorizar (enquadrar) um vetor de entrada apresentado a rede dentro de uma das classes ja disponiveis, representadas pelos neurGnios pertencentes a camada de saida F), Este processo de reconhecimento é similat ao método competitivo utilizado na rede de Kohonen, ou seja, o neuronio da camada F” que tiver a
maior ativacdo (casamento), frente ao vetor de entrada {x} que foi apresenta-
do, sera entao declarado o vencedor da competicao, isto €, aplica-se a estraté-
gia do “vencedor leva tudo” (winner-take-alh, confotme apresentado na secao
272
Redes neurais artificiais para engenharia e ciéncias aplicadas
8.2. O grau de ativacao relativo ao j-ésimo neuronio da camada FP®) é entao produzido pela ponderagao dos sinais do vetor de entrada pelos respectivos pesos. Em termos matematicos, tem-se: n
uj = Wi .x; , onde j=1,...,m
(10.3)
i=1
Consequentemente, o neur6nio vencedor {k} é entao aquele que produzir o maior valor de ativacdo, isto é: k=arg
g
maxtu, me {u;}
(10.4)
onde k esta recebendo um valor inteiro que representa o indice do neurdnio vencedor atual (ativo), o qual por sua vez inibe a agdo dos demais neurdnios da camada F* por meio de suas conex6es laterais. Neste caso, 0 neurdnio vencedor estara representando a classe candidata em que o respectivo vetor de entrada podera ser eventualmente inserido. Adicionalmente, o neurénio vencedor produzira valor igual a 1 em sua saida, cuja finalidade aqui é tanto de indicar a classe candidata do vetor de entrada apresentado, como também realimentar de forma excitatoria os neu-
rOnios da camada F"), Por outro lado, por meio das conex6es laterais, todos
os outros neurdnios da camada P® produzirao valores iguais a 0, indicando que as classes que estado representando nao foram as mais apropriadas para incorporar o referido vetor, resultando assim numa realimentagao inibitoria para os neurdnios da camada FP". Em termos matematicos, tem-se:
1p sej=Kk yj = O,sejz#k '
onde j=t...m
(10.5)
onde k € 0 indice do neuronio vencedotr.
Em virtude do fato de que a quantidade de neurénios da camada Fé dinamica, pois mais neurGnios serao adicionados ou habilitados conforme a necessidade de se criar novas classes, infere-se que, quando da apresentacao do primeiro vetor de entrada, um Unico neurénio estara entao presente ou habilitado na camada Fl),
Redes ART (adaptive resonance theory)
273
(III) Terceira etapa: fase de comparacao
Apés o procedimento de categorizagao do vetor de entrada frente a aplicagao da fase de reconhecimento, passar-se-4 entao para a fase de comparacao, cujo propdsito é€ verificar se a classe candidata representada pelo
neurdnio vencedor é a mais apropriada para receber o referido vetor. Para tal proposito, os resultados produzidos pelos neurénios da camada F®) sao realimentados aos neurdnios da camada FP a fim de se proceder ao teste de similaridade. Como somente o neurénio vencedor k produziu valor igual a 1 em sua saida, os valores que serao entao realimentados da camada F®) aos neurdonios da camada FP" séo os proprios pesos associados as interligagoes deste neuronio vencedor k aos respectivos neurdnios de F”. A figura 10.4 ilustra este processo de realimentagao entre os neurOnios das camadas F? e FM,
F(2)
Wik(b)
.
at
SFE
i
w
Te it i
.
es
ssrs
-"
‘,
qr
Seer
&saessss.
"
°
;
\ ;
Nowe
a
wheels
ml
a
Figura 10.4 — Fluxo de realimentacao do neurdnio vencedor para as entradas
O teste de similaridade é, por conseguinte, realizado por meio da com-
paracao dos valores de Way com x,, de ws? com x,, e assim por diante. Conforme definido anteriormente, tanto os elementos da matriz W*! como aqueles também do vetor x sao binarios, o que facilita o processo comparativo. A regra normalmente utilizada consiste em comparar o valor do parametro
274
Redes neurais artificiais para engenharia e ci€ncias aplicadas
de vigilancia com a razao R, que é obtida da quantidade de elementos unitarlos que seyjam comuns {considerando wie ex} em relagéo 4 quantidade de elementos unitarios presentes no vetor x. Tal razao de similaridade pode ser formalmente descrita por: LMP
R=
(10.6)
on
Di j=)
onde k é o indice do neurdnio vencedor e n é a quantidade de componentes do vetor x. Como exemplo, assumindo que o vetor x seja constituido de oito componentes de entrada (n = 8), e que o neurdnio com indice 1 tenha sido o vencedor (k = 1) da competic¢ao de proximidade, considera-se aqui os seguin-
tes valores que foram apresentados para os vetores x e W®
x;j =[
jel
wl
1
j=2
j=3
jd
j=S
jo
j=l je2 j=3 j=4 j25 jo
140
1
0
j=7
j=8
/
j=? j=8
01117
(10.7)
(10.8)
Para este caso especifico, o valor do numetador de (10.6) sera igual a 4,
pois a operacdo envolvida verifica somente quantos elementos unitarios sao comuns entre os dois vetores dados em (10.7) e (10.8), cujas posigdes ocupadas estao em j = 1,/= 3, j= 6 ej = 8. Esta operagao obtém uma medida
inspirada na distancia de Hamming [Moon, 2005], que computa a quantidade de bits diferentes entre duas cadeias (strings) binatias ao invés de computar a quantidade de bits iguais. Ja o denominador de (10.6) indica quantos elementos unitarios estao compondo o vetor x, cujo valor retornado quando aplicado em (10.7) sera igual a 5. Consequentemente, considerando esta situagao, o valor resultante da razao R sera igual a 0,8.
Por conseguinte, se o resultado desta razao R for maior que o valor especificado para o parametro de vigilancia (R > p), considerar-se-a entao que o vetor de entrada foi aprovado no teste de similaridade, pois a classe simbolizada pelo neuronio vencedor k de F® é de fato a mais apropriada para representar as
Redes ART (adaptive resonance theory)
275
caracteristicas envolvidas com o referido padrao. Em seguida, havera assim a atualizacao das matrizes de pesos W" e W"), por meio da aplicagao da fase (V), a fim de também representar os atributos deste novo vetor de entrada. Caso contrario, se o resultado da razao R for menor ou igual que o parametro de vigilancia (R < p), é possivel assumir que a classe representada pelo neurénio vencedor k estara incapaz de representar o comportamento do teferido vetor de entrada, pois ha diferengas significativas com os que ja estao inscridos dentro daquele agrupamento. Consequentemente, outro neuronio da camada F® devera ser selecionado como vencedor, ficando agora incumbido de tentar representat a classe candidata, tendo assim também a chance de tentar mostrar que a sua classe tem mais similaridade com a amostra apresentada. (IV) Quarta etapa: fase de busca
Neste estagio de processamento, decorrente da rejeigao do neuronio vencedor frente ao teste de similaridade, buscar-se-4 outro neuronio (pertencente a FP?) que tenha mais afinidade com a amostra inserida. Para tanto, oO neur6nio vencedor do estagio anterior devera ser desabilitado, a fim de se evitar que possa novamente ganhar a competicgao. Uma das formas de se ptocedet tal opetacio esta em atribuir o valor zero ao potencial de ativac4o {u,}
do vencedor, pois assim outro neurdnio sera o ganhador da competi¢ao.
Desta forma, conforme se pode verificar no fluxograma da figura 10.3, procede-se sucessivas vezes com a aplicacao sequencial das fases (II), (III) e (IV) até que seja possivel a obtengado de um neurdnio vencedor de F) que seja aprovado no teste de similatidade. Deve-se também ressaltar que esta capacidade de as redes ART incorpo-
rar, de forma automatica, novos neurdnios em sua camada de saida tem sido
uma de suas principais caracteristicas, pois a rede se torna flexivel o para inserir novos conhecimentos em sua estrutura sem destruir tudo nha sido aprendido. Os procedimentos algoritmicos pata esta adi¢ao neurdnios na camada F?) podem ser implementados de duas formas
suficiente que ja tede novos possiveis.
A primeira consiste da utilizagao de estruturas de dados estaticas, tais como um vetor contendo os atributos dos neurdnios, em que de antemao é declarada a sua dimensao maxima (quantidade maxima de neurOnios que pode ter F), Nesta circunstancia, um dos atributos do neurénio seria informat seu s/afus, indicando-se se © mesmo estara ativo (habilitado) ou inativo
(desabilitado) em determinado ciclo.
276
Redes neurais artificiais para engenharia e ciéncias aplicadas
Alternativamente, pode-se também definir um contador que sempre indicara a quantidade de neurGdnios que estarao ativos na camada F* em cada ciclo. Como exemplo, se for definido que o numero maximo de neurdnios em F®) seja 50, o contador necessariamente estara indicando que apenas 01 neuronio estara ativo quando da apresentagao da primeira amostra. Este numeto sera automaticamente incrementado, conforme novos neuronios sejam
habilitados para representacao de outras classes. A figura 10.5 ilustra esta diagtamacao estrutural, levando-se em conta que cinco neurOnios estarao ativos pata representacao de classes, ou seja, somente esses cinco neuronios poderao ser considerados para a competicao de proximidade.
Neuronio
(6)|(7)j
Status | Ativo | Ativo ; Ativo | Ativo |
Ativo {| Inativo | Inativo
+ Inativo ~~
Uy
032
| 087 |
VY;
0
0
045 | 093 | 015 |
0
1:
—e
—--
—---
o | — | —
---—
~---
Figura 10.5 — Representagao dos neurénios da ART-1 usando estrutura de dados estatica
Para o caso hipotético representado na figura 10.5, observa-se tambem que o neurdnio de numero 4 venceu a competicdo de proximidade, pois possui o maior valor de ativacdéo {u,}, sendo que nesta situagdo somente sua saida {y,} tera valor igual a um. Caso este neurénio e, posteriormente, todos os demais que estao ativos nao sejam aprovados no teste de similaridade, habilitar-se-a entao oO neurdnio 6 por meio da alteracao de seu status para a condicao “ativo”’.
A segunda forma consiste do uso de estruturas de dados dinamicas, como usa lista encadeada ou ligada [Wirth, 1989] que contera também cada um dos atributos dos neurdnios. Para esta estrutura de dados, cada um dos
neuronios é considerado um objeto, os quais serao interligados por ponteiros a fim de formar a estrutura ldgica da lista.
Assim, inicialmente, um unico objeto neurdnio estara disponibilizado,
sendo que outros serao gerados e dinamicamente interligados 4 medida que houver necessidade de se inserir novas classes. Diferentemente das estruturas de dados estaticas, o parametro de status é aqui desnecessario, pois todo neu-
Redes ART (adaptive resonance theory)
277
rOnio que compoe a lista estara ativo a partir do momento de sua inclusao. A figura 10.6 ilustra esta estrutura de dados dinamica que pode também ser utilizada para a representacéo dos neurdnios da rede ART-1. u,= 0,32 y,=0
u,= 0.87 (2) y,=0
U,= 0,45 ©) y,=0
u,= 0.93 y,=1
u,=0.15 (G) y, =0
Uy
(6)
Ye
Figura 10.6 — Representacaéo dos neurénios da -ART-1 usando estrutura de dados dinamica.
Nota-se entao, por meio da figura 10.6, que quando uma nova classe for necessaria, um novo objeto neurdnio (numero 6) sera criado e incorporado a estrutura dinamica j4 formada anteriormente. Desta forma, tal estrutura tem a caracteristica de ir aumentando conforme haja necessidade. (V) Quinta etapa: fase de atualizacao
Apos a conclusao bem sucedida da fase de comparag4o (III), procede-se com a fase de atualizacao des pesos das matrizes W" e W), a fim de que incorporem o conhecimento trazido pela ultima amostra apresentada. Para tanto, somente aqueles elementos referentes ao neuronio vencedor {k} serao atuali-
zados por meio da aplicacao das seguintes expressoes: W(t +1) =
WIP(t)- x, a
3 RO i=
W(t + 1) =Wie(t): x;
, onde j =1...,n
, onde j =1,...,n
(10.9)
(10.10)
A atualizacéo dos pesos do neurdnio vencedor em relagao a matriz W®,
em (10.9), os quais podem ser visualizados na figura 10.7, se processa por intermédio da realizacdo de uma simples operacdo logica de conjuncao booleana (porta AND) entre os elementos W, e x, Na tabela 10.1 € mostrado o resultado da expressao (10.9) quando aplicada em uma rede ART-1 hipotética, constituida de oito entradas {n = 8}, em que tem sido assumido que 0 neur6énio vencedor de numero 2 {k = 2} foi aquele aprovado no teste de similaridade.
278
Redes neurais artificiais para engenharia e ciéncias aplicadas
Tabela 10.1 — Exemplo de valores de ajuste para W” JT 1
|fF2/
2
| 1
oO;
Xj
| 11
0
-
ft
Pesos do
vencedor
(b)
'
Entradas
da ART-1
Ajuste de
W(t
Ww)
(Porta AND)|
+1)
1
r
0 |
fas | s=s
07
j=5|j=6
1
1
|
1
|j=7\j=8
|
o |
1) 4 ; !
o'
|
|
1
Ja o ajuste dos pesos do neurdnio vencedor em relagao a matriz W", cujas conexOes de interesse sao destacadas na figura 10.4, se processa por meio de duas operacoes.
FU)
x,
X>
Xn
Figura 10.7 — Fluxo de alimentagao das entradas para o neurdénio vencedor
A primeira operagao, realizada pelo numerador de (10.10), efetua novamente a aplicagao da porta AND fornecida em (10.9). Ja para a segunda operagao, executada pelo denominador de (10.10), a somatoria obtém como resultado a quantidade de elementos unitanos que estejam justapostos, tanto nos pesos do neurdnio vencedor (em referéncia a W°) como nas componentes do vetor de entrada.
Na tabela 10.2 é ilustrado um exemplo numérico visando o ajuste de
Redes ART (adaptive resonance theory)
279
W°, considerando-se aqui as mesmas condicg6es e paramettos utilizados para a obtencao dos valores na tabela 10.1.
Tabela 10.2 — Exemplo de valores de ayuste para W
fF
|ft gee jes) je4 j= 8)j=6 J=7|s=8
-Fesoege | mig | 1 folol1 entrames oa
po
x,
Meera | WADE+
in
o
=
0
ee
++
0
1) 4 ofa.
+1f4)/4}o0,1 4] 1 =
=|
0
:
0
—_|
=
Conforme se verifica no exemplo apresentado, constata-se que havera somente estimulo excitatorio em W, (f KG +1) para aquelas conex6es cujas com| ponentes wi b)2 (t) © X, possuam concomitantemente valores unitarios. (VI) Sexta etapa: fase de disponibilizacao De acordo com o fluxograma ilustrado na figura 10.3, a sexta etapa do
processo de treinamento da rede ART-1 consiste em disponibilizar o rétulo da classe em que a amostra apresentada vai ser inserida. Neste caso, apds a execucao de todas as fases anteriores, basta aplicar a expressao dada em (10.5) a fim de se obter a classe selecionada, pois sera aquela representada pelo neurOnio vencedor da competi¢ao de proximidade. 10.5 — Algoritmo de treinamento da rede ART-1 O processo de treinamento da rede ART-1 ¢ estruturado nas seis etapas apresentadas na secao anterior, cujas principais instrugdes em pseudocddigo sao descritas na sequencia. Diferentemente das demais arquiteturas neurais estudacas ao longo deste livro, verifica-se que, tanto a fase de treinamento como a fase de operacao da rede ART-1, estado incluidas no mesmo algoritmo, pois tal topologia sempre precisara executar o teste de similaridade para proceder com a categorizacao da referida amostra apresentada. Alem disso, o aprendizado se processa de ma-
280
Redes neurais artificiais para engenharia e ciéncias aplicadas
neira nao-supervisionada, possibilitando a insercio de conhecimentos dentro das classes ja representadas pelos neur6nios existentes, ou ainda, avaliando-se a necessidade de incluir ou habilitar outros neuronios 4 medida que novos conhecimentos relevantes s4o trazidos pelas amostras inseridas. Inicio {Algoritmo ART-1 // Fase de Treinamento e Operagao} Apresentar o vetor de entradas { x }: Inicializar as matrizes W“) e w°) ; {conforme (10.1) e (10.2)} Especificar o parametro de vigilancia { p }; {definido entre 0 e 1} Repetir as instru¢des: f Calcular as ativagoes neurais {u }; {conforme (10.3)} Obter o neurénio vencedor atual{k};
{conforme (10.4)}
Calcular a razao de similaridade {R};
{conforme (10.6)}
Se (R > p) fazer: Atualizar We
w)-
{conforme (10.9) e (10.10)}
Atribuir x a classe do neurénio vencedor; Vencedor < “Aprovado’; re
Se {(R < p) e (Existe neurdnio disponivel)} fazer: Desabilitar neurénio vencedor atual {u, = 0};
Vencedor < “Reprovado’; Se {(R < p) e (Nao existe neurdnio disponivel)} fazer: Incluir ou habilitar um novo neurénio;
Atualizar W" e w°) - {conforme (10.9) e (10.10)} Atribuir x a classe do novo neurénio;
\
Vencedor < “Aprovado’; Até que: Vencedor = “Aprovado’;
\e5> Habilitar novamente todos os neurénios em F{). Fim {Algoritmo ART-1 // Fase de Treinamento e Operagao}
Na realidade, a rede ART-1 acaba implementando o algoritmo de clusterizacao conhecido como Lader-follower [Duda et alt, 2001], que é também denominado de estratégia foHlow-the-/eader [Hartigan, 1975], cuja missao primeira é tentar encontrar uma classe apropriada que se possa agrupar uma amostra apresentada. Caso a amostra possua um desvio muito elevado, em relacao aos elementos j4 armazenados naquela classe candidata, 0 objetivo do algoritmo esta agota em criar uma nova classe para atmazenar os seus atributos.
Redes ART (adaptive resonance theory)
281
10.6 — Aspectos da versao original da rede ART-1 A versao original da rede ART-1, conforme concebida por Carpenter & Grossbetg (1987a), é ainda formulada em termos de equacoes diferenciais de ptimeira ordem, na qual ha também trés parametros binarios de controle ou de ganho (G,, G,, Resef), que sao inseridos no seu algoritmo de aprendizado,
a fim de controlar o fluxo de execucdo entre as camadas F" e FP, ou seja: ¢ Parametro G, — responsavel pelo status de ativar o fluxo de execuc¢ao pata a camada FP), tendo ainda a finalidade de ativar a alocagdo de novos neurOnios nesta camada. A saida deste parametto estara ativa {1} se pelo menos utna das componentes do vetor de entradas {x} for igual a 1. Esta
saida de G, pode ser visualizada como o resultado da aplicacao da porta ldgica “OU” {OR} entre todas as componentes do vetor de entradas;
¢ Parametro G, — responsavel pelo status de ativar o fluxo de execuGao pata a camada F"). A sua resposta estara ativa {1} se também pelo menos uma das componentes do vetor de entradas {x} for igual a 1,
estando ainda todas as saidas dos neurdénios da camada F® produzindo valores que sao iguais a 0; ¢ Parametro Reset — responsavel pelo status obtido pela aplicacao do teste de similaridade. Fornece resposta em estado ativo {1} se o neuronio vencedor de F® for reprovado no teste de similaridade. Conforme observado na figura 10.8, cada um dos neurOnios da camada F" recebe trés valores binarios, isto é, a respectiva componente do
vetor de entrada, a respectiva soma ponderada dos valores advindos dos neurOnios da camada de saida F®, e o valor do parametro de controle G,, que sera o mesmo para todos. O fluxo de execucao estata entéo na camada F") quando for observada a concretizacao da regra dos dois tergos, ou seja, pelo menos dois destes trés valores devem estar ativos (produzindo saidas iguais a um). Uma descrigao mais bem detalhada deste mecanismo é apresentada em Carpenter & Grossberg (1987b).
282
Redes neurais artificiais para engenharia e ciéncias aplicadas
Iigura 10.8 — Parametros de controle da versao original da rede ART-1
A operagao da versao original da ARI-1, com os seus parametros de controle, acaba realizando as mesmas instrucGes regidas pelo algoritmo apresentado na secao 10.5, a qual pode ser sintetizada pelos seguintes passos: ¢ Inicialmente, quando a amostta é apresentada, todas as saidas dos neur6nios de F® estarao produzindo valores iguais a zero. Nesta situagao, a camada que estar ativa sera F", pois ha a verificacao da regra dos dois tercos, visto que tanto G, como G, estarao produzindo valores iguais a 1; ¢ Uma copia da amostra € entao encaminhada para a camada F?), na qual sera definido o neurOnio vencedor e que produzira valor igual a 1 em sua saida, sendo que nos outros serio produzidos valores de resposta iguais a 0. Neste momento, em virtude da saida do neurdnio vencedor
estat produzindo valor igual a 1, o parametro G, passa entao a valer 0 {similar a aplicacdo de (10.4) e (10.5)};
* O fluxo de execucao retorna para P”. Em seguida, somente aqueles neuronios de FP” que possuirem componentes de x iguais a 1, assim como também teceberam valores iguais a 1 a partir das saidas ponderadas dos neuronios de F™, serdo ativados (produzirao valores iguais a 1 em suas saidas). Este padrao casado {v} sera entéo enviado para o teste de similaridade;
Redes ART (adaptive resonance theory)
283
¢ Na condic¢ao em que as quantidades de componentes com valores iguais a 1, que integram tanto v como x, forem bem prdéximas (maiores que o parametro de vigilancia), entao o valor do Reset sera 0, havendo consequentemente a atualizacao das matrizes W e W* {Similar a aplicacao de (10.6),
(10.9) e (19.10)}. Caso contrario, o parametro Reset assumira valor igual a 1, indicando que o atual neurdnio vencedor devera ser desabilitado.
Portanto, constata-se que esses quatro passos operativos estao também
integralmente implementados no algoritmo apresentado na secao anterior,
cujos trés parametros de controle estao implicitos nas condig6es impostas pata as estruturas de comparacaéo e repeticao. Conforme pode ser ainda verificado no decorrer deste capitulo, uma das potencialidades da rede ART-1 é a sua flexibilidade em incorporar novos conhecimentos, sem, contudo destruir o que ja foi aprendido. Esta qualidade distintiva a transforma em uma das melhores arquiteturas de redes neurais artificiais que consegue tratar, de maneira coerente e sistematica, o dilema estabilidade/plasticidade. Complementarmente,
aleumas outras catacterfsticas
de destaque sao [Carpenter & Grossberg, 1987a]: ° A arquitetura ART possui uma forte plausibilidade bioldgica lastreada pelos principios da normalizacao de sinais, intensificagao de contraste e memoria de curto prazo; ¢ © treinamento da rede € sempre estavel, sendo que, apds o alcance desta estabilizacdo (convergéncia), a aplicagao de um padrao que se encaixa em uma das categorias ja criadas ativara de forma direta o respectivo neurOnio reptesentativo daquele agrupamento, sem a necessidade de acionamento da fase de busca. Neste caso, a rede acaba funcionando como uma memoria associativa autonoma;
¢O processo de selecaéo do neurdnio vencedor na fase de reconhecimen-
to é também sempre estavel. Uma vez que um vetor de entradas ja fol associado ao agrupamento representado por um daqueles neurdnios da camada P?), esta mesma unidade sempre vencera a competicao, independentemente de eventuais ajustes posteriores que sejam realizados em W' e W), por ocasido da apresentacao de outras amostras de treinamento; ¢ A ocorténcia do estado de ressonancia adaptativa depende, principal-
284
Redes neurais artificiais para engenharia e ciéncias aplicadas
mente, do quao prdéximo esta a amostra apresentada frente ao vetor representativo do cluster, o que é indicado pelo neurdénio vencedor. Se a distancia for aceitavel, ponderada pelo parametro de vigilancia {p}, entao havera o estado de ressonancia adaptativa que, em termos bioldgicos, corresponde a amplificagao e ao prolongamento da atividade neural; * O nivel trutura da parametro norizados, padroes a
de detalhamento de cada nova classe inserida dentro da esrede fica, portanto, em fungao do valor especificado para o de vigilancia. Quanto maior este valor, mais detalhes pormeassim como mais caracteristicas diferenciais a respeito dos serem inseridos nas classes, serao entao considerados.
10.7 — Exercicios
1) Enumerte as principais caracteristicas envolvidas com as camadas FP" e F®) da rede ART-1. 2) Explique quais as diferencas existentes, do ponto de vista de plastici-
dade, entre as arquiteturas de Kohonen e ART-1.
3) Determine o que é o principio de ressonancia adaptativa e como pode ser avaliado nas redes ART-1. 4) Explique de maneira resumida como se processa 0 mecanismo de aquisi¢ao de novos conhecimentos pela rede ARI-1.
5) Discorra sobre o dilema plasticidade/estabilidade quando se avalia a
tede Perceptron multicamadas.
6) Explique quais as estruturas de dadous computacionais que podem ser utilizadas visando implementar a adi¢4o ou a habilitagcdo de novos neur6mios na camada de saida da rede ART-1.
7) Discorra sobre qual seria a principal finalidade do parametro de visilancia da rede ART-1. 8) Considerando a resposta formulada para a questao anterior, explique quais as implicagdes em se assumir o valor unitario pata o parametro de vigilancia. 9) Seja um vetor de entradas dado por x = [1011101 0]’. Considerando que o neurdénio de indice k seja o vencedor da camada F®), tem-se entao os seguintes elementos associados aos pesos dos neurdnios da camada PF”:
Redes ART (adaptive resonance theory)
b wi=1100111
285
oj!
Discorra se o referido padrao estaria aprovado no teste de similaridade quando se assume um valor de 0,8 para o parametro de vigilancia. 10) Em relagao ao exercicio anterior, qual setia o valor minimo a ser
_assumido pata o parametro de vigilancia a fim de que o padrdao seja aprovado no teste de similaridade.
10.8 - Projeto pratico O comportamento de um processo industrial pode ser analisado levando-se em consideracdo diversas variaveis de status relativas as fases do processo. Na tabela 10.3 sao fornecidas 10 situagdes do comportamento do sistema a partir dos valores coletados de 16 variaveis de status {X,, X,5.--) Xj)}-
Tabela 10.3 — Conjunto de treinamento para a rede ART-1 x,
x,
X,
x,
Xs
Xe
xX;
Xs
Xy
x, 0
x, 1
Xx, 2
x, 3
Xia
x, §
x, 6
Siuagio1 | o]1;,0/1;1]/o]/1/o/1l1lol1f1ia]4]4 Siuagto2 | 1/0/1}/o011/4]/1/1414/1]14/0]1]0]0]0 Siuagio3 ]1/o!1/1!1f4i1fol1l1}olai1fol]4 | 1 Situagao4
Siuaggo5 situagtio6
|} 1;,1;1;,0;/,1/0;,1;0;171);171;
7474;
07;7
110
|0!o/1/1)/71/1/1/1}lola/1folololo/| |1/1lo;/1!lolo;1/oirsalolaiifaial
Siuacdo7!/1/0/1/0!11/11lo]/4/1]14/)14]0 i
1/11/10
Siuaseo8 |1/o0l1/1)/1/4/1}o,1}1fofla[1fo!14] Siuacco9 10/1/1011] o0]/1]fo;/11l1]o0}1/o0]1/ 0] Siuagio 10/0, 0/41/4/1]/1/'1]14)/0]/1]1}o0];olo)]o]
4)
1
0
4 1 14 1
Assim, o objetvo do projeto é implementar e treinar uma rede ART-1, que classifique e agrupe em classes as situagdes que sao “parecidas’”’, de modo que se tenha um provavel diagndstico em uma eventual necessidade de manutengao. Em sequéncia, proceder com as simulacdes que visam a classificagao dessas variaveis de status, considerando-se aqui os seguintes valores para o parametro de vigilancia: 1) P = 0,5; i) p = 0,8; i) p = 0,9; iv) p = 0,99.
286
Redes neurais artificiais para engenharia e ciéncias aplicadas
Finalmente, apos cada simulacao, indicar a quantidade de classes que ficarao ativas pelos seus neurOnios representantes, listando-se ainda quais as situagdes da tabela 10.3 que estarao incorporando em seus respectivos agrupamentos.
Richard Wesley Hamming
Parte Il Aplicacoes de redes neurais artificiais em problemas de engenharia e ciéncias aplicadas
*
vt
x
~
-
:
. “es s.N
a.
a \
¢
RD
“et
v
NAN woe ee 7 “Sr
”
~~ . a
et
v
Ny
4
om
‘
. a
*,
-
TPR a
NR
Se .
.
Se aot ~. vw ~ F 4 °
‘
AM
NOUN
> r
4?
.
RDO A
fg
a
.
Nt?
ag”
~
GOGO
ou? SOM wes 5
mo
“Soa
s
ea
o
é 4
c-
ft
—/
te
‘ z
Sho
A
“
x
. - 2.
OS, ; PR. ?
VA
oN
ae ‘ CLE
Os
&
A.
o-0.
A
:
/
wr
:
et,
O
6.00
se BROKER oS ESOS SN NT
a
,
v
ROKK
*
,
te
.
Ay
e WsKe
,
va
CAKES
-
. OX
Yow
S
ON
BANE
y
mee "ont
SN
ROWS POENera ot, arn OSS SOS RES Ge ee Ke CR
a
a>
a
“ee
ms!
A
AV OVAy
+ ,
on 0 0...
— p componentes
(20.30)
N componentes
Para ilustrar o desempenho da rede neural proposta, alguns resultados de simulag¢ao sao apresentados na proxima secao.
364
Redes neurais artificiais para engenharia e ciéncias aplicadas
20.4 —- Resultados computacionais No primeiro problema, conforme proposto em Bazaraa & Shetty (1979), a fun¢cdo objetivo esta sujeita somente 4s restrigdes de desigualdade, ou seja: Minimizar
f(v) =e" + v2 + 4v, + 2vé —6v5 +2v3
v2 +e¥2 +6v3 $15 (RI) vi -v> + 5v3