File loading please wait...
Citation preview
biblioteca abier ta colección general lingüística
Lingüística computacional aplicada
Lingüística computacional aplicada
Julia Marlén Baquero Velásquez
Universidad Nacional de Colombia Facultad de Ciencias Humanas / Departamento de Lingüística Bogotá D. C.
catalogación en la publicación universidad nacional de colombia Baquero Velásquez, Julia Marlén, 1957Lingüística computacional aplicada / Julia Marlén Baquero Velásquez – Bogotá: Universidad Nacional de Colombia. Facultad de Ciencias Humanas. Departamento de Lingüística, 2010. 228 pp. – (Biblioteca Abierta. Lingüística) Incluye referencias bibliográficas isbn: 978-958-719-469-2 1. Lingüística computacional 2. Concordancias 3. Análisis lingüístico 4. Lingüística Programas para computador 5. Lingüística – Investigaciones i. Tít. ii. Serie cdd-21 410.285 / 2010
Lingüística computacional aplicada Biblioteca Abierta Colección General, serie Lingüística Universidad Nacional de Colombia Facultad de Ciencias Humanas Departamento de Lingüística
© 2010, autora Julia Marlén Baquero Velásquez
© 2010, Universidad Nacional de Colombia Bogotá D. C., junio 2010
Preparación editorial
Centro Editorial, Facultad de Ciencias Humanas Universidad Nacional de Colombia, sede Bogotá ed. 205, of. 222, tel: 3165000 ext. 16208 e-mail: [email protected] www.humanas.unal.edu.co Desarrollo de la versión multimedia: William León Girón
Impreso por Javegraf Impreso en Colombia
Excepto que se establezca de otra forma, el contenido de este libro cuenta con una licencia Creative Commons “reconocimiento, no comercial y sin obras derivadas” Colombia 2.5, que puede consultarse en http://creativecommons.org/licenses/by-nc-nd/2.5/co/
Contenido
Introducción
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
PRIMERA PARTE Breve fundamentación teórica en torno a la investigación lingüística El texto plano y los sistemas de codificación La lingüística de corpus
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Una aproximación a los corpus
Definición
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Clasificación
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Sobre la construcción de un corpus Recolección
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Anotaciones o etiquetas
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Procesamiento de un corpus Corpus del español
El crea
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Composición Etiquetas
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Búsquedas y resultados
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Algunas posibilidades de investigación
El Corde
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Composición Etiquetas
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Búsquedas y resultados
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Algunas posibilidades de investigación
El Corpus del español Composición Etiquetas
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Búsquedas y resultados
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Algunas posibilidades de investigación
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
SEGUNDA PARTE Programas para la consulta de concordancias Concordancias: concepto y ejemplos Licencia freeware
AntConc Conc
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Concorder Pro
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Licencia shareware
Concordance
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Word Smith Tools Licencia propietario
T-Lab AntConc
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Instalación
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Descripción
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Preparación del corpus
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Trabajo con el programa
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Word List (Lista de palabras)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Concordance Plot (Gráfico de concordancias) Concordancias Word Cluster
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Collocates (Colocaciones)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
File View (Vista de archivo)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Keyword List (Lista de palabras clave) Utilidad del programa
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Limitaciones del programa
T-Lab
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Instalación
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Descripción
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Preparación del corpus
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Trabajo con el programa
Consultas Análisis
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Análisis de coocurrencias
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Análisis temáticos de las unidades de contexto
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Análisis comparativos de los subconjuntos del corpus
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
TERCERA PARTE Análisis morfológico y sintáctico Concepto y representación del análisis morfológico y sintáctico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Análisis morfológico no automático
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Parsers o programas de análisis automático morfológico Graficadores sintácticos
Análisis sintáctico automático
Alchemist
. . . . . . . . . . . . . . . . . . . 107
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Instalación
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Descripción
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Preparación del corpus
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Trabajo con el programa Utilidad del programa
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Limitaciones del programa
Toolbox
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
Instalación
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
Descripción
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
Preparación del corpus
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Trabajo con el programa
Segmentación
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
Interlinearización y configuración de cada campo Trabajo con el diccionario Los campos
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
Identificación de morfemas Concordancias Fórmulas
Publicación
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
Utilidad del programa
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
Limitaciones del programa
PC-Kimmo
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
Instalación
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
Descripción
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
Trabajo con el programa Utilidad del PC-Kimmo
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
Limitaciones del programa
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
Treeform
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Instalación
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Descripción
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Trabajo con el programa Utilidad del programa
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Limitaciones del programa
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
CUARTA PARTE Análisis de texto y del discurso Importancia del análisis de texto y del discurso Licencia freeware
. . . . . . . . . . . . . . . . . . . . . . . . . . . 161
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
Licencia propietario
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Licencia shareware
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
Antmover
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
Instalación
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
Descripción
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
Trabajo con el programa Utilidad del programa
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
Limitaciones del programa
Diction
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
Instalación
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
Descripción
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
Trabajo con el programa
Datos del texto
Texto de entrada Tablas
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
Utilidad del programa
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
Limitaciones del programa
Goldvarb 2001
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Instalación
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Descripción
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Trabajo con el programa Utilidad del programa
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
Limitaciones del programa
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
QUINTA PARTE Organización de bibliografías La función de los organizadores bibliográficos y listado de programas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 Programas con licencia freeware
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
Programas con licencia propietario
Reference Manager
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
Instalación
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
Descripción
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
Trabajo con el programa
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Creando una base de datos nueva e insertando un ítem
Ingresar una referencia manualmente
. . . . . . . . . . . . . . . . . . . . . 205
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Insertando un nuevo ítem desde una base de datos remota
Selección de bases y configuración del host Búsqueda
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
Trabajando con Word
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
Modificando el estilo en rm
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
Formato 1. American Psychological Association Formato 2. Analythical Biochemistry Formato 3. Linguistic Inquiry Conclusiones
Bibliografía
. . . . . . . . . . . . . . . 207
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
Índice de materias Índice de autores
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
Introducción*
Los escritos presentados a continuación surgen como resultado de la exploración de varios programas de computación para los cursos Informática Aplicada a la Investigación Lingüística y Estudio del Español Apoyado en Computadores, dictados a estudiantes de la carrera de lingüística desde el año 2005 hasta finales del 2008. Durante el primer curso, la exploración de los programas evidenció la necesidad de escribir pequeños manuales en los que se describieran sus tareas, marco de aplicación y forma de uso, para que los estudiantes tuvieran acceso a ese material y los exploraran por su cuenta, lo que garantizaba que se pudiera avanzar en la exploración de nuevos programas y temáticas relacionadas con la lingüística computacional. Por ello, durante el primer semestre del 2006, se comenzó la construcción del material con un modelo único para todos los programas, el cual se siguió utilizando en los semestres posteriores. Ese modelo constaba básicamente de cinco partes: 1) instrucciones *
Expreso mi agradecimiento al profesor César Arias, ingeniero electrónico de la Universidad Distrital Francisico José de Caldas, quien realizó una primera versión y leyó esta última. 13
de instalación, 2) descripción general, 3) recuento de las tareas que se pueden realizar, 4) utilidad y 5) limitaciones del programa. Más adelante, se vio la necesidad de elaborar cuadros comparativos en los que se pudieran visualizar semejanzas y diferencias entre los programas objeto de instrucción y otros con características similares. Estos cuadros se incorporaron al inicio de cada capítulo, y le daban al estudiante una idea de la existencia de otros programas a los que podía acceder para abordar tareas semejantes. A partir de ello se logró establecer una tipología no exhaustiva de programas que permitió organizar el manual en cinco capítulos, algunos de los cuales todavía se mantienen en esta última versión. El resultado final que se ofrece en esta versión tiene en cuenta tanto la necesidad de incluir otros programas de gran interés para docentes y estudiantes —Toolbox1, T-Lab, Treeform y Goldvarb— como también la de agregar un apartado de generalidades en donde básicamente se abordan dos temas: la caracterización del texto plano y tipos de codificación, y una caracterización de los corpus. Adicionalmente, se modificó la manera en que se presentaba la mayor parte de los programas, de tal modo que no solo se hiciera alusión a su puesta en funcionamiento, sino, especialmente, a las posibilidades que brindan a docentes e investigadores. También se cambió la mayoría de las introducciones a las secciones y se incorporó al texto una información que inicialmente aparecía en cuadros independientes, los cuales fueron ampliados en muy pocos casos. Se suprimió, además, la presentación del programa Tree Diagrammer debido a que ya no se encuentra en internet. Desafortunadamente, este trabajo, que tuvo sus bases en los anteriores, no se pudo elaborar a cuatro manos, como sí sucedió en las versiones anteriores, por lo que en el resultado final, el profesor César A. Arias, ingeniero electrónico de la Universidad Distrital Francisco José de Caldas, no pudo aparecer como coautor, sino como colaborador. No obstante, debo agradecerle su interés hasta el último momento en colaborar 1
14
Una primera aproximación a este programa la tuvimos a través de una charla que los profesores Frank Seifert y Álvaro Echeverry hicieron para profesores y estudiantes del Departamento de Lingüística.
con la lectura de esta versión y por las sugerencias que, indudablemente, aportaron claridad a algunos pasajes. Esta última presentación contiene, entonces, cinco grandes partes. La primera introduce al lector en dos generalidades que resultan muy importantes cuando se trabaja con los programas: se caracteriza el texto plano —dado que es el tipo de archivo en el que deben guardarse regularmente los corpus objeto de trabajo— y se presentan algunos tipos de codificación que se pueden usar al guardar estos archivos —esto, con la finalidad de que, más adelante, cuando se den instrucciones sobre el tipo de archivos que soporta cada uno de los programas, el usuario comprenda por qué resulta importante hacerlo según lo indicado, y también para que, en caso de que detecte errores que surgen al olvidar la instrucción, pueda resolver el problema sin mayores tropiezos—. De manera semejante, en esta primera sección se incluye un apartado sobre la lingüística de corpus, en donde se presentan algunos antecedentes de esta disciplina y se caracteriza como un método. Además, se ofrece una aproximación al concepto de corpus: su naturaleza, clasificación, construcción y procesamiento. Se concluye este apartado con una presentación de listas de distintos corpus del español a los cuales puede acceder el investigador o cualquier usuario de internet, y se presentan con mayor detalle tres de ellos: el CREA y el Corde, construidos por la Real Academia Española y Corpus del Español, cuyo autor principal es el profesor Mark Davies. La segunda parte introduce al lector en el tema de las concordancias, que no es otra cosa que la identificación de los contextos de ocurrencia de un fragmento del texto, lo cual se ilustra principalmente con búsquedas realizadas con el Corpus del Español. Después, se describen dos programas que incluyen entre sus tareas la de hacer búsquedas de concordancias: Antconc y T-Lab. El primero es un software libre bastante liviano que, además, muestra en un gráfico la distribución de la expresión en los distintos archivos del corpus objeto de trabajo, hace la lista de palabras con sus frecuencias de ocurrencias, permite visualizar cada uno de los archivos y extrae
15
word clusters2, collocates y keyword list. El segundo es un software propietario bastante robusto que, con la ayuda de la estadística, realiza análisis de coocurrencias, análisis temáticos de las unidades de contexto y análisis comparativo de subconjuntos del corpus. Se trata de una herramienta muy útil para el análisis cuantitativo de los textos, pero para que los resultados sean confiables, se requieren corpus extensos y con características específicas. Si bien el T-Lab realiza concordancias, es posible afirmar que este es más un programa para análisis de textos, antes que un programa de concordancias. No obstante, por incluir la función de concordancias, se incluye en este apartado En la tercera sección se abordan programas que realizan tareas relacionadas con el análisis morfológico y sintáctico. Allí se describen cuatro programas de naturaleza muy distinta: Alchemist, Toolbox, PC-Kimmo y Treeform. El primero es un programa con un conjunto de herramientas que facilitan la obtención de estándares morfológicos a partir de textos reales —esencialmente la identificación de morfemas raíces y afijos— y su organización a la manera de una base de datos. Todo el trabajo lo hace el usuario, pues el programa no realiza ninguna tarea de manera automática. Toolbox es una herramienta que permite construir diccionarios lexicales o morfológicos a partir del trabajo con uno o varios corpus. Este también permite la identificación de los morfemas y su caracterización, aunque de manera un tanto distinta al Alchemist. El PC-Kimmo, en cambio, es un analizador morfológico automático, cuya función es presentar la estructura morfológica subyacente de las palabras del inglés y generar la forma superficial a partir de la representación subyacente. Está construido, como se verá más adelante, sobre una fonología de dos niveles. Por último, Treeform —como el Tree Diagrammer— es un programa que facilita al usuario la esquematización de la estructura sintáctica de las oraciones de cualquier lengua a través de diagramas arbóreos 2
16
Esta expresión se usa para referirse a un grupo de palabras, específicamente una secuencia de por lo menos dos palabras dentro de la cual está la palabra-objetivo.
construidos siguiendo los últimos lineamientos de la GGT (gramática generativa transformacional). En la cuarta parte se presentan tres programas que pueden ser útiles para quien se adentra en el análisis del texto y del discurso. Esta sección, como ya dijimos, debería contener también los programas de análisis de concordancias, y muchos otros que realizan tareas relacionadas, como el Atlas-ti, que no incluimos en este primer trabajo. Al final, se incluyó una quinta parte que, si bien no toca un tema exclusivo de la lingüística, también resulta importante en ella: los programas relacionados con la construcción de bases de datos bibliográficos, especialmente, el Reference Manager, un programa de mucha utilidad para quien publica artículos o libros. Todo el trabajo involucrado en la construcción de este material se enmarca dentro del área, relativamente joven, de la lingüística computacional, un área muy poco desarrollada y explorada en el país, pero con muy interesantes proyecciones y campos de acción. La meta final del presente material es que se convierta en un manual de apoyo para docentes y estudiantes, lo que nos llevó a hacer las modificaciones ya anotadas.
17
Primera parte Breve fundamentación teórica en torno a la investigación lingüística
El texto plano y los sistemas de codificación
Existen en informática editores y procesadores de texto. Se distinguen en que mientras los primeros se usan para escribir texto sin formato y sin imágenes (texto plano), esto es, sin negrillas, cursivas, tablas, etc., los segundos brindan la opción para que el usuario haga uso de formatos especiales de diagramación que dan una apariencia de impreso al documento. Estos últimos, adicionalmente, tienen la opción de guardar el archivo como texto plano o texto sin formato, que es el tipo de archivo que suele usarse con un buen número de programas que hacen análisis lingüísticos, y también cuando se quiere realizar tareas de programación. Ahora bien, a pesar de que los textos planos comparten las características ya mencionadas, pueden diferir como consecuencia del tipo de codificación empleado, esto es, como consecuencia de la forma en que cada carácter o símbolo de la lengua natural se representa en el lenguaje de la máquina (código binario) para garantizar que el sistema sea capaz de procesar el texto. En los sistemas de codificación de 8 bits, por ejemplo, cada una de las diferentes combinaciones representará una letra, de suerte que la A podría asociarse con la secuencia 01000001, la a con 01100001, la B con 01110010, y así sucesivamente. 21
Julia Marlén Baquero Velásquez
Este ejemplo, que representa un sistema de codificación completamente arbitrario, deja ver que si cada persona o grupo de personas propusiera su propio sistema de equivalencias, no sería posible visualizar exactamente el mismo texto si se abriera con programas que hicieran uso de sistemas distintos. Ello precisamente es lo que sucede cuando al abrir un archivo se usa un tipo de codificación distinto al que se empleó al momento de almacenarlo: los caracteres que se hacen visibles no corresponden con los que el usuario esperaría visualizar. Por ejemplo, si se tiene un archivo con codificación Unicode y posteriormente se abre con codificación ASCII, letras como la ñ o las vocales acentuadas se reemplazan por secuencias de caracteres distintos. Resulta evidente, entonces, la necesidad de estandarizar el sistema de equivalencias de tal manera que la máquina pueda arrojar los mismos resultados en todos los casos. No obstante ello, existen distintos tipos de codificación, pero cada vez hay un mayor interés por incorporar el mayor número de caracteres posible, de suerte que no sea necesario cambiar de codificación dependiendo de la tarea que se quiera realizar. El más antiguo, y en una época el más generalizado, era el propuesto por el Instituto Norteamericano de Estándares (ANSI), cuyo problema principal tenía que ver con el hecho de que no podía manejar, en principio, más de 128 caracteres diferentes debido a que la longitud del código utilizado era de 7 bits, más uno que se empleaba para detectar errores. Lo anterior le impedía incluir caracteres distintos a las mayúsculas, minúsculas y signos de puntuación del inglés, cifras y caracteres de control (fin de texto, párrafo, etc.), principalmente. El ANSI deja por fuera, por ejemplo, algunos símbolos del español como la ñ, las vocales acentuadas, el signo de apertura de interrogación, además de muchos otros caracteres de otras lenguas del mundo o de áreas como la matemática, la lingüística (el alfabeto fonético), etc. El ASCII extendido es un intento del ANSI por incluir un set más amplio de caracteres, en tanto que trabaja con 8 bits (256 caracteres), pero de todas maneras este no resulta suficiente. Un estándar mucho más completo y flexible es el propuesto por la Organización Internacional de Estandarización (ISO), pero varios programas para apoyo a la investigación 22
El texto plano y los sistemas de codificación
lingüística trabajan con textos codificados en Unicode (UTF8, UCS-2BE, UCS-2LE, UTF-16, UTF-32), el cual asocia un código diferente a más de 50.000 símbolos de las distintas lenguas del mundo (chino, coreano, cirílico, griego, francés, árabe, los del español, etc.) y una gran cantidad de símbolos especializados. Este, además, se encuentra sincronizado con el ISO. Lo anterior significa que al momento de preparar el corpus es muy importante saber en qué formato de texto y con qué codificación debe guardarse para que sea leído correctamente por el programa. En algunos casos también resulta posible configurar el programa para que acepte corpus con un tipo de codificación u otro. En consecuencia, ante un problema se tienen por lo menos dos caminos: salvar el texto o corpus con la codificación que acepta el programa con el que se quiere trabajar —única posibilidad si solo acepta una opción, como sucede con el T-Lab—, o cambiar la configuración del programa a la codificación usada al salvar el archivo.
23
La lingüística de corpus
La lingüística de corpus es una línea de trabajo muy importante en la lingüística actual. Si bien su nombre podría equipararse al de un nuevo modelo lingüístico, no aborda los fenómenos del lenguaje desde una nueva mirada como tal, sino que, más bien, se trata de un nuevo método para analizar los mismos fenómenos desde concepciones diversas. Necesariamente tiene un carácter empírico, en tanto que su trabajo se basa en colecciones extensas de documentos reales, que se denominan corpus o corpora, los cuales son analizados mediante el uso de programas de computación. No se trata de una propuesta que entre obligatoriamente en contradicción con los modelos anteriores —en cuanto al objeto de estudio, tareas, criterios de adecuación, etc.—, sino más bien de una nueva manera de aproximación a los datos, que no implica necesariamente rupturas a nivel conceptual con los planteamientos que la anteceden, aunque sí supone grandes desarrollos que antes no parecían posibles. Esta nueva aproximación a los datos choca inicialmente con el modelo generativo transformacional: mientras en este se teoriza sobre los fenómenos de la lengua haciendo uso de la intuición lingüística, en el de corpus se hace gala de la observación 25
Julia Marlén Baquero Velásquez
y el procesamiento de los datos reales y, por ello, estaría en mayor consonancia con un modelo como el funcionalista. La lingüística de corpus es, entonces, esencialmente un asunto metodológico que permite abordar fenómenos fonéticos, fonológicos, morfológicos, sintácticos, semánticos, pragmáticos sociolingüísticos, discursivos, etc., dentro de una concepción lingüística que incluso podría ser, si se quisiera, el modelo generativo transformacional. Como ya se dijo, se trata de estudiar las lenguas a través de grandes volúmenes de información, por lo que se requiere el apoyo de disciplinas como la estadística, la lingüística computacional, la lógica. La lingüística de corpus surge en 1967 con la publicación de Computational Analysis of Present-Day American English, basado en el corpus Brown University Corpus of American English, que contenía 1.014.312 palabras de textos en prosa de la lengua inglesa escritos fundamentalmente durante 1961 por hablantes nativos del inglés norteamericano (Francis y Kucera, 1967). No obstante, como disciplina o método solo se desarrolla en los años ochenta con la aparición de los primeros diccionarios y gramáticas construidos a partir de corpus. La lingüística de corpus puede tener sus antecedentes en los trabajos lingüísticos realizados hasta el siglo XIX sobre textos escritos del latín, el sánscrito, el griego, las llamadas «lenguas muertas». Pero son los trabajos de estructuralismo norteamericano (primera mitad del siglo XX) los que de alguna manera sientan las bases para el trabajo lingüístico basado en corpus. Una secuencia en cadena los lleva a ello: las dificultades de comprensión en la guerra y, como consecuencia, la necesidad de estudiar las lenguas vivas no documentadas, lo cual obligaba a los linguistas a recurrir a los propios hablantes. Fue entonces imperiosa la recolección de muestras orales para aproximarse a estas lenguas amerindias, por lo cual se consideró que el trabajo con datos reales era la única herramienta válida para describirlas y validar hipótesis; se trataba de una metodología que exigía la observación de los datos en uso (Villayandra, 2006). Si bien, los corpus eran muestras de la lengua en uso, no incluían grandes cantidades de datos, pues por aquella época no se contaba con las herramientas informáticas de las que hoy se 26
La lingüística de corpus
dispone. En muchos casos, se trataba de muestras orales o transcripciones que permitían inicialmente estudios fonéticos y morfofonológicos, pero también posteriormente estudios sintácticos y semánticos. Con ello se fueron también creando corpus organizados y sistematizados como material didáctico, los cuales se presentaron en forma de libros de trabajo (workbook), pero, en ningún caso estos corpus contenían la cantidad de datos de los actuales, y las recolecciones regularmente eran planeadas y elicitadas. Con el advenimiento de la gramática generativa-transformacional, este tipo de herramienta fue objeto de fuertes críticas, y se propuso un cambio radical que asumía como mecanismo de investigación la introspección lingüística. Para los generativistas, los corpus no eran adecuados desde el punto de vista observacional, y el trabajo con ellos podía ser engorroso y estar sujeto a errores. Su no adecuación tenía que ver con el hecho de que estos no podían recogerse de tal manera que incluyera todas y solo las oraciones de la lengua objeto de estudio. Por el contrario, se consideraban parciales, incompletos, finitos, sesgados, no representativos y con datos que no correspondían exclusivamente al conocimiento que los hablantes tenían de su lengua, sino también a otros factores externos que acompañan la actuación lingüística: nerviosismo, limitaciones de memoria, limitaciones de salud, etc. La complejidad en el trabajo con corpus tenía que ver con dificultades tanto para la recolección como para el procesamiento, sistematización y análisis de los datos, pues todas estas eran tareas que se realizaban manualmente y, por ende, estaban sujetas a las equivocaciones propias de los seres humanos. Dado que, para Chomsky, el objeto de estudio era la competencia lingüística y no la actuación, el trabajo con corpus se juzgaba inadecuado; parecía más conveniente y sencillo recurrir a la intuición, que permitía a sus hablantes emitir juicios de gramaticalidad sobre las oraciones de la lengua. La llegada de los computadores a finales de los años cincuenta, y principalmente la de los minicomputadores a comienzos de los sesenta, marca una nueva etapa, no solo en la vida de los seres humanos en general, sino también en el desarrollo de las distintas ciencias y disciplinas, entre ellas la lingüística. Los problemas que 27
Julia Marlén Baquero Velásquez
se habían expuesto por parte de los generativistas pierden valor, pues ahora se podía contar con grandes cantidades de datos almacenables de manera más sencilla y una gran capacidad de procesamiento y análisis de ellos en un tiempo muy breve, con mucha más precisión y consistencia, costos reducidos y con facilidad de acceso y manipulación. En los años sesenta, precisamente, aparecen los primeros corpus electrónicos en forma de tarjetas perforadas y más adelante, con el desarrollo de nuevas tecnologías, se logra la compilación de algunos que podían ser leídos por los nuevos computadores, con lo cual la lingüística empieza a ver en los corpus una nueva opción para el análisis y descripción de las lenguas. Después de los ochenta, la lingüística de corpus se convirtió en un recurso indispensable para estudio de las lenguas, no solo para crear y probar hipótesis sobre su naturaleza, sino también para la creación de sistemas de procesamiento del lenguaje natural. Desde luego, todavía hay lenguas que no pueden contar con grandes cantidades de muestras, y sobre ellas el trabajo con corpus de esta naturaleza parece todavía lejano. Una aproximación a los corpus Definición
No resulta tan sencillo presentar una definición de lo que es un corpus, pues, como se ha visto, dependiendo de la época histórica y de ciertos desarrollos que se van dando con el tiempo, el concepto se va modificando. No obstante, hoy se puede caracterizar como una muestra de gran cantidad de documentos almacenados en algún medio electromagnético u óptico, para permitir la automatización de tareas como la búsqueda y recuperación de información, cálculos de frecuencias y clasificación de los datos, entre otros, pero también para permitir un análisis cualitativo1 1
28
Si bien el término corpus se usa hoy para referirse a documentos susceptibles de un análisis cuantitativo por parte de un procesador, parece válido incluir allí también documentos recogidos con un objetivo específico y con criterios de selección que los hace útiles en un proceso investigativo cualquiera. Preferimos por ello incluir aquí todo tipo de
La lingüística de corpus
de estos. Los más útiles contienen anotaciones, tanto lingüísticas como no lingüísticas, que facilitan la búsqueda de información y, con ello, el análisis automático de estos. Estos reciben el nombre de «corpus etiquetados». Aunque las anotaciones (etiquetas) son de gran utilidad para el investigador, no todos los corpus tiene el mismo grado de desarrollo, e incluso algunos no tienen ningún desarrollo en ese sentido, pero han sido construidos con ciertos criterios y con un objetivo claro, razón por la cual forman parte de los archivos considerados como corpus. En cambio, existen colecciones electrónicas de documentos que no formarían parte de este grupo. Tal es el caso de los archivos informatizados, textos electrónicos casi siempre con un único criterio de selección —la disponibilidad de los materiales— y de las colecciones de bibliotecas que son conjuntos de textos para ser consultados, por lo cual no contiene información pertinente para un análisis lingüístico. Clasificación
Como en toda clasificación, es posible proponer distintos tipos de corpus dependiendo de los parámetros desde los cuales se quieran categorizar: el tipo de documento, número de lenguas, criterios de recolección, cantidad y distribución, finalidad, tipo de procesamiento, tipo de anotación, etc. Por el tipo de documento, por ejemplo, los corpus se clasifican generalmente en orales y escritos, los cuales incluyen en muchas ocasiones subclasificaciones que atienden a otros parámetros. Los primeros están constituidos regularmente por señales de voz que se convierten o se recogen directamente en formatos digitales (MP3, MP4 , WAV), y pueden acompañarse con transcripciones y anotaciones fonéticas. Contienen grabaciones de programas de radio, llamadas telefónicas, conversaciones ordinarias, etc. En algunos casos, sin embargo, no se cuenta con la señal de voz, sino solamente con transcripciones ortográficas y/o fonéticas, cuyos
documento susceptible de análisis tanto cuantitativo como cualitativo con ayuda del computador. 29
Julia Marlén Baquero Velásquez
formatos son de texto (TXT2, HTML 3) y, por ello, algunos prefieren incluirlos dentro de los llamados corpus de texto4. Los segundos están conformados por textos escritos que han sido digitalizados manualmente, o escaneados como imágenes y luego convertidos en texto mediante un proceso de OCR (Reconocimiento Óptico de Caracteres). Su formato es el de texto plano (TXT) o enriquecido (HTML , RTF), y son los que contienen una mayor cantidad de datos, en tanto que se dispone de ellos con mucho menos esfuerzo. Es claro, además, que con el paso del tiempo la lingüística incursiona cada vez más en el análisis de signos distintos a los verbales, por lo que, siguiendo este parámetro, parece legítimo incluir los corpus de imágenes (formatos JPG, GIF, BMP) y de audiovisuales (formato MPG, WMV, AVI), de los cuales poco o nada se habla cuando se presenta la lingüística de corpus. Estos, como los anteriores, pueden etiquetarse —siguiendo categorías distintas, desde luego— lo que permitiría el análisis automatizado de los datos. Frecuentemente sobre este tipo de corpus se prefiere el análisis cualitativo. Por el número de lenguas involucradas, los corpus pueden ser monolingües o multilingües. Los primeros contienen textos de una sola lengua y son de gran utilidad para la elaboración de diccio-
Es la extensión de los textos sin formato. Hypertext Markup Language (Lenguaje de Marcas de Hipertexto). Se usa para caracterizar en forma de texto la estructura, apariencia y el contenido de un documento. Se escribe en forma de «etiquetas», cuyas marcas de inicio y fin son los corchetes angulares (< >). Véase más adelante. 4 Es importante tener en cuenta que hay diferencias conceptuales en relación con esta clasificación, lo que refleja distinciones en los criterios de recolección de los corpus mismos. Para algunos se trata de diferencias de estilo, por lo que consideran válido que uno u otro puedan estar en formato de audio o de texto. Para otros, son tipos de documentos, y en consecuencia solo los que están en señal de voz son orales y los de formato de texto son escritos o textuales. No obstante, en cualquiera de los casos, los que corresponden a muestras de habla deben ser analizados como un tipo de texto distinto al elaborado para perdurar en el tiempo, el cual permite mayor planeación. 2 3
30
La lingüística de corpus
narios. Los segundos incluyen textos reales existentes en versiones traducidas, por lo cual no son tan amplios como los primeros. El objetivo o la finalidad que se tiene al construir los corpus también permite una clasificación. Se intenta en algunos casos, por ejemplo, obtener conclusiones relacionadas con un escritor, una época, una variedad lingüística, cambios lingüísticos, adquisición de la lengua, un grupo social, un género, tema, etc., y los corpus se elaboran siguiendo estos criterios. Finalmente, los corpus pueden ser abiertos o cerrados de acuerdo con la posibilidad de desarrollo que puedan tener; equilibrados o no, dependiendo de la distribución en la proporción de los datos; simples, etiquetados o analizados, según el proceso al que hayan sido sometido los textos. Los simples son corpus que no han sido expuestos a ningún tipo de proceso, pero se ofrecen para que los investigadores puedan acceder a ellos y analizarlos, mientras que los etiquetados y analizados son corpus que involucran mucha información y facilitan la búsqueda para la obtención de conclusiones. Ahora bien, con mucha frecuencia y a ello se tiende actualmente, los corpus son mixtos en cuanto a su clasificación, con la finalidad de que sean suficientemente representativos. Esto es, cubren información que involucra distintos parámetros: lengua oral/escrita, registros diferentes (derecho, medicina), tipos de textos distintos (narrativo, argumentativo, cotidiano), parámetros demográficos diversos (grupos social, género, edad), clasificación por época, temática, medios de comunicación, etc. Pero uno de los problemas es que sus contenidos, regularmente, no son proporcionales en cuanto a la cantidad de unidades (i. e., palabras) que contiene cada uno de los grupos en que se divide el corpus principal, por lo que al extraer conclusiones sobre los resultados es importante conocer en detalle su composición para no presentar conclusiones erróneas. Para producir una hipótesis válida sobre la lengua como un todo o sobre la variedad del objeto de estudio, se debe recurrir a los métodos de la estadística como mecanismo de validación.
31
Julia Marlén Baquero Velásquez
Sobre la construcción de un corpus
Como se ha descrito arriba, existen muchos corpus a los cuales se puede acceder para obtener información. Sin embargo, no siempre se puede contar con el corpus que se requiere, por lo que en ocasiones es necesario levantar los propios datos y organizarlos a manera de un corpus abordable con diversos programas que existen para el análisis lingüístico. Recolección
Como ya se dijo, los corpus pueden ser de naturaleza diversa, y cada uno exige un tratamiento distinto a fin de que se puedan usar con los programas de análisis. Cuando se trata de un corpus de texto, podemos encontrarnos frente a dos grandes posibilidades: textos escritos en algún soporte mecánico (papel, cartón, barro, etc.) y textos en formato digital. Para procesar un texto en formato digital, casi siempre es necesario guardarlo como texto plano (*.TXT), puesto que es el formato estándar que cualquier sistema de cómputo está en capacidad de interpretar, y porque aspectos relacionados con el formato no constituyen el objeto de investigación, por lo que son irrelevantes para el análisis. Los textos en soporte mecánico deben ser sometidos a un cierto proceso antes de que el computador los pueda procesar como texto. Inicialmente, se podrían digitar utilizando el teclado y un programa básico para edición, pero si se trata de un texto que se encuentra en un medio como el papel, esta tarea consumiría mucho tiempo. Antes de los escáneres ópticos y las cámaras digitales, esta era la única posibilidad, pero ahora es sencillo acceder a ellos: las páginas con texto se pueden escanear o fotografiar y someter a un proceso de reconocimiento de caracteres, lo que reduce la tarea a la corrección de las letras o símbolos mal reconocidos. Este proceso, conocido como OCR por sus siglas en inglés, se basa en que las formas de los caracteres de texto son paramétricas, por lo cual, se busca en las imágenes estos patrones para identificar y codificar las letras que conforman un alfabeto. Los programas más avanzados de OCR poseen diccionarios que reducen la cantidad de errores, aproximando cada expresión a la palabra más cercana 32
La lingüística de corpus
que se encuentre en él, reduciendo aún más la tarea del que escanea. Mediante este proceso, entonces, el investigador puede contar más rápidamente con los archivos de trabajo que si se recurre a su digitación. Cuando se trata de un corpus de imágenes, el escaneo o la fotografía es la forma de someterlos al proceso que permite interpretarlos a través de los programas diseñados para ello. Anotaciones o etiquetas
Los llamados tags o etiquetas son elementos mediante los cuales se pueden enriquecer los textos (orales, escritos, gráficos o audiovisuales) con información estructural relevante al proceso de investigación (rasgos segmentales o suprasegmentales, características morfológicas de los lexemas, categorías gramaticales, estructuración en constituyentes, rasgos semánticos, pragmáticos o estilísticos) o con información relevante para su presentación. Para ello es necesario seguir las reglas sintácticas y semánticas propias del lenguaje que se quiere emplear, a fin de que la información se pueda usar adecuadamente. Existen muchos lenguajes de marcación (algunos muy especializados), y estos no deben confundirse con los lenguajes de programación. Se distinguen en que mientras los primeros sirven para indicar a la máquina como debe ser representado un fragmento del texto o para describir unidades del documento, los segundos son usados para controlar el comportamiento físico y lógico de la máquina (para que haga cosas). Es claro, sin embargo, que es posible incluir lenguaje de programación dentro del lenguaje de etiquetado para que la máquina realice acciones en las que estén involucradas las etiquetas de programación contenidas en el archivo. Este es el caso de los formularios de internet que alimentan bases de datos, o las consultas a los sistemas de información. Entre los lenguajes de marcación el de mayor uso es el HTML , propuesto inicialmente por Sir Tim Berners Lee a partir del SGML 5, y usado 5
Este lenguaje de marcación, que ha tenido también gran acogida, se usa hoy fundamentalmente en áreas en las que se maneja grandes cantidades de documentos, por ejemplo, en la industria de la publicación de documentos. 33
Julia Marlén Baquero Velásquez
hoy para dar el formato a las páginas web, por lo que emplea casi exclusivamente etiquetas de formato y de vínculos con imágenes y otros archivos con etiquetas similares (llamados archivos de hipertexto). El XML , otro lenguaje de marcación de amplio uso en tanto que permite la compatibilidad entre sistemas para compartir la información de manera segura, es esencialmente una simplificación y adaptación del SGML. Permite personalizar las etiquetas y usarlas para manejar cualquier tipo de características, por lo que podría usarse para generar un sistema que etiquete morfológica o sintácticamente un corpus. Estos lenguajes de etiquetado son similares en estructura y se diferencian, básicamente, en el conjunto de etiquetas estandarizadas que manejan. Al utilizar este sistema para caracterizar expresiones del texto, se logra separar de un lado el contenido y de otro su formato o la descripción que se asigne de él, a pesar de que los dos elementos se encuentran entremezclados en el mismo archivo. Ello obedece a que todas las etiquetas se encierran entre corchetes angulares, mientras que el contenido principal aparece fuera de ellos, con lo que la máquina puede distinguir el texto, de las marcas asociadas a él. De esta suerte, un fragmento como el cuaderno se puede etiquetar con marcas de formato: por ejemplo, el color en que debe aparecer cuando un intérprete de ese sistema arbitrario de etiquetas lea el archivo. Para ello, se colocan entre corchetes angulares las etiquetas que definen el color de la cadena de texto, siguiendo la sintaxis y la semántica del lenguaje de marcación. Si se trabaja con HTML, por ejemplo, la secuencia
el cuaderno
será reconocida por el intérprete de tal manera que lo que se encuentra fuera de los corchetes angulares corresponde al contenido o expresión que debe visualizarse, mientras que lo que aparece antes y después de ella entre los paréntesis angulares corresponde a la etiqueta, por lo que el resultado sería la expresión el cuaderno (en color rojo). Es importante notar que la etiqueta siempre tiene dos componentes, uno de apertura, que aparece antes de la expresión con toda la información y otro de cierre, que está después de ella con el nombre de la categoría antecedido por la línea oblicua (/), que define hasta dónde llega el alcance de lo que aparece al comienzo. 34
La lingüística de corpus
Existen varios programas para construir archivos etiquetados con diferentes aplicaciones: el Bloc de notas, los editores y diseñadores de páginas web —que usan el lenguaje HTML , editores y validadores de XML—, aplicaciones lingüísticas que lo usan para almacenar los resultados (Clark, Tiger Search, Alchemist, etc.), entre muchos otros. Procesamiento de un corpus
Como se señaló arriba, los corpus anotados o etiquetados requieren una transformación del texto original de forma que se pueda acceder a él y extraer la mayor cantidad de información posible. Para ello, los corpus son sometidos a un procesamiento que incluye, entre otras, la posibilidad de dividirlo en la unidad más pequeña —el token— sobre la cual se aplica una etiqueta de carácter lingüístico, de la manera indicada arriba mediante un programa denominado etiquetador. Este asigna automáticamente a cada unidad, por ejemplo, su categoría, su correspondiente lema, características morfológicas, información sintáctica etc., a partir de un archivo de diccionario que el programa utiliza para asignar la etiqueta adecuada a cada expresión. Cuando el token es ambiguo el etiquetador puede decidir, por contexto, cuál etiqueta asignar. Corpus del español
Hoy día existen muchos corpus de las distintas lenguas, pues ha habido mucho interés de parte de las instituciones académicas para construirlos. En relación con el español, el número de corpus es supremamente amplio y la mayor parte de ellos se pueden consultar sin ningún problema a través de internet. Otros, en cambio, exigen un pago para que se pueda acceder a ellos. Proyectos en desarrollo o concluidos de instituciones de México, España, Paraguay y Venezuela permiten que hoy se disponga de una variedad de muestras de habla oral de tamaños diversos que se cuentan en horas o minutos de grabación. Algunos de ellos se presentan a continuación, y se marcan con asterisco (*) los que fueron cedidos a la Real Academia Española para su inte-
35
Julia Marlén Baquero Velásquez
gración al corpus oral de esta institución (CREA oral, que es una subdivisión de la base de datos CREA)6. • Acuah*: Análisis de la Conversación de la Universidad de Alcalá de Henares. Cedido, Madrid (800 minutos de grabación). • ADPA : Análisis del Discurso Público Actual de la Universidad de la Coruña. • Alfal*: macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico, de la Asociación de Lingüística y Filología de América Latina. • Albayzin: base de datos para el reconocimiento y procesamiento del habla en español, desarrollada en España. Se llevó a cabo entre 1992 y 1998 por un consorcio que agrupaba, bajo la coordinación de la Universidad Politécnica de Cataluña, varios grupos de universidades como la Politécnica de Madrid, la Universidad de Granada, la Universidad Autónoma de Barcelona y la Politécnica de Valencia. • Caracas-77* y Caracas-87*: estudio sociolingüístico de Caracas, 1977 y 1987 respectivamente, del Instituto de Filología Andrés Bello. • ceap*: Corpus de Encuestas en Asunción del Paraguay. • Covja*: corpus oral de la variedad juvenil universitaria del español hablado en Alicante, del Instituto de Cultura Juan GilAlbert de la Diputación Provincial de Alicante. • CSC*: corpus para el estudio del español hablado en Santiago de Compostela, de la Universidad de Santiago de Compostela. • csmv*: corpus sociolingüístico de la ciudad de Mérida, de la Universidad de los Andes, Venezuela. • Eurom1: base de datos oral europea multilingüe, que incluye muestras de habla del español. • Gaudí: corpus en español para identificación y verificación de hablantes. • FAE_E sp can: fonética acústica experimental del español de Canarias, Universidad de la Laguna. 6
36
Estos datos se obtuvieron de diferentes fuentes consultadas por internet, siendo una de las principales la Real Academia Española. La autora de este libro no ha tenido acceso a todas estas bases de datos.
La lingüística de corpus
• UAM*: corpus oral de referencia del español contemporáneo, de la Universidad Autónoma de Madrid. • VUA : Variedades Urbanas Andaluzas, de las universidades de Granada y Málaga. En la modalidad de textos escritos es posible también contar con un buen número de corpus, fruto también de proyectos de investigación adscritos a instituciones de distintos países de habla española e inglesa. Dentro de esta modalidad se cuenta con corpus realizados con finalidades específicas —tanto del español en general, como de ciertos registros específicos— y con corpus de carácter general. Las muestras son de tamaños muy diversos y se cuentan por el número de palabras que contienen. Ejemplos de este tipo de corpus son los siguientes: • Arthus: Archivos de Textos Hispánicos de la Universidad de Santiago, con transcripciones de lengua oral. • Cedel2: Corpus Escrito del Español como L2. Se trata de un conjunto de composiciones escritas realizadas por hablantes de inglés que están aprendiendo español. • CREA : Corpus de Referencia del Español Actual, desarrollado por el Instituto de Lexicografía de la Real Academia de la Lengua Española. • Corde: Corpus Diacrónico del Español, desarrollado por el Instituto de Lexicografía de la Real Academia de la Lengua Española. • Corpus de Español de la República de Argentina: abarca una variedad de textos del español escrito en Argentina. • Corpus Chileno de Referencia: textos escritos en Chile. • Corpus del Español: patrocinado por la National Endowment for the Humanities y desarrollado por el profesor Mark Davies. • Corpus 92: lengua escrita por aspirantes a estudios universitarios, desarrollado por la Universidad Pompeu Fabra. • CorsVerifssdgee: corpus de verificación del sistema de diccionarios y gramáticas electrónicos(as) del español. • Crater: proyecto europeo que reúne textos en español, francés e inglés.
37
Julia Marlén Baquero Velásquez
• Cumbre: datos representativos del uso del español contemporáneo recolectados por la editorial SGEL S. A. • AGLE: Archivo Gramatical de la Lengua Española. • EGB: representaciones de categorías semánticas de niños ciegos de nacimiento de edad escolar, construido por la Universidad Nacional de Educación a Distancia. • LAN: corpus de textos técnicos. • Legebidium: corpus bilingüe español-euskera de textos administrativos y legales. • Lejes: léxico jurídico, desarrollado por las universidades de Granada y Bonn. • Voxbibliograf: desarrollado por Bibliograf S. A. con fines predominantemente lexicográficos. Dada la importancia de algunos de estos proyectos y el desarrollo que han logrado, en lo que sigue nos referiremos brevemente a los dos corpus que está desarrollando la Real Academia Española (CREA y Corde) y al del profesor Mark Davies de Brigham Young University: Corpus del español. Como ya se dijo, la Real Academia Española está elaborando un corpus de referencia general para el español, que incluye textos reales orales y escritos, producidos en distintos países de habla hispana desde 1975 hasta el 2004, y otro de carácter diacrónico que reúne textos desde los orígenes hasta 1975. �El CREA7 Composición
Según el sitio web, en el 2008, el CREA contaba con 160 millones de formas de naturaleza muy variada, contenidas en textos orales y escritos. Estos textos están codificados de acuerdo con los parámetros de selección escogidos, lo que permite su filtrado según el objetivo de la investigación para la cual se haga uso de estos datos. Los criterios y la proporción en cada campo son los siguientes: a) el tipo de texto, 90% escritos y 10% orales; b) el origen geográfico, 50% de España y el 7 38
http//:corpus.rae.es/creanet.html.
La lingüística de corpus
otro 50% de distintos países de América; c) el medio de procedencia, 49% libros, 49% prensa y 2% otros tipos de escritos como prospectos, correos electrónicos, folletos, etc.; el tema, que incluye más de 70 opciones organizadas en nueve grupos: ciencias y tecnología; ciencias sociales, creencias y pensamiento; política, economía, comercio y finanzas; artes; ocio y vida cotidiana; salud; ficción; miscelánea y otros temas ubicados dentro de los orales. Adicionalmente, contienen información relacionada con autor, obra y época, y se puede ver el número de palabras por documento y la edición empleada. Etiquetas
Hasta donde se puede acceder a los datos y por el tipo de búsquedas que pueden hacerse, creemos que, por ahora, los corpus no están etiquetados con información lingüística, ya que no es posible filtrar palabras por categoría, semejanza semántica, lema, etc. Búsquedas y resultados
El sistema de búsqueda cuenta con tres ventanas. En la primera se precisa la consulta que se quiere realizar, junto con los criterios de selección de los datos, que permiten llegar a los subconjuntos de documentos, dependiendo de los objetivos de la investigación: autor, obra, época, tema, medio y procedencia geográfica. Ello arroja un primer resultado en una segunda ventana en la que se indica la frecuencia de aparición de la expresión consultada y el número de documentos en los que aparece. Esta permite consultar las estadísticas o los ejemplos y ofrece la posibilidad de establecer filtros para reducir los documentos o para apreciar los ejemplos, los cuales se pueden visualizar por concordancias8, párrafos o documentos. Evaluada la información que aparece en la segunda ventana, se pueden recuperar los datos en una tercera ventana, en donde se muestra la descripción de los documentos en los que aparece el término de consulta, las estadísticas o los ejemplos concretos, que, 8
Sobre el tema de las concordancias se profundizará más adelante en la segunda parte de este volumen. 39
Julia Marlén Baquero Velásquez
como dijimos, pueden visualizarse por párrafos con la información del documento o por concordancias. Hay dos maneras de hacer las consultas, bien utilizando expresiones del español —palabras completas y partes o grupos de palabras con o sin ayuda de los comodines—, o bien, mediante la composición de expresiones lógicas. Es importante tener en cuenta que cuando los resultados exceden los 2000 documentos, aparece un aviso que indica que debe delimitarse mejor la búsqueda. Por ello, no resulta viable hacer consultas de partes de palabras que puedan aparecer en los documentos con demasiada frecuencia. Lo símbolos comodines que admite son ‘?’, para un solo carácter, o ‘*’ para más de uno. Con ellos se pueden encontrar palabras como lana, lina, lona y luna, si se opta por la consulta l?na, o bien las palabras cantamos, cantáis, cantarán, cantan, canto, etc., si se consulta cant*. Las expresiones lógicas que permiten mejorar las búsquedas son y, o, no, y dist. Los dos primeros no tienen problemas, pues se usan de la misma manera como se suele hacer con otros programas. El último permite definir a qué distancia puede estar una palabra de otra: redacción dist/8 comprensión, por ejemplo, identifica secuencias en las que la primera palabra está a una, dos, tres, cuatro y hasta ocho palabras de distancia de la segunda, mientras que si lo antecedemos del no —redacción no dist/8 comprensión— la distancia va a ser necesariamente superior a ocho palabras. Algunas posibilidades de investigación
Son variadas las posibilidades de investigación que pueden hacerse con base en este corpus, todas ellas relacionadas con el tipo de datos que arroja: léxico, aspectos sintácticos, pragmáticos, discursivos, de un autor, obra, comunidad, medio, etc. �El Corde9 Composición
Hasta abril del 2005, el Corde contaba con 250 millones de formas, contenidas en textos escritos de distintas épocas y lugares 9 40
http://corpus.rae.es/cordenet.html.
La lingüística de corpus
en que se hablaba español desde sus orígenes hasta 1974. Siguiendo el mismo modelo del CREA, los textos están organizados de acuerdo con los criterios de selección y porcentajes que se especifican a continuación: a) el medio de procedencia: 97% libros y 3% prensa; b) el origen geográfico: 74% de España, 25% Hispanoamérica y 1% español sefardí y otros; y c) el modo: prosa 85% y verso 15%. También contienen información relacionada con la época (desde los orígenes hasta 1491, 1492-1712, 1713-1974), el género (lírica, narrativa, teatro, didáctica, científico-técnico, sociedad, ocio, vida cotidiana y trabajo, religión, prensa, publicidad y material efímero, etc.), autor y obra, y se puede ver el número de palabras por documento y la edición empleada. La procedencia de los materiales es muy diversa, por lo que algunos son escaneados, otros digitados y otros ya estaban en formato digital. Etiquetas
De acuerdo con la información que ofrece la Real Academia Española (en línea), a todos los materiales procesados tanto en el CREA como en el Corde se les ha añadido una serie de marcas textuales, establecidas según el estándar internacional SGML (Standard General Markup Language), de acuerdo con las recomendaciones de la TEI (Text Encoding Initiative), que permitirán múltiples posibilidades de recuperación de la información y la intercambiabilidad de textos con otros corpus.
No obstante, como ya se señaló a propósito del CREA, no parecen contener etiquetas con información lingüística que permita búsquedas por categorías, subcategorías, sinónimos, etc. Búsquedas y resultados
Por ser construidos por la misma institución, estos dos corpus son sistemáticos en cuanto a la forma de hacer las búsquedas y la forma en que se presentan los resultados, lo que facilita el acceso a ellos sin tropiezos para el investigador.
41
Julia Marlén Baquero Velásquez
Algunas posibilidades de investigación
Este corpus está diseñado para extraer información con la que se pueda estudiar las palabras y sus significados, así como la gramática y su uso a través del tiempo. Los estudios, al igual que sucede con el CREA, pueden estar delimitados de acuerdo con los distintos criterios de selección que contiene, ya que arroja datos según autor, obra, medio, modo, época y procedencia. Desde luego, una de sus aplicaciones es servir de base documental para la redacción del Diccionario histórico de la lengua española. �El Corpus del español10
Como ya se dijo, este es un corpus de referencia general creado por el profesor Mark Davies de la Brigham Young University, el cual fue patrocinado por el fondo nacional estadounidense, U. S. National Endowment for the Humanities (NEH). Es un corpus para el español que incluye textos reales producidos entre los siglos XIII y XX, y fue publicado por primera vez en internet en el 2002 y modificado en algunos aspectos en el 2007. Las principales fuentes de datos son las expuestas en 1-5, según se describe en la ayuda de este corpus. Pero también contiene textos provenientes de otras fuentes, que se pueden consultar en una base de datos ofrecida a los usuarios. 1. Hispanic Seminary of Medieval Studies, con textos del año 1200 al 1500. 2. Biblioteca Virtual Miguel de Cervantes, con textos del año 1500 al 1900. 3. Admyte, con textos del año 1200 al 1500. 4. Comedias (www.comedias.org), con comedias de la Edad de Oro (teatro). 5. Encarta, enciclopedia (con artículos académicos del siglo XIX). Composición
Contiene cien millones de palabras, provenientes de más de 20.000 textos de naturaleza diversa, según parámetros de: a) época, 10 42
www.corpusdelespanol.org.
La lingüística de corpus
indicada por siglos y por fecha; b) género (ficción, académico, periodístico, oral y otros sin clasificación en este sentido); c) obra y d) autor. Por cada texto es posible encontrar también información sobre la colección y el número de palabras en una base de datos ofrecida a los usuarios. La proporción de datos por cada parámetro no se encuentra fácilmente como sí sucede con CREA y Corde. En este sentido, solo se presenta la información por cada época, en términos del número de palabras y el número de textos. La tabla 1, tomada de la ayuda ofrecida en internet, especifica el tamaño por época y, para el siglo XX, por género. De hecho, hasta donde pudimos apreciar en la base de datos, esta información de género solo la tienen los textos del siglo pasado. tabla 1. Información detallada del Corpus del español Cantidad de palabras
Cantidad de textos
xiii
6.905.000
71
xiv
2.820.000
50
xv
8.515.000
160
xvi
18.001.000
323
xvii
12.746.000
499
xviii
10.263.000
159
xix
20.465.000
392 novelas
xx - académico
5.138.077
2.931 artículos
xx - periódico
5.144.631
6.810 artículos
xx - ficción
5.144.073
850 novelas / cuentos
xx - oral
5.113.249
2.040 + entrevistas/ transcripciones
101.311.682
13.926
Época (siglos)
Total
Etiquetas
Este corpus, a diferencia de los dos anteriores, tiene etiquetas de carácter lingüístico codificadas en HTML, ASP, ADO y Javascript para la interfaz de internet, cuyos códigos deben conocerse al momento de hacer las búsquedas. 43
Julia Marlén Baquero Velásquez
Las etiquetas tienen información sobre categoría y subcategoría gramatical de las palabras e información morfológica sobre persona, número y género y sobre presencia de prefijos y sufijos en ellas. Se especifica, por ejemplo, si la palabra se asigna a la categoría conjunción, determinante, adjetivo, nombre, verbo, pero también el tipo de conjunción (coordinante, subordinante, relativa), nombre (propio o común) o la forma verbal (indicativo presente, imperfecto, futuro, etc.). A nivel de rasgos morfológicos, las palabras tienen etiquetas que indican si es masculina, femenina, singular o plural, y para los verbos si la forma es de primera, segunda o tercera persona. La asignación de tales etiquetas a las palabras permite, desde luego, hacer búsquedas mucho más complejas como, por ejemplo, encontrar los sustantivos comunes que coaparezcan con el lema mirar a una distancia determinada. En este caso se escribe el lema [mirar] en la opción «palabra(s)» y en la opción «contexto», [nn*] para que encuentre los sustantivos comunes, y el número 2 en los dos recuadros, si lo que se quiere es que identifique contextos en los que aparezcan sustantivos comunes a dos palabras de distancia a la derecha o a la izquierda del lema seleccionado. Todas las convenciones se pueden encontrar en la ayuda que se ofrece en la página y en una ventana desplegable al lado de «Cat Gram» de la sección «Buscar». Búsquedas y resultados
La interfaz de búsqueda (figura 1)11 cuenta con una sola ventana dividida en dos secciones, una reservada para la caracterización de la consulta y de los criterios de selección (lado izquierdo) y la otra para la presentación de los resultados (lado derecho). En la primera el investigador puede escoger la forma de presentación de los resultados, organizar la consulta de acuerdo con distintas opciones y delimitar la época a consultar o los géneros. El corpus también brinda adicionalmente un botón para otras opciones.
11
44
Las figuras que acompañan el libro pueden verse a tamaño completo en el cd.
La lingüística de corpus
La forma de visualización de los datos puede ser mediante gráficos de barras, que describen la frecuencia de ocurrencia de la expresión en cada siglo; por medio de una tabla que incluye la(s) expresión(es), junto con su frecuencia de ocurrencia o también por comparación de las palabras que suelen aparecer próximas (colocaciones) a dos expresiones. Al presionar sobre las palabras visualizadas en los resultados, se despliegan los contextos elementales y se informa la época y la obra de donde se extrajo cada muestra en el contexto más amplio. Allí también se puede seleccionar la presentación por secciones, que despliega no solo la lista, sino también la frecuencia de ocurrencia en cada siglo y se puede pedir el ordenamiento por frecuencia, por relevancia o por orden alfabético.
figura 1. Corpus del español, lema [mirar] (Davies, 2007).
La parte destinada a la búsqueda, como se puede apreciar en la parte izquierda de la figura 1, brinda dos ventanas de texto para llenar con la información que se quiere encontrar en el corpus y tres ventanas desplegables con las que se puede cualificar la búsqueda sin necesidad de aprenderse el nombre de las etiquetas; también incluye un link («Listas») para inscribirse como usuario y personalizar las búsquedas a fin de acceder a ellas con el nombre asignado. En el campo «Palabra(s)» el usuario debe escribir la expresión que se 45
Julia Marlén Baquero Velásquez
quiere consultar, siguiendo la sintaxis que se propone en el corpus (tabla 2), mientras que en el contexto se indica la naturaleza de las palabras que la deben acompañar, junto con la distancia a la derecha y a la izquierda a la que deben ocurrir. Es posible escribir un contexto en la segunda casilla, y si se quiere escoger en una u otra una categoría para buscar, puede hacerse por medio de la ventana desplegable que se presenta en la tercera fila. Se pueden hacer las búsquedas por expresiones exactas del español (escritura, vestido blanco), por lemas ([escribir]), con comodines (l?na, escri*), por rasgos lingüísticos combinados o no con expresiones del lenguaje natural ([nn*] peligros?, [= cerdo]), pero también se pueden hacer búsquedas más complejas, gracias a que el corpus está etiquetado. En la siguiente tabla se presentan y explican algunos ejemplos de búsqueda. tabla 2. Sintaxis de búsqueda en Corpus del Español (Davies, 2007) Búsqueda Palabra
Contexto
Significado
Resultado
Ejemplo de un contexto elemental
violencia
Todas las ocurrencias en el corpus de la palabra violencia.
violencia
…ideología que haga de la violencia uno de sus componentes…
violencia
Las palabras que acompañan a violencia, que estén hasta tres palabras antes o después de ella.
intimidación escaladas extorsión...
En cambio que un robo es con violencia o intimidación en las personas…
Las palabras que estén asociadas al lema violencia.
violencia violencias
…se han creado rivalidades, violencias, celos…
Todas las palabras sinónimas de violencia.
impulso exceso intensidad furor disgusto
Aquella columna, por cierto, provocó un disgusto entre dos columnistas…
[violencia]
[=violencia]
46
* 3-3
La lingüística de corpus
Búsqueda
Significado
Resultado
Ejemplo de un contexto elemental
Todos los sinónimos de violencia con las correspondientes expresiones asociadas al lema.
impulso[s] exceso[s] violencia[s] furor disgusto[s]...
Me sentí mil veces arrebatado de un extraño furor…
violen*
Todas las palabras que empiecen por violen-.
violencia violenta violento violentos violentas violentar violentando…
violen*
Todos los contextos en los que la palabra régimen acompañe hasta cuatro palabras antes o después de otra que empiece por violen-.
Palabra
Contexto
[[=violencia]]
régimen 4-4
muy violent?
Las palabras muy violenta o muy violento.
violencia/guerra
Todas las ocurrencias en el corpus de las palabras violencia o guerra.
*encia
Las palabras terminadas en -encia.
[vif-3s]
Todas las palabras del corpus etiquetadas como verbo indicativo en tiempo futuro y tercera singular.
régimen
muy violento muy violenta
guerra violencia
violencia existencia influencia experiencia diferencia… podrá tendrá hará traerá dispondrá…
…el régimen yugoslavo pues ha estado violentando…
…la violencia descargada bajo su régimen…
He oído decir que se pone muy violento… …desde comienzos de siglo hasta la Segunda Guerra Mundial… …no hay más diferencia sustancia… …buscará coalición el Partido con los demás organismos…
47
Julia Marlén Baquero Velásquez
Búsqueda Palabra
peligros?
Contexto
[nn*]
[iglesia] Seleccionando «Sección s13» (siglo xiii)
Significado
Los sustantivos comunes que acompañan a la palabra peligroso o peligrosa.
…viendo en segundo término la criatura peligrosa...
Todas las formas de iglesia en el siglo xiii.
eglesia iglesia eglesias Iglesia iglesias
…quisiere alçar al juyzjo de santa yglesia…
hermosa buena pobre mala sola...
…de los cuales había una sola mujer.
[[Davies:color]]
mujer
Todos los adjetivos que se encuentren hasta cuatro palabras antes o después de mujer.
mujer [j*]
Ejemplo de un contexto elemental
enfermedad peligrosa situación peligrosa enemigo peligroso camino peligroso discusión peligrosa
La lista para el color personalizada por el profesor Davies.
[j*] 4/4
Resultado
La palabra mujer junto con los adjetivos que la acompañen después de ella.
mujer joven mujer hermosa mujer honrada mujer amada
…con sus hijos como una mujer honrada cualquiera…
Algunas posibilidades de investigación
Son también variadas las investigaciones que pueden hacerse con base en este corpus, todas ellas acordes con el tipo de datos que se pueden consultar, dada la clasificación del corpus y las etiquetas asignadas a cada palabra: léxico, aspectos sintácticos, se-
48
La lingüística de corpus
mánticos, pragmáticos, de género, de época, etc., caracterización de significados a partir de las colocaciones o palabras que suelen aparecer con ella, evolución del significado o de la forma de una palabra, frecuencia de uso de una palabra por época o por género, comparación entre dos palabras o secuencias (bien sea por época, por género o a nivel general), sinónimos más frecuentes de una expresión en una época o en un género, etc. Así, se pueden buscar los verbos que suelen acompañar a las palabras mujer y hombre en los documentos del siglo XV, para aproximarse a partir de los resultados, a los posibles imaginarios que se tenían en la época en relación con cada uno de estos grupos. Pero también se puede examinar cuántas veces a lo largo de la historia se asocia la palabra mujer y la palabra hombre al lema trabajar, por ejemplo. Si se quiere precisar el significado de dos palabras de contraste como ver/mirar, escuchar/oír, costoso/caro en distintas épocas o géneros, se pueden hacer también las correspondientes búsquedas. Asimismo se podría examinar qué formas lingüísticas suelen aparecer en uno u otro género, o qué tiempos verbales suelen ser más frecuentes en un tipo de texto u otro. Para concluir este apartado, ofrecemos una lista con algunos de los corpus existentes, y presentamos algunas de sus características de manera resumida (tabla 3).
tabla 3. Algunos corpus con su descripción general Corpus
crea
Corde
Español actual (19751999) Corpus diacrónico (orígenes1975)
Autor
Real Academia de la Lengua Española
Criterios de selección
• Palabra • Autor • Obra • Cronológico • Medio • Geográfico • Tema
Tamaño (palabras) 200 millones
70 millones
Resultados
• Concordancias • Datos estadísticos
Web http:// corpus. rae.es/ creanet. html http:// corpus. rae.es/ cordenet. html
49
Julia Marlén Baquero Velásquez
Autor
Criterios de selección
Siglos xiii-xx
Patrocinado por la neh y desarrollado por el profesor Mark Davies
• Cronológico • Palabra(s) • Frases • Lemas • Sinónimos • Colocaciones • Morfemas • Partes aplicando comodines
Texto escrito
Salvador Fernández Ramírez
Corpus
Corpus del español
agle
Cumbre
Arthus
Lexesp
50
Corpus oral
Universidad Autónoma de Madrid
Corpus lingüístico del español contemporáneo
A. Sánchez, R. Sarmiento, P. Cantos y J. Simón
Tamaño (palabras)
Más de 100 millones
• Categoría lingüística • Obra • Autor (por lista de autores)
Resultados
• Concordancias con posibilidad de expandir el contexto • Datos estadísticos
Citas y anotaciones
Distintos géneros
Texto transcrito
Web
http:// www. corpusdel espanol. org
http://cvc. cervantes. es/obref/ agle http:// www.lllf. uam.es/ corpus/ corpus. html
20 millones 3 millones http:// books. google. com/book s?id=vw13 I2G3KxkC &pg=PA14 &hl=ca&so urce=gbs_ selected_ pages&cad =0_1
SEGUNDA PARTE Programas para la consulta de concordancias
Concordancias: concepto y ejemplos
La extracción de «concordancias» es probablemente el proceso más sencillo de análisis que se puede realizar a un corpus. Consiste en encontrar en los diferentes textos que lo conforman, una determinada palabra o frase junto con su contexto de ocurrencia, el cual no es otra cosa que un cierto número de palabras o caracteres que preceden o siguen a la expresión objeto de interés. Es esta precisamente la tarea principal que realizan, en buena parte, los corpus de internet que se encuentran a disposición de los investigadores. Se trata, a nivel ilustrativo, de datos como los apreciados en la figura 2, los cuales fueron arrojados por el corpus CREA al consultar la palabra pequeño en textos orales de Argentina. El examen de concordancias, y de resultados asociados a este, permite, entre otras, resolver preguntas de carácter lexicográfico, como las que proponen Biber, Douglas, Conrad y Reppen (1998: 23): ¿cuáles son los significados asociados con una palabra particular?, ¿cuál es la frecuencia de ocurrencia de una palabra en comparación con otra con la cual guarda una relación?, ¿tiene una palabra asociaciones sistemáticas con otras?, ¿tiene una palabra asociaciones sistemáticas con estructuras no lingüísticas como registros, períodos históricos, autores o dialectos particulares? Pero 53
Julia Marlén Baquero Velásquez
también se pueden abordar preguntas relacionadas con la forma en que cambia el significado o la frecuencia de uso de las palabras a lo largo de la historia e, incluso, la variabilidad en relación con patrones no lingüísticos.
figura 2. Concordancias de pequeño.
Una exploración rápida en el corpus del profesor Davies sobre los lemas [pequeño] y [chiquito], por ejemplo, permitiría precisar algunas características de estas expresiones. Así, es fácil observar en los resultados visualizados en las figuras 3 y 41 que las dos formas tienen frecuencias de ocurrencias distintas a lo largo de la historia. De hecho, si comparamos los resultados arrojados para los siglos XIII-XV, notamos que mientras el primer término aparece con una frecuencia de ocurrencia relativamente alta (4.516 casos en los tres siglos), el segundo apenas lo hace 35 veces. Además, pe1
54
Los resultados en estas figuras no se visualizan completamente debido a que el número de expresiones asociadas al lema es mayor. Sin embargo, el lector puede hacer la búsqueda en el corpus y desplazar la ventana para observar los resultados completos.
Concordancias: concepto y ejemplos
queño muestra una alternancia en la forma de su escritura —con nn o con ñ— que evidencia el cambio que se estaba dando a favor de la que hoy tenemos, la cual se consolida prácticamente en el siglo XVI, años después de que Alfonso X le diera carta de identidad al castellano como lengua para la comunicación escrita. Sin embargo, este fenómeno se vuelve a encontrar en diez oportunidades en el corpus del siglo XVIII.
figura 3. Resultados de la búsqueda de [pequeño].
figura 4. Resultados de la búsqueda de [chiquito].
Al mirar el número total de muestras también se aprecian diferencias interesantes, pues la expresión que tiene mayor tendencia de uso es la primera con 25.922 ocurrencias en todo el corpus frente a 775 de la segunda. También se puede observar que, en ambos casos, la frecuencia aumenta en el siglo XX . Esto último, sin embargo, no es un indicador real si se tiene en cuenta que el número de textos de esta época es sustancialmente mayor que el de las anteriores, lo que exigiría un proceso de ponderación de dichas frecuencias. Es decir, 55
Julia Marlén Baquero Velásquez
no tiene el mismo peso, desde el punto de vista estadístico, una palabra entre mil que una entre doscientas. Así que debemos aplicar un proceso matemático que nos permita hacer comparables los dos valores, tomando como base cuánto representa cada resultado sobre el total de datos del corpus. De otro lado, a nivel de los géneros se aprecia que, mientras la segunda tiende a ocurrir solo en textos orales y de ficción, la primera aparece en todos los géneros. Si ahora se comparan los sustantivos que anteceden a una u otra forma, se puede apreciar que son muchos los que acompañan a la forma pequeño (figura 5), mientras que son solo cuatro (niño, rey, hijo, dedo) los que se anteponen a chiquito. Un análisis más específico de los contextos de ocurrencia permitiría refinar algunas afirmaciones (figura 6), pues como se observa, por ejemplo, la secuencia dedo chiquito es la forma compleja para referirse al meñique; en los demás casos se asocia con personas2. Ahora bien, si el investigador cuenta con un corpus distinto a los existentes en internet, desde el cual quiera extraer conclusiones, es necesario recurrir a los programas computacionales que se ofrecen para este tipo de análisis. Estos suelen incluir, adicionalmente, otras funciones básicas como elaboración de lista de palabras, clasificación por frecuencia de ocurrencia, identificación de colocaciones, clusters y/o palabras claves, lo que en ocasiones permite explorar el corpus de manera relativamente rápida y sencilla. Es importante saber que para las búsquedas, al igual que sucede con los corpus descritos arriba, casi todos aceptan caracteres comodines3 y/o expresiones regladas4.
En alguna población de Colombia, por lo menos, esta expresión parece estar adquiriendo nuevos significados, lo que haría que la tendencia de uso se disminuyera en los últimos años. 3 Los caracteres comodines son símbolos que reemplazan una o varias letras, una palabra, etc., (‘*’, ‘?’, ‘+’), los cuales garantizan la búsqueda de expresiones que comparten rasgos. 4 Estas son formas que siguen una sintaxis básica para expresar condiciones que debe cumplir la búsqueda. 2
56
Concordancias: concepto y ejemplos
figura 5. Concordancias de pequeño.
figura 6. Concordancias de chiquito.
Existen muchos programas que realizan este tipo de tareas con licencia freeware5, shareware6 o propietario, y para todos los El freeware es un tipo de software que se distribuye de manera gratuita para que el usuario lo utilice. Dentro de esta categoría están los de dominio público (open source), que son los que adicionalmente tienen código abierto y, por ende, pueden ser modificados por sus usuarios. 6 El shareware es un tipo de software que se puede descargar y utilizar gratuitamente por un período de prueba determinado, luego del cual, se adquiere una licencia —por lo general de muy bajo costo— o se desinstala 5
57
Julia Marlén Baquero Velásquez
sistemas operativos. En lo que sigue, presentamos una pequeña muestra con una descripción general sobre el sistema operativo, el lenguaje de programación, el tipo de licencia, las tareas que realiza y las estadísticas que extrae, para pasar más adelante a hacer una presentación en detalle de dos de ellos. Licencia freeware
• AntConc7 Sistema operativo
Windows (varias versiones), Linux y Mac.
Lenguaje de programación
Perl 5.8. Utiliza la interfaz Komodo.
Tareas
Concordancias, mapa de ubicación de la palabra, visualización de texto completo, lista de palabras, comparación entre textos, colocaciones, grupos de palabras, palabras clave.
Estadísticas
Frecuencia de ocurrencia de cada expresión y factor keyness8
• Conc9 Sistema operativo
Macintosh (Mac OS8).
Lenguaje de programación
ne.
Tareas
Concordancias, lista de palabras, posición de la palabra de interés en el texto.
Estadísticas
Frecuencia de ocurrencia de cada expresión.
• Concorder Pro10 Sistema operativo
Mac os x.
Lenguaje de programación
ne.
7
8 9 10 58
completamente. Al cabo de este tiempo de prueba gratuito el programa queda deshabilitado automáticamente. En el 2005, cuando iniciamos estos cursos, el profesor Roberto Perry fue quien nos habló de la existencia de este programa y del Antmover. A él agradecemos tal información. Tiene que ver con el establecimiento de palabras clave. www.sil.org. www.versiontracker.com/dyn/moreinfo/macosx/17768.
Concordancias: concepto y ejemplos
Tareas
Lista de palabras, visualización del texto.
Estadísticas
Frecuencias de ocurrencia de cada expresión.
Licencia shareware
• Concordance11 Sistema operativo
Windows (varias versiones).
Lenguaje de programación
c++ (herramienta para plataforma Win32).
Tareas
Concordancias en varios niveles, lista de palabras, preparación de los datos, lematización.
Estadísticas
Frecuencia de ocurrencia de cada expresión y distribución de longitud de palabra.
• Word Smith Tools12 Sistema operativo
Windows.
Lenguaje de programación
c++ (Delphi 7-código Win32 nativo), Assembler.
Tareas
Concordancias, lista de palabras, comparación entre textos, análisis de palabras clave, lematización.
Estadísticas
Frecuencias absolutas y relativas de ocurrencia de cada expresión y factor keyness.
Licencia propietario
• T-Lab13 Sistema operativo
Windows (varias versiones)..
Lenguaje de programación
Diversas herramientas de programación (ne).
www.concordancesoftware.co.uk/. www.lexically.net/wordsmith/. 13 Si bien incluimos este programa en la lista, es importante señalar que este no puede considerarse exactamente un programa de concordancias, pues son múltiples las tareas que este realiza. Lo incluimos aquí debido a que una de las tareas que ofrece es precisamente esta. 11
12
59
Julia Marlén Baquero Velásquez
Tareas
Sistema complejo de análisis que involucra múltiples funciones. Este programa ofrece un demo para explorar el programa, pero únicamente con los corpus incorporados.
Estadísticas
frecuencia de ocurrencia de cada expresión, chi2, mapas de contextos elementales.
Por lo regular, los programas de concordancias exigen una preparación de los textos que conforman el corpus de trabajo. Algunos simplemente exigen que los archivos se guarden en formato de texto plano (*.TXT), o estén etiquetados en formato HTML , HTM, XML. Muy pocos aceptan el formato DOC , porque las bases para codificarlo y decodificarlo son propiedad de Microsoft. En otros, adicionalmente, el tipo de codificación debe ser ASCII, Unicode, ISO, y otros admiten varios tipos de codificación siempre y cuando se configure el programa de acuerdo con el formato empleado al salvar el archivo. Cuando el programa admite comparación entre textos por variables, y el investigador está interesado en ello, los distintos archivos del corpus deben estar codificados para que el programa pueda trabajar con subconjuntos del corpus (véase el capítulo «T-lab»).
60
AntConc*
Instalación
Este programa es bastante liviano: todo lo que se requiere para su ejecución se encuentra en el archivo Antconc3.2.1.exe y funciona perfectamente en las versiones más actuales de Windows —Me y XP—, en Mac y en Linux. Las distintas versiones del programa pueden encontrarse en la página del autor http://ice.ous. ac.jp o en http://antpc1.ice.ous.ac.jp. En internet se puede encontrar una ayuda completa para la última versión. Descripción
AntConc, actualmente en su versión 3.2, fue desarrollado por Laurence Anthony en la Universidad Okayama en Japón, con el lenguaje de programación Perl 5.8. Su función fundamental, como su nombre lo indica, es detectar los contextos de aparición de una expresión dentro de un corpus conformado por uno o varios textos. Pero, además de ello, cuenta con otras herramientas que le permiten graficar la(s) posición(es) de cada expresión a lo largo de cada texto del corpus en forma de un gráfico de barras en donde cada barra corresponde a una ocurrencias («Concordance Plot»), visualizar cada *
www.antlab.sci.waseda.ac.jp/software.html. 61
Julia Marlén Baquero Velásquez
uno de los archivos completos («File View»), mostrar la frecuencia de ocurrencia de las palabras que suelen acompañar a la consultada («Clusters»), precisar la frecuencia de aparición de las palabras que anteceden o siguen a la palabra objeto («Collocates»), hacer una lista de las palabras con su frecuencia de ocurrencia («Word List») y encontrar la relación entre palabras claves del texto objeto de análisis y otro de referencia, mediante el cálculo del factor keyness. El autor asegura que estas herramientas hacen del programa una aplicación útil para el análisis de textos. ���Preparación del corpus
Este es un programa que no exige mayor preparación del corpus. Admite formatos TXT, HTML, HTM, XML, y en su última versión se pueden seleccionar todos ellos mediante la escogencia de la opción «All» (todos) en «File Settings» del menú «Global Settings» (figura 7).
figura 7. Opciones de configuración. 62
AntConc
Además del formato, a la hora de guardar los textos es importante escoger la codificación que más se ajuste al trabajo que se quiere desarrollar, pues, como se dijo inicialmente, no todas ellas soportan los mismos caracteres. Con esta selección se evita, entonces, la aparición de caracteres extraños o de cuadros en lugar de algunas letras. Si, por ejemplo, el corpus contiene textos orales con transcripción fonética, estos textos se pueden guardar en formato TXT, y escoger la codificación Unicode o UTF-8 (8-bit Unicode Transformation Format), con el cual se pueden representar los caracteres que forman parte del alfabeto fonético (figura 8).
figura 8. Codificación.
figura 9. Language Encodings.
63
Julia Marlén Baquero Velásquez
Para que todo funcione adecuadamente, antes de empezar el trabajo con los archivos debe escogerse la misma codificación en el programa, lo que se hace en la opción «Language Encodings» del menú «Global Settings» (figura 9). Trabajo con el programa
Son varios los tipos de trabajos que se pueden hacer con este software. Como ya se ha dicho, es posible acercarse al significado de una expresión por el uso que se hace de ella en textos reales, pero también se pueden comparar varios textos que traten temas similares a fin de reconocer qué términos puedan aparecer con mayor frecuencia en uno u otro. También es útil para el análisis de estilo, pues se pueden identificar expresiones repetidas o hacer un acercamiento a la temática de un texto a partir de la identificación de las palabras más frecuentes. Para efectos de la presentación del programa, se usarán un grupo de archivos que contienen mitos de distintas comunidades, cuyo tema es el origen del hombre; se trata de un primer acercamiento a ellos, con lo que se pueden obtener algunas conclusiones que podrían ser corroboradas o refutadas en un trabajo posterior. Una vez se descarga el ejecutable (antconc3.2.1w.exe) se puede acceder al programa mediante un clic sobre el ícono del programa, con lo que se abre una ventana como la de la figura 10.
figura 10. Ventana inicial de la aplicación.
64
AntConc
Esta ventana, como se aprecia, es bastante amigable. Se divide en cuatro partes fundamentales: una superior que contiene cuatro menús, una franja al lado izquierdo en donde se despliega la lista de los archivos que se está trabajando, una franja al lado derecho que exhibe los resultados dependiendo de la pestaña en donde se encuentre ubicado el usuario, y una parte inferior que presenta información de los datos, permite cambiar las propiedades a examinar y contiene los botones para iniciar el trabajo, parar o salvar. Para abrir los archivos de trabajo, se selecciona la opción «Open File» u «Open Dir» del menú «File» y desde allí se buscan los archivos que se quieren subir. La primera opción permite cargar uno o varios archivos mediante una selección manual, mientras que la segunda inserta todos aquellos que, teniendo el formato especificado, estén en una misma carpeta. Una vez se da la orden de abrirlos, estos se cargan en el programa y aparecen listados en la zona denominada «Corpus Files» (figura 10). Toda tarea realizada posteriormente se hace sobre los distintos archivos cargados. Para empezar una exploración con el programa, es posible seguir rutinas distintas. Se puede empezar examinando la lista de palabras, con lo que se logra un conocimiento de las expresiones que tienen una mayor ocurrencia y se toman decisiones de los términos que pueden ser de mayor interés. Pero, si ya se tienen expresiones sobre las que se quiere hacer el trabajo, se puede empezar a trabajar con sus concordancias o con los clusters, el plot o las colocaciones. Veamos, entonces, cómo se trabaja con cada una de las herramientas. Word List (Lista de palabras)
Es la sexta pestaña del programa y la más sencilla de usar (figura 11). Al ubicarse sobre ella y presionar el botón «Start» (iniciar), se muestra un listado de todas las palabras presentes en los archivos de trabajo con su correspondiente frecuencia de ocurrencia. Por defecto, los datos aparecen ordenados según la frecuencia, pero se puede escoger en la ventana desplegable que se ordenen alfabéticamente por la primera letra de la palabra o por la última letra, opciones que resultan muy adecuadas cuando se quieren identificar afijos. 65
Julia Marlén Baquero Velásquez
figura 11. Lista de palabras.
Una mirada rápida sobre los resultados permite concluir que los sustantivos que tienen la frecuencia más alta de ocurrencia son mundo, tierra, madre, hija, Serankua, agua, Maheo y Kaku, cuyo número supera en todos los casos las 30 ocurrencias. Este número podría aumentar aún más si se contara con un archivo que permitiera lematizar las expresiones, de tal suerte que tierra/tierras, madre/madres, etc., pudiesen ser captadas como formas del mismo lema. Si bien en esta pestaña se conoce la frecuencia de cada palabra en el corpus total, no se sabe, en ella, si la distribución en cada uno es equivalente o si difiere sustancialmente entre uno y otro. Para saberlo, se puede hacer una búsqueda de cada palabra en la pestaña «Concordance Plot» que, además de ofrecer el total de ocurrencias por archivo, muestra su distribución en cada uno.
66
AntConc
Concordance Plot �(Gráfico de concordancias)
Esta se encuentra en la segunda pestaña de la ventana. En ella cada archivo se representa como un rectángulo que exhibe una especie de código de barras, en donde cada línea corresponde a una entrada de la palabra en el corpus, y su ubicación indica en qué lugar del texto ocurre. Al escribir la palabra tierra, por ejemplo, en el cuadro de texto de la parte inferior, y presionar el botón «Start» (iniciar), el resultado es el que se visualiza en la ventana de la figura 12, lo que indica, a primera vista, que la distribución de esta palabra es diferente en los distintos textos, lo mismo que su frecuencia de ocurrencia (figura 12).
figura 12. Ventana de gráficos de concordancia para los archivos cargados.
En ella se observa que la palabra en cuestión aparece un mayor número de veces en el documento «Aruacos» (22 veces), mientras que en los demás su presencia es entre una y siete ocurrencias. Una in67
Julia Marlén Baquero Velásquez
terpretación adecuada, sin embargo, exige ponderar estos resultados antes de sacar conclusiones, ya que si bien el número de ocurrencias en «Aruacos» es mucho más alto, este es el archivo de mayor extensión, pues contiene 30.363 elementos frente a otros que únicamente incluyen entre 1.030 y 10.490. En cuanto a su distribución en cada texto, indudablemente en la parte media del texto «Aruacos» la presencia de este término es mayor, dada la densidad de líneas que se aprecian allí. Para acceder a la parte del texto de mayor concentración o a aquella que nos pueda interesar, solo basta presionar en la parte correspondiente, con lo que se visualiza la parte buscada en la pestaña «File View». Pero esta información todavía no nos permite acceder al significado de la palabra en cada uno de los textos. Para ello la mejor opción es hacer la misma búsqueda en la pestaña «Concordance». �Concordancias
Una vez se ingresa a esta pestaña se debe escribir la palabra, expresión o frase objeto de indagación en el cuadro de texto destinado para ello, para luego dar la orden al programa de comenzar oprimiendo el botón «Start». Si el objetivo que se tiene exige buscar no solo una determinada palabra, sino también todas aquellas formas que compartan ciertos rasgos, debe hacerse uso de los símbolos comodines para que los resultados sean adecuados. Casi inmediatamente el programa presenta todos los resultados de la búsqueda en la ventana KWIC (Key Word In Context) indicando al frente el archivo en el cual aparece cada una de las ocurrencias encontradas (figura 13), y marcando con un color diferente la palabra objeto de búsqueda en cada uno de los contextos elementales. Para cualificar las búsquedas, organizar los resultados o conocer algunos datos importantes sobre los resultados arrojados, el usuario puede examinar o modificar la información que aparece en la parte inferior de la interfaz. Así, en el extremo derecho aparece una cifra que el usuario puede modificar, la cual indica el número de caracteres que debe visualizarse antes y después de la expresión buscada, mientras que en la ventana inmediatamente anterior aparece un dato que indica el número de ocurrencias de la expresión en todo el corpus. 68
AntConc
figura 13. Resultado de la búsqueda de concordancias de las expresiones relacionadas con la palabra tierra.
Las tres ventanas de verificación que se encuentran sobre la ventana de texto permiten la selección de una de estas opciones para cualificar la búsqueda. La escogencia de la opción «Word» arroja como resultado todas las muestras del mismo tipo de palabra —independientemente de mayúsculas o minúsculas—, mientras que «Case» solo encuentra la palabra exacta escrita para la consulta, teniendo en cuenta mayúsculas, minúsculas, tildes, etc. Por último, la opción «Regex» permite el uso de las llamadas «expresiones regladas» o «expresiones regulares», un método para encontrar todas las palabras que cumplan con ciertas condiciones, siguiendo una sintaxis básica1. 1
Para mayor información sobre regular expressions, véase www.regularexpressions.info. 69
Julia Marlén Baquero Velásquez
El botón «Sort», ubicado a la derecha de «Start», sirve para ordenar los resultados siguiendo los criterios que cada quien defina. De esta manera es posible organizar los resultados alfabéticamente en relación con las palabras que rodean a la que se busca y de acuerdo con tres niveles de ordenamiento. El primer nivel indica qué palabra debe tener en cuenta el programa para ordenar los resultados en un primer momento, que bien puede ser la primera, la segunda o la tercera a la izquierda o a la derecha de la que es objeto de concordancia. El segundo nivel, en cambio, indica qué palabra debe tenerse en cuenta para ordenar los resultados cuando la palabra escogida en el primer nivel impide ordenar algunos datos debido a que se repite en más de un contexto. Algo similar ocurre con el tercer nivel. La figura 14 muestra los resultados de ordenar en el primer nivel por la primera palabra que está a la derecha de la buscada y en el nivel dos por la primera palabra que se encuentra a la izquierda.
figura 14. Ordenamiento por niveles.
70
AntConc
Con este resultado, el investigador accede de manera directa a los contextos elementales y puede fácilmente realizar las interpretaciones que requiera. Aunque, de ser necesario, también puede llegar al contexto total mediante un clic sobre la ocurrencia, con lo que se abre el archivo completo en «File View». No obstante, en ocasiones ayuda mucho conocer cuáles son las palabras con las que el término buscado suele coaparecer con la frecuencia más alta. Para ello, una mirada a los clusters puede ser interesante. Word Cluster
Esta herramienta se usa para generar una lista ordenada de palabras o grupos de palabras que aparecen a un lado y otro del término buscado. Si se quiere saber con qué palabra o palabras ocurre con mayor frecuencia la palabra objeto de análisis, se puede pasar a esta pestaña, seleccionar el mínimo y máximo de palabras alrededor de ella (incluyendo el término), el umbral mínimo que se quiere observar y el criterio de ordenación. Además, se puede limitar la búsqueda especificando la ubicación del término, bien sea a la izquierda o a la derecha. La siguiente ventana es el resultado de la búsqueda cuando se ha pedido que se muestren todos los word cluster de la palabra tierra que involucren un mínimo y máximo de dos palabras, cuyo umbral inferior sea 1 (figura 15). Esto es, todas las posibilidades en donde tierra esté acompañada, antes o después, de una palabra con una frecuencia de aparición de uno (1) en el corpus. Se aprecia aquí, por ejemplo, que en 23 oportunidades la palabra tierra (tierra/Tierra) aparece con artículo definido y nunca aparece con el indefinido. Se asocia a Abuela (f:3)2, a madre (f:2) y a mujer (f:2), lo que puede interpretarse como la forma en que estas comunidades conciben la tierra, pues en los tres casos se asocia a expresiones que se refieren a una mujer. Su combinación con diferentes adjetivos relacionados con el color —tierra negra (f:4), tierra roja (f:1), tierra blanca (f:1), tierra amarilla (f:1)— en mitos sobre el origen puede indicar la presencia de una manera de ver el proceso de formación de la tierra, que es lo que con mayor detalle se puede observar en los contextos elementales. 2
Léase «frecuencia 3». 71
Julia Marlén Baquero Velásquez
Existe en esta pestaña una casilla de verificación denominada «N-Grams», la cual despliega todos los grupos que pueden componerse con el número de palabras especificadas en el tamaño mínimo y máximo de clusters. Si se deja 2 y 2, entonces, el programa busca en el texto todas las parejas posibles de dos palabras, por lo tanto, en una secuencia como te quiero mucho formaría las parejas te quiero y quiero mucho, para después buscar otras parejas similares y calcular las frecuencias.
figura 15. Ventana de «Word Clusters».
Cuando son muchos los datos arrojados y muchos los textos analizados, puede interesar visualizar rápidamente en qué lugar puede ocurrir cada una de las palabras, y ello puede no ser tan sencillo de examinar con la herramienta «Word Cluster». Para ello, la mejor herramienta es la de las colocaciones. 72
AntConc
Collocates (Colocaciones)
La pestaña «Collocates» tiene que ver con una nueva tarea de la versión más reciente, que consiste en buscar y listar todas las palabras que acompañan al término buscado, tanto a la derecha como a la izquierda, con el fin de encontrar patrones de uso o expresiones típicas en la lengua estudiada. Esta lista va acompañada del número de ocurrencias de cada una, junto con una descripción del número de veces que ocurre a la derecha y el número de veces que ocurre a la izquierda de la palabra objeto de trabajo. De esta forma, podemos saber, por ejemplo, que siempre que la palabra madre acompaña a la palabra tierra, lo hace a su izquierda y nunca a la derecha, lo mismo que abuela y mujer (figura 16).
figura 16. Ventana «Collocates».
73
Julia Marlén Baquero Velásquez
Al igual que en otros casos, es posible modificar las propiedades de búsqueda: cantidad de palabras a la izquierda y a la derecha, la frecuencia mínima de exposición, la forma de ordenar, etc. File View (Vista de archivo)
En la pestaña titulada «File View» puede visualizarse el texto completo del archivo que se encuentra resaltado en la lista del lado izquierdo. Para ver el contenido de un archivo, basta solo con seleccionarlo y hacer clic en «Start». El texto original aparece en la ventana resaltando con otro color la expresión escrita en la ventana de texto. Igualmente se puede llegar a «File View» haciendo clic sobre la palabra expuesta en los resultados en cualquiera de las pestañas. Esta función sirve para leer todo el contexto de una palabra cuyo resultado fue particularmente interesante para el usuario o simplemente para leer el contenido completo del archivo. Keyword List (Lista de palabras claves)
Por último, la pestaña «Keyword List» hace uso de un sofisticado cálculo matemático (que usa la distribución CHI cuadrado o la logarítmica3) para comparar las palabras de los archivos analizados con las de otro que se toma como referencia. El cálculo matemático da lugar a un número, el factor keyness, que da cuenta de lo clave que puede llegar a ser una palabra, bien sea porque se repite con una frecuencia parecida en los archivos de análisis y en el de referencia, o porque existe una particular ausencia mucho más marcada en alguno de los dos. El mayor factor keyness indica que seguramente es la palabra más clave. Para hacer uso de esta herramienta, es necesario escoger un texto de referencia (de comparación), para lo cual se debe ir al menú de preferencias y escoger la opción «Keyword List», en donde se despliega una ventana como la siguiente (figura 17).
3
74
Estos parámetros pueden modificarse en la opción «Keyword Preferences» del menú «Tool Preferences». Allí mismo se selecciona el archivo de referencia.
AntConc
En ella es importante escoger una medida estadística (log-likelihood o chi-squared), un umbral (threshold) para el número de palabras claves a ser presentadas, la opción de mostrar o no palabras claves negativas (palabras de los archivos con una frecuencia baja inusual comparada con la frecuencia en el corpus de referencia) y un corpus de referencia, que debe ser un archivo cuyo tema sea similar para garantizar una buena búsqueda de palabras claves. Después de presionar el botón «OK », se regresa a la pestaña «Keyword» y se presiona el botón «Start» para que el programa arroje los resultados esperados.
figura 17. Menú de configuración para el análisis de palabra clave.
Utilidad del programa
• Este programa puede ser sumamente útil en varias disciplinas de la lingüística, sobre todo en aquellas que se dedican al estudio del uso del lenguaje (buscando patrones de uso o generalidades en ese sentido), al análisis del discurso y la lingüística de corpus. • Es bastante estable, aunque es propenso a algunos bloqueos cuando trabaja con cantidades elevadas de datos, dependiendo siempre de la capacidad del equipo de cómputo. • Es una herramienta abierta. No pretende decirle al usuario en qué situaciones puede o debe usarla; al contrario, alienta a que 75
Julia Marlén Baquero Velásquez
cada usuario la use como crea conveniente encontrándole la mejor utilidad por cuenta propia. Limitaciones del programa
• Una vez más el origen matemático de los cálculos realizados es completamente incierto. • Los artículos, preposiciones y conjunciones no tienen un tratamiento especial. Al ser las palabras con mayor frecuencia de ocurrencia en todos los textos, suelen sobrar en la mayoría de análisis de textos. • Hace falta una ayuda dentro del programa que oriente un poco más el trabajo, sobre todo en lo referente a las expresiones regulares.
76
T-Lab*
Instalación
Este programa no es tan liviano como el anterior, pero su instalación también es relativamente sencilla. Solo que, por ser un software propietario, exige una clave de activación que la firma remite al usuario una vez este haya enviado un mail con el código de usuario. Funciona perfectamente en las versiones más actuales de Windows —Me, XP y Vista—, y todavía no ha sido desarrollado para Mac o Linux. Cuenta con una página web que, según el autor, «se propone como punto de referencia para quien está interesado en el uso de T-Lab y de otros recursos para el análisis de textos». Descripción
T-Lab se encuentra en su versión número 7.0, esto indica que la aplicación ha tenido muchas modificaciones, por lo que resulta muy estable. Adicionalmente, tiene versiones para inglés, italiano, latín y francés, lo que permite desarrollar trabajos en cada una de estas lenguas, pues cada versión cuenta con un diccionario a partir del cual el software realiza algunas tareas. Ha sido evaluado *
http://www.tlab.it/default.php. 77
Julia Marlén Baquero Velásquez
con corpus que incluyen más de 18.000 páginas, pero su funcionamiento depende del procesador y de la memoria RAM disponible. Para que los resultados puedan ser confiables se recomienda un corpus de por lo menos 30 K . El programa fue desarrollado por Franco Lancia, un psicólogo que desde hace muchos años trabaja en el análisis de textos haciendo uso de ayudas computacionales. Su función fundamental es extraer, comparar y representar gráficamente los contenidos del corpus, para lo cual cuenta con herramientas lingüísticas y estadísticas que garantizan un trabajo rápido y confiable. Con este programa se pueden analizar corpus de naturaleza diversa: artículos de periódico, documentos de internet, libros, encuestas, textos de clase, etc., y permite el uso de variables que se procesan de manera independiente. Preparación del corpus
Todo corpus que vaya a ser importado a T-Lab requiere mínimamente que sea guardado como texto plano (*.TXT), con la codificación ASCII/ANSI, y que los caracteres que sirven como signos de puntuación tengan únicamente este uso. Por ello, se recomienda eliminar los puntos que en ocasiones se emplean para las abreviaturas o para otros usos similares, pues el programa los entiende como marcas de puntuación 2. Cuando el corpus incluye varios documentos es necesario que estos tengan una cierta homogeneidad temática para que los datos puedan ser comparables y que su tamaño sea similar en términos de unidades y de kilobytes a fin de que arroje estadísticas confiables. Adicionalmente, si se requiere unirlos en un solo archivo que permita el análisis de variables, deben codificarse a fin de que el programa pueda tener en cuenta esta información para el análisis. Si los documentos están en Excel, se pueden pegar mediante
2
78
Cuando el texto se digita en un procesador de palabras, los puntos suspensivos no son almacenados como tres puntos, sino como un único carácter. Este no es interpretado por el programa como signo de puntuación, sino como parte de la palabra a la cual siguen, por lo que su presencia en el corpus origina nuevas palabras que terminan en los tres puntos.
T-Lab
una herramienta que viene con el software, mientras que si están en otros formatos deben fusionarse y codificarse manualmente. Para la codificación de las unidades del corpus, es necesario etiquetar cada una siguiendo el formato: **** *XXX_AAA *YYY_ BBB, que debe entenderse de la manera como se expone en seguida. Los cuatro primeros asteriscos seguidos de un espacio marcan el texto o subconjunto (capítulo, sección, pregunta nueva) como una nueva unidad del corpus; son un linde de unidades del corpus. Las letras X y Y corresponden a las variables y deben estar antecedidas de un asterisco que marca su inicio y seguidas de un guión al piso que las une con la modalidad del caso. En otros términos, las letras X y Y corresponden a los nombres de las variables (edad, sexo, escolaridad, etc.), mientras que las primeras letras del alfabeto se refieren a la caracterización de cada una en el texto específico. Un ejemplo concreto de codificación podría ser: **** *EDAD_ADUL *SEXO_MASC *ESCOL_PRIM *AUTOR_LUIS , lo que implica que el corpus debe tener por lo menos otra unidad con una modalidad distinta para cada una de las variables. De esta manera, se podrían examinar simultáneamente todos los textos incluidos en el corpus que compartan la modalidad adulto, masculino o primaria, por ejemplo; pero también sus opuestos. Una vez codificados los documentos y revisada su ortografía, el autor recomienda crear una nueva carpeta con el corpus a importar. La preparación del corpus concluye con su importación a T-Lab, que se logra con la transformación del archivo a un conjunto de tablas propias del programa. Para ello, el usuario debe ingresar por el botón «Nuevo corpus» y seleccionar el archivo para que el programa realice un proceso que incluye las tareas descritas abajo en 1-5, con lo que el programa crea en la misma carpeta cuatro archivos nuevos y una carpeta denominada «My output», en donde se guardan los resultados del trabajo. Después de esto, el usuario podría empezar a trabajar con el corpus, aunque antes de ello se recomienda hacer una revisión. 1. Normalización del corpus. 2. Índices. 3. Lematización automática. 79
Julia Marlén Baquero Velásquez
4. Construcción del vocabulario. 5. Precisión de palabras clave. La normalización es una transformación del archivo que permite al programa eliminar problemas que impidan el reconocimiento de las expresiones y signos, y resolver algunos casos de ambigüedad. En esta etapa, T-Lab elimina o agrega los espacios que sobran o faltan después de una palabra o carácter (separa todos los signos de puntuación) y encuentra secuencias de palabras reconocidas como nombres propios, nombres compuestos o locuciones fijas, y los convierte en una sola palabra. Esto es, una secuencia como al mismo tiempo, que contiene tres palabras para muchos efectos, la convierte en al_mismo_tiempo, que el programa contabiliza e identifica como una palabra compuesta, sobre la base del diccionario de poliformas que tiene incorporado o con base en la frecuencia de ocurrencia. En esta etapa, el programa también elabora unos índices: el de palabras vacías y el de contextos elementales. El primero corresponde a todas aquellas expresiones reconocidas, por algunos gramáticos, como palabras con significado gramatical, que no agregan mayor contenido, y en cambio suelen aparecer con las frecuencias más altas de ocurrencia en los diferentes textos (preposiciones, artículos, pronombres, verbos auxiliares, verbos modales, etc.). La segmentación en contextos elementales, por su parte, es el fraccionamiento del texto en unidades más pequeñas (frases, fragmentos, párrafos o textos breves, según se escoja), para lo cual el programa va enumerando secuencialmente cada nuevo contexto elemental, junto con el número del archivo del corpus. De esta manera, la cifra 0002 00325, ubicada antes de un contexto elemental, indica que se trata del contexto 325 del segundo archivo del corpus. La lematización es la asignación de cada palabra del corpus a una con la misma raíz y categoría, que la representa. En el caso de sustantivos y adjetivos, se escoge como lema la forma masculina singular, mientras que para los verbos la forma representativa es el infinitivo. De esta suerte, las palabras bonito, bonitos, bonitas y bonita se asocian al lema bonito, mientras que vino, vinieron, viniendo, etc., se asocian a la forma infinitiva venir. Para la ejecución 80
T-Lab
de esta tarea, el T-Lab cuenta con un diccionario a partir del cual hace automáticamente tales asignaciones, por lo que este proceso se permite solamente en la lengua de la interfaz. Por último, el T-Lab hace una lista de todas las palabras del corpus y de las palabras clave. El vocabulario total viene acompañado del número de ocurrencias y de una caracterización en términos de su presencia o no en los diccionarios, de si se lematizó, o se considera distinguida u homófona con otra. Las palabras claves son todas aquellas expresiones que mediante instrumentos estadísticos el programa identifica como relevantes. Se trata de todas aquellas unidades léxicas que se utilizan para crear las tablas de datos a analizar. Una vez el programa realiza estas tareas, el investigador tiene la posibilidad de revisar todo el trabajo a fin de que el corpus quede lo más depurado posible y los resultados puedan ser confiables. Esto debe hacerse a través de las opciones «Multi-palabras», «Desambiguación», «Vocabulario» y «Personalización del Diccionario», que aparecen en el recuadro denominado «Léxico» de la interfaz del programa (figura 18).
figura 18. Interfaz del T-Lab.
81
Julia Marlén Baquero Velásquez
La opción «Multi-palabras» le permite al usuario, en un primer momento, encontrar en el corpus las palabras normalizadas como compuestas o fijas y crear un archivo de texto de poliformas que se guarda en la carpeta «My output». El investigador debe revisarlo para agregar o eliminar las palabras que se requieran, para lo cual puede importar una lista personalizada de poliformas. Una vez se hacen los ajustes, se puede escoger la opción «Utilizar» para que el programa realice en el corpus los cambios correspondientes de acuerdo con las indicaciones del archivo: coloca guiones a piso entre términos que conforman una palabra compuesta o suprime los de aquellos que fueron eliminados de la lista, con lo que se genera un nuevo archivo llamado «New corpus», nombre que el investigador debería cambiar por uno acorde con el trabajo. Dado que este cambio genera un nuevo archivo de corpus, es importante volver a importarlo al T-Lab para que el programa lo deje listo para trabajar. La desambiguación, como su nombre lo indica, es una herramienta para que el usuario identifique formas que puedan tener dos o más significados distintos y las desambigüe modificando alguno(s) por una forma convencional. De esta suerte, una palabra como real en un texto de la colonia puede tener tres significados distintos en los siguientes contextos: «Corona Real», «debe pagar un real» y «eso es real». Sin su desambiguación los resultados no pueden ser fiables. Mediante una convención, el investigador debería cambiar dos de ellas para que al extraer las estadísticas se pueda saber en cada caso a qué significado corresponde. Podría, por ejemplo, modificar las de menor frecuencia de la siguiente manera: real_din y real_cor, cuyas abreviaturas corresponden a dinero y corona, respectivamente. Para ello se selecciona la palabra en (1) con lo que se visualiza en la ventana (2); se busca a lo largo del texto, y en aquellos casos en que se trata del dinero se le asigna en (3) la secuencia real_din, y se le dice que la sustituya con lo que se observaría en (4) la lista de cambios y en (5) el cambio en el archivo (figura 19). En la opción «Vocabulario» el investigador puede observar tanto las «palabras de contenido» como las «palabras vacías» identificadas en el procesamiento que hizo inicialmente el programa. Cada una aparece con el número de ocurrencias, el lema al cual se 82
T-Lab
asoció y una información relacionada con el diccionario: LEM, para indicar que el programa la lematizó siguiendo el diccionario; NCL, para aquellas que no pudo lematizar porque no están en el diccionario interno; OMO, para aquellas que son homógrafas, y DIS, para algunas que distingue por su relevancia con el fin de que el usuario compruebe el lema. En la ventana que se abre también aparece información de frecuencias de ocurrencias, que son muy importantes.
figura 19. Desambiguación.
El ítem «Personalización del Diccionario» le permite al usuario hacer también los cambios que considere necesarios (figura 20). Así, la palabra abogada (1), que el programa lematizó con abogar, se desplaza mediante la flecha a la ventana (2) y se asigna (3) al lema correspondiente (abogado), con lo que se hace una reasignación una vez se presione el botón «Substituye». Solo después de que se ha concluido con la revisión, el corpus queda completamente listo para ser consultado o para que el programa realice los análisis.
83
Julia Marlén Baquero Velásquez
figura 20. Personalización del diccionario. Trabajo con el programa Consultas
El T-Lab permite cuatro tipos de consultas que se pueden realizar en cualquier momento: «Editor», «Concordancias», «Memo» y «Tablas», que se encuentran en el tercer recuadro de la interfaz (figura 18). El primero presenta tablas de input y output, mientras que el segundo despliega la lista de concordancias de la palabra seleccionada, tarea que nos llevó a abordar este programa en la sección «Concordancias», a pesar de que sabemos que, realmente, esta no es una de las funciones principales de este programa. El programa arroja, entonces, una ventana como la de la figura 21, en la que aparecen al lado izquierdo las palabras del corpus o del subconjunto escogido, con su correspondiente frecuencia (1) y, al lado derecho (2), por defecto, la lista de los contextos de la primera palabra. Presionando sobre cada una de las palabras, se exhiben todos sus contextos de ocurrencia, los cuales pueden ser ampliados al contexto elemental completo en la sección inferior (3) mediante un clic sobre el contexto elemental. 84
T-Lab
figura 21. Concordancias de subconjuntos.
La opción «Memo» abre una ventana de visualización en la que se despliega el resumen de las características fundamentales del corpus (número de textos, variables, número de de contextos elementales, número de muestras de palabras en los textos, número de tipos de palabras, etc.), junto con las palabras clave. Finalmente, el ítem «Tablas», que se habilita sólo cuando se activa el recuadro de análisis (parte inferior de la interfaz), permite crear y guardar distintos tipos de tablas dependiendo de la descripción que se realice en la ventana de diálogo abierta. Análisis
Las herramientas del T-Lab buscan arrojar datos en forma de tablas de resumen, gráficos radiales, de barras o similares, que dan cuenta de relaciones significativas entre las distintas unidades lingüísticas. Para lograr los resultados, el T-Lab realiza cálculos estadísticos, que utilizan instrumentos como índices de asociación, test del Chi cuadrado, cluster analysis, multidimensional scaling, cadenas markovianas, etc. Al hacer uso de estos instrumentos estadísticos, el programa evita al investigador la realización de tareas 85
Julia Marlén Baquero Velásquez
manuales de búsqueda, marcaje y establecimiento de relaciones, que en ocasiones exigen demasiado tiempo; la realización automática de estas tareas permite que el investigador se concentre en la interpretación de los resultados. T-Lab ejecuta tres tipos de análisis: de coocurrencias, temático y comparativo, que contienen un total de diez herramientas de análisis en versiones anteriores y doce en la versión 6.1. Esto no quiere decir que en una investigación deba hacerse uso de todas ellas, pues, dependiendo de los objetivos, el usuario debe escoger las que resulten más apropiadas. Análisis de coocurrencias
Como su nombre lo indica, este análisis permite la identificación de expresiones que coocurren en un mismo contexto, bien sea comparando una palabra con otras, entre parejas, o bien entre todas juntas. Para ello, el programa cuenta con cuatro opciones que facilitan distintos tipos de observaciones: a) los contextos elementales de cada expresión («Concordancias», véase arriba), b) todas las palabras con las que coocurre una expresión («Asociaciones de palabras»), c) todas las palabras con las que pueden coocurrir dos palabras seleccionadas y todas las que se asocian a una pero no a la otra («Comparaciones entre parejas de palabras clave») y d) la forma en que se distribuye en el contexto —predecesoras y sucesoras— la asociación entre dos o tres palabras («Análisis de secuencias»). Suelen usarse estas herramientas para precisar el significado de una expresión en un corpus específico, pero también para conocer con qué frecuencia una expresión se asocia a otra en el corpus, lo cual permite obtener conclusiones sobre la forma en que personas o comunidades distintas perciben la realidad. Si se tiene un conjunto de entrevistas, diálogos, novelas en las que interactúan distintos personajes, etc., por ejemplo, es válido examinar a través de estas herramientas cuáles son los términos que con mayor frecuencia se asocian a uno u otro individuo. Pero también si se tienen varios discursos sobre el mismo tema, o varios artículos de periódicos distintos, es posible explorar de qué manera se presenta la misma noticia en cada caso. Veamos. La figura 22, a la que se llega mediante la opción «Asociaciones de palabras», permite visualizar con qué expresiones se asocia el 86
T-Lab
figura 22. Asociaciones de palabras (corpus).
nombre Hugo_Chávez en un corpus que contiene distintos artículos de prensa que aparecieron en el 2008, cuando las tensiones entre Colombia y Venezuela se agudizaron como consecuencia de la incursión de tropas colombianas en la frontera ecuatoriana.
87
Julia Marlén Baquero Velásquez
El gráfico ofrece las asociaciones entre la palabra seleccionada y todas las que coocurren con ella en mayor o menor grado, lo cual se marca en el diagrama radial en términos de una mayor o menor aproximación entre el término central y cada uno de los otros; mientras que en la tabla esto mismo se indica con el número que resulta de la aplicación de la fórmula del coeficiente del coseno, que es precisamente el dato que usa el programa para determinar la distancia. La proximidad entre el término central y el término presidente_venezolano indica, por ejemplo, que en un número significativo de ocasiones en que este último aparece en el corpus, coocurre con el primero (3 veces de 4), mientras que la mayor distancia con FARC indica que un buen número de ocasiones este término no coocurre con Hugo_Chávez. En consecuencia, se observa que las coocurrencias más significativas se dan entre Hugo_Chávez y presidente, presidente_venezolano, bilateral, Álvaro_Uribe, relaciones y mediación. Las primeras describen el cargo que ocupa Hugo Chávez, la tercera, cuarta y quinta exponen el tipo de relación entre los dos países en los que se involucran los dos presidentes y la última tiene que ver con alusiones hechas por uno y otro presidente, o por los periodistas, al papel que en ese momento jugaba el presidente venezolano. Mediante la opción «Comparaciones entre parejas de palabras clave» es posible observar, por ejemplo, de qué manera las palabras claves ya identificadas se asocian a Hugo_Chávez y a Álvaro_Uribe. La figura 23 muestra que la expresión presidente no solo se asocia con el primero, sino también con el segundo término, aunque el número de ocurrencias con cada una de las expresiones difiere. Mediación, como se puede observar en el gráfico anterior y en este, se asocia en cuatro oportunidades con el primer término de comparación y solo en una ocasión con el segundo, lo cual desde ningún punto de vista resulta extraño, ya que la forma nominal empleada permite una referencia más amplia, pues aparecen involucrados en ella los distintos actores y el evento mismo en el cual estaba inmersa Colombia. Desde luego, un examen de los contextos elementales permitiría visualizar la ocurrencia concreta para explicar algunas de las asociaciones que puedan parecer incomprensibles o para descartar o validar cualquier hipótesis que se proponga. 88
T-Lab
figura 23. Asociaciones compartidas.
figura 24. Asociaciones exclusivas. 89
Julia Marlén Baquero Velásquez
La misma herramienta oprimiendo el botón «Diferencia», que aparece debajo de la tabla del lado izquierdo, permite visualizar las expresiones que se asocian a uno y otro término de manera exclusiva. Con base en ello, es posible concluir que términos como bilateral, FARC, Fuerzas Armadas Revolucionarias de Colombia, guerrilla, y muchos otros, se asocian al primer término, y nunca al segundo, lo que, a su vez, puede ser un indicativo de lo que en el momento interesaba más a cada uno de los presidentes (figura 24). Ahora bien, mediante el «Análisis de secuencias» se exhiben los términos clave que anteceden o siguen a un lema seleccionado. Por ejemplo, al término Álvaro_Uribe lo anteceden presidente, Colombia, colombiano, gobierno, declaración, decisión y lo siguen verdad, relaciones, relación, mostrar, primer y poner (figura 25).
Figura 25. Análisis de secuencias.
Análisis temáticos de las unidades de contexto
Este tipo de análisis permite la caracterización, por temas principales, de los contenidos del corpus o de los subconjuntos, el análisis de sus características y la exploración de las relaciones 90
T-Lab
entre ellos. Para ello, el programa cuenta con tres herramientas que permiten extraer las listas de contextos significativos («Extracción de contextos significativos»), aislar los temas y explorar las relaciones entre ellos («Mapas de núcleos temáticos») o agrupar los documentos de acuerdo con sus temas («Tipología de contextos elementales»). La opción «Extracción de contextos significativos» arroja un archivo HTML y uno DAT en los que se destacan los contextos elementales de cada documento, que contribuyen a organizar los núcleos temáticos y, por ende, se consideran significativos. En cierta forma, se trata de las frases de cada documento que resumen el texto, y ello lo hace, bien sea destacándolas dentro del documento completo, o bien sea aislándolas de las que no son significativas en otro documento (figura 26).
Figura 26. Resumen del texto.
La opción «Tipología de contextos elementales», por su parte, pone en marcha un procedimiento que busca representar los contenidos mediante la selección de unos pocos racimos significativos 91
Julia Marlén Baquero Velásquez
de palabras (clusters), que sirven de base para la extracción de los contextos elementales significativos. Sobre esta base se ubican los documentos en un plano cartesiano, según se acerquen o alejen a las temáticas planteadas en los clusters. La figura 27, por ejemplo, marca cinco ejes temáticos ubicados en distintas partes del plano cartesiano, alrededor de los cuales se ubican los distintos documentos del corpus. Se nota una mayor aproximación temática entre cinco de los textos del corpus, los cuales aparecen muy cercanos al cluster 3 (polaridad negativa), lo cual indica que de alguna manera ellos tocan ese tema, aunque algunos también abordan el primero y otros el quinto. El de AUTOR_ChiriBBC, en cambio, se aproxima más a los temas uno y dos, aunque también puede tener aproximación al tercero. Definitivamente el que se encuentra más distante es AUTOR_vanguaes, que se ubica entre el cuarto y el segundo tema.
Figura 27. Tipología de contextos elementales.
Parece importante, entonces, examinar los términos asociados a cada temática identificada para reconocer la naturaleza
92
T-Lab
de estos. Para ello el programa ofrece la posibilidad de seleccionar cada uno de los clusters en una ventana desplegable (1, figura 28) y observar los términos asociados a ellos. De esta suerte, el cluster 3, por ejemplo, indica que los textos agrupados alrededor de él tienen como tema principal la crisis entre Colombia y Venezuela en la que se vieron implicados sus presidentes.
Figura 28. Términos asociados a los clusters.
Por último, el ítem «Mapas de núcleos temáticos» arroja gráficos en los que se muestran asociaciones entre grupos o racimos de palabras (figura 29). Cada palabra en el recuadro no se representa a sí misma exclusivamente, sino a un grupo de palabras que suelen asociarse a ella y, por tanto, conforman un racimo. De esta manera, al presionar sobre cualquier palabra, en la ventana de diálogo del lado izquierdo (1) se puede visualizar el grupo al cual representa.
93
Julia Marlén Baquero Velásquez
Figura 29. Mapa de los núcleos temáticos.
Como se puede apreciar, estas herramientas suelen usarse para reconocer los temas principales del corpus o de los subconjuntos y para establecer relaciones entre ellos, al punto de saber cuáles de los documentos del corpus abordan el tema general de manera semejante y cuáles se distancian entre sí. Es más, el uso combinado de estas y las herramientas generales de análisis permite establecer cuáles son los temas principales de los textos sin tener un conocimiento previo de estos. Es posible que, de esta manera, se logre realizar el resumen de un texto extenso, extrayendo sus temáticas principales sin necesidad de leerlo y con un soporte estadístico que valida los resultados. Estas herramientas pueden apoyar bastante el proceso de lectura global de un texto individual o un conjunto de ellos. Análisis comparativos de los subconjuntos del corpus
Se trata de unas herramientas que trabajan sobre subconjuntos del corpus a fin de establecer algunas semejanzas y diferencias entre ellos. El análisis de especificidades, el análisis de correspondencias y el cluster analysis son las tres herramientas con las que cuenta el programa para ello. 94
T-Lab
El primero permite averiguar las expresiones típicas o exclusivas de un subconjunto al compararlo con la totalidad del corpus o con otro subconjunto, de acuerdo con la variable que se quiera seleccionar. En otros términos, el análisis de especificidades permite comparar un archivo con el corpus total (1, figura 30), bien sea examinando los términos que ocurren en uno y otro, o bien examinando las que solo ocurren en el documento objeto. De manera semejante, permite comparar dos subconjuntos, bien por las expresiones típicas por exceso o por defecto, o bien por las expresiones exclusivas de cada uno (2 , figura 30).
B
A
1
A
A
B
B 2
Figura 30. Escogencia de los términos de comparación.
Así las cosas, es viable comparar las palabras claves del subconjunto AU_eltiempo con las del corpus total, obteniéndo dos resultados, uno que expone las palabras típicas (figura 31, lado izquierdo) y otro que expone las exclusivas de este subconjunto (figura 31, lado derecho). De esta suerte, por ejemplo, se observa que palabras como terrorismo, verdad, presidente_Chávez, libertador, senador y proyecto expansionista son las más típicas en este escrito, mientras que ley, tragedia, maltratar, General_Santander, admitir y abusar, entre otras, son exclusivas de él en relación con el corpus total. Comparando las típicas y exclusivas de cada una de las unidades, el investigador podría extraer conclusiones importantes para interpretar de manera cualitativa, ya no cuantitativa, los documentos objeto de trabajo. Con una finalidad semejante, podría comparar dos unidades del corpus, por ejemplo, AU_Eltiempo con AU_Notimex, en términos de las palabras que comparten y, por tanto, forman parte de la intersección (figura 32, lado izquierdo) o de las que están en la diferencia (figura 32, lado derecho). El resultado nos indica, entonces, 95
Figura 31. Comparación corpus El Tiempo.
Julia Marlén Baquero Velásquez
96
T-Lab
Figura 32. Comparación de corpus por intersección o por diferencia.
que las expresiones presidente, último, Chávez forman parte de la intersección de estos dos subconjuntos, mientras que son exclusivas de El Tiempo —en comparación con Notimex— verdad, Uribe, presidente_Chávez, etc. Lo que indica el resultado es que cada vez que en la noticia de Notimex se refieren al presidente de Colombia lo hacen con el nombre y el apellido, mientras que en El Tiempo solo lo hacen con el nombre.
97
Julia Marlén Baquero Velásquez
El segundo, el «Análisis de correspondencias» tiene como finalidad subrayar diferencias y semejanzas entre documentos o entre contextos elementales. Para ello, el programa puede arrojar datos sobre los lemas que ocurren por la variable seleccionada (botón «Ocurrencias») o sobre los contextos elementales que ocurren por lemas (botón «Coocurrencias»). En el primer caso, debe seleccionarse la variable y presionar sobre el botón «Prepara» para que el programa realice la tarea y permita la escogencia de los subconjuntos sobre los que se espera que se realice el cálculo; después es necesario presionar el botón «Analiza» para que arroje los resultados en un plano cartesiano en el que se ubican las variables, o los lemas y la variables, según la escogencia que haga el usuario. El resultado indica qué tan cercanos o lejanos pueden estar temáticamente los textos del corpus, y cuáles son los lemas que los aproximan o distancian. En el segundo caso, el análisis se hace automáticamente, y lo que el programa compara es cada contexto elemental con los lemas objeto de trabajo. Por ende, uno y otro análisis permite exponer diferencias y semejanzas entre las unidades del corpus. Se pueden identificar las temáticas de cada eje, tanto en la polaridad positiva como en la negativa al examinar las tablas de output y/o los lemas asociados a cada factor; a partir de ellos, se interpretan mejor los resultados. Como se alcanza a apreciar, se trata de un programa bastante complejo, que arroja datos cuantitativos de distintos aspectos de un corpus con variables o sin ellas, pero que permite interpretaciones cualitativas de ellos, a partir de la observación rigurosa de los datos arrojados. Una de las principales limitaciones está en el hecho de que es un software propietario con un costo alto, aunque de gran utilidad para quien intenta examinar corpus muy grandes. Además, exige tener algunos conocimientos de estadística para poder interpretar adecuadamente los datos, que se exponen en tablas o gráficos. Desde luego, la presentación realizada aquí no es ni podría ser exhaustiva, pues se trata de un programa bastante complejo. Por ahora, creemos que esta descripción permite un primer acercamiento.
98
TERCERA PARTE Análisis morfológico y sintáctico
Concepto y representación del análisis morfológico y sintáctico
Como se sabe, son muchas las preguntas que un lingüista puede hacerse en relación con los aspectos morfológicos y sintácticos de una lengua y, algunas de ellas, varían dependiendo del marco teórico dentro del cual se inscriba el investigador. De esta suerte, para algunos, las preguntas fundamentales —o en algunos casos necesarias, sin que sean las únicas— tienen que ver con el inventario de unidades morfológicas y sintácticas, junto con su caracterización morfológica y/o sintáctica y, desde luego, la identificación de variaciones que las distintas formas puedan adoptar de acuerdo con los contextos lingüísticos de ocurrencia. Esta última puede captarse, para algunos, mediante el uso de tablas o herramientas similares que describen las relaciones entre unas y otras formas, mientras que para otros, exige la construcción de reglas que permitan llegar a ellas. Para otros, el inventario de las unidades con sus alomorfos no resulta suficiente, por lo que intentan llegar a reglas que den cuenta de la estructura morfológica y sintáctica de los signos verbales de una lengua, e incluso a reglas que describan los universales morfológicos y sintácticos. Esto es, consideran que es posible llegar a reglas de combinación en estructuras jerárquicas, tanto en el nivel 101
Julia Marlén Baquero Velásquez
sintáctico —que es el más conocido en este sentido—, como en el nivel morfológico. El objetivo final puede ser comprender cómo son las lenguas, cómo han evolucionado a partir de otra, o cuáles son las semejanzas y diferencias entre unas y otras. Los desarrollos actuales de la informática, sin embargo, han hecho que no solo los lingüistas se interesen por el estudio del lenguaje en general, específicamente por el estudio morfológico, sintáctico, semántico, fonético y fonológico de las lenguas naturales. Hoy día «los países más desarrollados del mundo invierten millones y millones de dólares en el proceso de las herramientas y recursos para el procesamiento automático de sus lenguajes» (Velásquez et ál., 2009: 23), con miras a la construcción de máquinas que hablen y entiendan como lo hace el ser humano, lo cual necesariamente pasa por la comprensión de la estructura morfológica y sintáctica de las lenguas. Tales estudios resultan de utilidad también en la traducción automática, el aprendizaje de idiomas asistido por computador, las búsquedas automáticas de información, los correctores ortográficos y estilísticos, etc. Desde luego, en ellos no solo ayudan los analizadores morfológicos y sintácticos, sino también los lematizadores, desambiguadores, y muchos otros que dan cuenta de distintos aspectos de la lengua objeto de estudio. Aún más, dado que las distintas comunidades de habla de una lengua no se expresan exactamente de la misma manera y, en muchos casos, se pueden detectar semejanzas y diferencias que dependen de las comunidades analizadas, también hoy se encuentran muchos estudios encaminados a asociar ciertas estructuras con factores extralingüísticos como la edad, el sexo, la región, el nivel social, el tipo de producción lingüística, el área de trabajo, etc. El objetivo en estos casos es examinar cómo varía la lengua en uso dependiendo de la comunidad o el tipo de textos objeto de estudio. En todo ello, desde luego, los programas computacionales resultan herramientas que facilitan el trabajo de una manera u otra, y en todos ellos es posible examinar lo relacionado con la morfología y la sintaxis. Para empezar, es necesario distinguir los programas en los que el usuario no debe realizar la tarea dispendiosa de segmentar las unidades mayores en unidades más pequeñas, y caracterizarlas, 102
Concepto y representación del análisis morfológico y sintáctico
de aquellos que simplemente facilitan la labor del investigador — organizando la información de tal manera que se pueda ubicar y visualizar rápidamente—, pero en los que todo el trabajo, o la mayor parte de él, corre por cuenta del analista. Los primeros corresponden esencialmente a programas no supervisados con algoritmos que posibilitan la realización de tal tarea, siempre y cuando puedan procesar grandes cantidades de datos de la lengua objeto y exista un sistema estadístico que valide los resultados. Algunos de ellos ya contienen diccionarios que facilitan el trabajo y pueden presentar la forma de analizar una determinada palabra que el usuario introduce, pero otros no. Los segundos son muy útiles en cualquier caso, pero esencialmente cuando la lengua objeto no puede contar con enormes cantidades de textos. Se puede decir que estos son ante todo etiquetadores manuales o editores de bases de datos morfológicos y sintácticos, que, por ende, pueden construir diccionarios sobre la base de la información que el usuario introduce, lo que posteriormente le puede permitir al programa interpretar nuevos datos. Los programas que se presentan en esta sección tienen como tarea fundamental, siguiendo el título de ella, posibilitar el análisis morfológico y sintáctico de las unidades, como también su representación. Los resultados de ese análisis pueden mostrase en línea con el texto (etiquetado), en líneas diferentes (interlineado) o en estructuras jerárquicas. Se incluye también un programa cuya función es facilitar la presentación o dibujo de estructuras arbóreas. En el momento no conocemos un programa para Windows 1 que genere automáticamente los árboles a partir de las expresiones, pero se llegará necesariamente a eso a partir del trabajo con los programas que dibujan los árboles y con los estructuradores basados en reglas. 1
Por intermedio del profesor Roberto Perry tuvimos acceso al programa Grammar and Trees, un aplicativo para Mac OS 9 que, al introducir las reglas y el lexicón de una lengua, puede generar la estructura sintáctica de las oraciones. Este programa, sin embargo, tiene el problema de que no «corre» en las otras versiones de Mac, y solo puede «correr» si se tiene acceso al reproductor de Hypercard. 103
Julia Marlén Baquero Velásquez
Casi todos son gratuitos porque la sola tarea de análisis morfológico no tiene una aplicación más allá de la investigación lingüística. Sin embargo, son el punto de partida de importantes aplicaciones comerciales. Por ejemplo, hacer búsquedas «inteligentes» en internet para encontrar resultados que tengan en cuenta el contexto de la palabra buscada, acceder a enormes bases de datos incluyendo en los resultados todas las variaciones morfológicas de una palabra de interés y en sistemas que usan autocompletado de texto (teléfonos celulares, por ejemplo). Se puede concluir que actualmente algunos de los programas de esta sección no realizan ningún análisis de manera completamente autónoma, pues todos requieren de algún grado de intervención del usuario, aunque unos más que otros. Se hace la aclaración para evitar confusiones con la expresión «programas de análisis morfológico», dado que, como se dijo, el análisis no lo hace el programa, sino el usuario o usuarios que trabajan con él. No son programas de análisis morfológico automático, aunque también en esta sección se expondrá un analizador de este tipo: el PC-Kimmo. Los programas que utilizan un conjunto de reglas de estructuración y un inventario de expresiones básicas (lexicón) se clasifican dentro del grupo de los llamados parsers o analizadores morfológicos o sintácticos automáticos. Estos programas permiten dar cuenta de la estructura de una expresión y, por ello, es posible también llamarlos «estructuradores en constituyentes», aunque regularmente se van a encontrar con el nombre original del inglés, parsers. Los parsers en la informática se usan bastante para trabajar con los lenguajes de programación de alto nivel. Estos parsers son de tipo sintáctico y analizan la estructura de los lenguajes computacionales para reconocer errores de sintaxis —en primer lugar—, y luego para generar el código de máquina con las instrucciones para el procesador. Las reglas utilizadas en este proceso se denominan gramática libre de contexto. En el caso de la lingüística, se podrían tener parsers que extrajeran la estructura en constituyentes de signos verbales de distintos niveles de complejidad: palabra como unidad fonológica, palabra como unidad morfológica, frases, oraciones y textos. En 104
Concepto y representación del análisis morfológico y sintáctico
cada uno de los niveles, desde luego, se emplea un conjunto diferente de reglas (gramática) y un diccionario acorde al nivel en el que se quiera trabajar. Las reglas se construyen de tal manera que generen y/o interpreten las unidades de la(s) lengua(s) en cuestión, y el diccionario se puede organizar por categorías. Los distintos programas disponibles varían entre sí en varios aspectos: el nivel de análisis (ya mencionado), la forma en que se presentan los resultados y el formato empleado en la construcción de la regla (condicionales, con restricciones). Conocemos en este momento dos tipos de parsers de nivel distinto: el morfológico y el sintáctico. El primero separa las palabras en sus morfemas y el segundo analiza frases y oraciones en constituyentes o palabras a nivel lexical. En cuanto a la forma en que presentan los resultados, estos se pueden dividir en tres grupos: los que muestran un diagrama arbóreo dibujado con caracteres de texto o con mapa de bits, los que etiquetan cada constituyente de la expresión analizada y los que generan archivos codificados, usados como entrada para programas más avanzados (etiquetadores o analizadores morfológicos, por ejemplo). A continuación, se presentan dos grupos de programas, unos que facilitan el trabajo —pero no hacen análisis automático— y otros cuya función es el análisis automático. Análisis morfológico no automático2
• Alchemist Sistema operativo
Windows (varias versiones).
Lenguaje de programación C++ (usa herramientas de desarrollo Qt). Tareas
- Lista de palabras en un corpus. - Filtro de palabras (con expresiones regladas). - Categorización de los morfemas. - Almacena resultados en XML.
Resultados
Muestra lista de partículas caracterizadas.
2
Los que conocemos pueden ser bajados de la web de los autores sin ningún problema. 105
Julia Marlén Baquero Velásquez
• Extrakt Sistema operativo
Redes de datos.
Lenguaje de programación C++ (es una librería dinámica). Tareas
- Búsqueda inteligente en internet. - Lematización. - Marcador sintáctico-morfológico.
Resultados
- Resultados sobre un buscador de internet.
• Emdros Sistema operativo
Bases de datos.
Lenguaje de programación MQL (lenguaje de búsqueda en bases de datos). Tareas
- Análisis morfológico de textos anotados. - Búsqueda en textos extensos.
Resultados
Se debe construir un programa para administrar la búsqueda.
• Lingüística Sistema operativo
- Windows. - Macintosh (Mac OS X). - Linux.
Lenguaje de programación C++ (usa herramientas Qt). Tareas
- Aprendizaje sin supervisión de las lenguas naturales. - Extracción automática de afijos y raíces. - Comparación de estándares morfológicos.
Resultados
Los resultados se muestran en varias tablas dentro de la misma ventana del programa.
• Tiger Search Sistema operativo
Windows, Mac OS X, Linux.
Lenguaje de programación Java. Tareas
- Búsqueda de relaciones sintácticas en corpus etiquetados. - Usa un lenguaje de búsqueda (relaciones booleanas y regex).
Resultados
Gráficos (en forma de árbol).
106
Concepto y representación del análisis morfológico y sintáctico
• Xerox Linguistics Environment Sistema operativo
Linux, Mac OS X.
Lenguaje de programación C (usa herramientas TCL/TK para la interfaz gráfica). Tareas
Etiquetador a varios niveles. Está enfocado al nivel de la oración.
Resultados
Categorización en forma de texto.
• Minpair Sistema operativo Lenguaje de programación
Linux, Windows.
C (usa herramientas TCL/TK para la interfaz gráfica).
Tareas
Extracción de pares mínimos dentro de un corpus.
Resultados
En forma de texto.
• sfst (The Stuttgart Finite State Transducer Tools) Sistema operativo
Linux, Windows.
Lenguaje de programación C++ (expresiones regladas). Tareas
Conjunto de herramientas de programación que facilitan el trabajo a nivel morfológico.
Resultados
Depende del usuario.
Parsers o programas de análisis automático morfológico
• PC-Kimmo Sistema operativo
MS-DOS, Mac Unix.
Lenguaje de programación C++. Tareas
Arroja la estructura morfológica de una palabra. (parser morfológico).
Resultados
texto en el editor de comandos de DOS.
• Link Parser Sistema operativo
Varios, depende del compilador empleado por el usuario.
Lenguaje de programación C (librerías con funciones escritas en ANSI).
107
Julia Marlén Baquero Velásquez
Tareas
Identifica la estructura siguiendo la sintaxis LG (Link Grammar). Permite que el usuario inserte las funciones dentro de sus programas.
Resultados
Genera relaciones entre pares de palabras.
• Clark System Sistema operativo
Varios.
Lenguaje de programación Java (se necesita la consola de Java). Tareas
Entre otras cosas, tiene un analizador morfológico y un intérprete parcial de estructura. Todo debe implementarse con XML.
Resultados
Depende de las necesidades propias del usuario y las hojas de diseño disponibles.
• Tiger Search Sistema operativo
Windows, Mac os x, Linux.
Lenguaje de programación Java. Tareas
Búsqueda de relaciones sintácticas en corpus etiquetados. Interpreta comandos xml.
Resultados
Gráficos (en forma de árbol).
• agme Sistema operativo
Windows
Tareas
Identifica la estructura linealmente, siguiendo la sintaxis que proponen los autores. Contiene códigos que es necesario conocer para entender os resultados.
Resultados
Genera la palabra junto con la información morfológica en una ventana de diálogo.
Graficadores sintácticos
• Treediagrammer Sistema operativo Windows. Tareas
Convertir una estructura parentética en una estructura arbórea.
Resultados
Genera la estructura arbórea de una expresión (gráfico) a partir de la estructura parentética, que debe ser escrita por el usuario en una ventana de diálogo.
108
Concepto y representación del análisis morfológico y sintáctico
• Treeform Sistema operativo Windows. Tareas
Permite al usuario mover botones de estructuras parciales hasta lograr la estructura arbórea de una oración.
Resultados
Permite dibujar rápidamente un diagrama arbóreo. El programa no ejecuta la tarea por sí mismo.
Análisis sintáctico automático 3
• pc-patr Sistema operativo Windows, Mc, Linux. Tareas
A partir de unas reglas y un lexicón genera la estructura sintáctica de oraciones en diagramas arbóreos.
Resultados
En un ambiente ms dos muestra la estructura sintáctica de una expresión.
• Grammar and Tree Sistema operativo Mac os 9, lenguaje hypertalk.
Tareas
Al introducir lexicón y reglas sintácticas genera la estructura arbórea y la estructura parentética de una expresión.
Resultados
En interfaz gui presenta la estructura sintáctica en paréntesis y el diagrama arbóreo.
• Linkgrammar Sistema operativo Windows, Unix. Lenguaje
c.
Tareas
El programa asigna la estructura sintáctica de una expresión del inglés.
Resultados
Presenta la estructura en constituyentes de la expresión.
3
Para una visión más amplia de los distintos programas para análisis sintáctico, ver Hammarström (2002), p. 23. 109
Alchemist* ��
�Instalación
Para que este programa funcione es indispensable grabar en la misma carpeta tanto el ejecutable Alchemist2-0-2.exe como el archivo qt-mtnc321.dll. No requiere instalación especial, pues solo con presionar el ejecutable se abre la ventana de trabajo. Tiene varias versiones, y las diferencias entre ellas, que suelen ser mínimas, pueden consultarse en la página de los autores o en un archivo de texto que suele llamarse «Version History». Ha funcionado en Windows 9x, Me y XP. Trabaja con archivos de texto plano (extensión TXT) y crea los análisis morfológicos en formato XML. El presente manual fue realizado para la versión 2.0.1 del programa. ���Descripción
Alchemist es un programa freeware open source desarrollado por Colin Sprague y Yu Hu de la Universidad de Chicago, como parte de un proyecto de lingüística, supervisado por John Goldsmith, a partir de un conjunto de herramientas que facilitan la obtención de estándares morfológicos desde textos reales. Fue de*
www.tucows.com/preview/222623. 111
Julia Marlén Baquero Velásquez
sarrollado sobre una plataforma llamada Qt, que permite ahorrar tiempo en la programación de aplicaciones gráficas para Windows2 . Es un programa que puede listar alfabéticamente todas las palabras de un corpus por la primera o la última letra, siguiendo algunas instrucciones del usuario que facilitan su depuración (supresión de paréntesis, signos de puntuación, etc.). Una vez listadas las palabras, corresponde al usuario determinar cuáles son los morfemas de cada una y caracterizarlos indicando, en primer lugar, si son afijos o raíces, y después determinando el tipo de afijo y/o raíz. Lo que hace el programa es, entonces, etiquetar cada morfema con los datos asignados por el usuario y almacenarlos en un archivo con extensión XML , que puede ser usado posteriormente con otros fines. El usuario, desde luego, debe tener conocimiento lingüístico sobre la segmentación y caracterización de las unidades. El trabajo realizado con este programa puede servir no solo para hacer las descripciones de la lengua objeto, sino también para la realización de gramáticas y diccionarios, como también para la enseñanza de la morfología y para el trabajo de campo. Una de las grandes ventajas del programa es su versatilidad y flexibilidad, pues, en principio, puede trabajarse con cualquier lengua. �Preparación del corpus
Este es un programa que no exige mayor preparación del corpus, pues lo único que se requiere es que el archivo se guarde como texto sin formato, bien sea que se trate de un corpus de texto o de una lista de oraciones o palabras de la lengua. Alchemist acepta codificación ASCII, como también UTF-8, y UTF-16 de Unicode. El programa detecta automáticamente el tipo de codificación y lo traslada a UTF-16, por lo que el usuario no necesita hacer una configuración especial ni salvar el archivo en alguno de ellos especialmente. Trabajo con el programa
Después de bajar el programa, se puede acceder a él presionando sobre el ícono correspondiente, con lo cual se abre la in2 112
Para mayor información ver www.trolltech.com/qt/.
Alchemist
terfaz del programa, que consta de seis partes: el menú, que como en todos los casos está en la parte superior; tres secciones al lado izquierdo —una para seleccionar cómo ordenar los datos, otra para indicar cómo filtrarla y una tercera para incluir la información de la palabra y de los morfemas—; una ventana en la parte derecha, en donde aparece la lista de palabras para que el usuario pueda hacer la división morfológica, y otra en la parte inferior donde puede observar los resultados de la caracterización de cada morfema en una tabla (figura 33).
Figura 33. Interfaz del Alchemist.
Para iniciar, se carga el archivo como se hace con otros programas (New>File), con lo cual se abre una ventana de diálogo en donde debe especificarse el número de palabras que se procesarán, cuyo límite es de un millón. Debe tenerse en cuenta, sin embargo, que entre más palabras se carguen, más lento y dispendioso resultará el trabajo y, como consecuencia, la máquina puede bloquearse si la capacidad de procesamiento del computador no es adecuada. Una vez se selecciona el archivo de texto, el usuario puede escoger en una ventana si no deben tenerse en cuenta los números, 113
Julia Marlén Baquero Velásquez
las mayúsculas y los signos de puntuación, que el programa podría interpretar como parte de la palabra, pero también podrían escogerse otras opciones a través de la pestaña «Avanzado» de la misma ventana. Una vez se determinan tales características, debe oprimirse el botón «Scrub» para que el programa presente la lista de palabras de acuerdo con la escogencia hecha por el investigador. Por defecto aparecen 200 palabras por página. Si el texto contiene más de 200 palabras diferentes se requerirá más de una página para enumerarlas; para visualizarlas se presiona el botón «Next Page» o se ingresa el número de la página en la casilla ubicada al lado izquierdo de este. También se puede modificar en «Preferences» el número de palabras por página. La parte de la ventana en que aparecen las palabras —«Word Collection»— es una tabla que contiene, entonces, 200 filas y varias columnas. En la primera columna, que es la más ancha, aparece la lista de todas las palabras, mientras que en las otras se vuelve a escribir la palabra, pero esta vez, ubicando una sola letra por columna con la finalidad de que el investigador determine, para cada palabra, los límites de los distintos morfemas e indique a través de los botones que están a la derecha si es la raíz (botón «R») o si es un afijo (botón «A»). Para cada morfema el programa asigna un color distinto en la parte superior y va asignando, en la sección «Morpheme Explorer», las características identificadas por el usuario (figura 34). Adicionalmente, el usuario puede ir ampliando o cualificando la información de cada morfema, a fin de describir características más específicas de este. En el caso del español, por ejemplo, no solo se marcaría la s de alas como un afijo, sino que también se indicaría que es un morfema de número plural que, en el caso concreto, se adhiere a un sustantivo. Para ello, se puede presionar en cualquier parte del explorador de morfemas a fin de que se abra la pestaña «morpheme atributes» al lado izquierdo, o se puede ir directamente a ella para completar la información del morfema que está resaltado en el explorador, en donde se visualizarán los nuevos datos que va ingresando el usuario.
114
Alchemist
Figura 34. Los morfemas en Alchemist3.
En «morpheme atributes» el programa ofrece la posibilidad de asignar el tipo de morfema, la categoría y subcategorías —tiempo, polaridad, persona, clase, número, género—. También permite agregar otros atributos en una ventana de diálogo, pero el usuario podría reemplazarlos por otros cuando su objeto de estudio lo exija, para lo cual se requiere ir al código fuente y hacer los cambios que se quieren. Si se trata de un corpus en el que estos campos son adecuados, a cada morfema seleccionado se le asignan las características propias con solo desplegar las ventanas correspondientes en la sección «word/morpheme information»(figura 35). Para terminar, haremos alusión brevemente a dos secciones no abordadas hasta el momento: a uno de los botones y a un dato que debe especificarse en las observaciones que se hacen a los morfemas. Las secciones orden y filtros, ubicadas en la parte izquierda de la interfaz permiten, como sus nombres lo indican, organizar alfabéticamente la información según criterios distintos, o hacer búsquedas de una parte del corpus con la finalidad de hacer mejores observaciones. Resulta importante para efectos de los trabajos en análisis morfológico poder visualizar las palabras alfabéticamente por su 3
Corpus del Neguidal, tomado de Moreno (1991). 115
Julia Marlén Baquero Velásquez
primera letra, pero también por la última. La primera, en términos generales, ofrece una lista con las expresiones que pueden compartir una misma raíz o prefijo y, con ello, el investigador puede determinar más fácilmente hasta dónde llega el morfema, mientras que su organización por la última letra permite, en muchos casos, observar las terminaciones y con ello los sufijos.
Figura 35. Cambio de atributos.
El filtro también garantiza una mejor observación de los datos y, por ello, la necesidad de recurrir a esta herramienta en el momento de los análisis. Si se quieren examinar las palabras que contengan un determinado morfema, se puede escoger en el explorador el morfema y luego oprimir el botón «Show Filtered», pero también se puede hacer un filtrado desde la ventana «Filters», ubicada en la parte superior izquierda, la cual permite en una primera ventana desplegable escoger la opción de ver todas las palabras, solo las ya analizadas o las no analizadas (figura 36). También se puede recurrir a la ventana de texto, ubicada allí mismo, en donde se puede escribir la expresión que se quiere filtrar; para ello puede ser importante el manejo de los códigos para «expresiones regladas», aunque también se puede escribir el afijo o la raíz4. Una expresión reglada que per4 116
El manual del autor tiene una lista de códigos para hacer estas búsquedas.
Alchemist
mitiría, por ejemplo, filtrar las palabras que comienzan con in, im o ir (como irregular, insólito, imposible) en español sería la siguiente: ^i(n/m/r.
FIGURA 36. Filtro con campo de formato lista.
Por su parte, el botón «Merge», que aparece debajo de la ventana del explorador, permite fusionar en uno solo los morfemas repetidos en distintas palabras o los alomorfos de un mismo morfema, para lo cual se seleccionan en el explorador los morfos correspondientes y se presiona el botón «Merge». De esta manera, no se repetirán en la ventana aquellas secuencias que corresponden a un mismo morfema. Pero también mediante las teclas Ctrl+D, es posible repetir en el corpus una palabra o morfema seleccionado cuando debe asignarse a dos estructuras morfológicas distintas. Finalmente, cuando se está trabajando con un corpus nuevo, es normal que se tengan dudas sobre la caracterización de algunos morfos, para lo cual el programa brinda la opción de especificar el grado de certeza que se tiene sobre la caracterización y escribir alguna nota, y ello se hace en la pestaña general de la sección información de la palabra y el morfema. Esta puede hacerse no solo en relación con los morfemas, sino también con la palabra —p. e., su significado—, para lo cual es necesario ubicarse en la palabra que se quiere describir (columna 0) o en el morfema, y posteriormente pulsar el botón «Commit». En cualquier momento se puede grabar la información recurriendo a los mecanismos normales. El programa graba los archivos con extensión XML (Extensible Markup Language), que como ya vimos es un lenguaje estandarizado que sirve para generar y leer etiquetas (programa de marquillado o etiquetador). Después de ar117
Julia Marlén Baquero Velásquez
chivar el trabajo, se puede volver a abrir con el mismo programa o se pueden exportar los resultados mediante cualquiera de las tres opciones que se tienen en el menú «File»: «Export All», «Export Displayed» o «Export Wizard». Las dos primeras se pueden abrir con el Bloc de notas de Windows y el resultado será la palabra con la división morfológica y las etiquetas correspondientes; esto lo hará sobre la totalidad del corpus o sobre las palabras seleccionadas (figura 37).
Figura 37. El archivo exportado visto con el Bloc de notas.
La última permite una versión más organizada de los resultados, con la posibilidad de escoger la forma en que quedarán los datos dentro del archivo de texto. El resultado es un archivo muy amigable y ordenado, en el cual se puede leer con facilidad el resultado del arduo trabajo de edición. Es posible también escribir en español el nombre de cada una de las categorías, hecho que aumenta positivamente la flexibilidad del programa y lo hace más atractivo. El archivo XML puede abrirse con cualquier explorador de internet para observar los resultados, pero allí todas las características se encuentran codificadas con números, lo que dificulta un poco la comprensión. Para solucionar ese pequeño inconveniente, solo se necesita contar con las equivalencias, es decir, el significado de cada uno de los números empleados. 118
Alchemist
En cualquier momento —aunque generalmente se hace al comienzo para evitar que se olvide— es conveniente introducir información sobre el corpus para lo cual se va al menú «File» y se pide la última opción «Document information». Allí se introducen datos sobre el autor del análisis, la afiliación, la lengua objeto y algunas observaciones que se quieran consignar. De esta manera, se puede tener información importante a la hora de hacer una correcta citación de ellos. Utilidad del programa
• Principalmente es una herramienta poderosa para organizar el trabajo y facilitar la labor del investigador que quiera encontrar estándares morfológicos o patrones de uso. Se trata esencialmente de un etiquetado morfológico. • Es una excelente y sencilla interfaz de usuario con buena ayuda disponible y elementos que le añaden versatilidad. • Puede trabajarse con cualquier lengua, aunque al parecer tiene todavía algunos problemas con algunos caracteres. Los autores esperan solucionar ese problema para versiones posteriores del programa. • Podría usarse para clasificar las palabras presentes en un cierto documento donde sea necesario encontrar generalidades acerca de las expresiones empleadas. • Trabaja en coordinación con el programa Lingüística, que realiza trabajos más interesantes para el investigador. • Por ser de código abierto, el usuario puede modificar los atributos dependiendo del tipo de trabajo en el que esté involucrado. • En Alchemist no se requiere que los morfemas estén completamente delimitados, pues es posible el solapamiento entre uno y otro morfema, y también se pueden marcar morfemas discontinuos como parte de la raíz o de un afijo, lo que no ocurre con otros programas similares. ���Limitaciones del programa
Quizá es mucho pedir que los programas hagan toda la tarea del investigador, pero en este programa parecería que el otro extremo se rozara. Todavía existen muchas operaciones que debe realizar el usuario, por lo que el proceso puede resultar muy lento. 119
Toolbox
Instalación
Este es un programa con licencia libre, por lo que se accede fácilmente a él a través de la página www.sil.org/computing/toolbox. Se guarda inicialmente en alguna carpeta que se tenga prevista para los ejecutables, y se ejecuta mediante un doble clic sobre el ícono. Se siguen las instrucciones que van apareciendo en las ventanas de diálogo hasta culminar con su instalación. Por defecto, el programa se almacena en la carpeta «Archivos de programa». Funciona perfectamente en las versiones más actuales de Windows —XP y Vista—, en Mac y en Linux. A diferencia del Alchemist, este no ofrece código abierto, por lo que solo el SIL puede hacer modificaciones al programa. Descripción
Toolbox tiene sus inicios en el año 1987, cuando John Wimbish, lingüista del Instituto Lingüístico de Verano, lo desarrolla y lo presenta con el nombre de Shoebox como analogía directa al método antiguo empleado para almacenar el resultado del análisis: las cajas de zapatos. Él mismo hizo varias revisiones al programa y, posteriormente, el Instituto se encargó de las nuevas versiones en DOS y 121
Julia Marlén Baquero Velásquez
en Windows, llegando hasta la versión 5.0 de este primer programa en el año 2000. En el 2002 recibió el nuevo nombre, y desde ese momento se siguió trabajando en la cualificación de la herramienta, al punto que hoy ya se llegó a la versión 1.5.5, que apareció en enero del 2009. Ello indica que se trata de un software que ha recibido mucha atención a lo largo del tiempo y que el programa ha sido bien recibido por la comunidad académica, a pesar de algunos problemas que efectivamente presenta. Cuenta con una guía de entrenamiento interesante que le permite al usuario resolver ejercicios para practicar con las distintas herramientas del programa y con una página en donde se pueden plantear y encontrar resueltas algunas preguntas (groups.google.com/group/ShoeboxToolbox-FieldLinguists-Toolbox). La versión 1.5.4 ya contiene ejecutables en otras lenguas, y en la página se pueden encontrar algunos paquetes especializados y algunos archivos para lenguas como el francés, el griego, el ruso, etc. De todas maneras, no resulta complejo agregar nuevos archivos que contengan los caracteres requeridos para la lengua objeto de estudio. Es un programa para administrar datos y una herramienta de análisis lingüístico, que permite la construcción de un diccionario con las características que exija el proyecto de trabajo. El análisis puede ser morfológico o lexical, pero también puede incluir información sintáctica. Inicialmente, el programa deja ver el corpus completo, pero basta un clic para que el texto se divida en oraciones, y otro para que el programa proponga una división morfológica de las palabras de la oración indicada. En adelante, el trabajo corresponde al usuario, quien debe ir examinando cada partición y decidiendo si es adecuada o no; en caso afirmativo, se asignan los rasgos de cada morfema, con lo que el programa va construyendo el diccionario. Al pasar a las siguientes oraciones, el programa no solo propone la partición, sino que con base en la información que contiene hace las nuevas particiones y transcribe en las líneas correspondientes los datos que ya forman parte del diccionario, junto con su caracterización. Consecuentemente, el investigador solo debe ir revisando que sí corresponda al morfema indicado y completando solo los morfemas nuevos. El diccionario posibilita, 122
Toolbox
entonces, el trabajo automático con nuevas frases o nuevos textos cuando las palabras ya están incorporadas en él, facilitando la tarea del investigador. Preparación del corpus
El corpus para trabajo con el Toolbox puede incorporar caracteres fonéticos u ortográficos de naturaleza diversa y se debe guardar en formato .TXT, con codificación UTF-8 para que los caracteres sean comprensibles. Para que el programa pueda acceder al archivo y aparezca el texto en la interfaz, es necesario que se incorpore una primera línea con el código \_sh v3.0 621 Text, y por lo menos dos campos: el de identificación (\id ) y el de texto (\tx). Respectivamente, deben contener, después de un espacio, el nombre del corpus y el texto objeto de análisis, como aparece en la figura 38.
Figura 38. Líneas obligatorias en el corpus.
123
Julia Marlén Baquero Velásquez
La preparación del corpus culmina con la revisión cuidadosa de la ortografía, la fonética o la misma digitación, teniendo especial cuidado con los signos de puntuación. En lo posible, estos no deben emplearse para funciones distintas a las ortográficas, a menos que ello sea absolutamente necesario, y siempre y cuando se realicen las configuraciones necesarias en el programa; con ello se evitan problemas de interpretación. Por ejemplo, dado que, por defecto, el punto es entendido por el programa como fin de contexto elemental, debe evitarse su uso para separar las letras de las abreviaturas, pues si se dejan allí, el programa las separará como si fueran contextos elementales. En caso de que el tipo de trabajo exija mantener el punto en ellas, debe reemplazarse la marca de fin de oración por otra y configurar el programa para que las separaciones se realicen de acuerdo con la nueva marca. Concluidos los arreglos, el archivo debe guardarse en una carpeta especial que aparece cuando se crea el nuevo proyecto, como se verá a continuación. Trabajo con el programa
Para empezar, es importante conocer que este programa funciona por proyectos, por lo que cada vez que se comience un trabajo con una lengua distinta debe crearse un nuevo proyecto, a través de la ruta «Inicio>Todos los programas>Toolbox>Start New Project», con lo que se abre una ventana de diálogo en la que el usuario debe decidir dónde archivarlo y con qué nombre. Si se va a trabajar con un proyecto ya iniciado, en cambio, se puede abrir en el ícono que queda en el escritorio1, o en el que queda en la carpeta del proyecto. Por defecto, el programa archiva los nuevos proyectos en la partición C del disco duro y con el nombre Toolbox, pero el usuario puede hacer el cambio que desee. Es recomendable ubicarlo en una carpeta que no esté tan subordinada a otras para garantizar que ninguna de ellas incluya en su nombre caracteres distintos a los aceptados por el ASCII, dado que cuando realice la búsqueda del
1
124
Este acceso directo apunta únicamente al último proyecto creado. Para abrir un proyecto anterior, debe abrirse el archivo Toolbox Project.prj ubicado en la carpeta «Settings» del proyecto en cuestión.
Toolbox
archivo, el programa no reconoce las carpetas que, por ejemplo, contengan letras como la ñ o las vocales con tilde. Cuando se crea el nuevo proyecto, el programa organiza en el sitio indicado una carpeta con dos archivos de texto plano y una subcarpeta denominada «Settings», que contiene varios archivos. Los archivos creados en la carpeta principal (Texts y Dictionary) no contienen inicialmente sino algunos datos a través de los cuales el programa puede llegar a los archivos, pues en ellos es donde se va a almacenar todo el análisis que el usuario realiza. Por ende, se requiere que el corpus objeto de trabajo se ubique en esta carpeta o simplemente se copie en el archivo denominado Texts en la línea del campo \tx. En la subcarpeta «Settings» se encuentran, entre otros, unos archivos LNG de texto plano, para las lenguas national, vernacular, english, regional, y dos archivos similares llamados default y phonetic. Estos archivos se pueden abrir con el Bloc de notas o con Word, y contienen información fonética u ortográfica de cada una de las lenguas: el inventario de sonidos o de grafemas, algunas características fonéticas de punto y modo de articulación, y otros aspectos que se requieren para el trabajo. En esta subcarpeta, entonces, se deben guardar los archivos creados por el usuario o bajados de internet, que estén configurados para lenguas con nuevos caracteres. El usuario puede partir del archivo más parecido, agregar los nuevos caracteres, como se indicará abajo, y guardarlo en este sitio como texto sin formato, codificación UTF-8 y extensión LNG. El archivo creado puede copiarse en la misma subcarpeta de un nuevo proyecto para no volver a hacer el trabajo. En el caso de investigaciones con lenguas indígenas, cuya traducción quiera hacerse al español, es importante crear uno para la lengua objeto de estudio y otro para el español, que contenga los caracteres de escritura propios de esta lengua: las vocales con tilde, la eñe, y la vocal con diéresis. Si ello no se hace, estas letras no se visualizan en la línea de traducción. Aunque no es indispensable, es preferible crear estos archivos antes de iniciar el trabajo, pues, en algunos casos, cuando se hace de otra manera, aparecen errores.
125
Julia Marlén Baquero Velásquez
Para la creación del nuevo archivo es necesario tener en cuenta varios puntos, por lo que preferimos listarlos a continuación: • Examinar con Word los distintos archivos de las lenguas para saber si alguno contiene los caracteres que se requieren. Si ninguno coincide, se puede modificar el que contenga el mayor número de caracteres próximos a la lengua objeto de trabajo. • En el archivo escogido, cambiar el nombre de la lengua en la primera línea, sin olvidar que en el nombre no pueden aparecer caracteres distintos a los del ASCII. Así, si a partir del archivo para el inglés, se crea el del español, el cambio en la primera línea sería de la siguiente manera: en lugar de \+LanguageEncoding English, escribir \+LanguageEncoding Espannol. • Anexar los nuevos caracteres en el campo \case al lado de los ya existentes, si son similares, o debajo como en el caso de la Ññ. Para comprenderlo mejor, compárense la parte izquierda de la figura 39 correspondiente a la lengua desde la cual se comenzó el trabajo, con la de la derecha, que corresponde al archivo nuevo.
Figura 39. Incorporación de caracteres.
126
Toolbox
• Anexar de manera semejante los nuevos caracteres en el campo \primary, para lo cual se cambia el nombre de la lengua en la pestaña \+srt. También se puede seleccionar posteriormente una opción distinta a través de los cuadros de diálogo, como se verá más adelante. • Guardar el archivo con el nombre de la nueva lengua, teniendo cuidado de no incorporar caracteres que no estén en el ASCII. No olvidar que debe archivarse como texto plano, extensión LNG, codificación UTF-8 en la carpeta «Settings» del proyecto. Después de preparar el corpus, cargarlo en el archivo de texto de la carpeta principal y verificar que los archivos de las lenguas con las que se va a trabajar estén en la subcarpeta, se puede empezar el trabajo de análisis2. Para ello es indispensable tener claro el objetivo del proyecto, pues dependiendo de él, los datos a incorporar pueden variar. Se requiere saber qué tipo de datos se van a definir para cada uno de los morfos y alomorfos identificados: fonético/fonológicos, sintácticos, semánticos, sociolingüísticos, etc. Después de los pasos anteriores, se abre el proyecto mediante doble clic sobre el ícono de acceso directo que se crea en el escritorio o sobre el ícono que se encuentra en la carpeta «Settings». Aparece la interfaz del programa, cuya ventana principal contiene la barra de menú y la de los iconos, e incluye dos ventanas, una con el texto y otra con algunos campos, que corresponde a la hoja del diccionario3 (figura 40). Al abrir el proyecto, es posible que el archivo exhibido no corresponda al que se va a trabajar; en tal caso, el usuario puede abrirlo a través del menú «File>Open»4. En la página de Toolbox se puede encontrar también un software muy similar, cuya finalidad es la construcción de diccionarios. 3 En ocasiones aparecen dos ventanas en la parte inferior con el nombre «Dictionary» con la finalidad de que el usuario pueda visualizar los datos de dos maneras distintas. 4 Es posible que algunos caracteres del archivo de texto original se modifiquen en la ventana de visualización. Las razones pueden ser dos: que no se haya salvado con el formato UTF-8, en cuyo caso debe cambiarse, o que la configuración del campo \tx esté para una lengua que no contenga todos los caracteres que se requieren (véase la solución más adelante). 2
127
Julia Marlén Baquero Velásquez
Figura 40. Ventana inicial de la aplicación. �Segmentación
Para poder comenzar con el análisis de los datos, es necesario que el corpus esté segmentado en unidades más pequeñas (oraciones o frases), para lo cual el Toolbox cuenta en el menú «Tools» con la opción «Break and Number Text», que al seleccionarse segmenta el corpus y enumera cada unidad de acuerdo con la instrucción, que el usuario dé en una ventana de diálogo como la de la figura 41.
Figura 41. Selección de características de segmentación.
En esta, el analista selecciona, entre otras, los signos de puntuación a partir de los cuales debe hacerse la partición, el campo a 128
Toolbox
segmentar, el nombre que debe aparecer en cada una de las líneas de división y el número a partir del cual se debe comenzar la enumeración. Hechas las selecciones, se oprime el botón «OK » y el corpus se divide en unidades menores, en este caso solo siete, por la naturaleza del texto objeto de trabajo. El programa sólo numera aquellas líneas de texto que no han sido interlinearizadas, como se verá más adelante.
Figura 42. Segmentación del corpus.
Simultáneamente, como se puede observar, el programa incorpora el campo \ref antes de cada campo de texto, y asigna el nombre seleccionado junto con la numeración consecutiva a partir del número designado en la ventana de diálogo. Si se quiere introducir después de cada línea de texto una traducción libre de cada expresión —que podría facilitar trabajos posteriores— se pasa a la siguiente línea mediante un «Enter» y se introduce la traducción, pues, por defecto, el programa incluye automáticamente el campo correspondiente \ft. �Interlinearización y configuración de cada campo
La interlinearización se puede equiparar a la asignación de etiquetas que se hace con otros programas, solo que con algunos 129
Julia Marlén Baquero Velásquez
—por ejemplo, con el Alchemist— la etiqueta aparece en la misma línea de la palabra, encerrada entre corchetes angulares o símbolos espaciales que marcan el inicio y el final de ella (como se mostró al comienzo), mientras que con el Toolbox estas se asignan en líneas distintas a la manera de una base de datos, con registros y campos. Los campos, que en este caso aparecen en la primera columna del archivo del corpus o del diccionario, son muy variados y el usuario puede escogerlos de una lista o agregarlos, si es necesario. Se designan con el nombre completo y con uno abreviado o marcador que se antecede del backslash (\); el usuario puede decidir si en la ventana se visualiza uno de ellos o los dos. En la tabla 4 se incluyen unos pocos ejemplos de marcadores de textos con una explicación y un ejemplo. Tabla 4. Ejemplos de marcadores Marcador
Explicación
Ejemplo
\id
Nombre del texto o corpus
\id Hindi
\ref
Referencia: nombre para cada unidad del texto
\ref Hindi 001
\tx
Texto: campo para el texto objeto \tx larkã de trabajo.
\mb
División morfológica (morpheme \mb lark -ã break)
\ps
Partes de la oración: para categorizar cada morfema
\ps N - masc.sing
\ge
Glosa
\ge niño
\ft
Traducción libre (free translation)
Para evitar problemas con los símbolos es bueno, a esta altura del trabajo, configurar cada campo en términos de la lengua a emplear, las propiedades de color, estilo y tamaño de la fuente y los campos que automáticamente deben antecederlo y seguirlo. Por defecto, el programa elige la lengua vernacular para las líneas de texto y de morfemas, y el inglés para la glosa y la categoría. Para cambiar estas opciones, se ubica el cursor sobre cada marcador y se presiona el botón derecho del mouse con lo que aparece una 130
Toolbox
ventana de diálogo como la de la figura 43, que corresponde en este caso a la del campo de la glosa.
Figura 43. Modificación de formato del campo glosa.
La ventana, que es idéntica para todos los campos, contiene tres pestañas de las cuales la primera es la que más se usa. Al lado izquierdo contiene cinco cuadros de texto, tres de ellos para seleccionar, de una lista desplegable, las opciones que más se ajusten al trabajo: los campos que deben anteceder y seguir al que se está configurando y la lengua en la que se va a escribir en el campo. De esta forma, si la glosa se va a registrar en español, por ejemplo, debe seleccionarse en la lista a fin de que todos los caracteres aparezcan adecuadamente en la línea del campo. La lengua aparecerá en la lista solo si al comienzo se insertó debidamente el archivo correspondiente en la carpeta «Settings» del proyecto. En la parte inferior, se puede observar un área de texto en el que el usuario puede describir el campo objeto y explicar sus funciones. Al lado derecho de la ventana, aparece una sección para escoger el estilo en el que se exportarán los datos, un cuadro de verificación llamado «Use Language Font», que por defecto está seleccionado, y dos botones, uno desactivado y otro activado. El botón «Language Properties», por su parte, abre una nueva ventana para que el usuario haga cambios en el archivo de la lengua seleccionada cuando no se hacen de la manera como se indicó en los puntos uno y cinco de la lista que se presenta en el apartado «Trabajo con el programa» (p. 126). La in131
Julia Marlén Baquero Velásquez
serción de los símbolos se hace en este caso únicamente en las pestañas «Sort Order>Modify» y «Case Punct» (figura 44).
Figura 44. Incorporación de caracteres por la configuración del campo.
Este recorrido es equivalente al que se siguió al comienzo cuando se incorporó el archivo denominado «Espannol» en la carpeta «Settings», por lo que, si se hizo debidamente en ese momento, no es necesario repetir el proceso. Para verificar que los archivos con extensión LNG estén en UTF-8, se puede ir a la pestaña «Options», botón «Advanced», en donde debe verificarse la primera casilla, si no está verificada. Si el usuario quiere modificar el tipo de fuente o algunas propiedades de ella con la finalidad de destacar alguno de los campos o de diferenciarlos para una mejor visualización del trabajo, debe quitar la marca del cuadro de verificación «Use Language Font», con lo que se activa el botón «Choose Font». Al oprimirse este botón exhibe una ventana en donde se pueden realizar los cambios. De lo contrario, el programa mantendrá la fuente que trae por defecto. El mismo procedimiento se debe efectuar para cada uno de los campos, tanto de la ventana del texto como de la ventana del diccionario. El paso siguiente es, ahora sí, la interlinearización de cada uno de los segmentos del texto. Para ello se debe ubicar el cursor en cada segmento y ordenar la interlinearización, bien sea con el comando
132
Toolbox
Alt+I5, la ruta «Tools>Interlinearize» o el décimo ícono del menú. El resultado es la incorporación de por lo menos tres líneas de campo después del segmento: \mb, \ge y \ps, que se llenan así: las dos últimas con un asterisco por cada palabra del segmento, y la primera con las palabras del segmento antecedidas de un asterisco a fin de que el usuario determine dónde hacer la partición de cada una. A medida que se introducen los datos en el diccionario, se reemplazan los asteriscos de las dos últimas por la información, se hacen las particiones en el campo de los morfemas y se borran los asteriscos que anteceden a las palabras. Para insertar la palabra o morfema en el diccionario y llenar los datos pertinentes, el analista debe ubicar el cursor sobre cada palabra del campo \mb y presionar el botón derecho del ratón, con lo cual se abre una ventana de diálogo que contiene la palabra; allí se puede oprimir el botón «Insert» para que se anexe al diccionario, si el trabajo es lexical, o se pueden suprimir caracteres para que solo quede el morfema raíz o los afijos (figura 45). A los prefijos debe agregárseles un guión después de ellos (p. e., ante-) y a los sufijos antes (p. e., -s)6. Al aceptar la inserción, el programa escribe el lexema, la raíz o el afijo en la hoja del diccionario y ofrece los otros campos para que el investigador los llene con la información correspondiente. Después de ingresar toda la información, se presionan las teclas Ctrl+R para que ésta se incorpore en las líneas correspondientes del archivo de texto. Como ya se dijo, es posible insertar nuevos campos tanto en la hoja del texto como en el diccionario, lo cual se puede realizar a través la ruta «Edit>Insert Field», con las teclas Ctrl+E o configuEn ocasiones cuando se intenta dar esta u otra orden, los botones se encuentran desactivados. Ello obedece a que, por alguna razón, el archivo se guardó en algún momento como texto de solo lectura. Si ello sucede, se puede ir a la carpeta y cambiar esta propiedad del archivo. 6 Puede suceder que la ventana de diálogo presente desactivado el botón «Insert», e impida la inserción de nuevos términos en el diccionario. En tal caso, el usuario debe ir a la carpeta del proyecto, buscar el archivo del diccionario y examinar sus propiedades para desactivar la casilla de verificación de «Solo lectura». 5
133
Julia Marlén Baquero Velásquez
rando en el campo los que deben antecederlo o seguirlo. Las dos primeras opciones despliegan la lista de marcadores (figura 46), para que el usuario escoja uno o para que inserte uno nuevo. La tercera inserta automáticamente el campo escogido cuando se presiona la tecla Enter.
Figura 45. Incorporación de información morfológica.
Figura 46. Selección de nuevos campos. 134
Toolbox
Trabajo con el diccionario Los campos
El diccionario trae por defecto tres campos: \lx, \ps y \ge, pero, como ya se dijo, dependiendo de los objetivos se pueden agregar otros o suprimir alguno de los existentes. Para ello debe activarse la ventana del diccionario e insertar los nuevos campos mediante las teclas Ctrl+E, por «Edit>Insert Field» o en la ventana de diálogo en la que se cambian las propiedades de los campos. Cada trabajo puede requerir campos distintos, por lo que es importante definir claramente qué se busca como resultado final. Un proyecto que pretenda la construcción de un diccionario sobre el español colonial a partir de los textos existentes y teniendo en cuenta los contextos específicos, por ejemplo, podría incorporar algunos campos como los siguientes, que no necesariamente deben llenarse con cada una de las palabras: a) lexema (\lx), en donde se van introduciendo las formas básicas de las palabras o los lemas, b) definición o glosa, que corresponde al significado de la palabra, el cual puede asignarse escogiendo una palabra equivalente o explicándolo a través de comentarios que agreguen toda información importante, c) ejemplo, d) múltiples significados, para aquellas palabras que puedan contenerlos, lo que puede hacerse agregando el campo «Número de Sentido», que permite enumerar consecutivamente cada nuevo significado de la palabra, e) etimología, f) sinónimos, g) categoría, h) variantes, i) notas pragmáticas, etc. Identificación de morfemas
Cuando el análisis es morfológico, resulta difícil en ocasiones la identificación de los morfos a partir de una sola palabra visualizada, más aún cuando se trata de lenguas que el investigador no conoce suficientemente. Es muy importante poder observar distintas expresiones en las que pueda aparecer la expresión para decidir dónde hacer las particiones. Para ello, el programa cuenta con la opción «Word List» en el menú «Tools» que enlista todas las palabras del corpus, agrega su frecuencia de ocurrencia y el número de referencia de las unidades u oraciones en donde se encuentra. 135
Julia Marlén Baquero Velásquez
Al abrir la lista es importante tener en cuenta que el programa examina por defecto el archivo denominado «Texts», por lo que si el corpus no se copió en él, sino que se salvó con otro nombre y se abrió a través de la ruta «File>Open», se requiere encontrarlo en la ventana de diálogo de creación de «Word List», siguiendo el recorrido «Edit>Modify>Edit Files List» (figura 47).
Figura 47. Creación de «Word List».
El resultado es una nueva ventana, como la de la figura 48, en donde se pueden observar todas las expresiones ordenadas alfabéticamente por la primera letra.
Figura 48. Lista de palabras del diccionario.
136
Toolbox
En ella se aprecia, por ejemplo, la existencia en tamil7 de las parejas de palabras: avan/avanai, maritan/maritanai, parkira:n/ parkire:n, lo que podría llevar al usuario a hipotetizar la presencia de los morfemas avan, -ai, maritan, parkir, -a:n y -e:n. La evaluación de la hipótesis puede hacerse examinando las otras palabras en la misma lista, pero también puede abrirse una nueva ventana en la que las palabras se organicen alfabéticamente por la última letra; se tendría entonces una ventana para visualizar el inicio y otra para las terminaciones. Para ello se activa la ventana de la lista, se procede a duplicarla, como podría hacerse con cualquier otra, siguiendo el recorrido «Window>Duplicate» y se organiza la nueva por la última letra, para lo cual debe verificarse la casilla «Sort first field from end» de la ventana de diálogo que se abre en la ruta «Database>Sorting» (figura 49).
Figura 49. Verificación para ordenar por la última letra.
Comparando ahora las listas en las dos ventanas, es posible observar, por ejemplo, que la terminación –ai no solo ocurre en la segunda palabra de los dos primeros pares, sino que es recurrente en 17 casos del corpus con seis lexemas distintos. Esto debe llevar al investigador a identificar contextos de ocurrencia en la ventana del texto, a fin de precisar su significado: morfema de caso objetivo (figura 50).
7
El corpus del tamil fue tomado del libro Linguistics Workbook de Demers and Farmer (2001: 131). 137
Figura 50. Comparación de las dos listas.
Julia Marlén Baquero Velásquez
138
Toolbox
De manera semejante, se trabajaría para concluir que las terminaciones a:n y e:n, no son exactamente los sufijos, pues a ellos debe anexarse la vibrante, que también se encuentra en otras palabras: ra:n y re:n, para lo cual fue clave poder observar todas las terminaciones. Ahora bien, el programa también cuenta con otra herramienta que facilita la observación del trabajo realizado. Es posible tener la lista de todos los morfemas encontrados o solo de los afijos, para lo cual debe duplicarse la ventana del diccionario —en caso de que solo haya una—, y a través de la ruta «View>Browse Fields» seleccionar los campos que se quieren exhibir junto con el orden que resulte más adecuado para la evaluación del trabajo o para su presentación final. Ello arroja una ventana con la lista de todos los lexemas o morfemas, y puede ordenarse por cualquier campo al presionar sobre su nombre (figura 51).
Figura 51. Selección de campos.
Atendiendo al criterio de sistematicidad, es posible a través de esta ventana detectar por lo menos un posible problema en el análisis. La forma enn y -ai se caracterizaron como caso objetivo (figura 51), y solo una de ellas es un afijo, dado que la primera guarda una similitud con unn, que se describió como pronombre objeto de tercera persona, al igual que avan. Regresando al texto, se puede encontrar que enn es efectivamente una forma pronominal de primera persona, mientras 139
Julia Marlén Baquero Velásquez
que unn¸ lo es de segunda y avan de tercera. Para hacer las correcciones solo se requiere un doble clic sobre la palabra con lo que se abre el diccionario en la palabra correspondiente. Hechas las correcciones, el resultado final se observa en la siguiente ventana (figura 52).
Figura 52. Ventana con correcciones.
Si solo se quieren explorar los afijos, es posible filtrarlos en la barra de botones de la interfaz. Concordancias
Aunque esta no es una de las tareas fundamentales del programa, es interesante que el programa lo haga, pues ello permite una mejor aproximación cuando se está caracterizando una palabra, una frase o una parte de ella. Para la búsqueda se puede solicitar la palabra completa, secuencias iniciales, intermedias o finales, que se han considerado como posibles morfemas; el resultado es la lista de los contextos de ocurrencia de la secuencia. Se accede a esta opción por la ruta «Tools>Concordance», con lo que se abre una ventana (figura 53), en donde el usuario debe escribir por lo menos, la secuencia a buscar y el lugar en donde se espera encontrarla. Aquí, por ejemplo, se ordena la búsqueda de 140
Toolbox
todas aquellas expresiones que contengan la secuencia ki al interior de la palabra, junto con sus contextos de ocurrencia.
Figura 53. Búsqueda de concordancias por medio de una ventana de diálogo.
El resultado se visualiza en una ventana como la de la figura 54, en donde se puede observar que la secuencia solicitada aparece en cada una de las oraciones del corpus, lo que indica que todas las oraciones deben compartir algún rasgo. Una buena pista es el hecho de que el morfema se adhiere al verbo. Lo común a ellas, entonces, es el tiempo verbal, pues todas las oraciones del corpus están en tiempo presente.
Figura 54. Resultado de la búsqueda. 141
Julia Marlén Baquero Velásquez
Fórmulas
Es posible que al ir construyendo el diccionario, se incorpore al diccionario un mismo morfo asociado a dos significados distintos. En este caso, para un nuevo segmento la máquina no puede decidir cuál de los dos significados es el apropiado en el contexto específico. Por ejemplo, en inglés el afijo -s, tiene por lo menos dos significados: es morfema de plural, pero también morfema de tercera persona. Cada vez que el programa encuentra una palabra que lo contenga le asigna dos estructuras morfológicas. Así, Toolbox estructuraría una palabra como greetings de dos maneras: a) greeting ‘saludo’ (N) –s (num) (pl) y b) greeting ‘saludo’ (N) –s (per) (3era), y no puede decidir cuál es la apropiada, por lo que abre una ventana con las dos opciones para que el usuario escoja una o proponga una fórmula que le permita al programa decidir sin consultar al usuario. Para ello, el analista debe presionar el botón «Formulas» de la ventana desplegada, el cual está habilitado si la base de datos tiene activada la casilla de verificación «Enable word formulas» que aparece en la ventana al seguir la ruta «Database> Propierties>Interlinear>Modify» (figura 55).
Figura 55. Verificación para poder generar fórmulas.
142
Toolbox
Cuando se presiona el botón «Fórmulas» en la ventana abierta automáticamente por el programa se exhibe una ventana de diálogo con los dos componentes de la fórmula: Symbol y Patterns (figura 56). Por defecto, ofrece el símbolo Word, pero el usuario podría agregar a través del botón «Add», otros como NounWord, NounSteam, VerbWord (sin espacio).
Figura 56. Ventana para las fórmulas.
A continuación se puede agregar la fórmula después de presionar el botón «Modify», para lo cual se adicionan las secuencias apropiadas. En la figura 57, por ejemplo, se le indica al programa que el morfema de plural coaparece con el sustantivo, mientras que el de persona debe ir con morfemas verbales.
Figura 57. La fórmula. �Publicación
Todos los archivos pueden ser exportados a formato RTF para su publicación. Para ello, el investigador debe activar la ventana 143
Julia Marlén Baquero Velásquez
que desea convertir a un archivo RTF en la ruta «File>Export» y dar la orden correspondiente. Utilidad del programa
• Como el anterior programa, es una herramienta poderosa para organizar el trabajo y facilitar la labor del investigador que quiera encontrar estándares morfológicos o patrones de uso. • Puede trabajarse con muchas lenguas, aunque al parecer tiene problemas con lenguas cuyos morfos no sean adyacentes. No puede, por ejemplo, separar lo segmental de lo suprasegmental en el análisis. • Puede usarse para construir diccionarios con los cuales se pueda posteriormente hacer los análisis de expresiones de corpus nuevo, por lo que se puede decir que se trata de un programa con capacidad de aprendizaje. • Trabaja en conexión con el Elan, que es un programa que facilita la tarea de la transcripción a partir de audio o de video. �Limitaciones del programa
• No es de código abierto, por lo que no es posible hacer cambios al programa. • Como ya se dijo, tiene problemas con morfos no adyacentes. • En ocasiones presenta problemas que el usuario no puede resolver rápidamente. Muchos de ellos se fueron presentando a lo largo del documento, ya que la solución no se encuentra tan fácil.
144
PC-Kimmo
Instalación
Este programa se ejecuta en DOS en modo texto y, por lo tanto, todas las instrucciones deben introducirse con el teclado. Funciona correctamente en diferentes sistemas operativos, pero el que aquí se presenta es la versión hecha para Windows. Para trabajar con él se requiere bajar de la página www.sil.org/pckimmo/v2/pc-kimmo_ v2.html dos archivos comprimidos: los ejecutables y el inglés para PC-Kimmo2, el primero comprimido como Pck210.zip —que corresponde al programa— y el segundo como engl20b5.zip, que contiene los diccionarios y la definición de las reglas para el idioma de trabajo (en este momento solo se cuenta con las reglas para el inglés, comprimidas en el archivo). Todos los archivos deben descomprimirse en una misma carpeta y, una vez descomprimidos, el PC-Kimmo se puede ejecutar siguiendo las instrucciones que se ofrecen más abajo. Descripción
PC-Kimmo es un analizador morfológico automático (parser1 morfológico) de licencia libre implementado hace varios años por 1
Extracción de la estructura. 145
Julia Marlén Baquero Velásquez
Lauri Kattunen y otras personas en el Instituto Lingüístico de Verano (SIL), a partir del modelo de dos niveles propuesto por el profesor Kimmo Koskenniemi. Este analizador realiza dos tareas fundamentales: reconocimiento o análisis de la estructura morfológica subyacente de una palabra y generación de la forma superficial a partir de la representación subyacente. Para que el programa pueda realizar el análisis automático se requieren dos componentes básicos: un archivo de reglas y un lexicón. Las reglas —que siguen el modelo de Koskenniemi— son de dos niveles, esto es, son reglas que establecen relaciones entre una forma subyacente y una superficial y actúan en paralelo, por lo que no crean representaciones intermedias como sucede con las reglas de la gramática generativa transformacional. Tomando el ejemplo propuesto por los autores en www.sil.org/pckimmo/ two-level_phon.html, mientras que en la gramática generativa se especifican reglas ordenadas secuencialmente que van actuando y creando representaciones intermedias a la manera de (1) las reglas de dos niveles actúan de tal manera que de una forma se pasa a la otra sin necesidad de otras representaciones, como en (2). (1)
Rep subyacente: Elevación de vocal (a): Palatalización (b): Rep superficial:
temi timi cimi cimi
(2)
Rep subyacente:
temi | | | | ab | | | | cimi
Reglas Forma superficial:
Es claro, desde luego, que la forma de las reglas y la información requerida es muy diferente entre un modelo y otro. Como lo propone Antworth (1991), «So we say that the two-level rules for Raising and Palatalization are sensitive to a surface rather than underlying envi146
PC-Kimmo
ronment», lo que las diferencia de las de la GGT. Una regla como la de palatalización, por ejemplo, se formula aproximadamente en la GGT como (3), mientras que en PC-Kimmo como en (4). (3) (4)
Palatalization GGT: t -> c / ___i (t se convierte en c cuando está antes de i). Palatalization PC-Kimmo: t:c ___ @:i (hay una correspondencia entre t de la representación subyacente y c de la representación superficial, si y solo si ocurren antes de una correspondencia entre cualquier sonido de la subyacente y el sonido i de la superficial).
Pero, adicionalmente, esta última debe incluir información como la siguiente: establecimiento de relaciones de equivalencia entre sonidos, representación subyacente y superficial y conversión de la regla a una tabla de estados finitos. Las relaciones de equivalencia aparecen al comienzo del archivo, mientras que la otra información se puede visualizar de la siguiente forma en una regla que incorpora a nivel superficial la e del plural en algunas palabras del inglés: ========== ;Epenthesis2 ;========== ; LR: fox+s kiss+s church+s spy+s ; SR: foxes kisses churches spies RULE “+:e [CNsib | y:i | o] +:@ _ _ _ s [+:@ | #]” 7 8 + CNsib + s # y o @ e CNsib @ s # i o @
2
Tomado de Antworth, E. (1995), Rules file for Englex, archivo que forma parte del programa. 147
Julia Marlén Baquero Velásquez
1: 2: 3. 4. 5: 6: 7:
0 3 0 0 0 0 3
2 2 0 0 1 1 2
1 5 0 1 1 0 1
2 2 4 0 6 1 2
1 1 0 1 1 0 1
2 2 0 0 1 1 2
7 7 0 0 1 1 7
1 1 0 0 1 1 1
El lexicón, por su parte, contiene los elementos lexicales agrupados en varios archivos: los sustantivos, los adjetivos, los verbos, los adverbios, etc., los cuales se subdividen internamente en subconjuntos de acuerdo con los cambios que aceptan y su morfotáctica. De esta suerte, por ejemplo, el archivo de los sustantivos contiene, en primer lugar, los sustantivos con plurales irregulares, que se dividen a su vez en los que aceptan plural en -os o -oes, los que terminan en z, los que terminan en quy, etc., y en segundo lugar los sustantivos regulares3. En cada subconjunto, entonces, aparecen las entradas lexicales correspondientes que se componen de la expresión léxica, una secuencia de caracteres con sus marcas diacríticas, y de la información morfológica que se quiere obtener cuando el usuario le pida al programa que realice el análisis. La forma de estas entradas es muy similar a la que se podría obtener en Toolbox, aunque los nombres de los campos pueden variar. Un ejemplo de una entrada lexical es el siguiente: (5)
\lf `being \lx AUX-V \alt PT_Suffix \fea ing \gl1 be \gl2
Para la síntesis, el programa cuenta con otro archivo en el que aparece la forma subyacente y la correspondiente forma superficial: 3 148
Cada uno de estos archivos se puede visualizar con el Bloc de notas.
PC-Kimmo
(6)
NEG4+ ex`pect +EN unexpected
Trabajo con el programa
Una vez se tienen todos los archivos en la misma carpeta, se busca el archivo Pckimmo.exe y con un doble clic se activa de inmediato el editor de comandos con algunos datos propios del programa4: la versión, el año, los derechos de autor, entre otros (figura 58).
Figura 58. Apertura del PC-Kimmo.
Para que el programa pueda realizar las tareas es necesario cargar los archivos, esto es, las reglas y el lexicón, para lo cual se escribe en la ventana load rules english y luego se presiona «Enter». Igualmente se hace con load lexicon english y load grammar english5. El resultado es una ventana como la de la figura 59, en donde el programa confirma el cumplimiento de la tarea, especificando para el lexicón los distintos archivos cargados con el número de entradas que contiene cada uno. Una vez se cargan los archivos, se le puede ordenar que arroje la estructura de una palabra de la lengua cuyos archivos fueron cargados, que en este caso es el inglés. Para ello, se utiliza el comando recognize, que puede remplazarse por la sigla rec seguido de la palabra que se quiere analizar, en nuestro caso recognize unexpected (figura 60). Hay un procedimiento que puede resultar más largo, consistente en abrir primero la ventana de comandos del DOS desde «Inicio>Ejecutar:cmd», para luego llegar mediante comandos al programa, pero no creemos necesario presentar aquí todo el recorrido. 5 En la página del SIL www.sil.org/pckimmo se puede encontrar toda la información detallada del proyecto, las claves para construir los diccionarios del lexicón y las reglas para cualquier lengua. 4
149
Julia Marlén Baquero Velásquez
Figura 59. Inclusión de archivos.
Figura 60. Descomposición morfológica.
Como puede apreciarse adelante, el resultado incluye una partición lineal en tres morfemas (7), su asociación a las correspondientes glosas (8) y las estructuras en constituyentes (parsers) identificadas (9), siempre y cuando desde el comienzo se hayan cargado todos los archivos6. Si antes de ordenar el reconocimiento de la palabra se escribe el comando set alignment y luego «Enter»,
6
150
Si, por ejemplo, no se carga al comienzo el de gramática, no arrojará la estructura arbórea.
PC-Kimmo
el programa agrega en la estructura lineal información relacionada con el tipo de morfema: prefijo, sufijo, verbo, sustantivo. (7)
Un + ex`pect + ed
(8) (9)
NEG4+ ex`pect +EN Stem Stem
prefix un+ neg4+
Word Stem
root ex`pect ex`pect
infl +ed +en
En el diagrama arbóreo todos los constituyentes tienen asociada una numeración porque es posible mostrar las características de cada uno de ellos con base en la información contenida en los archivos de trabajo, y seguir de manera más precisa el proceso de derivación que generó la palabra analizada. Para activar esta característica, se ingresa el comando set features all. Para regresar a la forma inicial se usa el comando set features top, y para mostrar solo el árbol, set features off. Se recomienda que el usuario lea con atención los resultados, que son sencillos de interpretar porque manejan términos lingüísticos estándar. En caso de necesitar ayuda, se puede conseguir en la página del SIL en el vínculo que lleva al manual oficial del programa: www. sil.org/pckimmo/v2/doc/guide.html. La otra tarea básica de PC-Kimmo, la generación de la forma superficial a partir de los constituyentes morfológicos de la palabra, se realiza mediante el comando syn seguido de la secuencia que nos interese (las glosas y la raíz con la marca del acento antes de la sílaba). Por ejemplo, el comando syn DEG12+ `take genera las palabras undertaken, undertook, undertake, underbetaken, underbetook. Cada uno de los afijos tiene una codificación dentro del pro-
151
Julia Marlén Baquero Velásquez
grama, la cual debe emplearse para invocarlo durante la generación de alguna estructura. Para concluir, es importante señalar que este programa, si bien no resulta útil para el caso del español, por cuanto no contiene las reglas y el lexicón para esta lengua, nos pareció importante abordarlo como ejemplo de los parsers, un analizador morfológico automático, en este caso. Desde luego, existen muchos analizadores morfológicos automáticos que el interesado puede encontrar en internet. Tal es el caso, por ejemplo, del analizador para el español propuesto por Velásquez, Gelburk y Sidorov (s. f.), quienes consideran que el modelo de dos niveles «no es muy adecuado para lenguajes con alternaciones irregulares de raíz (por ejemplo el español o el ruso)», p. 1. Como lo señalan los autores —siguiendo a Moreno y Goñi (1995)—, el español es una lengua compleja que, por ejemplo, solo para los tiempos verbales simples tiene «alrededor de 61 formas flexivas», contiene formas verbales de uso frecuente con hasta siete raíces: hac-er, hag-o, hic-e, ha-ré, hi-zo, haz, hech-o, incluye participios pasados duplicados y ausencia de formas en algunos tiempos como el caso de abolir 7. Por ello, los autores implementan un modelo diferente, el AGME , «que consiste en preparación de la hipótesis durante el análisis y su verificación usando un conjunto de reglas de generación»8. Pero también resultaba interesante para nosotros, en su momento, que los estudiantes se introdujeran en la temática de los parsers, con miras a interesarlos en la construcción de programas de análisis automático para el español. Si bien tal motivación no ocurrió con estudiantes de esta asignatura, uno de los que cursaban la asignatura de Morfosintaxis del Español, Paul Cifuentes, consideró una buena propuesta comenzar un trabajo encaminado a construir un analizador sintáctico automático9, para lo cual Ibíd., p. 3 Ibíd., p. 2. 9 Mucho tiempo atrás la profesora del curso tuvo conocimiento, a través del profesor Roberto Perry, del programa desarrollado en hypercards para la plataforma Mac OS 9. Este programa permite introducir las reglas y el lexicón y sobre esa base generar estructuras de la lengua. 7
8
152
PC-Kimmo
contó con la asesoría de los dos docentes de Informática aplicada a la investigación lingüística. Su trabajo, si bien solo incluye 14 reglas que se aplican a sintagmas de las categorías FN, FV y FA, resultó ser un trabajo complejo para un estudiante de pregrado que no tenía ninguna preparación en lingüística computacional. Con base en un modelo matemático propuesto, que simplificó el diseño del algoritmo, la escogencia de un lenguaje y la selección de algunas herramientas de programación, logró concretar el parser sintáctico, para cuya interfaz adoptó la del programa Treeform, que tiene como función facilitar al usuario el diseño de las estructuras sintácticas de cualquier lengua en una interfaz bastante amigable (véase el capítulo «Treeform»). El Parser Modular v0.1, nombre asignado al programa, consta de un lexicón, que se puede enriquecer a través de ventanas de diálogo que el programa abre cada vez que no encuentra una de las expresiones, y catorce reglas, que permiten arrojar automáticamente estructuras como la siguiente (figura 61).
Figura 61. Árbol generado con Parser Modular v 0.1.
153
Julia Marlén Baquero Velásquez
Utilidad del PC-Kimmo
• Es un programa muy poco exigente en recursos de cómputo y bastante útil para probar un sistema de reglas de estructura morfológica para las lenguas. • Tienen una ayuda muy completa disponible en la red. • Este programa en DOS es una aplicación sencilla de las funciones programadas en una librería de C++, librería que puede ser usada por cualquier persona en la construcción de programas de parsing morfológico o sintáctico. • Como todos los programas de análisis morfológico automático, puede tener aplicaciones para verificación y corrección ortográfica básica, lematización para aplicaciones de recuperación de la información y en la enseñanza asistida de lenguas (Alegría, 1996). ���Limitaciones del programa
• El proyecto prácticamente está abandonado desde hace más o menos diez años, aunque es posible que se hayan desarrollado aplicaciones en modo gráfico para Linux o Windows con fines académicos. • La interfaz resulta poco amigable. • Como ya se dijo, el modelo no resulta adecuado en opinión de Velásquez et ál., para lenguas con morfología compleja.
154
Treeform
Instalación
Una vez se descarga el programa1, se descomprime en una carpeta, que puede guardarse en cualquier parte, pues no necesita instalarse en el computador. La carpeta contiene tres subcarpetas y seis archivos que permiten el correcto funcionamiento de la aplicación. Para abrirlo, solo se requiere un doble clic sobre el ejecutable, pero para que el programa pueda correr, es necesario que el usuario cuente con el entorno en tiempo de ejecución de Java (Java Run Time Environment) o consola de Java, como se le conoce generalmente. Descripción
El Treeform es un programa muy sencillo con licencia GNU, lo que quiere decir que cualquiera lo puede usar y, además, tiene código abierto para que el usuario haga modificaciones o lo use para nuevos aplicativos. Este programa fue desarrollado por Donald Derrick y fue puesto en circulación en el 2004, en una versión más sencilla de la que se tiene hoy. Su función principal es facilitar el diseño de diagramas arbóreos que den cuenta de la 1
http://sourceforge.net/projects/treeform/?abmode=1. 155
Julia Marlén Baquero Velásquez
estructura sintáctica de las oraciones o frases de la lengua objeto de estudio; no está hecho para que genere estructuras sintácticas automáticamente, su función es exclusivamente gráfica. El programa contiene, entonces, un conjunto de instrucciones y una serie de gráficos, que permiten dibujar árboles complejos arrastrando a la ventana principal los botones de los gráficos que contiene el programa. Trabajo con el programa
Como ya se dijo, una vez descargados los archivos, el usuario presiona dos veces sobre el ejecutable para que se abra la ventana de interfaz del programa, la cual se divide en tres secciones: la barra de herramientas en la parte superior, los botones de los gráficos que están al lado izquierdo y el documento principal donde se dibujan los árboles. En la barra de herramientas se tienen cuatro opciones de menú: «File», «Edit», «Window» y «Help», con sus respectivos íconos, que se emplean como cualquier aplicativo. Al lado izquierdo, la última versión contiene 16 botones para los gráficos estructurales y para los rasgos sintácticos, y un botón que permite borrar la parte que se desee. Para poder comenzar el trabajo es necesario que el usuario abra una hoja, de la misma manera que se hace con cualquier programa: «File>Open», si lo que se quiere es acceder a un archivo ya existente o «File>New» para abrir uno nuevo. La tarea del usuario, como ya se dijo, consiste únicamente en ir arrastrando los botones; para empezar, los de las ramas superiores y, posteriormente, los que se vayan requiriendo. El programa también permite mover secuencialmente varias estructuras, si se mantiene oprimida la tecla de mayúscula (Shift) y se van oprimiendo los botones correspondientes uno después otro. Cuando el usuario agrega una nueva entrada al gráfico anterior, el programa resalta con azul el nudo al cual es viable añadirla. Es posible editar los nombres de todos los nudos, incluyendo las ramas terminales, para lo cual se requiere ubicar el mouse en la rama correspondiente y digitar el texto, o modificar tamaño, color, fuente, etc. Para facilidad del usuario, el autor también incluyó la 156
Treeform
posibilidad de acceder a algunas funciones a través de menús que se abren al oprimir el botón derecho del mouse. Siguiendo tales instrucciones, es bastante sencillo generar una estructura como la de la figura 62, que se puede guardar o exportar como gráfico PNG o JPG para insertarlo posteriormente en un artículo o trabajo que se quiera presentar.
Figura 62. Árbol sintáctico. Utilidad del programa
• Permite dibujar fácilmente las estructuras arbóreas de las oraciones, por lo que es útil como herramienta didáctica o para realizar una buena presentación que incluya estructuras arbóreas. • Permite poner a prueba, mediante ejemplos gráficos, la validez de un sistema propio de descomposición arbórea. • Ilustrar artículos en los que sea necesario incluir la estructura arbórea de una expresión. • Por tratarse de una herramienta con licencia GNU, es posible usarla para proponer trabajos de mayor alcance, por ejemplo, para la generación automática de estructuras sintácticas. 157
Julia Marlén Baquero Velásquez
���Limitaciones del programa
• Si se tiene en cuenta la función para la cual fue creado el programa, no alcanzamos a encontrarle limitaciones, quizás por la sencillez del mismo. En este sentido resulta más interesante que otros como el Tree Diagrammer que, si bien dibujan también las estructuras, lo hacen a partir de la estructura en paréntesis que para algunos resulta bastante compleja.
158
CUARTA PARTE Análisis de texto y del discurso
Importancia del análisis de texto y del discurso
Hoy día son muchos los investigadores que intentan abordar el texto como una unidad de complejidad mayor a la oración, o bien el discurso como una unidad fundamentalmente comunicativa y, por ende, inserta en procesos sociales que imponen sobre ella ciertas propiedades. No existe una concepción única en relación con lo que debe ser el análisis del texto y del discurso, por lo que son muchos los tipos de preguntas que los investigadores suelen hacer cuando intentan abordar una de estas realidades. En todos los casos, sin embargo, se busca trascender el estudio de la oración concebida inicialmente como entidad autónoma, para examinar el uso de los signos en contextos intrínseca y extrínsecamente más amplios, pero con textos reales. Con algunos de tales estudios, se muestra, además, que «el uso de muchos rasgos lexicales y gramaticales pueden entenderse completamente a través del análisis de sus funciones en contextos discursivos más amplios» (Biber et ál., 1998: 106). La diversidad de concepciones y la complejidad del objeto se ven claramente reflejados en la variedad de preguntas que se han planteado los analistas del texto y del discurso. Algunas de ellas, por ejemplo, abordables con la metodología de la lingüística de corpus, pero también otras cuyas respuestas exigen más un análisis 161
Julia Marlén Baquero Velásquez
cualitativo, dado que no intentan llegar a generalizaciones sobre uno o varios tipos de textos. Entre las muchas preguntas se tienen algunas como las siguientes: ¿cuál es la estructura textual de un determinado tipo de texto —didáctico, legal, político, de prensa, científico, narrativo, etc.—?, ¿cómo se instauran o se reproducen determinadas concepciones o estereotipos en un texto o en un tipo de texto?, ¿cuáles son las formas lingüísticas empleadas por un determinado grupo para ejercer poder sobre otros o para abusar del poder que se tiene?, ¿qué imaginarios o representaciones mentales se perciben en discursos producidos por entidades diversas?, ¿qué diferencias, en cuanto a propósitos comunicativos, corresponden con diferencias lingüísticas?, ¿qué propiedades lingüísticas son típicas de determinado tipo de texto o determinado tipo de registro?, ¿cómo funciona el lenguaje y cuáles son sus funciones?, ¿cómo el uso de la lengua es restringido —o facilitado— por el contexto social y retórico de la expresión, por el medio a través del cual se transmite el mensaje y por el contexto lingüístico?, ¿cómo se organizan los hablantes para establecer turnos al hablar, crear temas o tópicos, o estructurar subdivisiones de la expresión lingüística, tales como la introducción, el desarrollo y la conclusión?, ¿cómo se organiza la referencia en diferentes tipos de textos? Aún más, dado que las distintas comunidades de habla de una lengua no se expresan exactamente de la misma manera y, en muchos casos, se pueden detectar semejanzas y diferencias que dependen de las comunidades analizadas, también hoy se encuentran muchos estudios encaminados a asociar ciertas estructuras con factores extralingüísticos como la edad, el sexo, la región, el nivel social, el tipo de producción lingüística, el área de trabajo, etc. El objetivo en estos casos es examinar cómo varía la lengua en uso dependiendo de la comunidad o el tipo de textos objeto de estudio. Para resolver las preguntas es suficiente, en algunos casos, observar los contextos de ocurrencia de determinadas piezas léxicas, para lo cual resulta muy útil cualquier programa de concordancias y, en ese sentido, la temática expuesta en la segunda parte de este libro, podría haber formado parte de esta sección. Los programas allí expuestos, como se señaló en su momento, permiten, además, 162
Importancia del análisis de texto y del discurso
la realización de tareas muy diversas que son importantes para el análisis del texto y/o del discurso: asociaciones entre palabras, creación de cuadros temáticos, examen de grupos de palabras, distribución de los términos en el texto, etc. En otros casos, sin embargo, se requiere realizar otro tipo de tareas: comparaciones entre términos que expresan conceptos similares, anafóricos, exofóricos, distribución de formas verbales, reconocimiento de actos de habla y su relación con formas lingüísticas, etc. Para ello, es necesario determinar también cuál es el método más adecuado para abordar el objeto concreto. Muchos de los analistas de texto o del discurso, interpretativos por excelencia, han utilizado a lo largo de la historia métodos de investigación cuantitativos o cualitativos, dependiendo del objeto de estudio particular en un determinado momento, y con ello han surgido programas computacionales que permiten trabajar de manera más ágil, bien en un sentido, o bien en otro. El T-Lab, que ya lo expusimos en el capítulo «Concordancias», por ejemplo, realiza análisis cuantitativos de corpus de gran tamaño, que pueden incluir textos organizados por variables para que el programa los compare y, automáticamente, arroje datos estadísticos que deben ser interpretados por el usuario. Su trabajo, si bien con diferentes niveles de complejidad y con objetivos diversos, resulta similar al que realizan programas como el Diction, que también arroja fundamentalmente datos cuantitativos. Algo muy distinto sucede con programas como el Atlas-ti, un programa para el análisis cualitativo de textos, videos, e imágenes, el cual tiene como función fundamental facilitar al usuario el análisis de las superficies discursivas, para lo cual involucra herramientas como inclusión de comentarios, establecimiento de códigos para el análisis, establecimiento de relaciones entre palabras, generación de gráficos, etc. Estos programas, a diferencia de los anteriores, realizan muy pocas tareas automáticamente. Corresponde al usuario hacer los análisis para que el programa pueda, por ejemplo, arrojar automáticamente gráficos que permitan visualizar mejor los resultados del análisis llevado a cabo por el investigador. En síntesis, los programas de análisis cuantitativo requieren fundamentalmente que el usuario cargue los textos objeto de 163
Julia Marlén Baquero Velásquez
análisis para que el programa realice la mayor parte de las tareas, quedando para el usuario una tarea esencial: la interpretación adecuada de los resultados. Contrariamente, los programas de análisis cualitativo pueden realizar tareas automáticas solo después de que el usuario ha realizado gran parte de las tareas esenciales. La esquematización, por ejemplo, es una de las tareas automáticas que pueden ejecutar estos programas, pero ellas no podrían llevarse a cabo si el usuario no ha efectuado todo el trabajo de interpretación. Se incluyen en esta sección dos programas adicionales a los que se presentaron en la sección de concordancias: el Antmover y el Diction. El primero, un programa de análisis interactivo, tiene como tarea fundamental segmentar el texto en unidades que pueden asociarse con las diferentes categorías en las que suele dividirse un tipo de texto, esto es, con las unidades que dan cuenta de su superestructura (la función de las distintas expresiones), mientras que el segundo permite el análisis de variables sociolingüísticas y lingüísticas, análisis de concordancias y comparaciones al interior de las expresiones mismas a fin de reconocer diferencias y semejanzas en relación con el tono de los textos. A continuación presentamos una muy pequeña muestra de algunos programas con sus características generales. Estos deben complementarse con los presentados en la sección de concordancias. Licencia freeware
• Antmover Sistema operativo
Windows.
Lenguaje
Perl.
Tareas
- Obtiene la superestructura de un texto a partir de unas categorías predefinidas. - Permite el entrenamiento con otras categorías diferentes a las que trae por defecto.
Resultados
Clasifica las oraciones de un texto en las categorías definidas.
164
Importancia del análisis de texto y del discurso
• rst Anotation Tool Sistema operativo
Windows, Unix, Mac os.
Lenguaje
tcl/tk (un lenguaje interpretado de comandos).
Tareas
- Construye el gráfico de la estructura analizada del texto. - Utiliza la teoría de la estructura retórica (rst). El usuario realiza el análisis.
Resultados
Gráficos con la estructura.
• Text Structure Analysis System Sistema operativo psi (simpos), sistemas japoneses. Lenguaje
esp.
Tareas
Analiza la estructura retórica de textos en japonés.
Resultados
La estructura del texto.
• Swesun Sistema operativo Disponible en línea. Lenguaje
No especificado.
Tareas
- Resume automáticamente un texto al introducir en el campo correspondiente la dirección url del archivo a resumir. - Acepta formato txt, doc y html. - Utiliza herramientas estadísticas, lingüísticas y heurísticas.
Resultados
En una nueva hoja presenta las frases que resumen el texto.
Licencia propietario
• Diction Sistema operativo
Windows.
Lenguaje
ne.
Tareas
- Evalúa distintas variables en un texto con base en diccionarios. - Utiliza herramientas estadísticas.
Resultados
Gráficos y numéricos. Medidas de tendencia central.
165
Julia Marlén Baquero Velásquez
• Copernic Sistema operativo Windows Lenguaje
No especificada.
Tareas
- Sintetiza un texto de la web o uno que se tenga almacenado en el computador. - Presenta palabras clave. - Utiliza herramientas estadísticas.
Resultados
Arroja el texto resumido.
Licencia shareware
• Pertinence Summarizer Sistema operativo
Una versión de demostración se encuentra disponible en internet.
Lenguaje
ne.
Tareas
- Presenta una síntesis automática de un texto, que el usuario puede tener en su computador. - Permite cargarlo. Acepta textos almacenados en txt, html, pdf, doc, rtf. - Utiliza herramientas multilevel highlighting y keywords.
Resultados
Texto de resumen.
166
Antmover* �
Instalación
El programa, junto con sus carpetas de trabajo, se encuentra comprimido en un archivo ZIP autoextraíble1, que permite su descarga en cualquier carpeta, desde donde se activa el programa. Funciona sin ningún problema en cualquiera de las versiones de Windows. Esta es la primera versión del programa, por lo tanto, es comprensible que algunas tareas no terminen de forma adecuada. ���Descripción
El programa fue escrito por Laurence Anthony en la Universidad Okayama del Japón, usando Perl, un lenguaje de programación que no es de los más utilizados actualmente en el mundo comercial, pero sí en el mundo académico. Antmover 1.0 es la primera versión de una plataforma de software con capacidad de aprendizaje, cuya tarea principal es identificar la estructura («superestructura», en términos de Van Dijk) de un texto de la manera más exacta que sea posible. * 1
www.antlab.sci.waseda.ac.jp/software.html. Este tipo de archivos son muy parecidos a los ejecutables de instalación. 167
Julia Marlén Baquero Velásquez
La estructura del texto, como ya se sugirió, tiene que ver en este caso con la asignación de cada parte de un texto a una categoría, dependiendo del tipo de texto objeto de trabajo. En otros términos, se podría hablar de la identificación de la función que cumple cada una de las unidades que lo conforman, con el fin último de caracterizarlas dentro de alguna de las clases que definen el tipo de texto. De esta suerte, un texto argumentativo, por ejemplo, contendrá unidades que se pueden asociar a la categoría de argumentales, hipótesis, marcos conceptuales o creencias, etc., mientras que en un texto narrativo, siguiendo a Labov, podrían identificarse el resumen, la orientación, la complicación, la evaluación y la coda, o, siguiendo a Todorov, equilibrio, desequilibrio y equilibrio final. Con base en ellas, entonces, alguien podría ponerse en la tarea de identificar en un buen número de textos las unidades correspondientes, y usar esos resultados durante el entrenamiento, con lo cual se logra que el programa «aprenda» y posteriormente realice esta tarea de manera automática. Esto es, el programa quedaría en condiciones de ofrecer una primera aproximación al análisis de nuevos textos. En el proceso de aprendizaje el programa va agregando nuevas unidades (una porción de texto) dentro de cada categoría, lo cual le permite posteriormente hacer comparaciones entre las palabras del nuevo texto y las que suelen aparecer para introducir cada categoría, y tomar decisiones sobre esa base. Tomando los textos narrativos, por ejemplo, si se caracterizan las unidades textuales que empiezan con «había una vez» como pertenecientes a la categoría orientación y esta aparece como una constante en varios textos, el programa aprenderá y, en adelante, la unidad que la contenga para iniciar será clasificada como parte de la orientación del texto narrativo. En términos más precisos, si un usuario previo del programa decide incorporar cuatro categorías para el análisis de un tipo de texto y entrena el programa dejando diez oraciones en cada grupo, el programa, ante un nuevo texto, comparará las palabras de cada oración nueva con las palabras de cada una de las oraciones que se encuentran en los distintos grupos y generará un valor numérico como resultado de esa comparación. Al final del análisis, cada oración o unidad detectada tendrá tantos valores 168
Antmover
como grupos se hayan definido; el valor más alto indica la mayor probabilidad que tiene la oración de pertenecer a un grupo y es la decisión que toma el programa. Este proceso es exitoso en textos científicos y artículos escritos en inglés, puesto que allí suelen usarse estructuras muy concretas. Entre más similares sean las palabras usadas en oraciones catalogadas dentro del mismo grupo, menos entrenamiento requerirá el programa y mejores serán los resultados. ���Trabajo con el programa
Una vez se descarga el archivo, se puede acceder al programa presionando sobre el ícono correspondiente, con lo cual se abre una ventana como la de la figura 63, que contiene seis áreas: la barra del menú, el área para desplegar la lista de los archivos objeto de trabajo (zona gris del lado izquierdo), el área principal en la que se muestran los resultados del análisis, dependiendo de la tarea que se haya ejecutado, una pequeña área denominada «Log», en donde se muestran eventos que ejecuta el programa, un área, —también pequeña— para introducir texto si se quiere y una barra de 9 botones que le permite al usuario desplazarse fácilmente por las tareas fundamentales del programa con los textos objeto de análisis.
Figura 63. Ventana principal de Antmover.
Siempre que se abre el programa aparece el archivo de demostración en la zona gris de la ventana. Al seleccionar este o cualquier 169
Julia Marlén Baquero Velásquez
otro que se haya cargado (debe estar en formato TXT) se despliega el archivo completo en el área principal de la ventana del Antmover (botón «Original»). Al presionar sobre el segundo botón («Processed»), el programa ejecuta una tarea consistente en dividir el texto seleccionado en oraciones, mediante la identificación de la marca de punto. Al seleccionar el botón «Moves» se asigna cada oración a una de las categorías, tal como aparece en la figura 64.
Figura 64. Ventana desplegada al seleccionar la opción «Moves».
Por defecto, el programa contiene las categorías Making_Topic_ Generalizations, Indicating_a_Gap, Announcing_Present_Research, Evaluation_of_Research, Announcing_Principal_Finding, Claiming_ Centrality, útiles para analizar ensayos en inglés. Con cualquier texto, entonces, el programa intentará ubicar sus unidades en las categorías previstas, como se observa en la figura anterior. Al lado de la clasificación hecha por el programa aparece un nuevo botón en la ventana principal, «2nd Opinion», que le permite al usuario asignar una categoría distinta a la oración desplegada, si así lo considera pertinente. Al presionar este botón se despliega la lista con las demás categorías en estricto orden de probabilidad para que el investigador seleccione la que más se adecué a la oración (figura 65). 170
Antmover
Figura 65. Segunda opción del programa.
Figura 66. Ventana con cambio en «2nd Opinion».
171
Julia Marlén Baquero Velásquez
Esta parte del trabajo es muy importante y no debe hacerse de cualquier manera, dado que es información que ingresa al programa y es tenida en cuenta en posteriores análisis. La modificación hecha por el usuario del programa aparece resaltada en color azul, para diferenciarla de las opciones escogidas automáticamente (figura 66). Pasando al siguiente botón de la barra inferior, «Outline», se puede observar la estructura global del texto, sin incluir el texto, esto es, la secuencia de rótulos asignados, junto con el número de la clase. Si se considera necesario que el programa revise la clasificación propuesta, se puede presionar el botón «Optimize Flow», con lo cual el programa ejecuta nuevas tareas de cálculo. Esta vez no se centra en cada oración, sino que tiene en cuenta las demás oraciones del texto. Los cambios aparecen resaltados con color azul en la ventana de «Moves». Nuevamente, el usuario tiene la opción de realizar cambios. Una vez se tenga certeza de los cambios, se puede pasar al siguiente botón «Add to Training» para completar el entrenamiento del programa. Al presionar este botón quedan activados únicamente los botones «Moves» y «Exit», y se hace visible un nuevo bloque bajo el área «Log» (figura 67).
Figura 67. Barra de entrenamiento.
Este nuevo bloque le permite al usuario desplazarse por las distintas oraciones, observar la clase y el rótulo asignado en los campos de texto, realizar nuevos cambios, guardar la información y salir del entrenamiento. Esta opción es recomendable siempre que se trabaje con un texto diferente, puesto que añade nuevas oraciones que mejoran la precisión del programa durante el proceso de comparación y generación del número probabilístico. De hecho, se hace más lento el proceso, pero esta demora es soportable si a cambio se obtiene algo más de precisión.
172
Antmover
Los botones restantes no merecen explicación, en tanto que son suficientemente conocidos por los programas que todo usuario maneja diariamente. Pasando a la barra de menú, se encuentran tres posibilidades: «File», «Settings» y «Tool», las dos primeras con opciones ya conocidas, por lo que solo nos referiremos a las cuatro herramientas (tools) que contiene el programa. La primera —«Line Editor»— permite hacer visible u ocultar uno de los seis bloques o áreas de la interfaz, la cual abre una ventana en la que se puede introducir manualmente el texto que se quiere analizar. Concluida la digitación, el texto se anexa mediante el botón «Add» y aparece en el espacio para la lista de los textos. La segunda herramienta, «View Training Sets», como su nombre lo indica, permite ver los resultados del entrenamiento. Al seleccionar esta opción, se abre una ventana como la de la figura 68, en donde se puede apreciar información relacionada con cada una de las clases o categorías de análisis.
Figura 68. Los datos del entrenamiento.
173
Julia Marlén Baquero Velásquez
En este caso, en el área izquierda aparecen los números de las clases incorporadas en el proyecto, a fin de que el usuario se desplace entre ellas para observar, en relación con cada una, el rótulo, el número de frases incorporadas gracias al entrenamiento y los ejemplos concretos que se han anexado. La tercera herramienta, «View Data Sets», abre una ventana similar a la anterior, pero con información nueva. Se trata en este caso de un conjunto de expresiones con información matemática (de probabilidad). Estas expresiones (rasgos) involucran un número determinado de palabras y clusters —según la programación hecha por el usuario—, cuando abre el proyecto a través de la ruta «File>New Project», que abre la ventana de configuración (figura 69).
Figura 69. Ventana de creación de proyectos.
En esta ventana se solicita información general acerca del proyecto. Primero, el nombre, que en lo posible debe tratar de reflejar la clase de textos que se han de analizar, luego, la carpeta en donde se almacenará la información del entrenamiento y, por último, las características del trabajo matemático. Si el usuario no es muy versado en los temas de las matemáticas de probabilidad, es recomendable que deje las opciones que usa el programa por defecto. No es recomendable, si se quieren resultados adecuados, usar el proyecto que trae incluido el programa, a no ser que el texto cumpla con las condiciones de aquel.
174
Antmover
Utilidad del programa
• Es un programa bastante flexible que permite al usuario realizar un completo trabajo de entrenamiento, tan largo como se quiera, y con la posibilidad de mejorarlo y completarlo cada vez que se analiza un texto nuevo. • Es verdaderamente útil para realizar el análisis estructural de textos de manera automática, como una forma de reconocimiento que podría usarse en aplicaciones posteriores. • El uso de esta herramienta no tiene que enfocarse solo hacia la identificación estructural de textos científicos en inglés, sino que podría emplearse también hacia la generación de un sistema de identificación2 para textos en español, aprovechando la posibilidad que existe de entrenar el programa. Esa es su mayor utilidad. Limitaciones del programa
• La ayuda del programa es muy pretensiosa, puesto que a lo sumo identifica la estructura de un texto similar a los que han sido usados para entrenar el programa. Con poco entrenamiento los resultados son desastrosos, detalles que no se mencionan en el manual del programa y que son bastante importantes. • En ocasiones, al crear el proyecto, el programa se bloquea o se demora demasiado. • Es confuso y poco amplio en la explicación y justificación del procedimiento usado para calcular las probabilidades. La ayuda se limita a cuestiones procedimentales, pero no profundiza en los métodos de cálculo empleados. Es importante conocer los métodos usados para estar en capacidad de juzgar la legitimidad de los resultados.
2
Incluyendo las categorías de clasificación. 175
Diction*
Instalación
Los archivos de instalación de la versión demo del programa están en un archivo ZIP autoextraíble. Para instalarlo, primero se descomprime el archivo ZIP en alguna carpeta, después se ejecuta el archivo Setup.exe que se encuentra en ella, y se siguen las instrucciones del menú de instalación. Funciona bien en Windows XP. Descripción
Diction es un programa propietario para análisis del discurso que trabaja con textos en inglés. Usa las herramientas típicas de la lingüística de corpus: grandes diccionarios y cálculos matemáticos con bases estadísticas. Este programa es el resultado de la comercialización de un trabajo académico hecho durante varios años por Roderick P. Hart, autor de todo el sistema de clasificación y de la formulación de los mecanismos de cálculo de todas las variables que se usan dentro del programa. *
Debido a que en el momento no contamos con la versión completa del programa, describimos en este instructivo la versión demo que se puede encontrar en internet en la página www.dictionsoftware.com 177
Julia Marlén Baquero Velásquez
Como muchos de los programas con licencia propietario, tiene una versión demo, que, en este caso, es muy reducida en cuanto al número de tareas que permite realizar. Esta versión posee una interfaz gráfica muy simple, pero suficiente para evaluar el desempeño del programa 1. Si se quieren usar todas las funciones se debe comprar el software. Con este programa es posible determinar, según el autor, el tono de un discurso verbal según cinco rasgos principales con los que trabaja —certeza, actividad, optimismo, realismo y coloquialismo— y 35 subrasgos, los cuales permiten caracterizar cada texto de acuerdo con ellos. Son muchos los trabajos que se han realizado con este programa en otros ámbitos, la mayoría de ellos relacionados con el discurso político, académico y de los negocios. Este programa puede procesar un número ilimitado de textos, siempre y cuando se usen corpus con 10.000 palabras. Produce reportes sobre los textos procesados y arroja datos numéricos que posteriormente pueden ser analizados estadísticamente. Cuando se carga un archivo para su análisis, el programa coteja las palabras del texto con las de los diccionarios y asigna un valor numérico a cada categoría dependiendo del número de palabras del diccionario presentes en el texto objeto de análisis. Posteriormente, con base en unas fórmulas que definen las variables básicas de actividad, optimismo, certeza, realismo y coloquialismo2, se calcula el valor de cada una de ellas y con ello se arroja un resultado en relación con la intención general del discurso. Para ejemplificar las fórmulas, el optimismo de un texto, entendido como el lenguaje usado para respaldar una persona, grupo, Los programas comerciales casi siempre ofrecen una versión demo que permite un trabajo preliminar limitado, con el objetivo de que el usuario conozca las tareas que puede realizar con el programa antes de comprarlo. Estas versiones traen activas todas las funciones por un tiempo limitado (30 días por lo general) o vienen con todas las funciones, pero solo pueden usarse en unos pocos archivos o sin guardar los cambios. También es posible que algunas se puedan usar sin límite de tiempo pero con unas pocas funciones (las primordiales) disponibles. 2 Se refiere al uso de términos castizos. 1
178
Diction
concepto o evento, se obtiene a partir de la fórmula (1)3, en la que la variable básica (en mayúsculas) se define en términos de las categorías iniciales. (1) optimismo = [alabanza + satisfacción + inspiración] [-culpa + dificultad + negación] Trabajo con el programa 4
Una vez se carga el programa en el computador, se presiona sobre el ícono correspondiente, con lo que se abre una ventana como la de la figura 70, a través de la cual, se puede acceder a las pocas tareas disponibles en la versión demo.
Figura 70. Ventana de la versión demo.
Como se observa, el programa contiene una barra de cuatro menús —«File», «Options», «Dictionaries» y «Help»— y una serie de botones, a través de los cuales se pueden ejecutar las tareas que realiza el Diction. Para cargar un archivo se presiona sobre el botón «Add Directory», que permite escoger una carpeta (en este caso «Samples» Cada variable se calcula con una fórmula diferente definida por el autor, la cual puede consultarse en la ayuda del programa, en la opción «Contents» del menú «Help». Las fórmulas, junto con una explicación más amplia de su razón de ser, pueden encontrarse en el manual oficial del programa. 4 El usuario puede tener acceso a un manual bastante completo para la versión 5.0 en www.dictionsoftware.com/files/dictionmanual.pdf. 3
179
Julia Marlén Baquero Velásquez
o «Text») y visualizar en la zona blanca denominada «Selected files» la lista de los archivos de la carpeta seleccionada. Para escoger los archivos uno a uno, se presiona el botón «Add File» y se seleccionan aquellos con los que se quiere trabajar. Es importante tener en cuenta que este programa solo acepta archivos que tengan extensión IN, fuente Unicode5 y que estén escritos en inglés6. Para procesar los archivos basta con seleccionar uno de los archivos de la lista —o todos, presionando el botón «Select All»— y oprimir el botón «Go» ubicado en la parte superior central de la ventana. En la barra «Status» se puede observar el progreso de la tarea de procesamiento en términos porcentuales. Para visualizar los resultados del análisis se presiona el botón «View» de la sección «Report», con lo que se abre una nueva ventana que presenta en un archivo de texto el discurso analizado, los datos que lo caracterizan y las tablas generadas por el programa. Veamos estos datos en el análisis del texto denominado nixon.in. Al seleccionarlo y pulsar el botón «Go», la nueva ventana arroja la siguiente información que aquí se separa en tres partes: datos del texto, el texto y las tablas. Datos del texto
Antes del texto aparece una información relacionada con el número total de palabras analizadas, caracteres del texto, caracteres promedio por palabra, palabras diferentes, identificadores alfa numéricos y descriptivos. En el texto que nos ocupa los datos arrojados son los siguientes:
TOTAL NUMBER OF WORDS ANALYZED = 500 NUMBER OF CHARACTERS IN PASSAGE = 2711 5 6
180
Estos se pueden crear con el Bloc de notas. Esto obedece a que los diccionarios fueron hechos para la lengua inglesa. Sin embargo, es posible hacerle algunas modificaciones al programa a fin de que admita textos en español o en otra lengua. Para ello es necesario modificar los diccionarios: incluir las palabras escogidas para cada categoría o traducir las que ya se encuentran almacenadas. Si está interesado en esa opción, el usuario puede buscar información acerca del tema «Custom Dictionaries» en la ayuda del programa.
Diction
CHARACTERS PER WORD = 4.14 NUMBER OF DIFFERENT WORDS = 237 ALPHA-NUMERIC IDENTIFIERS: 11 74 8 9 38 50 0497 0 DESCRIPTIVE IDENTIFIER : En cuanto al número total de palabras analizadas, es importante saber que, por defecto, todos los cálculos se hacen sobre las primeras 500 palabras del texto analizado para mantener la validez de los resultados numéricos obtenidos y de los datos estadísticos usados. Esto puede ser problemático y, en ocasiones, puede llevar a resultados erróneos cuando se analizan archivos que no contengan exactamente las 500 palabras. Para resolver ese inconveniente, el programa permite hacer algunas modificaciones, en este sentido, accediendo a la opción «Large/small Files» en el menú «Options», la cual abre la ventana de la figura 71, en donde se pueden cambiar las opciones iniciales. Es recomendable dejar las opciones por defecto si no se tiene clara idea sobre los efectos que los cambios producen.
Figura 71. Opciones para archivos pequeños y grandes.
Texto de entrada
Como ya se mencionó, después de los datos iniciales aparece el texto completo que se quiere analizar (no se incluye aquí) antecedido por los identificadores descriptivos que se hayan introducido al preparar el texto, los cuales deben estar entre asteriscos y no pueden exceder las diez líneas. En el texto que se analizó, por ejemplo, el identificador descriptivo es el siguiente: *Excerpt from Richard Nixon’s final speech in office, August 9, 1974* 181
Julia Marlén Baquero Velásquez
Tablas
En la parte final aparecen los resultados del análisis expuestos en tablas. La primera tabla muestra cinco columnas que incluyen las variables objeto de análisis (categoría inicial), la frecuencia de aparición de cada una en el texto, el porcentaje de cada categoría en relación con el texto total, la tendencia central y el puntaje estandarizado, usado para calcular las variables finales según las fórmulas mencionadas arriba. La tabla 5 es una porción de los resultados obtenidos en el caso del texto que nos ocupa, pues se incluyen solo cuatro de las 32 variables. Tabla 5. Resultados (muestra)
Freq.
Per cent
Normal range of scores (#)
Standardized scores
Numerical Terms
7.00
1.40
0.30 - 15.04
-0.09
Ambivalence
26.50
5.30
6.49 - 19.21
2.15*
Self-reference
22.00
4.40
0.00 - 15.10
1.85*
Tenacity
36.01
7.20
23.32 - 39.76
0.54
Variable
Al lado izquierdo de algunos datos aparecen unos asteriscos (*) que marcan las categorías alejadas de la tendencia central. En el ejemplo mostrado, el discurso tiene unos muy elevados puntajes de ambivalencia y autorreferencia, muy por encima del promedio de otros discursos analizados por el programa. En últimas, los asteriscos resaltan los resultados atípicos, de los cuales casi siempre se extraen conclusiones importantes. El signo menos en los resultados no tiene importancia, solo indica un puntaje muy bajo en la categoría. Con los resultados de las categorías se puede tener una idea global del sentido o intención del discurso, pero en otro esquema (tabla 5) el programa muestra los resultados concluyentes de su análisis: el valor que toma cada una de las cinco variables principales, esto es, las variables compuestas (composite variables).
182
Diction
Tabla 6. Variables compuestas Composite variables
Score
Activity
48.28
47.18 - 52.46
Optimism
51.45
46.90 - 54.00
Certainty
46.01
47.48 - 53.50*
Realism
46.01
48.59 - 54.37
Commonality
52.90
47.80 - 53.42*
En estos resultados también se incluyen medidas de tendencia central para juzgar el parecido del texto con otros discursos ya procesados, y el asterisco (*) tiene el mismo significado que en la tabla anterior. En este caso la certeza y el coloquialismo están por debajo de la tendencia general, por lo que podría decirse que carece sutilmente de esas características. La variable con puntaje más alto es el realismo que, según el autor, indica un lenguaje con descripciones de asuntos tangibles, inmediatos y reconocidos que afectan el diario vivir de la gente. Conociendo el significado de cada variable y el resultado numérico, es posible presentar un informe con las conclusiones para el discurso analizado. Esta parte es tarea exclusiva del usuario. ��Utilidad del programa
• Es una buena herramienta para una aproximación al análisis del discurso. La versión completa genera una serie de resultados gráficos que facilita la lectura de los datos. • De la forma como Diction procesa los datos pueden tomarse ideas para hacer estudios de textos en otras lenguas, para lo cual se pueden proponer categorías y variables propias. • La versión demo muestra la potencialidad del programa, pero para aplicaciones académicas no parece tener mucha utilidad. Limitaciones del programa
• La demo es en exceso limitada. No se puede hacer ni siquiera la décima parte de las tareas incluidas en la versión completa.
183
Julia Marlén Baquero Velásquez
• Las tablas en el archivo de resultados son algo desordenadas, parece que el formato no es el adecuado o no se le puso mucha atención al asunto. • Podría ser mucho más completo y servir para el trabajo con otras lenguas, si el programa formara parte de la comunidad científica que no aspira a obtener beneficios económicos, así de seguro sería mucho más completo e, inclusive, sería posible trabajarlo en muchos idiomas más. Sin embargo, no quiere decir que desear una retribución económica por el trabajo personal sea un asunto cuestionable, lo que quiere decir es que todavía merece mayor trabajo.
184
Goldvarb 2001*
Instalación
El Goldvarb, como algunos programas ya vistos, no requiere instalarse en el computador, puesto que se abre directamente al presionar dos veces sobre el ejecutable. Viene con un documento de Adobe en un archivo ZIP, que debe descomprimirse en una carpeta que se tenga para los programas, con lo cual queda listo para empezar el trabajo1. Este programa fue compilado usando Delphi Borland, un programa que usa el lenguaje C++ con aplicaciones gráficas para Windows. Funciona en Windows XP. Descripción
Goldvarb 2001 es una aplicación diseñada para facilitar el trabajo en proyectos que involucren variables. Fue desarrollado en el Departamento de Lenguas y Ciencias Lingüísticas de la Universidad de York, con base en una versión anterior (Goldvarb 2.0), que solo funcionaba en Mac OS. * 1
http://individual.utoronto.ca/tagliamonte/goldvard/goldvard_manual.htm El nombre de esta ventana cambia una vez el usuario salve los datos y asigne el nombre al archivo. 185
Julia Marlén Baquero Velásquez
El programa permite realizar análisis estadístico multivariable, es decir, obtener resultados estadísticos de un estudio en el que se pueden reconocer y extraer diferentes características (variables) de las que interesa saber su comportamiento y tendencia general dentro de los datos recopilados, analizando también la dependencia que pueda existir entre ellas. Deben tenerse buenos conocimientos de estadística, o asesorarse de un estadístico, para poder leer adecuadamente los resultados arrojados por el programa. �Trabajo con el programa
Al activar el ejecutable mediante un doble clic se despliegan simultáneamente dos ventanas bastante sencillas: la principal y otra en donde el usuario debe ingresar algunos datos. La ventana principal, denominada «Untitled.tkn», contiene cinco menús, de los cuales solo dos merecerán especial mención por ser específicos de este programa: «Token» y «Cells». La otra ventana, «Factor Specification», pide al usuario ingresar datos relacionados con el número de grupos (variables), los factores (legal values) y el valor que el programa debe usar por defecto. Para poder ingresar los datos, asumamos que se hace una encuesta a un grupo de trabajadores de una entidad o empresa, en la cual se indaga la percepción que cada quien tiene frente a una problemática. La finalidad es examinar de qué manera inciden en la forma de expresarse2 la edad de las personas, el nivel de escolaridad, el género. Específicamente, se observa que hay cambios en el verbo seleccionado al presentar el punto de vista y en la selección o no del pronombre de primera persona. Esto es, mientras algunos responden «yo creo que», otros dicen «pienso», «yo considero», etc. De acuerdo con el objeto de investigación, se tendrían entonces cinco variables o grupos asociados a diferentes factores, como se ilustra en la tabla 6, en donde adicionalmente se escoge una letra o 2
186
No interesan aquí, algunos asuntos metodológicos relacionados con la población la muestra, la forma de selección, la forma de recolección de los datos, la forma de hacer la pregunta, etc., sino las variables y los factores, en tanto que es ello lo que se quiere ilustrar con el programa.
Goldvarb 2001
número que represente cada factor. Al escoger el código a usar es importante que ningún carácter se repita dentro del mismo grupo. Tabla 6. Variables Variable
Factores
Código
Edad (años)
20-30 30-50 >50
j a m
Género
Masculino Femenino
m f
Nivel de escolaridad
Primaria Secundaria Universitario
p b u
Verbo de opinión
Creo Pienso Opino Me parece Considero Otro verbo
c p o m d x
Pronombre
Ausente Presente
0 1
Teniendo claros los datos se puede volver al programa con el fin de registrar la información de la tabla en la ventana «Factor Specification». Dado que por defecto el Goldvarb adopta el grupo 1 como variable dependiente, el usuario debe decidir cuál de ellas ingresar primero. En nuestro caso sería una de las dos últimas, en tanto que son estas las que cambian dependiendo de las variables de edad, nivel de escolaridad y/o género. Para llenar la información, solo se requiere que el usuario ingrese el número de grupos, presionando el botón «Set Number of Groups», y llene la información de cada uno de la forma en que se ilustra en la figura 72 para los grupos 1 y 2. Como se observa, el usuario únicamente debe escribir los códigos de los factores sin dejar espacio entre uno y otro, y seleccionar uno de ellos como valor por defecto, que casi siempre coincide con el que puede ocurrir un mayor número de veces. A medida que se pasa a otro grupo el programa arroja una ventana de diálogo en la 187
Julia Marlén Baquero Velásquez
que pregunta si salva la información. Al final debe chequearse todo mediante el botón correspondiente. Con estos datos es posible pasar al archivo de trabajo para caracterizar cada unidad de análisis de acuerdo con la información insertada y en el orden estricto de los grupos. Para recordar el orden y tener a la mano el valor seleccionado por defecto, el usuario puede seguir la ruta «Tokens>Show Factors», con lo que el programa arroja una ventana en la que se presentan los grupos, los factores y el valor por defecto (figura 73).
Figura 72. Inserción de las variables y los valores.
Figura 73. Resumen de variables y factores.
Siguiendo estos parametros, cada unidad de análisis, que debe delimitarse con el paréntesis de apertura, se caracteriza primero por la presencia o ausencia de pronombre, después por el tipo de verbo y a continuación por edad, nivel de escolaridad y género —de la forma
188
Goldvarb 2001
como se ejemplifica en la ventana «Untitled.tkn»3— para cada expresión consignada en ella con el fin de facilitar su visualización (figura 74).
Figura 74. Los tokens.
Quiere decir esto que lo importante para el programa es la codificación que el usuario introduzca y no la unidad de análisis, por lo que es posible introducir solo el código. De todas maneras, el programa solo lee el número de caracteres correspondiente al número de grupos proyectados al comienzo. En este caso, entonces, solo leerá los primeros cinco caracteres. En caso de que el investigador quiera escribir algunas anotaciones sobre las unidades de análisis, puede hacerlo debajo de ellas, pero antecediéndolas de punto y coma (;), pues el programa ignora en el análisis cualquier información precedida de este signo. Al completar el trabajo, o en el momento que se desee, es posible verificar si hay errores en la codificación, que obedezcan a cambios en el orden de los grupos, a la inclusión de un carácter distinto o a la no inclusión de un valor en alguna de ellas. Para esto debe seguirse la ruta «Tokens>Check Tokens»4 y, si el programa El nombre de esta ventana cambia una vez el usuario salve los datos y asigne el nombre al archivo. 4 Para tener mayor seguridad en la verificación de errores, es preferible que entre un campo y otro no haya códigos repetidos, para que el programa pueda detectar fácilmente si hubo un cambio en el orden de la codificación. 3
189
Julia Marlén Baquero Velásquez
encuentra problemas, arroja consecutivamente ventanas —como la de la figura 75— para que el usuario realice los cambios. En los casos en que el programa encuentre espacios vacíos o puntos, los reemplaza por una barra diagonal (/) y por el carácter que se escogió como valor por defecto respectivamente.
Figura 75. Ventana de error.
Una vez esté todo corregido, el programa informa que el trabajo de verificación ha terminado; su resultado se puede visualizar en la ventana de trabajo. La figura 76 muestra una ventana que contiene una anotación para la primera unidad después del punto y coma, y una marca de vacío para la línea 13 columna 5 (lomb/), las cuales fueron incluidas por el programa después de revisar la codificación. La marca de vacío debe indicar que para esa unidad de análisis no es pertinente la variable, pero si se trata de un olvido, es necesario revisar y llenar con el valor correspondiente.
Figura 76. Ventana con espacio en blanco en la codificación y con una anotación.
190
Goldvarb 2001
Después de codificar cada una de las unidades de análisis se puede comenzar el análisis estadístico, pero antes es posible hacer cambios en los grupos y factores escogidos inicialmente; por ejemplo, se puede modificar la variable dependiente, algún valor, o fusionar grupos con los conectores lógicos and y or, a través de la ruta «Tokens>Recode Set Up». Esta opción abre una ventana, como la de la figura 77, en donde el usuario debe copiar los grupos al lado derecho en el orden en que deben quedar, y realizar allí los cambios que se deseen antes de presionar el botón «OK ». Para ilustrarlo, se ha cambiado el orden de los dos primeros grupos, dejando como variable dependiente el tipo de verbo.
Figura 77. Generador de condiciones para recodificar los tokens.
Para fusionar grupos, se debe incluir una regla de condición, que puede agregarse de manera fácil a través de la misma ventana. Se puede adicionar, por ejemplo, un grupo en el que se tengan dos factores, uno que examine los adultos con bachillerato que usaron un verbo distinto (factor x) y otro que examine su complemento. Se seleccionan los grupos a fusionar al lado izquierdo y se presiona el botón «And», con lo que se crea un nuevo grupo al lado derecho; después se seleccionan a la izquierda los rótulos correspondientes a adulto (a), con bachillerato (b), y otro verbo (x), y se escribe en la casilla de la derecha el carácter que los identificará, por ejemplo X; se presiona en la ventana inferior para indicar que no se agregan 191
Julia Marlén Baquero Velásquez
otros factores y se escribe en la siguiente casilla el carácter que se referirá a todos los demás. Aparece una ventana de condición («*.cnd») con la información de la siguiente manera (figura 78).
Figura 78. Ventana de condiciones de agrupación.
Esto quiere decir que la segunda columna de una nueva ventana, realizada automáticamente por el programa al escoger la ruta «Tokens>Recode to New Token File», solo tendrá los valores X y Y. Adicionalmente, se tendrán valores para el grupo presencia o ausencia de pronombre (grupo 1) en la columna 1, y en la tercera y cuarta los valores de los grupos 2 y 4, respectivamente. El resultado final es, entonces, una nueva ventana de tokens con todos los cambios, la cual debe salvarse con otro nombre. Ahora sí se pasa al menú «Cells» para que el programa efectúe el trabajo estadístico, pero antes se escoge la opción «No Recode» en el menú «Tokens» cuando la ventana de condiciones no esté abierta, ya que el usuario debe verificar si son los datos sobre los cuales el programa hace un primer análisis. Se presiona, entonces, «Load Cells to Memory» en el menú «Cells», y el resultado se visualiza en dos ventanas: «*.cel» y «*.res». La primera contiene al comienzo una indicación sobre las variables y los factores, y debajo una tabla en la que aparecen, en la primera columna, tantas filas como combinaciones de variables independientes tenga el archivo objeto de trabajo, seguida de tantas columnas como factores tenga la variable dependiente. En el cruce entre una y otra se indica el número de veces que la secuencia ocurre con cada uno de los factores (figura 79). 192
Goldvarb 2001
Figura 79. Ventana de celdas.
Ello indica, por ejemplo, que la secuencia «cjbf» siempre aparece con el pronombre personal de primera, pues se observa que está ocho veces con él y ninguna vez sin él. Desde luego, si la variable dependiente hubiera sido el tipo de verbo se visualizarían seis columnas con datos numéricos y una con las secuencias encontradas. La segunda ventana, como ya se dijo, contiene las frecuencias de ocurrencias, por lo que incluirá tantas tablas como variables independientes se tengan. Cada tabla indicará, entonces, los valores absolutos y relativos para cada factor de la variable en conexión con los factores de la variable dependiente. En nuestro caso, que es un simple ejercicio construido para ilustrar, el programa arroja la siguiente tabla para la variable tipo de verbo, que puede interpretarse muy fácilmente (figura 80). En el menú «File» de la ventana de resultados puede guardarse la tabla en el lugar que se disponga para ello. Mediante la ruta «Cells>Cross Tabulation», el investigador puede visualizar, en una sola tabla, el comportamiento de dos variables independientes (por ejemplo 2 y 3) con respecto a la dependiente, para lo cual se 193
Julia Marlén Baquero Velásquez
seleccionan las variables en una ventana de diálogo y se obtiene en la parte inferior de la misma ventana un resultado como el que aparece en la figura 81, que también puede leerse fácilmente e interpretarse a la luz de la pregunta objeto de trabajo.
Figura 80. Frecuencias absolutas y relativas para la variable dependiente «tipo de verbo», en comparación con la variable independiente.
Existen otras opciones de cálculo estadístico ubicadas en el menú «Cell», que requieren un conocimiento avanzado de las distribuciones de probabilidad binomiales, útiles para analizar variables con solo dos valores que no hayan sido clasificadas como «knockouts», es decir, variables que no tienen ocurrencias en todos los valores de la variable dependiente. En el ejemplo, las dos únicas variables binarias son «knockouts», así que no es posible realizar ese análisis. De todas maneras, se recomienda el estudio de la 194
Goldvarb 2001
teoría relacionada con las distribuciones binomiales y su relación con el análisis estadístico multivariable para interpretar esos eventuales resultados.
Figura 81. Cross tabulation. Utilidad del programa
• Sin lugar a dudas, la principal ventaja de este programa es la poca exigencia de recursos físicos en el computador. No se necesita de una gran máquina para tenerlo funcionando y, a pesar de ello, su rendimiento es excelente. • Tiene buenas herramientas estadísticas muy útiles para la investigación sociolingüística, y no sólo para esa disciplina, sino también para todas aquellas que hagan uso de la estadística en la búsqueda y validación de resultados.
195
Julia Marlén Baquero Velásquez
�Limitaciones del programa
• Faltan las medidas de tendencia central (moda, promedio, mediana) y de dispersión (desviación estándar, varianza, covarianza). Este tipo de medidas nunca están de sobra en un informe de resultados. • La sencillez del programa es relativa y lo liviano de la aplicación no es gratis. El sistema de codificación es, quizás, lo más complejo del trabajo con Goldvarb, pero es la ventaja más grande que tiene con respecto a otros paquetes estadísticos, puesto que al no tener que lidiar con enormes cantidades de texto para nombrar las variables, la ejecución de sus tareas es mucho más rápida y eficiente. No obstante, realiza un trabajo que se puede efectuar de manera sencilla con programas especializados en análisis estadístico. Incluso la tarea podría hacerse en Excel, con ciertos conocimientos en las funciones estadísticas y matriciales del programa.
196
QUINTA PARTE Organización de bibliografías
La función de los organizadores bibliográficos y listado de programas
La función fundamental de estos programas es facilitar la inclusión de las referencias bibliográficas en un escrito, junto con los datos bibliográficos correspondientes, para lo cual se requiere la construcción de bases de datos por parte de cada usuario. Es por esto que a estos programas también se les conoce como organizadores de bases de datos bibliográficas. Algunos de estos programas realizan las tareas que garantizan tales inclusiones, y otros se especializan en alguna relacionadas con el proceso de organización, por ejemplo, la búsqueda de las referencias en internet 1, la clasificación de los datos bibliográficos en el disco local, la revisión del material disponible, la recopilación de resúmenes de artículos publicados, la inserción y manejo de citas en documentos escritos, etc. Se han desarrollado programas con distintos tipos de licencia porque son muchos los trabajos que se realizan en ese campo. El software propietario interesa a las empresas editoriales, que desarrollan potentes herramientas de búsqueda y organización, mientras que las asociaciones de software libre trabajan constante1
Mediante páginas web especializadas en la búsqueda o pequeños programas que se conectan a las bases de datos, principalmente. 199
Julia Marlén Baquero Velásquez
mente en la generación de formatos compatibles y de libre acceso para el manejo de los datos bibliográficos, lo que ha dado origen a varias aplicaciones, entre las cuales encontramos Bibtex, para el popular sistema Latex, y Pybliographer, para Open Office, por mencionar algunos. Estas son alternativas a la amplia oferta de programas comerciales elaborados principalmente por Thomson y otras editoriales y empresas privadas de software. La idea de utilizar estos programas es que el autor de un documento escrito pueda darle la unidad necesaria al texto en el manejo de los datos bibliográficos y de las referencias internas, despreocupándose de los asuntos formales. Aunque en esta sección nos centraremos en el trabajo con Reference Manager, un programa adquirido por la Universidad Nacional de Colombia, presentamos una lista de programas que cumplen funciones similares2. Programas con licencia freeware
• Bibtex Sistema operativo Windows, Macintosh, Linux. Lenguaje de programación
Usa el lenguaje Latex, que separa el contenido de la presentación (marquillado). Tiene código abierto.
Tareas
Es un completo sistema para organizar la bibliografía, darle estilo e incluirlo dentro del texto, generando la bibliografía de forma automática.
Resultados
Depende del editor de Latex usado. En esencia es un texto marquillado.
2
200
Para informacional adicional sobre programas de este tipo ver: http:// en.wikipedia.org/wiki/Comparison_of_reference_management_software y http://wiki.services.openoffice.org/wiki/Bibliographic_Software_and_ Standards_Information.
La función de los organizadores bibliográficos y listado de programas
Programas con licencia propietario
• Reference Manager Sistema operativo
Windows (varias versiones).
Lenguaje de programación
No especificado. Seguramente hace uso de diversas herramientas de programación para bases de datos y protocolos de conexión a bases de datos remotas.
Tareas
- Ingreso de información bibliográfica (creación de la base de datos). - Búsqueda de referencias en bases de datos (locales y remotas). - Inserción de citas y bibliografía en Word con distintos formatos.
Resultados
Toda la información se presenta en tablas tipo hojas de cálculo.
• End Note Sistema operativo Windows (varias versiones), Macintosh. Lenguaje de programación
No especificado.
Tareas
- Ingreso de información bibliográfica (creación de la base de datos). - Búsqueda de referencias en bases de datos (locales y remotas). - Inserción de citas y bibliografía en Word con distintos formatos. Localización y manejo de archivos pdf en el disco local.
Resultados
A diferencia del anterior, las tablas de los datos no tienen dibujados los bordes.
• Ref Viz Sistema operativo
Windows (varias versiones), Macintosh (Mac os x).
Lenguaje de programación
No especificado.
Tareas
Muestra relaciones entre las referencias de las bases de datos disponibles para encontrar rápidamente libros de interés particular. Hace un análisis de palabras clave (ver programas de concordancia).
Resultados
Gráficas de asociaciones entre las referencias (galaxias y matrices).
201
Julia Marlén Baquero Velásquez
• Bookwhere Sistema operativo
Windows.
Lenguaje de programación
No especificado.
Tareas
- Búsqueda de referencias por internet a través de los sitios Z39.50. - Exporta los resultados para trabajarlos con los programas constructores de las bases de datos.
Resultados
Distintas tablas para organizar la información encontrada.
• Write Note Sistema operativo
Windows, Macintosh (Mac os x), Linux.
Lenguaje de programación
Trabaja sobre una página web, seguramente con Java Scripts o php. No lo especifica.
Tareas
Búsqueda de información bibliográfica en red. Organización de la información encontrada y posibilidad de exportarlo para trabajar con Word.
Resultados
Todo se muestra en una página web.
202
Reference Manager*
Instalación
Este programa solo funciona en las versiones 2000 y XP de Windows y es un software propietario que adquirió la Universidad Nacional de Colombia para uso de docentes, estudiantes y trabajadores. Tiene una versión demo que se puede descargar en www. refman.com. Para instalarlo, se requiere seguir las instrucciones del documento «Procedimiento para la instalación del sistema de gestión de base de datos bibliográfica», que se encuentra en la carpeta \\sinab1\Refmanager en la red interna (intranet) de la Universidad Nacional de Colombia. La instalación es muy sencilla y, una vez hecha, se puede acceder al programa entrando por el menú «Programas» en «Inicio» (figura 82), o también a través del segundo ícono de la barra de herramientas que se inserta en algunos programas (Word, Outlook, etc.) al instalar el RM (Reference Manager). *
Agradezco a la profesora Olga Restrepo por darme a conocer la existencia de este programa y por invitarme a participar en un seminario que dictó en el 2.° semestre de 2006. Sin duda, ello contribuyó a mejorar la guía que inicialmente tenía. 203
Julia Marlén Baquero Velásquez
Descripción
Con este programa se pueden realizar tres tareas básicas: • Ingresar referencias y bibliografía en el momento en que se está escribiendo un documento. • Ingresar la información bibliográfica de cualquier material consultado (libro, artículo, etc.) en fichas organizadas por campos e ir construyendo la(s) base(s) de datos, lo cual puede hacerse manualmente o por medio de búsquedas en internet. • Buscar información bibliográfica en bases de datos locales o compartidas en una red 1.
Figura 82. Inicio>Programas>Reference Manager. 1
204
Existen dos tipos diferentes de bases de datos: las locales y las remotas. Las bases de datos locales se encuentran almacenadas en el computador desde el que se ejecuta RefMan; las remotas están en algún computador conectado a una red. El programa permite copiar la información de una base de datos a otra con gran facilidad, pero obviamente necesita de una conexión a internet o a la red local para tener acceso a las bases de datos remotas o para compartir las bases locales con otros usuarios.
Reference Manager
Trabajo con el programa
Una vez instalado el programa, aparece en Word una nueva barra y se incorpora un nuevo ítem con el nombre Reference Manager en el menú «Herramientas» o en la pestaña complementos de la última versión de Word. Allí se despliega un submenú que permite acceder a las distintas funciones del RM. Para acceder a estas es indispensable crear antes una base de datos. De lo contrario, es imposible realizar otra tarea. Creando una base de datos nueva e insertando un ítem
El RM se abre mediante el ícono del programa y se ingresa a «New Data Base» a través del menú «File», con lo que se despliega una ventana de diálogo en la que el usuario debe indicar la carpeta en la que va a guardar el archivo y el nombre que le quiere asignar. No es recomendable que se construya una base de datos por cada tema, ya que la búsqueda en una sola base de datos resulta mucho más sencilla. Cuando se guarda la base de datos, automáticamente aparecen dos archivos que deben salvaguardarse para poder acceder a ella, para la consulta o inserción de nueva información. Una vez creada esta, se pueden ingresar datos bibliográficos, bien sea manual o automáticamente. Ingresar una referencia manualmente
Se selecciona la opción «New» del menú «References», con lo cual aparece una ficha bibliográfica con los campos: autor, título, fecha, palabras clave, notas, publicación, edición, etc. (Figura 83). No es obligatorio llenar todas los campos para cada documento de la base, pero entre más completa esté la información, mucho mejor. El primer campo se refiere al tipo de referencia que se quiere agregar —revista, libro, mapa, artículo, etc.—. Por defecto aparece el tipo genérico («Generic»), el cual se puede cambiar a otra de las opciones desplegadas al presionar sobre el nombre que aparece por defecto con el botón izquierdo del mouse. El campo «Ref ID» simplemente asigna automáticamente un número de identificación a la referencia que se va a ingresar, para lo cual el programa usa 205
Julia Marlén Baquero Velásquez
por defecto números consecutivos empezando desde uno (1). Estas, junto con los campos «Date, primary» y «Reprint», aparecen con información una vez se abre la ficha, pero pueden ser modificadas por el usuario.
Figura 83. Campos de la base de datos.
Los demás campos, que cambian según la naturaleza de la referencia, debe llenarlos el usuario con base en el material que está agregando. Algunos de estos campos, desde luego, son más importantes que otros, por lo que el usuario puede optar por dejar algunos de ellos en blanco. Es importante tener en cuenta que en este programa el signo de puntuación punto y coma (;) es un delimitador de unidades y, en consecuencia, no debe usarse, por ejemplo,
206
Reference Manager
para separar el apellido del autor de su nombre, sino para separar los datos de dos autores. El resultado obtenido, una vez se llenan los campos deseados y se salva la información, aparece en una ventana como la de la figura 84, en donde se muestra parte de la información relacionada con el libro Grammars and Descriptions.
Figura 84. Información ingresada para un ítem (ejemplo).
Para ingresar otra referencia manualmente se sigue el mismo procedimiento con la función «New», del menú «References», o la tecla Insert. Insertando un nuevo ítem desde una base de datos remota
Para insertar un ítem desde una base de datos remota, se va al menú «Tools» del programa principal y se selecciona la opción «Internet Search», con lo cual se abre una ventana como la de la figura 207
Julia Marlén Baquero Velásquez
85, en donde se puede escoger una de las bases de datos incluidas en el programa: «Z39.50 sites», «Pub Med» e «ISI Web of Science»2. Para ello es necesario que se tenga abierta la base de datos.
Figura 85. Selección de la base de datos remota.
En el caso de las ciencias humanas, de las tres bases se selecciona «Z39.50 site», con lo que se abre una nueva ventana (figura 86) en la que se deben llenar los parámetros de búsqueda.
Figura 86. Ventana de búsqueda en red.
2
208
La primera contiene bibliografía proveniente de muchas universidades del mundo sobre diferentes temas, la segunda exclusivamente bibliografía médica y la tercera corresponde a un sitio comercial que ofrece búsqueda en catálogo, pero no está disponible en este momento.
Reference Manager
Sin embargo, antes de llenar los parámetros de búsqueda es importante seleccionar las bases de datos en las que el usuario considera que se pueden encontrar los documentos que se quieren tener en las fichas bibliográficas. La primera vez que se quiere hacer una búsqueda automática, también es importante configurar el host cuando el programa se ejecuta en un computador que requiere autorización proxy para conectarse a sitios remotos de internet. Selección de bases y configuración del host
Para seleccionar las bases de datos, se presiona sobre el ícono del host (figura 87) que aparece en la ventana «Search». Ello exhibe una nueva ventana con los sitios a los que se puede acceder desde la base «Z39.50 sites», y en ella el usuario debe seleccionar uno o dos lugares claves (figura 88)3.
Figura 87. Ícono de host.
Hecha esta selección se presiona el botón «Configure Host», que se encuentra en la parte inferior de la misma ventana, con la finalidad de configurar la conexión a internet, cuando sea necesario. De lo contrario, se puede obviar esta configuración o seleccionar la opción «Not using a Proxy Server» en la misma ventana. En la nueva ventana desplegada, se presiona el botón «Proxy Server» (octavo botón), para acceder a otra ventana que debe llenarse de acuerdo con las indicaciones del proxy en el que se esté trabajando (figura 89). 3
Es mejor no marcar muchas opciones para que la búsqueda sea más rápida. De lo contrario, el buscador repite el mismo texto cada vez que lo encuentre en una biblioteca distinta, y puede emplear mucho más tiempo. 209
Julia Marlén Baquero Velásquez
Figura 88. Listado de bases remotas.
Figura 89. Configuración del proxy. Búsqueda
Para realizar la búsqueda se regresa a la ventana de la figura 85 presionando los botones de «Aceptar». En la ventana «Search», dependiendo de los datos que se tengan, se escoge una de las opciones desplegadas en la columna «Field» (autor, ISBN, ISSN, etc.) 210
Reference Manager
y se escribe el dato correspondiente en la columna «Parameter». Si se conocen más datos se pueden escribir en las siguientes filas, tal y como se muestra en la figura 90, haciendo uso de los conectores lógicos que se encuentran en la primera columna, y se da la orden de buscar mediante el ícono de búsqueda o la tecla F 12.
Figura 90. Ejemplo de búsqueda.
Los resultados de la búsqueda se presentan en una nueva hoja con dos zonas. En la zona inferior aparecen las distintas publicaciones que se ajustan a los parámetros de búsqueda, y en la superior los datos correspondientes a cada una de ellas, según se vayan seleccionando (figura 91). Para poder guardar la información se deben pasar los datos de las publicaciones que se consideren pertinentes a la base de datos que se tiene en el computador personal. Para ello, se marcan las casillas de verificación de las publicaciones que se quieren guardar, y se usa la opción «Copy Between Databases» del menú «References». Aparece un cuadro de diálogo como el de la figura 92, que debe llenarse con los datos de la hoja de origen y la hoja de destino, activando la opción que se ha usado (referencias resaltadas, marcadas, no marcadas o toda la lista).
211
Julia Marlén Baquero Velásquez
Figura 91. Vista de los ítems encontrados en la búsqueda.
Figura 92. Opciones de copia entre bases de datos.
212
Reference Manager
Trabajando con Word
Ahora que la base de datos local tiene algunas fichas bibliográficas, se puede regresar a Word a través del ícono que contiene el RM o simplemente abriendo el programa, con el fin de insertar referencias y de manera automática construir la bibliografía. Desde luego, el RM tiene muchas opciones adicionales que se pueden explorar con el manual, ya que esta introducción no da cuenta sino de los aspectos más esenciales. Para insertar una referencia, el programa cuenta con el botón «Insert Citation»4, al cual se puede acceder desde Word. Al presionar el botón, se abre una ventana de búsqueda en la que debe escribirse algún dato, regularmente el nombre del autor, y se oprime el botón «Perform Search». El buscador lo busca en la base de datos local y arroja como resultado la lista de los documentos que se ajustan a la descripción. Una vez se selecciona uno de los documentos y se oprime el botón «Insert», el programa inserta la referencia en el lugar en que se tenga el cursor y automáticamente el dato bibliográfico completo en la sección de la bibliografía. Modificando el estilo en
rm
Como es sabido, el estilo de las referencias y de la presentación bibliográfica varía de una publicación a otra, bien sea porque el autor se acomoda más a una forma determinada o porque una comunidad específica adopta una convención proveniente de una tradición o de decisiones que internamente se toman. Ello tiene como consecuencia la existencia de una diversidad de maneras de presentar estos datos al momento de escribir, situación que impediría hablar, como a menudo suele hacerse en algunos ámbitos académicos, de la «forma» de presentar bibliografía y de hacer las referencias. Pasa a ser importante, entonces, la consistencia en el manejo de una con-
4
Otra forma de insertar una cita en el documento de Word es seleccionar alguna de las referencias directamente en la base de datos y, luego, para completar la tarea, oprimir el botón «Insert Marked Reference(s)». Es necesario tener cuidado de no marcar varias referencias en la base, pues se insertarán todas las que aparezcan con el botón de verificación activo. 213
Julia Marlén Baquero Velásquez
vención a lo largo del escrito o, de hecho, la adopción de un estilo exigido por el medio en que se quiera publicar. Ahora bien, el RM permite hacer cambios de estilo, debido a que no solo tiene incluidos los formatos de un buen número de revistas de distintas áreas, sino que también permite hacerles modificaciones para generar un nuevo formato. Se puede escoger el estilo definitivo antes de comenzar el trabajo, pero también se pueden insertar los datos con el formato que viene por defecto y después escoger la opción definitiva. Hacer esto es muy sencillo. Los siguientes son resultados arrojados por este programa al modificar el estilo de un pequeño texto en el que se insertaron varias referencias. Cada ejemplo incluye el texto con un formato determinado y la bibliografía que el programa va incluyendo a medida que se inserta la referencia. Las diferencias tienen que ver con aspectos como los siguientes: orden de presentación de la bibliografía, el uso de diferentes signos de puntuación para separar unidades, el empleo o no de negrillas, citas con estilo autor/año o con numeración, etc.
Formato 1. American Psychological Association La base fundamental del planteamiento será la teoría semiótica (Greimas, 1971), los principios pragmáticos de cooperatividad (Grice, 1975; Bach & Harnish, 1979) la teoría de los actos de habla (Searle, 1969), y teorías sobre la lingüística provenientes de autores diferentes, entre ellas, la teoría de la referencialidad (Donnellan, 1971), que permite presentar y sustentar una hipótesis sobre posibles tipos de preguntas. BIBLIOGRAFÍA Bach, K. & Harnish, R. M. (1979). Linguistic Communication and Speech Acts. Cambridge: The MIT Press. Donnellan, K. (1971). Reference and definite descriptions. In D.Steinberg & L. Jakobovits (Eds.), Semantics (pp. 100-114). Cambridge Eng: University Press. Greimas, A. J. (1971). Semántica estructural: Investigación metodológica. Madrid: Gredos.
214
Reference Manager
Grice, H. P. (1975). Logic and conversation. In P.Cole & J. L. Morgan (Eds.), Syntax and Semantics 3: Speech acts (pp. 4158). New York: Academic Press.
Formato 2. Analythical Biochemistry La base fundamental del planteamiento será la teoría semiótica [1], los principios pragmáticos de cooperatividad [2;3] la teoría de los actos de habla [4], y teorías sobre la lingüística provenientes de autores diferentes, entre ellas, la teoría de la referencialidad [5], que permite presentar y sustentar una hipótesis sobre posibles tipos de preguntas. BIBLIOGRAFÍA [1] Greimas, A. J. Semántica estructural: Investigación metodológica, Gredos, Madrid, 1971. [2] H. P. Grice, Logic and conversation, In: Cole, P. and Morgan, J. L. (Eds.), Syntax and Semantics 3: Speech acts, Academic Press, New York, 1975, pp. 41-58. [3] Bach, K. and Harnish, R. M. Linguistic Communication and Speech Acts, The MIT Press, Cambridge, 1979. [4] Searle, J. R. Speech acts: an essay in the philosophy of language, Cambridge University Press, London, 1969. [5] K. Donnellan, Reference and definite descriptions, In: Steinberg, D. and Jakobovits, L. (Eds.), Semantics, University Press, Cambridge Eng, 1971, pp. 100-114.
Formato 3. Linguistic Inquiry La base fundamental del planteamiento será la teoría semiótica (Greimas 1971), los principios pragmáticos de cooperatividad (Bach, Harnish 1979, Grice 1975), la teoría de los actos de habla (Searle 1969), y teorías sobre la lingüística provenientes de autores diferentes, entre ellas, la teoría de la referencialidad (Donnellan 1971), que permite presentar y sustentar una hipótesis sobre posibles tipos de preguntas. 215
Julia Marlén Baquero Velásquez
BIBLIOGRAFÍA Bach, Kent, and Robert M. Harnish. 1979. Linguistic Communication and Speech Acts. Cambridge: The mit Press. Donnellan, Keith. 1971. Reference and definite descriptions. In Semantics, ed. D Steinberg, and L. Jakobovits, 100-114. Cambridge Eng: University Press. Greimas, Algirdas Julien. 1971. Semántica estructural: Investigación metodológica. Madrid: Gredos. Grice, H. P. 1975. Logic and conversation. In Syntax and Semantics 3: Speech acts, ed. Peter Cole, and Jerry L Morgan, 41-58. New York: Academic Press. Searle, John R. 1969. Speech acts: an essay in the philosophy of language. London: Cambridge University Press.
Para hacer modificaciones, entonces, se abre la ventana «Reference Manager Generate Bibliography» mediante el botón correspondiente que aparece en Word, o por la ruta «Tools>Bibliography>Generate from Reference List del RM ». Con ello se abre una nueva ventana, que tiene tres pestañas: «General», «Bibliography» y «Page» (figura 93).
Figura 93. Ventana para los cambios de estilo.
216
Reference Manager
En ellas se pueden hacer varios cambios: seleccionar el estilo de salida, la fuente y el tamaño, el título de la bibliografía, el estilo de la bibliografía y el orden de las citas, introducir un número de referencia cuando se enumera la bibliografía, seleccionar la sangría o la entrada de la primera línea, el tamaño del interlineado en cada cita y el espacio entre una referencia y otra, añadir o eliminar los campos visualizados al imprimir cada referencia, visualizar las bases de datos referenciadas en el documento cuando se escogen datos de distintas bases. El usuario del RM podrá explorar otros botones que remiten a la edición de referencias, inserción de notas, edición de bases de datos, elisión de los códigos de campo, etc. El manual que acompaña el programa es bastante completo y por ello se remite al lector a él para adquirir un mayor dominio de la herramienta. ���Conclusiones
• Reference Manager es un programa muy completo y sencillo para construir grandes bases bibliográficas. • Es un programa comercial con todas las restricciones e implicaciones negativas que ello pueda traer. • Inserta de forma sencilla las referencias y la bibliografía dentro de Word, el programa más usado para la edición de documentos.
217
Bibliografía
Alchemist v2.0, A GUI-based tool for analyzing morphemes and creating morphological gold-standards in XML format (s. f.). Recuperado el 22 de febrero de 2008, en http://linguistica.uchicago.edu/docs/ alchemist/alchemistv2_0_final.pdf. Alegría, I. (1996). «Morfología de estados finitos». Procesamiento del lenguaje natural, 18, 1-24. Antworth, E. (1991). Introduction to Two-level Phonology. Recuperado el 23 de mayo de 2008, en http://www.sil.org/pckimmo/two-level_ phon.html. Biber, D., Conrad, S. y Reppen, R. (1998). Corpus linguistics: Investigating Language Structure and Use. Cambridge: Cambridge University Press. Buseman, A. y Buseman, K. (2007). Toolbox Self-Training How to use the Field Linguist’s Toolbox. Documento en word que acompaña al software. Cifuentes, P. (2007). Parser Modular. Tesis de pregrado, Universidad Nacional de Colombia, Bogotá, Colombia. Davies, M. (2007). Corpus del Español. Utah: Brigham Young University. Consultado 2 de abril de 2008 en http://www.corpusdelespanol.org. Demers, R. y A. Farmer. (2001). A linguistics woorkbok. Cambridge: Massachusets Institute of Techonology. Derrick, D. (2006). Treeform Help doc. Documento en html que acompaña al software. Francis, W. N. y Kucera, H. (1979). Brown corpus manual. Consultado el 2 de abril de 2008 en http://icame.uib.no/brown/bcm.html. Hammarström, H. (2002). Overview of IT-based tools for learning and training grammar. Informe de investigación. Recuperado el 25 de abril de 2008, en http://www.cs.chalmers.se/~harald2/gramtool.pdf. Lancia, F. (2004). T-Lab User’s Manual, version pro 4.1. Recuperado el 23 de noviembre de 2007, en http://www.tlab.it/en/download.php. Laurence, A. (2004). AntConc: A learner and classroom friendly, multiplatform corpus analysis toolkit. Recuperado el 24 de agosto de 2008, 219
Bibliografía
del sitio web del Center for English Language Education in Science and Engineering School of Science and Engineering de la Waseda University, Tokyo, Japan. Martínez, A. (1995). Manual práctico de HTML . Escuela Técnica Superior de Ingenieros de Telecomunicación, Universidad Politécnica de Madrid, Madrid, España. Consultado el 22 de mayo de 2008, en http://www-app.etsit.upm.es/~alvaro/manual/manual.html. McConnel, Stephen. (1995). Pc-patr reference manual. Consultado el 23 de junio de 2007 en www.sil.org/pcpatr/manual/pcpatr.html. Moreno, J. C. (1991). Curso universitario de lingüística general (vol. 1). Madrid: Síntesis. Rand, D. y D. Sankoff. (1990). Goldvarb, A variable rule aplication for the MacintoshTM . Manual consultado en línea el 2 de noviembre de 2008, en http://albuquerque.bioinformatics.uottawa.ca/GoldVarb/ GoldManual.dir/index.html. Real Academia Española: Banco de datos (Corde) [en línea]. Corpus diacrónico del español. Consultado el 5 de junio de 2008, en http:// www.rae.es. Real Academia Española: Banco de datos (CREA) [en línea]. Corpus de referencia del español actual. Consultado el 5 de junio de 2008, en http://www.rae.es.
SIL International. (s. f.). PC-Kimmo: A morphological parser. Consultado el 15 de marzo de 2007, del sitio Web del Instituto Lingüístico de Verano, en http://www.sil.org/pckimmo/. Sinclair, J. (1994). Eagles. Preliminary recommendations on corpus typology. Consultado el febrero de 2009, en http://www.ilc.cnr.it/ eagles96/corpustyp/corpustyp.html. Spolsky, J. (2003). The absolute minimum every software developer absolutely, positively must know about Unicode and character sets. Consultado el 16 de febrero de 2009, en http://www.joelonsoftware. com/articles/Unicode.html. Torruella, J. y Llisterri, J. (1999). «Diseño de corpus textuales y orales». En J. M. Blecua, G. Claveria, C. Sánchez y J. Torruella (eds.), Filología e Informática. Nuevas tecnologías en los estudios filológicos (45-77). Barcelona: Seminario de Filología e Informática,
220
Bibliografía
Departamento de Filología Española, Universidad Autónoma de Barcelona. Editorial Milenio. Thomson, R. (2006). Reference Manager 11. User’s guide. Consultado en noviembre de 2006, en http://www.sinab.unal.edu.co/pdf/RM11_ Ingles.pdf. Villayandra, M. (2006). La linguistica de corpus como metodología lingüística. León, España: Universidad de León. Consultado el 14 de febrero de 2008 en http://www3.unileon.es/dp/dfh/Milka/LCII/ Corpus1.pdf Velásquez, F., Gelburk, A. y Sidorov, G. (s. f.). AGME: Un sistema de análisis y generación de la morfología del español. México: Centro de investigaciones en computación, Instituto Politécnico Nacional. Consultado el 20 de agosto de 2009 http://www.gelbukh.com/CV/ Publications/2002/MLIA-2002-Morph.pdf.
221
Índice de materias
AGLE , 38, 50 Alchemist, 16, 35, 105, 111, 112, 119, 121, 130 Algoritmo, 103, 153 Análisis, passim – cualitativo, 29 n. 1, 30, 162-164 – cuantitativo, 15, 28 n. 1, 98, 163 – del discurso, 16, 36, 75, 161, 163, 177, 183 – del texto, 16, 161, 163, 180 lexical, 122 – morfológico, 101-103, 104, 105, 107, 111, 115, 135, 146, 154 – sintáctico 101-103, 109 AntConc, 15, 58, 61, 65 Antmover, 58 n. 7, 164, 167, 169, 170 Arthus, 37, 50 ASCII, 22, 60, 78, 112, 124, 126, 127 Atlas-ti, 16, 163 Cálculo, 28, 72, 74, 76, 85, 95, 172, 175, 177, 181, 194 – de variables, 177 – del factor Keyness, 62 – estadístico, 194 – matemático, 74 Campo(s) (field(s)), 17, 115, 123, 127, 130-135, 139, 148, 172, 204-207, 217 Categoría (s), subcategoría(s), 30, 33-35, 38, 39, 41, 44, 46, 50, 57 n. 5, 80, 105, 115, 118, 130, 135, 153, 164, 168, 170, 173, 178-180, 182, 183 – gramaticales, 33 – semánticas, 38 Clusters, 15, 56, 62, 65, 71, 72, 92-94, 174
Codificación, 14, 21-23, 60, 63, 64, 78, 79, 112, 123, 125, 127, 151, 189, 190, 196 Colocaciones (Collocates), 15, 45, 49, 50, 56, 58, 65, 62, 72, 73 Comando, 107, 108, 132, 149-151, 165 Comodines, 40, 46, 50, 56, 68 Concordancias (Concordances), 15, 16, 39, 40, 49-55, 57-60, 61, 65, 67-69, 84-86, 140, 141, 142, 162-164 Contexto, 15, 35, 44-48, 50, 53, 56, 60, 61, 68, 70, 71, 74, 80, 82, 84-86, 88, 90-92, 95, 101, 104, 124, 135, 137, 140142, 161, 162 Corde, 15, 37, 38, 40, 41, 43, 49 Corpus (corpora), 14-23, 25-50, 53-56, 59-68, 71, 75, 78-88, 90-92, 94-97, 105-108, 112, 115, 117-119, 121-125, 127130, 136, 137, 141, 144, 161, 163, 178 Correspondencia, 147 Covarianza, 196 CREA, 15, 36-38, 41-43, 49, 53 Desambiguación, 81-83 Descomposición, 150, 157 Diagrama, 88, 105, 108, 109, 151 Diccionarios, 35, 77, 80-81, 83, 84, 105, 122, 130-133, 135, 136, 139, 140, 142, 178 – lexicales, 59 Diction, 163-165,177, 179, 183 Discurso, 161, 178, 180, 182, 183 DOS , 107, 109, 121, 145, 149 n. 4, 154 Elementos lexicales, 148 Entradas, 149 – lexicales, 148 Equivalencia(s), 22, 118
223
Índice de materias
Español, 15, 22, 23, 35-46, 49, 50, 114, 117, 118, 125, 126, 131, 152, 175, 180 n. 6, Estructura, 16, 30 n. 3, 36, 101-104, 107109, 145 n. 1, 146, 149-158, 162, 165, 167, 168, 172, 175 – arbórea, 107-109, 150, 157 – parentética, 108, 109 Etiquetas, etiquetados, 29, 31, 34, 35, 39, 60, 106, 108, 130 Factor Keyness, 59, 62, 74 Filtro(s), 105, 115, 117 Fonética, 36, 63, 124, 125 Frecuencia(s), 31, 39, 40, 44, 45, 49, 53-56, 58-62, 64-67, 71, 74-76, 80, 82, 84, 86, 136, 182 Freeware, 57, 58, 111, 164, 200 Funciones, 56, 59, 84, 107, 108, 124, 131, 154, 157, 161, 162, 178, 196, 200, 205 Glosa (s), 130, 131, 135, 150, 151 GNU, 155, 157 Goldvarb, 14, 185, 187, 196 Gramática (grammar), 16, 27, 42, 104, 105, 108, 146, 149, 150 n. 6 GUI, 109
HTML , 30, 33-35, 43, 60, 62, 91, 165, 166 Hypercard, 103 n. 1 Instrucción, 15, 128 Internet, 14, 15, 33, 35, 36, 42, 43, 53, 56, 61, 78, 104, 106, 118, 125, 152, 166, 177, 202, 204, 209 ISO, 22, 23, 60
Lema, 35, 39, 44-49, 54, 66, 80, 82, 83, 90 Lematización, 59, 79, 80, 106, 154 Lengua, 16, 21, 25-27, 30, 31, 37, 38, 42, 49, 55, 73, 81, 101-103, 105, 112, 119, 122, 124-127, 130, 131, 149, 152, 153, 156, 162, 180 n. 6 – vernacular, 130 Lenguaje, 21, 25, 28, 30, 32-35, 46, 75, 102, 106, 109, 117, 153, 162, 164-167, 178, 183, 185, 20 de programación, 33, 58, 59, 61, 104, 105-108, 167, 200-202 Lexema, 133, 135 Lexicón, 103 n. 1, 104, 109, 146, 148, 149, 152, 153 Lingüística, 13, 16, 22, 23, 25, 26, 27, 28, 31, 39, 41, 50, 75, 102, 104, 111, 153, 162, 214, 215 – computacional, 13, 17, 26, 153 – de corpus, 15, 25, 26, 28, 30, 75, 161, 177 Lingüística (software), 106, 119 Marcas, 124, 132, 151, 170, 190 Marcas textuales, 41 Morfema, 112-119, 122, 130, 133, 135, 137, 141-143, 151 Multidimensional scaling, 85 Multivariable, 186, 195 Normalización, 79, 80
OCR (Optical Character Recognition), 30
Java, 108, 155, 202 JPG, 30, 157 Keyword, 15, 74, 75 KWIC , 68 Language Encodings, 63, 64 224
Palabras vacías, 80, 82 Palatalization (palatización), 146, 147 Parámetros, 29, 31, 38, 42, 74 n. 3, 208, 209, 211 Parsers (analizadores automáticos), 104, 105, 107, 150, 152
Índice de materias
PC-Kimmo, 16, 104, 107, 147, 149, 151, 154 Perl, 58, 61, 164, 167 Plot, 61, 65, 66, 67 Poliformas, 80, 82 Procesadores, 21 Programa de marquillado (etiquetador), 117 Programación, 21, 33, 112, 153, 174 Proyecto, 37, 111, 122, 124, 125, 127, 131, 133 n. 6, 135, 149 n. 5, 154, 174, 175 Racimos, 91, 93 Raíz, 80, 112, 114, 116, 119, 133, 151, 152 Rasgos, 33, 44, 46, 56 n. 3, 68, 122, 156, 161, 174, 178 – lexicales, 161 Reference Manager, 17, 200, 201, 203205, 216, 217 Regex, 69, 106 Registro, 31, 37, 53, 130, 162 RTF, 30, 143, 144, 166
Sustantivo, 44, 48, 56, 66, 80, 114, 143, 148, 151 Tags, 33 Texto, passim – plano, 14, 21, 30, 32, 60, 78, 111, 125, 127 Tiger Search, 35, 106, 108 T-Lab, 14-16, 23, 60, 77-82, 84-86, 163 Token, 35, 186, 189, 192 Toolbox, 14, 16, 121-124, 127 n. 2, 128, 130, 142, 148 Treeform, 14, 16, 109, 153, 155 Umbral, 71, 75 Unicode, 22, 23, 60, 63, 112 UTF, 23, 63, 112, 123, 125, 127, 132 Variable(s), 95, 179, 182, 183, 187, 190-194 Verbo, 44, 47, 141, 151, 186-188, 191, 193 Versatilidad, 112, 119 Word clusters, 15, 72
Secuencia, 15 n. 1, 21, 26, 34, 56, 72, 80, 82, 140, 141, 148, 151, 172, 192, 193 Segmentación, 80, 112, 128, 129 Semántica, 34, 39, 214, 215, 216 SGML , 34, 41 Shareware, 57 n. 6, 59, 166 Significado, 46-49, 54, 64, 68, 80, 82, 86, 117, 118, 135, 137, 183 Signo, 22, 78, 102, 182, 189, 206 Símbolo (s), 21, 143 Sinónimos, 41,47, 49, 50, 135 Sintaxis, 34, 45, 46, 56, 69, 102, 104, 108 Sistema(s), passim Sistema operativo, passim Software, 15, 57 n. 5 y n. 6, 64, 77, 79, 122, 127 n. 2, 167, 178, 199, 200, 203 Subconjuntos, 15, 39, 60, 85, 90, 94, 95, 148
225
Índice de nombres
Admyte, 42 Adobe, 185 Alfonso X, 55 American Psycological Association, 214 (ANSI), Instituto Norteamericano de Estándares 22, 78, 107 Anthony, Laurence, 61, 167 Arias, César A., 14
Labov, William, 168 Lancia, Franco, 78 Linguistic Inquiry, 215 Linux, 58, 61, 77, 106-109, 121, 154, 200, 202
Berners Lee, Tim, 33 Biblioteca Virtual Miguel de Cervantes, 42 Brown University Corpus of American English, 26
National Endowment for the Humanities (NEH), 37, 42
Chomsky, Noam, 27 Cifuentes, Paul, 152 Comedias (www.comedias.org), 42 Davies, Mark, 37, 38, 42, 50, 54 Departamento de Lenguas y Ciencias Extranjeras de la Universidad de York, 185 Derrick, Donald, 155 Enciclopedia Encarta, 42
Mac OS , 58, 103 n. 1, 106-109, 152 n. 9, 165, 185, 201, 202 Macintosh, 58, 106, 200-202
Perry, Roberto, 58 n. 7, 103 n. 1, 152 n. 9 Real Academia de la Lengua Española (RAE), 15, 35, 36 n. 3, 38, 41, 49 Sprague, Colin, 111 Todorov, Tzvetan, 168 Van Dijk, Teun, 167 Wimbish, John, 121 Windows, 58-59, 61, 77, 105-109, 111, 118, 121, 122, 145, 154, 164-167, 177, 185, 200-203
Goldsmith, John, 111 Hart, Roderick P., 177 Hispanic Seminary of Medieval Studies, 42 Hu, Yu, 111 Kattunen, Lauri, 146 Koskenniemi, Kimmo, 146
227
Lingüística computacional aplicada, e di ta d o p or e l C e n t ro E di t or i a l de l a Fac u lta d de c i e nc i a s h u m a na s de l a u n i v e r si da d nac iona l de c ol om bi a, FOR M A PA RT E DE L A BI bL IO T E C A A BI E RTA, C OL E C C IÓN GE N E R A L , SE R I E L i n g ü í s t ic a . E L T E X T O F U E C OM PU E S T O E N C A R AC T E R E S M I N ION Y F RU T IGE R . SE U T I L I Z Ó PA PE L I vory de 59 , 2 GR A MO S Y, E N L A C A R ÁT U L A, PA PE L K I M BE R LY DE 2 2 0 GR A MO S. e l l i bro se t e r m i nó de i m pr i m i r e n b o g o tá, e n l a f u n dac ión c u lt u r a l jav e r i a na de a rt e s gr Á f ic a s , jav e gr a f, e n e l a ño 2 010.