Diacronía de las lenguas iberorrománicas: Nuevas aportaciones desde la lingüística de corpus 9783865278685

Reúne 21 trabajos sobre diversos aspectos del desarrollo y explotación de herramientas informáticas para el estudio hist

276 86 3MB

Spanish Pages 416 [420] Year 2009

Table of contents :
ÍNDICE
Prefacio
Introducción. Lingüística de corpus y diacronía de las lenguas iberorrománicas
I. CUESTIONES FILOLÓGICAS
El Corpus de Documentos Españoles Anteriores a 1700 (CODEA)
Los documentos americanos (o indianos) en la red CHARTA
Confección de un corpus para conocer el origen, la evolución y la consolidación del español en la Nueva España
II. DISEÑO DE CORPUS PARA FINES ESPECÍFICOS
Un corpus para un Nuevo diccionario histórico del español
Bases científicas en la investigación a partir de corpus: el caso del Corpus Informatitzat del Català Antic
Pensando un corpus en modo colaborativo: hacia el prototipo del corpus judeoespañol digital
III. CUESTIONES DE ARQUITECTURA INFORMÁTICA
Creating useful historical corpora: A comparison of CORDE, the Corpus del español, and the Corpus do português
Using non-annotated diachronic corpora: benefits, methods and limitations
IV. CORPUS Y VARIEDADES IBERORROMANCES
Un corpus lingüístico asturiano: Eslema
O corpus do galego medieval Tesouro Medieval Informatizado da Lingua Galega (TMILG)
El proyecto de “Edición del fichero manuscrito de léxico judeoespañol de Cynthia Crews”
El Corpus diacrónico del español del Reino de Granada (CORDEREGRA)
Uso de corpus documental en sociolingüística histórica y retos para su elaboración en el sureste peninsular (siglos XV-XVII)
V. LA BIBLIA COMO CORPUS
Ventajas e inconvenientes del uso de Biblia medieval (un corpus paralelo y alineado de textos bíblicos) para la investigación en lingüística histórica del español
Describir textos a partir de estructuras de ilación oracional: un corpus de romanceamientos bíblicos medievales
Notas sobre los nexos concesivos en los romanceamientos bíblicos medievales
VI. APLICACIONES DEL USO DE CORPUS EN LA HISTORIA DEL ESPAÑOL
MOCA: análisis de corpus en línea en un contexto histórico
Las estructuras tipo meter miedo en diacronía: más detalles sobre la evolución histórica de las colocaciones causativas
El rastreo del desarrollo de algunos pronombres personales en español: (im)posibilidades de los corpus diacrónicos digitales
Los corpus diacrónicos al servicio del estudio de los arcaísmos gramaticales
Notas aclaratorias sobre la historia del indefinido alguien: Una aplicación directa del uso de corpus diacrónicos

Recommend Papers

Las nuevas caras de la derecha

Un fantasma recorre el mundo de hoy, y no es precisamente el comunismo, sino una nueva derecha que gana espacios en Euro

361 117 673KB Read more

La fuerza de los pequeños. Hacer teología de la liberación desde las nuevas resistencias y esperanzas 9789974873186

¿Cómo debería hacerse la reflexión teológica para constituirse en buena noticia al interior de un escenario mundial y co

289 66 21MB Read more

Historia de las lenguas de Europa

732 150 9MB Read more

Nuevas perspectivas en la utilización de las TIC: informe 2010

387 53 3MB Read more

La transmisión de conceptos cristianos a las lenguas amerindias Introducción

114 4 607KB Read more

Aportaciones a la crítica de mí mismo

«He alcanzado el último año del décimo lustro, y me es útil, durante la pausa ideal sugerida a mi espíritu por esta fech

377 114 408KB Read more

La transmisión de conceptos cristianos a las lenguas amerindias ‘Salvando las almas de los indios’: Los conceptos de ‘alma/ánima’ en las lenguas coloniales náhuatl y quechua

101 70 770KB Read more

Las Lenguas de España. Política lingüística, sociología del lenguaje e ideología desde la Transición hasta la actualidad. 8484892166, 9788484892168

El volumen reúne nueve trabajos que analizan la situación actual de las lenguas de España: el gallego, el euskera y cata

149 45 844KB Read more

Las Lenguas de España. Política lingüística, sociología del lenguaje e ideología desde la Transición hasta la actualidad. 9783865278593

El volumen analiza la situación actual de las lenguas de España: el gallego, el euskera y catalán (también en territorio

120 57 935KB Read more

Desigualdades heredadas: El rol de las habilidades, el empleo y la riqueza en las oportunidades de las nuevas generaciones 9789804222771

97 6 19MB Read more

Diacronía de las lenguas iberorrománicas: Nuevas aportaciones desde la lingüística de corpus
9783865278685

Author / Uploaded
Andrés Enrique-Arias (editor)

0 0 0
Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up

File loading please wait...

Citation preview

A n d ré s E n r i q u e - A r i a s ( e d . ) D i a c ro n í a d e l a s l e n g u a s i b e ro r ro m á n i c a s : nu eva s a p o r t a c i o n e s desde la lingüística de corpus

L I N G Ü Í S T I C A

I B E R OA M E R I C A N A Vo l . 3 7

DIRECTORES: MARIO BARRA JOVER, Université Paris VIII IGNACIO BOSQUE MUÑOZ, Universidad Complutense de Madrid ANTONIO BRIZ GÓMEZ, Universitat de València GUIOMAR CIAPUSCIO, Universidad de Buenos Aires CONCEPCIÓN COMPANY COMPANY, Universidad Nacional Autónoma de México STEVEN DWORKIN, University of Michigan ROLF EBERENZ, Université de Lausanne MARÍA TERESA FUENTES MORÁN, Universidad de Salamanca DANIEL JACOB, Universität Freiburg JOHANNES KABATEK, Eberhard-Karls-Universität Tübingen EMMA MARTINELL GIFRE, Universitat de Barcelona JOSÉ G. MORENO DE ALBA, Universidad Nacional Autónoma de México RALPH PENNY, University of London REINHOLD WERNER, Universität Augsburg

A n d ré s E n r i q u e - A r i a s ( e d . )

Diacronía de las lenguas iberorrománicas: nuevas aportaciones desde la lingüística de corpus

I b e ro a m e r i c a n a

•

Ve r v u e r t

•

2009

Reservados todos los derechos © Iberoamericana, 2009 Amor de Dios, 1 – E-28014 Madrid Tel.: +34 91 429 35 22 Fax: +34 91 429 53 97 [email protected] www.ibero-americana.net © Vervuert, 2009 Elisabethenstr. 3-9 – D-60594 Frankfurt am Main Tel.: +49 69 597 46 17 Fax: +49 69 597 87 43 [email protected] www.ibero-americana.net ISBN 978-84-8489-484-1 (Iberoamericana) ISBN 978-3-86527-506-6 (Vervuert) Depósito Legal: Diseño de la cubierta: Carlos Zamora Impreso en España The paper on which this book is printed meets the requirements of ISO 9706

ÍNDICE

Prefacio ........................................................................................................

9

Andrés Enrique-Arias Introducción. Lingüística de corpus y diacronía de las lenguas iberorrománicas.........................................................................................................

11

I. CUESTIONES FILOLÓGICAS Pedro Sánchez-Prieto Borja/Florentino Paredes García/Rocío Martínez Sánchez/Ruth Miguel Franco/María Simón Parra/Irene Vicente Miguel El Corpus de Documentos Españoles Anteriores a 1700 (CODEA)............

25

Micaela Carrera de la Red/Miguel Gutiérrez Maté Los documentos americanos (o indianos) en la red CHARTA ....................

39

Beatriz Arias Álvarez Confección de un corpus para conocer el origen, la evolución y la consolidación del español en la Nueva España .....................................................

55

I I . D I S E Ñ O D E C O R P U S PA R A F I N E S E S P E C Í F I C O S José A. Pascual/Carlos Domínguez Un corpus para un Nuevo diccionario histórico del español .......................

79

Joan Torruella Casañas Bases científicas en la investigación a partir de corpus: el caso del Corpus Informatitzat del Català Antic......................................................................

95

Ana Stulic-Etchevers/Soufiane Rouissi Pensando un corpus en modo colaborativo: hacia el prototipo del corpus judeoespañol digital .....................................................................................

117

III. CUESTIONES DE ARQUITECTURA INFORMÁTICA Mark Davies Creating useful historical corpora: A comparison of CORDE, the Corpus del español, and the Corpus do português ...................................................

137

Kim Schulte Using non-annotated diachronic corpora: benefits, methods and limitations ..............................................................................................................

167

I V. C O R P U S Y V A R I E D A D E S I B E R O R R O M A N C E S Xulio Viejo Fernández/Arsenio Coto Pérez/María Cueto Fernández/ Roberto Hinojal Díaz Un corpus lingüístico asturiano: Eslema......................................................

183

Ricardo Pichel/Xavier Varela Barreiro O corpus do galego medieval Tesouro Medieval Informatizado da Lingua Galega (TMILG)..........................................................................................

195

Aitor García Moreno El proyecto de “Edición del fichero manuscrito de léxico judeoespañol de Cynthia Crews” ............................................................................................

217

Miguel Calderón Campos/María Teresa García Godoy El Corpus diacrónico del español del Reino de Granada (CORDEREGRA)........................................................................................................

229

Mercedes Abad Merino Uso de corpus documental en sociolingüística histórica y retos para su elaboración en el sureste peninsular (siglos XV-XVII)...................................

251

V. L A B I B L I A C O M O C O R P U S Andrés Enrique-Arias Ventajas e inconvenientes del uso de Biblia medieval (un corpus paralelo y alineado de textos bíblicos) para la investigación en lingüística histórica del español....................................................................................................

269

Valentina Vincis Describir textos a partir de estructuras de ilación oracional: un corpus de romanceamientos bíblicos medievales.........................................................

285

Lola Pons Rodríguez Notas sobre los nexos concesivos en los romanceamientos bíblicos medievales..............................................................................................................

305

V I . A P L I C AC I O N E S D E L U S O D E C O R P U S E N L A H I S T O R I A D E L E S PA Ñ O L Robert Blake/Gina Lee MOCA: análisis de corpus en línea en un contexto histórico.......................

327

Josep Alba-Salas Las estructuras tipo meter miedo en diacronía: más detalles sobre la evolución histórica de las colocaciones causativas............................................

343

Dorien Nieuwenhuijsen El rastreo del desarrollo de algunos pronombres personales en español: (im)posibilidades de los corpus diacrónicos digitales..................................

365

Natalya I. Stolova Los corpus diacrónicos al servicio del estudio de los arcaísmos gramaticales..............................................................................................................

385

Enrique Pato Notas aclaratorias sobre la historia del indefinido alguien: Una aplicación directa del uso de corpus diacrónicos...........................................................

401

P R E FAC I O

Los artículos del presente volumen son versiones revisadas de una selección de los trabajos presentados en el Coloquio Internacional sobre Corpus Diacrónicos en Lenguas Iberorromances celebrado en Palma de Mallorca del 25 al 27 de octubre de 20071. Agradecemos al comité científico formado por Bruno Camus Bergareche, Inés Fernández-Ordóñez, Carmen Isasi, Johannes Kabatek, Claus Pusch, Ramón Santiago y Dieter Wanner su ayuda en el proceso de selección de trabajos así como sus sugerencias para mejorar el contenido de los mismos. Hacemos asimismo constar el agradecimiento a las entidades colaboradoras que han hecho posible la publicación de este volumen gracias a su apoyo económico: Consejería de Economía Hacienda e Innovación del Gobierno de las Islas Baleares, Ministerio de Educación y Ciencia del Gobierno de España (Acción Complementaria HUM2007-29146-E y proyectos HUM2004-05036/FILO, HUM2007-62259/FILO, HA2006-0078, cofinanciados con fondos FEDER), Caja de Ahorros del Mediterráneo y Universitat de les Illes Balears (Oficina de Suport a la Recerca).

1 Se recibieron 41 resúmenes de comunicaciones de los que 32 fueron seleccionados para ser leídos en el Coloquio. A su vez, de entre estas 32 comunicaciones más las 11 conferencias invitadas que se presentaron en el Coloquio (43 trabajos en total) se han seleccionado los 21 trabajos que conforman el presente volumen.

INTRODUCCIÓN L I N G Ü Í S T I C A D E C O R P U S Y D I AC RO N Í A DE LAS LENGUAS IBERORROMÁNICAS ANDRÉS ENRIQUE-ARIAS Universitat de les Illes Balears

Los corpus lingüísticos –es decir, colecciones de textos organizados por diferentes parámetros como fecha, género o procedencia geográfica– han sido empleados como principal fuente de datos en el estudio histórico de las lenguas iberorrománicas desde el mismo momento en que la lingüística románica se constituyó como disciplina científica en el siglo XIX. De hecho, hasta mediados del siglo XX, se dio un extenso periodo en la historia de la lingüística en el que era prácticamente inimaginable abordar cualquier investigación sin tener en consideración la dimensión histórica a la hora de explicar cualquier fenómeno o describir cualquier variedad lingüística. Durante esta época todo lingüista debía dominar las herramientas metodológicas para interpretar, analizar y comparar testimonios escritos de diferentes periodos, géneros, y dialectos. Este recurso unánime a los textos en la investigación lingüística empezó a verse cuestionado por la aparición del estructuralismo saussureano que establecía la preeminencia del estudio sincrónico de la lengua y profesaba un rechazo hacia lo escrito como fuente de datos; todo ello unido a la concepción de la lengua como un sistema estable más que como un sistema dinámico en constante evolución provocó el declive de los estudios de lingüística diacrónica y, en consecuencia, de los estudios hechos a partir de textos históricos. Las diversas tendencias estructuralistas y en particular la generativista fueron arrinconando cada vez más el uso de los corpus textuales por considerar que eran insuficientes para representar siquiera una pequeña porción de los enunciados posibles en una lengua dada; era más efectivo obtener los datos relevantes de un informante mediante juicios de gramaticalidad o simplemente acudir a las intuiciones lingüísticas del propio investigador mediante la introspección. Las críticas a la reconstrucción de estados de lengua a partir de textos llegaron también desde los modelos variacionistas. Labov (1994:11) afirmó que “historical linguistics can [...] be thought of the art of making the best of bad data”. La razón es que los textos históricos no permiten sino una visión artificiosa y fragmentaria de los sistemas lingüísticos del pasado ya que los documentos que han llegado hasta nuestros días no son necesariamente los más

12

ANDRÉS ENRIQUE-ARIAS

representativos sino simplemente los que han sobrevivido a las vicisitudes de la historia. En consecuencia, durante la segunda mitad del siglo XX la lingüística histórica y la investigación a base de corpus tuvieron un papel más bien discreto entre las principales corrientes de la lingüística, especialmente en los Estados Unidos. Cabe señalar, no obstante, que en el ámbito de las lenguas iberorrománicas la decadencia del trabajo a base de corpus no fue tan severa, pues en su estudio la perspectiva histórica siempre ha mantenido cierta relevancia y los postulados de la escuela chomskiana han tenido relativamente menos repercusión. Las últimas décadas del siglo XX han visto un resurgir de la lingüística histórica y del empleo de corpus al que sin duda han contribuido dos importantes innovaciones metodológicas: el empleo de herramientas informáticas y la aplicación de métodos de estudio de la variación lingüística (Joseph 2008:182). La disponibilidad de textos en formato electrónico y el desarrollo de herramientas informáticas que permiten procesar y analizar cantidades masivas de datos lingüísticos de forma automática han debilitado considerablemente la objeción chomskiana de que un corpus no contiene ni siquiera una pequeña porción de las estructuras posibles en una lengua pues hoy día contamos con corpus de cientos de millones de registros. En el estudio histórico, los corpus diacrónicos han permitido compensar en gran medida el inconveniente de no poder acceder a las intuiciones lingüísticas de los hablantes del pasado. Si bien no tenemos informantes que nos puedan confirmar directamente que un enunciado x es posible, la aparición reiterada del enunciado en cuestión en los corpus textuales nos permite concluir con seguridad razonable que tal enunciado era compatible con las reglas del sistema lingüístico en vigor en la época en que aparece representado en los textos (entendemos que, a no ser que nos encontremos en una situación de diglosia extrema, el registro escrito será coherente con los usos orales (MarchelloNizia 2005: 14; Wanner 2005: 34)). El otro avance metodológico es la adaptación de los métodos variacionistas desarrollados por Labov (véase, por ejemplo Labov 1994, 2001 y 2007) en investigaciones de orientación diacrónica. El estudio de la variación ha adquirido una importancia crucial para entender el cambio lingüístico (Ohala 2003). Es un hecho aceptado en prácticamente todos los modelos teóricos de la lingüística histórica que los cambios lingüísticos se dan en tres etapas: un estadio original anterior al cambio, una fase en la que triunfa la nueva estructura y una etapa intermedia en la que coexisten el sistema innovador y el original. Es precisamente este momento intermedio, caracterizado por la variación, el más interesante para el investigador, ya que el estudio de los contextos que favorecen la aparición de la forma innovadora permite obtener información sobre los factores que motivan el cambio, los contextos en los que se ha originado y los canales por los que se ha extendido.

INTRODUCCIÓN

13

El momento actual de la lingüística histórica se caracteriza además por una notable combinación de perspectivas teóricas y metodológicas, incluso algunas que parecían irreconciliables hace apenas un par de décadas. Los factores de explicación del cambio lingüístico se han visto enriquecidos por el estudio de la variación tipológica: la delimitación de los universales lingüísticos y el desarrollo de una serie de principios funcionales para explicarlos supone un avance para la lingüística histórica al restringir las opciones posibles en cuanto al resultado de los cambios lingüísticos y aportar nuevos factores, generalmente relacionados con cuestiones relativas al procesamiento y el uso del lenguaje, para explicarlos. Asimismo, las corrientes de la lingüística moderna, como el generativismo, la gramática funcional, la lingüística variacional y el análisis del discurso han adoptado la perspectiva histórica como medio de validar los presupuestos básicos que proponen como principios que rigen la comunicación humana, haciendo importantes contribuciones al estudio diacrónico de las lenguas. Al mismo tiempo se han creado puentes entre la filología, como disciplina centrada en los textos, y la teoría lingüística. Surgen así nuevas disciplinas como la sociolingüística histórica o la teoría de la gramaticalización y se incorpora a todo ello un interés por las lenguas y dialectos en contacto, la psicolingüística y las ideologías lingüísticas para identificar factores que influyen en las opciones de los hablantes. El elemento común que caracteriza a todas estas nuevas perspectivas en el estudio del cambio lingüístico es un renovado interés por la lingüística de corpus, un interés que, paradójicamente, se da incluso entre los generativistas, quienes ya no rechazan la efectividad de los corpus para validar hipótesis formadas a partir de planteamientos más abstractos como la introspección y los juicios de gramaticalidad. En definitiva, la lingüística histórica se ha enriquecido enormemente a partir del contacto con otras disciplinas y ha perfeccionado sus métodos para entender el cambio lingüístico a partir de los medios limitados de que disponemos; los textos históricos, con las nuevas aplicaciones teóricas y metodológicas a nuestro alcance no son ya “datos deficientes” como decía Labov sino datos “imperfectos” (Joseph y Janda 2003: 14) que, analizados correctamente, tienen utilidad indiscutible para reconstruir estados de lengua y examinar el cambio lingüístico en perspectiva diacrónica (véase al respecto Abad Merino en este volumen).

Corpus informatizados y diacronía de las lenguas iberorromances En el ámbito del estudio de la historia de las lenguas iberorromances el primer uso de formatos electrónicos llegó en los años 70 del siglo XX de la mano del Hispanic Seminary of Medieval Studies (en adelante HSMS) fundado en la Universidad de Wisconsin - Madison (EE.UU.). En el Seminario se desarrolló un

14

ANDRÉS ENRIQUE-ARIAS

sofisticado sistema de transcripción semipaleográfica que empleaba de manera ingeniosa códigos ASCII para representar aspectos gráficos y codicológicos de manuscritos medievales. Si bien la mayoría del material procedía de textos castellanos (con especial atención a los vinculados a Alfonso X) las colecciones del HSMS fueron incorporando textos de otras variedades iberorrománicas. El trabajo del HSMS no se ha limitado a transcribir textos sino que además se han aplicado métodos informáticos para obtener concordancias y listas de vocabulario, todo ello disponible hoy día de forma asequible en formato CD. Estos esfuerzos pioneros tuvieron una repercusión limitada por darse en un tiempo en que todavía no existían los ordenadores personales, ni la red, ni el correo electrónico1. No obstante, la colección de textos del HSMS nutrió de manera sustancial los proyectos de corpus desarrollados posteriormente. Así pues, en los primeros años 90 apareció el Archivo Digital de de Manuscritos y Textos Españoles (ADMYTE), en gran medida creado a partir de los textos preparados por el HSMS, pero con la incorporación de un interfaz de búsqueda y la posibilidad de consulta de imágenes digitales de los manuscritos (www.admyte.com). La difusión de ADMYTE se vio limitada por su alto coste de adquisición y por el hecho de desarrollarse en una época en la que eran relativamente pocos los que tenían familiaridad con los medios informáticos. El espaldarazo definitivo al uso de los corpus históricos en formato electrónico llega al filo del siglo XXI con la creación de recursos de acceso libre en la red como el CORDE de la Real Academia Española, el Corpus del español de Mark Davies, el Corpus do português de Davies y Ferreira, la Biblioteca Virtual Cervantes, el Corpus Informatitzat del Català Antic (CICA) o el Tesouro Informatizado do Galego Medieval, entre otros. Hoy en día la investigación de la diacronía de las lenguas iberorromances es prácticamente inconcebible sin recurrir a los grandes corpus diacrónicos, bien como fuente primaria de datos, o para validar hipótesis formuladas a partir de presupuestos teóricos. En su empleo más básico, los corpus informatizados permiten establecer concordancias a partir de las cuales se pueden hacer sencillos análisis de coocurrencias; a este nivel la lingüística de corpus consiste en simplemente hacer de manera informatizada (es decir, más cómoda y rápida) lo que antes se hacía manualmente leyendo cientos de páginas de texto y anotando en fichas todas las ocurrencias del fenómeno estudiado. Pasando a un nivel más complejo, las herramientas de corpus permiten extraer datos de frecuencia, algo que también se podía hacer con los métodos tradicionales pero evidentemente a 1 Las transcripciones y concordancias del HSMS se distribuían en formato microficha hasta que a finales de los años 90 del siglo XX empezaron a ser publicados en CDROM. Existe a día de hoy un proyecto para hacer los materiales vinculados a Alfonso X disponibles en la red de forma libre (Gago-Jover 2007)

INTRODUCCIÓN

15

mucha menor escala y con grandes limitaciones. A un nivel más sofisticado, el análisis de grandes porciones de texto lematizado y convenientemente etiquetado permite observar relaciones más sutiles entre diferentes elementos (categorías gramaticales, marcas morfológicas, léxico relacionado). Para ello es crucial que la arquitectura del corpus y la interficie de consulta permitan hacer búsquedas complejas (ver Davies en este volumen). A este nivel la lingüística computacional no se conforma con hacer de forma automática lo que ya se hacía manualmente sino que aspira a ser una nueva disciplina dentro de la lingüística con metodología y presupuestos teóricos propios. En el momento actual, la mayoría de la investigación a partir de corpus informatizados que se hace en el ámbito del estudio histórico de las lenguas iberorrománicas se limita a hacer uso de concordancias y porcentajes, en esencia en la misma manera que se hacía antes de la disponibilidad de los corpus informatizados, solo que a mayor escala. Para desarrollar todas las posibilidades que ofrecen los corpus sería necesario aplicar métodos que permitan una mejor interpretación cuantitativa de los datos; la mayoría de los trabajos de historia de las lenguas iberorrománicas se limitan a mostrar tablas en las que ni siquiera se añade un test estadístico de significatividad y más raro aún es el empleo de análisis multivariable. Las razones son, principalmente, a) la inercia de los métodos y escuelas anteriores a la disponibilidad de los medios informáticos, b) el hecho de que el dominio de herramientas informáticas y de técnicas de análisis estadístico requiere considerable formación, y c) la dificultad y complejidad de crear corpus lematizados y etiquetados de acuerdo con las necesidades del estudio de la variación y el cambio lingüísticos en perspectiva diacrónica. En definitiva, a pesar de los avances recientes en lingüística de corpus, estamos lejos de aprovechar en todo su potencial las oportunidades que ofrece el uso de las nuevas tecnologías para el estudio histórico de las lenguas iberorrománicas.

Objetivos y contenidos de este volumen La relevancia que ha adquirido el uso de grandes bases de datos textuales en el estudio histórico de las lenguas iberorromances apenas se ha visto acompañada de un interés por analizar los aspectos metodológicos asociados a la lingüística de corpus2. Son relativamente pocas las investigaciones de orientación diacróni2 El caso más reciente de un coloquio abierto en el que se trataba la problemática de los corpus históricos informatizados en el ámbito románico se dio en el año 2003 con el 2nd Freiburg Workshop on Romance Corpus Linguistics, que se celebró en Friburgo (Alemania) bajo el tema “Corpora and Historical Linguistics: Investigating language change through corpora

16

ANDRÉS ENRIQUE-ARIAS

ca hechas a partir de corpus que analizan críticamente la calidad de los datos utilizados; en no pocos casos el empleo de corpus electrónicos parece estar motivado más por la facilidad del acceso a las fuentes textuales que por una selección consciente de aquellos materiales que contienen los datos más apropiados para el tipo de investigación que se pretende realizar. El volumen que presentamos pretende ante todo contribuir a remediar esta situación mediante un panorama del trabajo que se está haciendo a día de hoy en el campo de la lingüística de corpus aplicada al estudio histórico de las lenguas iberorromances. La premisa básica es que los aspectos relacionados con el diseño y la explotación de los corpus tienen una importancia esencial en la metodología de la investigación en lingüística diacrónica ya que la calidad de los datos empíricos y el tipo de análisis que se haga de los mismos repercuten necesariamente en la solidez de las conclusiones teóricas que se derivan de la cualquier investigación que se pretenda hacer. En lingüística histórica, y por tanto, en el desarrollo de herramientas informáticas para su estudio, hay unos principios metodológicos básicos que atañen a la selección del material que servirá como fuente de datos. Por ejemplo, siempre será preferible trabajar con textos conservados en el manuscrito original (autógrafo o apógrafo del autor), especialmente si es posible determinar la fecha de producción del documento y su procedencia geográfica. Para que el investigador pueda calibrar con precisión la calidad de los datos es necesario que los creadores del corpus pongan a la disposición de los usuarios todos los detalles conocidos que tienen que ver con las circunstancias en que se produce cada documento (género, tipo de documento, fecha y lugar de composición, circunstancias de la transmisión y perfil sociolingüístico del autor y de los destinatarios). Otra cuestión importante es que existan unos criterios de transcripción y presentación de los textos claramente definidos; a este respecto, la mejor manera de cubrir el máximo de expectativas de los lingüistas que se acercan a los mismos desde diferentes perspectivas (dialectología, paleografía, estudio de las grafías, fonética y fonología, morfología, sintaxis, léxico) es posibilitar varios niveles de acce-

and databases” (véase Pusch, Kabatek y Raible 2005). En los Congresos Internacionales de la Asociacion de Historia de la Lengua Española de 2003 (Madrid, España) y 2006 (Mérida, Yucatán, México) no hubo una sección temática sobre lingüística de corpus, a pesar de que un número sustancial de la investigación que se presentó en estos congresos estaba, precisamente, hecha con datos extraídos de corpus (en el congreso de Santiago de Compostela de 2009 se celebró finalmente una mesa redonda sobre el uso de corpus). En el último Congreso Internacional de Lingüística y Filología Románica (Innsbruck, 2007) solo hubo una sección (de entre las 21 existentes) relacionada con las nuevas tecnologías pero limitada al campo de la edición de textos y la lexicografía histórica.

INTRODUCCIÓN

17

so a los documentos: facsímil, transcripción paleográfica y versión con puntuación y ortografía normalizada (Sánchez-Prieto Borja 1998). Estas cuestiones, que atañen principalmente a los aspectos filológicos del diseño de corpus, son el principal punto de atención de los tres primeros capítulos del volumen. PEDRO SÁNCHEZ-PRIETO BORJA et al. presentan el CODEA (Corpus de Documentos Españoles Anteriores a 1700), un proyecto de corpus integrado en la red CHARTA que se plantea como objetivo aproximarse al documento histórico desde una perspectiva amplia que no se limita a la historia de la lengua sino que incluye disciplinas como la diplomática, la paleografía y la historia general. Se pretende de este modo llegar a una comprensión global del texto que permita entender la interacción entre los numerosos factores que explican las características finales del mismo. También dentro de la red CHARTA se encuentra el trabajo de MICAELA CARRERA DE LA RED y MIGUEL GUTIÉRREZ MATÉ quienes reflexionan sobre los múltiples problemas que plantea el diseño de un sistema para representar las peculiaridades de los documentos americanos por tratarse de textos que en algunos puntos se muestran extremadamente conservadores de las tradiciones escriturarias mientras que, en otros, bajo el peso de la acusada evolución fonética, son extremadamente innovadores. El siguiente trabajo atañe también al estudio de la historia del español de América; BEATRIZ ARIAS hace una propuesta de corpus para estudiar el origen y desarrollo del español en Nueva España teniendo en cuenta los diversos factores de índole lingüística y extralingüística que intervinieron en el origen y en la evolución de estas variedades. Por ello, el corpus incluye no solo textos pertenecientes al territorio virreinal, sino a otras zonas como la Península Ibérica, por ser de donde proceden mayoritariamente los dialectos que se trasladaron al Nuevo Mundo, así como Canarias y Cuba, por ser las áreas en las que se pudo llevar a cabo la mezcla y homogeneización de dialectos que dio lugar a las variedades de Nueva España. En este trabajo se explican detalladamente los criterios de presentación de los textos utilizando un sistema de tres maneras de acceso a los mismos: facsímil, transcripción paleográfica estrecha y versión normalizada. En los tres trabajos que siguen se explica cómo se ha llevado a cabo el diseño de diferentes corpus creados para fines específicos. JOSÉ ANTONIO PASCUAL y CARLOS DOMÍNGUEZ dan cuenta del desarrollo del Corpus del Nuevo diccionario histórico de la Real Academia Española. El corpus tiene previsto reunir cincuenta millones de palabras de texto con el objeto de contener una representación de la historia del léxico español en sus diferentes variedades geográficas desde las primeras manifestaciones escritas hasta el siglo XX. JOAN TORRUELLA expone las cuestiones que se han tenido en cuenta a la hora de diseñar el Corpus Informatitzat del Català Antic (CICA) cuyo objetivo es aportar datos lingüísticos para la realización de una gramática histórica del catalán anterior al siglo XVII. De él se

18

ANDRÉS ENRIQUE-ARIAS

pretende obtener informaciones para poder describir la gramática de la lengua en sus diferentes estadios evolutivos a partir de diversos textos representativos de las diferentes variedades temporales, tipológicas y dialectales de la lengua, con un interés especial en la descripción y análisis de los aspectos morfosintácticos y sintácticos de los textos. ANA STULIC-ETCHEVERS y SOUFIANE ROUISSI informan de los resultados de una amplia encuesta realizada entre investigadores para conocer cuáles son sus necesidades principales y tenerlas en cuenta en el diseño de un corpus de judeoespañol. Los aspectos principales que incorporaron son la pluralidad de representaciones digitales de los documentos, la flexibilidad de consulta y la posibilidad de trabajo colaborativo en la anotación de los documentos. La efectividad de un corpus como herramienta de investigación lingüística reside en gran medida en el tipo de búsquedas que permite hacer. MARK DAVIES analiza comparativamente la arquitectura de dos corpus diseñados por él mismo, Corpus del español y Corpus do português, con el otro gran corpus histórico del español, el CORDE, para poner de manifiesto lo limitado de las prestaciones de este último. El autor pone de manifiesto cómo una gran colección de textos sin las herramientas informáticas adecuadas para hacer búsquedas son “datos atrapados” de limitada utilidad para el lingüista. Por su parte KIM SCHULTE plantea el hecho de que no siempre se puede contar con un corpus anotado de acuerdo con las especificaciones de la investigación concreta que se quiere realizar. En lugar de esperar a que se cree el corpus ideal, el lingüista puede también tomar la iniciativa y trabajar con un corpus sin anotación. Este es el método que propone este autor quien ilustra cómo mediante el uso de regular expressions es posible hacer búsquedas complejas que permiten estudiar una variedad de fenómenos. En los cinco capítulos que siguen se da cuenta de otros tantos recursos electrónicos dedicados a diferentes variedades iberorromances. XULIO VIEJO el al. presentan varias cuestiones relacionadas con el desarrollo del corpus Eslema (Corpus Xeneral de la Llingua Asturiana), entre ellas las peculiaridades que se derivan de la situación histórica del asturleonés, sometido a una intensa presión lingüística y cultural por parte del castellano. Ello obliga a hacer una reflexión a la hora de seleccionar los materiales que tienen interés para documentar las diferentes variedades geográficas y sociales del asturiano sin tener que limitarse necesariamente a las muestras libres de influencia castellana. RICARDO PICHEL y XAVIER VARELA BARREIRO dan información sobre el Tesouro Medieval Informatizado da Lingua Galega, un corpus de documentación gallega medieval integrado en un proyecto más amplio, el Tesouro Medieval Galego-Portugués donde se reúnen textos medievales producidos en Galicia y en Portugal en gallego-portugués, latín y castellano. El amplio corpus textual, de más de 16.000 documentos, está siendo lematizado y etiquetado. AITOR GARCÍA MORENO presenta el proyecto de digitalización del fichero manuscrito de léxico judeoespañol de Cynthia

INTRODUCCIÓN

19

Crews. Se trata de una colección de cerca de 35.000 papeletas con información de diversa índole recogida a lo largo de 40 años de investigación de la autora. La base de datos informatizada que resultará de este proyecto permitirá acceder de manera mucho más organizada a la información del fichero y contribuirá a mejorar sensiblemente los recursos de consulta lexicográficos en judeoespañol. Los dos capítulos que siguen se centran en el estudio histórico de la variación en regiones concretas del español peninsular. MIGUEL CALDERÓN CAMPOS y MARÍA TERESA GARCÍA GODOY presentan el proyecto Corpus diacrónico del español del Reino de Granada (CORDEREGRA). Además de explicar los criterios geográficos, cronológicos y textuales que siguen para seleccionar documentos ilustran el interés lingüístico de los textos con fenómenos como el yeísmo, la pérdida de /d/ y el sistema de tratamiento. Por su parte MERCEDES ABAD MERINO aborda el complejo problema de cómo caracterizar socialmente a los que escriben y reciben el texto a partir de ejemplos extraídos de un corpus documental del antiguo Reino de Murcia. La autora presenta una variedad de tipologías textuales que permiten apreciar diferencias de registro y propone una clasificación social de los autores y destinatarios de textos históricos. Las tres contribuciones siguientes tratan sobre el uso de las traducciones bíblicas medievales en castellano como corpus lingüístico. ANDRÉS ENRIQUE-ARIAS presenta las ventajas e inconvenientes de trabajar con Biblia medieval, un corpus paralelo y alineado de romanceamientos bíblicos, para analizar la evolución diacrónica de fenómenos de variación morfosintáctica. Las diversas soluciones que ofrecen los traductores a lo largo del tiempo ante una misma expresión de la lengua fuente permiten apreciar con particular claridad la evolución histórica de las estructuras del castellano, ya que los sucesivos equivalentes de traducción están insertados en un contexto de ocurrencia con un alto grado de equivalencia semántica, sintáctica y pragmática. Otra ventaja evidente de un corpus de equivalentes de traducción es que, como se tiene acceso al texto subyacente y se conoce su significado, es posible buscar de manera selectiva aquellos pasajes en los cuales la estructura estudiada tiene más posibilidades de aparecer, algo especialmente útil cuando se trata de localizar ocurrencias de fenómenos que no siempre se manifiestan con un marcador explícito. El trabajo de VALENTINA VINCIS es una demostración de las posibilidades que ofrece la lingüística de corpus para analizar la variación motivada por diferentes tipologías textuales. En su estudio analiza y contrasta las estructuras de ilación oracional de textos bíblicos de diferentes géneros (narrativo, profético, lírico) a partir de datos del corpus Biblia medieval. Por su parte, LOLA PONS utiliza los textos del corpus bíblico para analizar el proceso de relevo y sustitución de nexos concesivos que se da a lo largo de la Edad Media. El volumen incluye también varios trabajos en los que se aplican los corpus disponibles para estudiar problemas concretos de lingüística histórica desde nue-

20

ANDRÉS ENRIQUE-ARIAS

vas perspectivas. ROBERT BLAKE y GINA LEE aplican MOCA, un programa de concordancias de acceso libre en la red, al análisis de textos de los siglos IX al XII procedentes de la colección diplomática del Monasterio de Sahagún. Los autores ilustran cómo este programa permite analizar cambios de patrones léxicos y sintácticos incluso cuando se presentan serios problemas de interpretación por la escritura híbrida latino-romance típica de los textos producidos antes del siglo XIII. JOSEP ALBA SALAS emplea el Corpus del español para trazar la evolución histórica de las colocaciones tipo meter miedo desde el siglo XIII hasta la actualidad. Entre otros resultados, el análisis revela que en estados anteriores de la lengua meter competía con poner en estas colocaciones, que esta competición aparentemente conllevó un proceso de difusión léxica, y que el español moderno ha resuelto dicha rivalidad histórica mediante la especialización de meter y poner para contextos colocacionales diferentes. DORIEN NIEUWENHUIJSEN emplea el CORDE para rastrear la evolución de varias formas pronominales de segunda persona de plural: la distribución de vosotros frente a vos y con vos frente a conbusco, y el cambio de la forma átona vos a os. Frente a las evidentes ventajas de contar con un amplio corpus informatizado la autora señala qué tipo de problemas se pueden presentar si la forma buscada no es una palabra independiente o si la herramienta de búsqueda del corpus no permite distinguir entre categorías gramaticales. NATALYA STOLOVA emplea el Corpus del español y el CORDE para rastrear la pervivencia de un arcaísmo gramatical, el empleo del verbo ser como auxiliar de verbos intransitivos (era venido/había venido), en determinadas tradiciones discursivas (religiosa, historiográfica, política, entre otras). Su trabajo demuestra la utilidad de los corpus históricos en formato electrónico para identificar dichas tradiciones con el propósito de remediar el desajuste entre las observaciones idealizadas de las gramáticas históricas y los datos reales. ENRIQUE PATO emplea el CODEA, el Corpus del español y el corpus Biblia medieval (véanse, respectivamente, las contribuciones de Sánchez-Prieto Borja et al., Davies, y Enrique-Arias en este volumen) para rastrear ejemplos no registrados hasta el momento del indefinido alguien, retrasar las primeras atestaciones hasta el siglo XIII y confirmar el origen occidental propuesto en trabajos anteriores.

Final La conclusión más importante que se puede obtener de las muchas reflexiones contenidas en este volumen es que, en el momento actual en el que el empleo de corpus informatizados ha pasado a ser una herramienta de uso común, es esencial concienciarse de la necesidad de actuar de manera coordinada, pues el valor de cada proyecto de corpus se multiplica de manera exponencial cuando, además

INTRODUCCIÓN

21

de ser complementario con otros proyectos (evitando así duplicaciones innecesarias) es además compatible con otros proyectos. Por ello es necesario habilitar lugares de encuentro que permitan la cooperación y el diálogo entre informáticos, filólogos y lingüistas. Esperamos que este volumen contribuya a poner en común el desarrollo de recursos informáticos y promover el intercambio de ideas entre los que desarrollan tales recursos y los que los emplean en investigación lingüística.

Referencias GAGO-JOVER, Francisco (2007): “La Biblioteca Digital de la Obra en Prosa de Alfonso X: pasado, presente y futuro”. Conferencia presentada en el Coloquio Internacional sobre Corpus Diacrónicos en Lenguas Iberorromances, Palma de Mallorca, 25-27 de octubre, 2007. JOSEPH, Brian (2008): “Historical linguistics in 2008. The state of the art”, en: Sterkenburg, Piet van (ed.): Unity and diversity of languages. Amsterdam/Philadelphia: John Benjamins, 175-188. LABOV, William (1972): Sociolinguistic Patterns. Philadelphia: University of Pennsylvania Press. — (1994): Principles of linguistic change: Internal factors. Oxford: Blackwell. — (2001): Principles of linguistic change: Social factors. Oxford: Blackwell. — (2007): “Transmission and diffusion”, en: Language 83 (2), 344-387. MARCHELLO-NIZIA, Christiane (2005): “A NLP-driven approach to historical linguistics”, en: Pusch, Claus D./Kabatek, Johannes/Raible, Wolfgang (eds.): Romance Corpus Linguistics II: Corpora and Diachronic Linguistics. Tübingen: Gunter Narr, 11-30. OHALA, John (2003): “Phonetics and historical phonology”, en: Joseph, Brian/Janda, Richard (eds.): The handbook of historical linguistics. Oxford: Blackwell, 669-686. PUSCH, Claus D./KABATEK, Johannes/RAIBLE, Wolfgang (eds.) (2005): Romance Corpus Linguistics II: Corpora and Diachronic Linguistics. Tübingen: Gunter Narr. SÁNCHEZ-PRIETO BORJA, Pedro (1998): Cómo editar los textos medievales. Madrid: Arco. WANNER, Dieter (2005): “The corpus as a key to diachronic explanation”, en: Kabatek, Johannes/Pusch, Claus D./Raible, Wolfgang (eds.): Romance Corpus Linguistics II: Corpora and Diachronic Linguistics. Tübingen: Gunter Narr, 31-44.

I

CUESTIONES FILOLÓGICAS

E L C O R P U S D E D O C U M E N T O S E S PA Ñ O L E S ANTERIORES A 1700 (CODEA) P E D R O S Á N C H E Z - P R I E T O B O R J A / F L O R E N T I N O PA R E D E S G A R C Í A / ROCÍO MARTÍNEZ SÁNCHEZ/RUTH MIGUEL FRANCO/ M A R Í A S I M Ó N PA R R A / I R E N E V I C E N T E M I G U E L Universidad de Alcalá - GITHE

1. Introducción1 El objetivo fundamental de los corpus consiste en la creación de un marco empírico para el estudio de una lengua representado a partir del material recogido. Los corpus lingüísticos vienen a configurarse como un método eficaz para la revisión de principios teóricos, por lo que su vinculación con la lingüística es constante. Nuestra propia experiencia nos demuestra que el trabajo con corpus da origen a nuevos modelos teóricos y metodologías, por lo que la relación teoría-práctica es bidireccional. Es en este sentido donde se integra el Corpus de Documentos Españoles Anteriores a 1700, que aquí se presenta.

2. El Grupo de Investigación de Textos para la Historia del Español Las principales líneas de investigación del grupo son: 1) la edición de documentos españoles antiguos, asunto del que nos ocuparemos aquí; 2) la edición de textos literarios medievales, especialmente de textos historiográficos medievales y romanceamientos bíblicos; 3) el estudio de la historia de la lengua española, desde la historia de la escritura al léxico; 4) los trabajos de dialectología histórica, que toman como punto de partida las fuentes documentales; 5) la metodología de la crítica textual, como desarrollo teórico de las tareas editoriales y 6) la onomástica, a partir del examen de los documentos. Entre los principales resultados de nuestro grupo cabe destacar, en primer lugar, la colección Textos para la historia del español, de fuentes archivísticas, 1

Este trabajo se ha llevado a cabo con financiación del Ministerio de Educación y Ciencia: Proyecto “Edición y estudio lingüístico de los documentos medievales de la Catedral de Toledo” (HUM2006-04767/FILO)”.

26

PEDRO SÁNCHEZ-PRIETO BORJA ET AL.

con 4 volúmenes publicados hasta hoy. Por otra parte, se ha venido desarrollando el Corpus de Documentos Españoles Anteriores a 1700, principal objeto de este trabajo; además, nuestro grupo ha tenido un destacado papel en la edición íntegra de la General estoria (10 volúmenes), ya en prensa en la Biblioteca Castro. Por último, el GITHE ha contribuido al establecimiento de un estándar en la edición de textos españoles antiguos, tanto de textos literarios como de fuentes documentales, cuestión ésta a la que nos referiremos más adelante2.

3. El Corpus de Documentos Españoles Anteriores a 1700 El proyecto de elaboración del Corpus de Documentos Españoles Anteriores a 1700 (CODEA) comenzó en el año 1996 gracias a un contrato inicial de investigación entre la Universidad de Alcalá y la Real Academia Española. Actualmente, el Corpus cuenta con más de 1500 documentos clasificados y editados. De cada uno de ellos se ha elaborado una ficha que incluye la información más relevante como pieza archivística, sobre su elaboración (lugar, fecha y escribano) y un regesto o resumen del contenido. En cuanto a la edición propiamente dicha, se ofrece facsímil, transcripción paleográfica y presentación crítica. Las transcripciones han sido revisadas varias veces con los facsímiles (e incluso en los archivos), por lo que podemos decir que estos documentos están listos para su publicación.

3.1. CARACTERIZACIÓN Uno de los principales problemas que se le plantean al investigador que pretende elaborar un corpus textual es el de la selección de los textos que han de integrarlo. El provecho que pueda extraerse de éste dependerá, en gran medida, de cómo se haya llevado esta selección. Ello es especialmente notorio en el caso de un corpus de documentos archivísticos, entre otras razones porque el número de piezas que han de incorporarse es notablemente mayor, dada la corta extensión de los textos. Lógicamente, la naturaleza de las piezas seleccionadas ha de estar condicionada por la finalidad del corpus. Así, un corpus que pretenda ofrecer piezas representativas de la sintaxis de la lengua de uso deberá buscar aquellos docu-

2 La labor cumplida a lo largo de los últimos años se concreta en numerosas publicaciones y en la elaboración de varias tesis. Entre otros, Díaz Moreno (2000); Paredes García (2003); Sánchez-Prieto Borja (1991; 1998; 2007); Torrens Álvarez (2002; 2005; en prensa); Simón Parra y Vicente Miguel (2008); Vicente Miguel (2007) y Martínez Sánchez (en prensa).

EL CORPUS DE DOCUMENTOS ESPAÑOLES ANTERIORES A 1700 (CODEA)

27

mentos que, de un modo u otro, presenten muestras de lo que se ha llamado “oralidad elaborada”, a falta de transcripciones directas de la lengua hablada (Koch y Oesterreicher 1990, Koch 1993). La situación del CODEA es más compleja en este punto, pues el objetivo es el estudio integral del documento: no hay restricciones previas, sino que se pretende favorecer una consideración del documento archivístico no reduccionista, frente a lo que ha sido habitual. La idea básica es que el documento sólo puede ser valorado, leído, estudiado, editado y aprovechado en investigaciones ulteriores, desde una perspectiva integradora de los diferentes puntos de vista (disciplinas) que confluyen en su estudio, especialmente archivística, diplomática, paleografía, historia de la lengua e historia general. Pretendemos, pues, fomentar estudios diversos y no exclusivamente lingüísticos y filológicos, por más que la articulación del Corpus esté pensada para favorecer trabajos sobre la historia de la escritura, la sintaxis y la distribución del léxico. En este sentido, se ha concedido una importancia al documento oficial, administrativo y cancilleresco, mayor de la que suele ser habitual en este tipo de corpus, donde priman los textos de redacción más suelta y alejada, relativamente, de modelos preestablecidos. Es conocida la idea de que los documentos tienen un valor escaso para la historia de la lengua por su carácter fuertemente convencional, estereotipo que se aplica sobre todo al documento público, en el sentido en el que se usa el término en diplomática. Sin embargo, el manejo de amplios fondos de esta tipología demuestra que, más allá de la parte protocolaria, estas fuentes deparan sorpresas al investigador atento en todos los campos antes señalados y en ciertos aspectos, como el de la historia de la escritura, pero también en la sintaxis, resultan imprescindibles para conocer los procesos evolutivos, al marcar muchas veces tendencias que, en mayor o menor medida, fueron seguidas en otros ámbitos de producción documental, como el de los notarios públicos, eclesiásticos o incluso, a la larga, particulares3. De este modo, el documento cancilleresco se convierte en una referencia necesaria dentro del CODEA respecto a la cual pueden medirse las adhesiones e innovaciones de otros tipos documentales. Ni siquiera hemos descartado las variaciones sobre un mismo tenor textual, a saber, el que se manifiesta en los ejemplares múltiples, como las varias copias dirigidas a diferentes consejos, con sutiles diferencias gráficas, pero también de otra naturaleza, que permiten comprender ciertos aspectos de la variación tal y como se manifestaba en el texto escrito en diferentes épocas. Tales documentos permiten estudiar el alcance de la variación en diversos planos, incluso de idiolecto de quien copia (gráfico, sintáctico, p. ej., leísmo, presencia y ausencia de a ante objeto directo, etc.).

3

Tal es el caso de la adopción de la cursividad, de determinadas características ortográficas o de la innovación léxica o sintáctica del español moderno.

28

PEDRO SÁNCHEZ-PRIETO BORJA ET AL.

Se ha de tener en cuenta que el CODEA es un corpus no cerrado (Caravedo 1999: 98) y, aunque en el futuro próximo puedan publicarse en papel selecciones proporcionales de parte de los documentos, su versión más amplia, que será accesible electrónicamente, se irá ampliando progresivamente, por lo que en diferentes fases, según la naturaleza de los fondos que se vayan incorporando, podrán variar las proporciones entre los tipos documentales que acoge y que, de manera operativa, dividimos en cancillerescos, municipales, eclesiásticos y privados. Los documentos proceden de diversos archivos. El grueso lo constituye la sección de Clero del Archivo Histórico Nacional en Madrid (AHN), con fondos de la práctica totalidad de las provincias españolas. El AHN es riquísimo en fondos monásticos medievales, lo que le otorga un valor impagable para la dialectología histórica. El Archivo General de Simancas cubre muy bien el espacio comprendido entre los Reyes Católicos y los últimos Austrias. A ellos se añaden los documentos redactados fuera de España, como los de la sección Galeras, en los que abundan las piezas redactadas en Génova. También cabe destacar los fondos procedentes de Toledo, de la Catedral sobre todo, que permiten una nueva valoración de la llamada “norma toledana” y del castellano alfonsí (Sánchez-Prieto Borja 2007). Lógicamente, hemos trabajado en archivos del entorno geográfico de nuestra Universidad, empezando por el Municipal de Alcalá de Henares y siguiendo por los de Guadalajara (Archivo Municipal, Archivo Histórico Provincial) o Madrid (Archivo Regional de la Comunidad de Madrid). También hemos acudido a archivos andaluces, en concreto a los municipales de Cádiz, Córdoba, Málaga y Sevilla, pues este territorio, de reconquista relativamente reciente, está peor representado en el AHN. En cuanto a la cronología, la mayor parte de los documentos del CODEA está comprendida entre los siglos XII y XVII. Hay que precisar que no todos estos siglos están representados de igual manera en las diferentes provincias. Precisamente, aquí puede verse el espacio geográfico de nuestros documentos. Hay que señalar, claro está, que no es lo mismo lugar de procedencia, en sentido archivístico, que lugar de emisión. El AHN acoge fondos monásticos y eclesiásticos en general, que estaban en esos centros antes de ser trasladados a Madrid gracias a la desamortización de Mendizábal. Por otra parte, no todos los documentos guardados desde antiguo en un monasterio o una catedral se habían elaborado allí, sino que podían tener diversa procedencia. Atendiendo a los lugares de emisión, contamos con documentos de todo el espacio peninsular ocupado actualmente por el español, con excepción de los territorios bilingües (Galicia, Cataluña, Valencia y Baleares), que hemos dejado fuera por plantear otros problemas específicos. Sí hemos incluido documentos del País Vasco y Navarra porque, para la época elegida, no contamos allí con documentación en euskera.

EL CORPUS DE DOCUMENTOS ESPAÑOLES ANTERIORES A 1700 (CODEA)

29

De este modo, nuestro corpus acoge fondos de las tres provincias leonesas (León, Zamora y Salamanca), de Asturias, Cantabria, el País Vasco, Navarra, de las tres provincias aragonesas (Zaragoza, Huesca y Teruel), de La Rioja, de lo que antes se llamaba Castilla La Vieja (Palencia, Valladolid, Burgos, Soria, Segovia y Ávila), de Madrid, de la Castilla más tardíamente reconquistada (Guadalajara, Toledo, Cuenca y Ciudad Real), de Extremadura (Cáceres y Badajoz), de Murcia y de las provincias andaluzas4 (Jaén, Córdoba, Sevilla, Huelva, Cádiz, Málaga, Granada y Almería). La autentificación de fecha y lugar de emisión presenta, en ciertos documentos, algunas dificultades particulares. Tal es el caso de las cartas nacidas en un monasterio, donde muchas veces falta el lugar de emisión; la adscripción formal y material al sello de ese centro suele resultar evidente, aparte de la presencia de determinados personajes, en particular el abad, como emisores del documento mismo. Muy raramente falta la fecha, aunque con más frecuencia ésta no es completa (puede faltar el día del mes). En cuanto a la lengua de los documentos, se ha pretendido reflejar la diversidad dialectal del español a lo largo del tiempo, por lo que, además del castellano, están bien representados en nuestro Corpus los dialectos históricos5, entiéndase que para la Edad Media. Y aun dentro de estos dialectos se han seleccionado los documentos de modo que puedan rastrearse diferencias internas de esas variedades. También están representadas otras variedades regionales como el castellano del País Vasco, el navarro, el extremeño, murciano y andaluz (sin entrar aquí a discutir si ha de otorgárseles el rango de dialecto). En la documentación más antigua, la del siglo XII y aun en la primera mitad del siglo XIII, resulta difícil deslindar latín y romance (estos documentos han planteado especiales problemas de edición). (1) In dei nomine. Ego garsia aluarez. & uxor mea urracha martinez. uendimus tibi martino priori de sancto (2) turibio. quantum habemus in sancto feliçes. de monte in fonte. & diuisa de maria aluarez mea ger(3)mana. per uiginti morabetinis. & sumus bene pagati de precio & de roboramento. (CODEA 695. AHN, Clero, Santander, carp. 1915, nº 14 (1215), carta de venta de tierras al convento de Santo Toribio).

Se han incluido también documentos que contienen secciones en latín y no sólo para la época medieval, sino también para los siglos XVI y XVII. En cuanto a la tipología de los documentos, hemos pretendido acoger toda la variedad posible, convencidos como estamos de que sólo de este modo

4 5

Cierto que con mejor y, por fuerza, más antigua representación de las occidentales. Así, por ejemplo, sobrepasan el centenar los documentos leoneses y aragoneses.

30

PEDRO SÁNCHEZ-PRIETO BORJA ET AL.

podía darse entrada a fenómenos que no se manifiestan en todos los registros de la lengua. Hemos incluido, de acuerdo con el planteamiento expuesto más arriba, el llamado “documento público”, que tiene validez en todo el reino, desde los tipos más solemnes, como el privilegio rodado, a otros que, como el mandato, circulaban internamente entre los “oficiales” (funcionarios, diríamos hoy) del reino. Pero la mayoría de los documentos son los considerados “privados” por la diplomática, es decir, las cartas de compraventa y donación, o los testamentos. Este tipo evidencia mejor que el documento público la variación dialectal. Y tampoco hemos rechazado el documento no notarial, sobre todo las cartas particulares, pues éstas pueden reflejar abundantes aspectos de la oralidad. En este sentido, a las divisiones “clásicas” que ha ido estableciendo la diplomática y que atienden, sobre todo, a la estructura material y formal de la pieza, puede oponerse otra seguramente más operativa, la que considera el documento según su origen. Así, distinguiríamos entre documento cancilleresco, municipal, eclesiástico (con diversos niveles) y particular. También se incluirán documentos del registro más bajo que hasta ahora hemos encontrado y que muestra una práctica peculiar de la escritura: las notas de abandono de niños que acababan en la Inclusa de Madrid (siglos XVI y XVII; THE IV): En la elaboración de nuestro Corpus se han incluido, sobre todo, originales de los documentos, aunque no se han descartado las copias. En ello no hay inconveniente alguno, siempre que se indique con claridad (hemos señalado en el regesto la modalidad textual: copia simple, traslado, confirmación, etc.). El requisito indispensable es distinguir entre fecha del documento que se copia y fecha de la copia. Sin embargo, en algunos casos resulta difícil decidir si estamos ante el documento original o una copia y, para ello, habrá que considerar aspectos diplomáticos, paleográficos, lingüísticos e históricos. De esta cuestión se dará cuenta en el campo “Observaciones” de cada documento. Tampoco hemos rehusado incluir documentos ya publicados, puesto que nuestros criterios de edición son netamente distintos de los habituales.

3.2. METODOLOGÍA: EL TRIPLE ACCESO AL DOCUMENTO En cuanto al modo de editar los fondos archivísticos, proponemos un triple acceso: en primer lugar, ha de ofrecerse el facsímil, pues sólo la consulta de éste permite comprobar lecturas dudosas y corregir otras erróneas; el siguiente paso es la transcripción paleográfica, pensada para llevar a cabo estudios gráfico-fonéticos; y por último, damos la presentación crítica para hacer más legible el texto y

EL CORPUS DE DOCUMENTOS ESPAÑOLES ANTERIORES A 1700 (CODEA)

31

FIGURA 1 ARCM 8657/13, 2/36, 13 de septiembre de 1605

favorecer estudios sobre las sintaxis y el léxico (Sánchez-Prieto Borja 1998). El triple sistema de edición queda configurado así6: Facsímil: reproducción fotográfica en color de los documentos. Transcripción paleográfica: 1. El desarrollo de las abreviaturas se marca entre < > (v); en la presentación electrónica final esta marca puede sustituirse por cursiva (“vezino”). 2. Se reflejan las grafías del documento (hauer, auer, haver; dezir, decir, dezir). 3. Se reflejan mayúsculas y minúsculas según el uso del documento (Rio, dios, Juan lopez). 4. No se introduce acentuación. 5. Se refleja la puntuación del documento.

6

Una formulación completa de éstos se ofrece en Criterios de edición de documentos hispánicos (siglos XII-XVIII), aprobados por la red CHARTA (Corpus Hispánico y Americano en la Red: Textos Antiguos).

32

PEDRO SÁNCHEZ-PRIETO BORJA ET AL.

Presentación crítica: 1. Se desarrollan las abreviaturas sin dejar constancia (vezino). 2. Se regularizan las grafías sin trascendencia fonética (vua> uva, ssaber> saber). 3. Se regula el uso de mayúsculas y minúsculas (para marcar la sintaxis y para distinguir el nombre propio del común: el concejo, don Fernando). 4. Se introduce la tilde según las reglas académicas para marcar la prosodia antigua (med. reína, vío). 5. Mediante la puntuación se refleja la sintaxis antigua.

De cada documento se ofrece una ficha catalográfica; por ahora se dará una forma provisional simplificada y en un futuro próximo se sustituirá por una versión más completa. He aquí una muestra de la versión actual7: GITHE CODEA 0981 AHN, Clero, Navarra, carpeta 1423, nº 6 1 de septiembre de 1312 (s.l.) Carta por la que Semén Martínitz de Beortegui se compromete a pagar al Monasterio de San Pedro de Ribas dos cahíces de trigo y veinte libras de sanchetes cada año en agradecimiento por los servicios recibidos. Pedro Julián (escriví) Cristina Castillo Martínez José Manuel Lucía Megías Florentino Paredes García

3.3. EXPLOTACIÓN INFORMÁTICA Y DIFUSIÓN En cuanto a la anotación mediante marcas TEI u otro sistema similar, es sabido que este proceso es inseparable de la edición filológica. Un sistema amplio de etiquetado de los documentos tiene evidentes ventajas, pues permite recuperar fácilmente toda la información anotada. Sin embargo, para no retrasar la publicación hemos creído preferible poner, por ahora, los textos sin anotar a disposición del interesado. De este modo, esperamos que, de manera inmediata, el CODEA sea accesible en la página web del GITHE www.textoshispanicos.es. 7 Contiene: 1) identificación del Grupo, Corpus y documento dentro del Corpus; 2) identificación del documento mediante siglas del archivo y signatura; 3) data y localización; 4) regesto; 5) escribano y frase literal del tipo de intervención y 6) investigadores responsables de la edición.

EL CORPUS DE DOCUMENTOS ESPAÑOLES ANTERIORES A 1700 (CODEA)

33

Por el mismo motivo, no se incluyen ahora buscadores específicamente desarrollados para el corpus. Se trabaja ya, sin embargo, en la elaboración de herramientas de recuperación de la información que permitirán establecer diversos filtros de búsqueda a partir de los campos de la cabecera. La explotación del CODEA se beneficiará pronto de la lematización completa del texto, gracias al programa electrónico Bconcord desarrollado por Bautista Horcajada Diezma8. Un desarrollo ulterior de CODEA consistirá en el etiquetado del texto. En resumen, prevemos tres fases en la difusión electrónica. La primera fase proporcionaría los textos en formato plano y con un buscador general; en la segunda se ofrecería un buscador elaborado expresamente para el CODEA y en la tercera el Corpus aparecería completamente marcado e integrado en CHARTA.

3.4. OBJETIVOS Y POSIBILIDADES DEL CODEA El Corpus así concebido puede ofrecer a los investigadores (e incluso a los interesados por la cultura y lengua antigua, en general) muchas posibilidades de estudio. Desde luego, ha sido siempre nuestro objetivo favorecer un acercamiento integral al documento antiguo, pues la interdisciplinariedad es, en este caso, una exigencia del objeto de estudio. Dada la variedad del Corpus, serán posibles estudios de tipología documental en el ámbito de la diplomática, pero también en relación con las tradiciones discursivas. El haber considerado más de una versión de un documento permite comparar el diploma genuino con su confirmación posterior, para comprobar, contra lo que suele creerse, que las modificaciones no afectan sólo a ciertos detalles gráficos o de lengua, sino a aspectos sustanciales del contenido. Es el caso, por ejemplo, del documento por el que Fernando III fija las posesiones del concejo de Alcaraz (AHN, Órdenes Militares, Uclés, caj. 365, 2), que en la versión de Alfonso X (Órdenes Militares, Uclés, caj. 213, nº 1) conoce un cambio en los lugares de referencia. Por otra parte, el incluir facsímiles favorecerá los estudios paleográficos tanto en un plano estrictamente científico, como en el didáctico. La inclusión de diplomas cancillerescos posibilitará comprender el proceso de adopción de las innovaciones oficiales por los notarios públicos y los centros religiosos (catedrales y monasterios), proceso que no se dio al unísono en todos los lugares.

8

Una muestra de las aplicaciones de este programa fue presentada en el Coloquio Internacional sobre Corpus Diacrónicos en Lenguas Iberorromances celebrado en Palma de Mallorca en octubre de 2007.

34

PEDRO SÁNCHEZ-PRIETO BORJA ET AL.

El juego entre facsímil y transcripción paleográfica permitirá un mejor conocimiento de la historia de la escritura en la Península Ibérica. Es el caso de un fenómeno poco conocido como la escritura de -rr en posición final de palabra en documentos navarros y vascos de los siglos XIII y XIV, y que podría considerarse indicio fonético (Sánchez-Prieto Borja y Torrens Álvarez, en prensa). La historia de la lengua, por razones obvias, es seguramente el objetivo central. El estudio de la sintaxis puede verse facilitado por la inclusión de presentaciones críticas con una puntuación cuidada. A título de ejemplo, de la documentación del siglo XIII del Monasterio de Oña señalaremos el empleo de do (nº 0163, AHN, Clero, Burgos, carpeta 285, nº 6, Monasterio de San Salvador de Oña, del año 1237) donde encontramos: 4 el qui ouiere un bue do bestia, 8 el qui ouiere un bue do bestia (los bues do las bestias con el valor ‘los bueyes o las bestias’), posiblemente del vasco edo, conjunción disyuntiva ‘o’ (Sánchez-Prieto Borja y Torrens Álvarez, en prensa), o el empleo de a para el valor ‘en donde’: Esto es el heredamiento partido: al molino de Mogada, una tierra que coge IX tabladas sembradura; otra tierra a Quissiegas, que cabe III tabladas e media; a Fuent Manadera, una tierra de VI tabladas; en somo de los huertos, una tierra de VI tabladas; a la tierra del Val, otra que coge VII tabladas; a Sant Yago, una tierra de VI tabladas; carrera de Muviella, una tierra de V tabladas; al Cascajar pora VI tabladas; a Ferreruela pora V tabladas; Yaer de las Pielles, II tierras de III tabladas (nº 0156, AHN, Clero, Burgos, carpeta 286, nº 4, Monasterio de San Salvador de Oña, de 1247).

No menos interés tiene el Corpus para el estudio del léxico, objeto de atención de algunos trabajos de miembros del grupo (Vicente Miguel 2007). La diversidad geográfica de los documentos permite estudios de distribución por áreas. Como muestra, véase la de los términos para el concepto ‘parcela de terreno agrícola’: Una tierra: uso general (León, Oviedo, Santander, Palencia, Burgos, Logroño, Valladolid, Ávila y Cáceres). Pedaço (de tierra): Zaragoza (1519 y Terrer 1381), Salamanca (1323, 1367, 1393), pero en Salamanca, pedaço de viña. Ávila (1301), Aguilar (1344) y Trujillo (1335). Pieça (de tierra): Rubielos de Mora (Teruel, 1423); Nájera (Logroño) 1406 y Oña (Burgos, 1254). Troz (de tierra, de viña, de huerto): Rubielos 1384, etc. Quiñón: Palencia (1228), Belmonte (Oviedo, 1256) y Santander (1384). Suerte:9 Guadalupe, Trujillo (Cáceres 1357, 1363), Logroño 1287, 1347, Suerte de majuelo y Muruzábal, (Navarra 1266). 9

Sin duda el corpus ofrece también la posibilidad de rastrear procesos de cambio semántico, como el que, en relación a la palabra suerte, muestra este texto de 1266, escrito en Muru-

EL CORPUS DE DOCUMENTOS ESPAÑOLES ANTERIORES A 1700 (CODEA)

35

Faça: Santander, Liébana, 1384, 1466... Valladolid (1296).

En cuanto a la onomástica, el Corpus permite conocer cómo se llevaba a cabo la denominación de las personas, así como todas aquellas fórmulas que constituían las diferentes estructuras identificativas y la variación geográfica y cronológica en el nombre de persona. Sobre esta cuestión desarrolla su tesis doctoral María Simón Parra, quien cuenta con diferentes publicaciones sobre el tema (2006). Por otro lado, la variedad geográfica de los documentos revelará aspectos interesantes para la dialectología histórica. Y, por último, no es poca la información de interés que para la historia en general encierran las piezas editadas. Para el historiador el valor testimonial del documento debe superponerse a otras consideraciones. Por ejemplo, el siglo XV se ha considerado tradicionalmente próspero para Guadalajara y su tierra (por los nobles edificios mandados construir por los Mendozas); pero en una provisión real de 1464 Enrique IV exime de pago de tributos a quienes se avecinden en Guadalajara porque “está muy despoblada” (Sánchez-Prieto Borja 1995:185-202). En concreto, cabe destacar el interés para la historia de las mentalidades y para el mejor conocimiento de la vida cotidiana en otras épocas. Baste citar las cartas particulares del Archivo General de Simancas, donde se encontrarán detalles sobre la vida privada de la nobleza y sus intrigas políticas.

3.5. EL FUTURO DEL CODEA A día de hoy, la principal tarea pendiente es completar algunas lagunas en sentido geográfico y cronológico que todavía presenta el Corpus. Creemos que es posible hacerlo con una selección de no más de 200 documentos nuevos. A esta tarea nos aprestamos en este año en curso. Por último, en cuanto a la difusión del CODEA, nuestra intención es publicarlo en papel en su forma final. Para ello estamos ya en contacto con diversas instituciones. Pero antes queremos ofrecer ya en Internet una primera versión. Por otra parte, el CODEA se integrará en la red CHARTA. Esta red se ha constituido recientemente y en ella participan grupos de investigación sobre el documento antiguo de diferentes universidades e instituciones españolas y extranjeras (véase Carrera de la Red y Gutiérrez Maté en este volumen).

zábal (Navarra): la suert deyuso, que es de parte de buiturno, que se tiene a las viñas de la Raga, cayó por partición e por suert a doña Andrequina.

36

PEDRO SÁNCHEZ-PRIETO BORJA ET AL.

Nuestros objetivos principales son dos. En primer lugar, establecer un estándar para la edición de fuentes documentales en español. Estos trabajos están concluidos y próximamente se publicarán los Criterios de edición de documentos hispánicos (Orígenes-Siglo XIX). Los criterios de la “presentación crítica” de fuentes documentales han servido de propuesta básica en la ponencia debatida en el Cilengua de la Fundación San Millán de La Cogolla, en junio de 2007, con vistas a establecer unos criterios válidos para la edición de textos literarios medievales y clásicos. Tras la discusión y con las modificaciones pertinentes, se aprobó un estándar de presentación gráfica para textos medievales y clásicos, que se publicará próximamente. Dicho estándar ha sido aceptado por la Real Academia Española para la elaboración del corpus del Nuevo diccionario histórico del español. En segundo lugar, pretendemos elaborar un corpus integrado por distintas colecciones de fuentes documentales de España y América. La idea es que cada grupo pueda trabajar independientemente, pero compartiendo criterios de edición, objetivos y herramientas de análisis.

4. Conclusiones Cabe destacar el renovado interés por las fuentes documentales para estudiar los estadios de lengua antiguos. A su vez, estos estudios cobran un alcance mayor si se integran en una perspectiva más amplia que considere el documento en todos sus aspectos, de una manera verdaderamente interdisciplinar, que abarque la diplomática, la paleografía, la historia general y, por supuesto, la historia de la lengua. Sólo de este modo es posible una comprensión global del texto, pues no es otro el objetivo último de la filología. Por otra parte, la amplitud cronológica, geográfica y tipológica del CODEA favorece, unida a la masa documental, la comparación entre documentos respecto a parámetros muy diversos, que pueden combinarse entre sí. De este modo, puede estudiarse la “multivariación”, que entendemos como la interacción entre los factores que explican las características finales del texto, tales como el tiempo, el espacio, la tipología documental, el emisor, el receptor y el asunto, entre otros. Pero para poder lograr estos objetivos (estudio integral y estudio de la multivariación) es preciso que el Corpus cumpla ciertos requisitos en cuanto a su elaboración. En primer lugar, que el criterio de selección de textos sea lo más amplio posible y acoja una tipología variada y, en segundo lugar, que la metodología de edición favorezca el acceso múltiple mediante una edición compleja que proporcione a) el facsímil, b) la transcripción paleográfica y c) la presentación

EL CORPUS DE DOCUMENTOS ESPAÑOLES ANTERIORES A 1700 (CODEA)

37

crítica. Y, por descontado, que los documentos sean transcritos de manera rigurosa para proporcionar textos fiables. Donde tal objetivo no sea posible, el recurso al facsímil permitirá asegurar las lecturas. Hemos creído, pues, indispensable, cumplir los requisitos filológicos más exigentes antes de elaborar las herramientas que permitan la recuperación de la información. Éste es nuestro próximo reto, convencidos de que tales herramientas potenciarán la utilidad del CODEA. La experiencia cumplida hasta ahora nos sirve para reivindicar el papel de una filología empírica e integral como fundamento imprescindible de los nuevos desarrollos de las humanidades.

Bibliografía CARAVEDO, Rocío (1999): “Lingüística del Corpus. Cuestiones teórico-metodológicas aplicadas al español”, en: Koch de, Josse: Gramática española. Enseñanza e investigación. Apuntes metodológicos. Salamanca: Universidad de Salamanca, Tomo I, vol. 6. DIAZ MORENO, Rocío (2000): “Para una datación de la escritura castellana. Siglos XVI y XVII”, en: Actas I Encuentro Internacional de Filólogos Noveles, Alcalá de Henares, 15 de abril de 2000, Universidad de Alcalá-Universität Basel. Alcalá de Henares: Centro de Estudios Cervantinos, 55-56. KOCH, Peter (1993): “Pour une typologie conceptionelle et médial des plus anciens documents/monuments des langues romanes”, en: Selig, Maria/Frank, Barbara/ Hartmann, Jörg (eds): Le passage à l’écrit des langues romanes. Tübingen: Gunter Narr, 39-82. KOCH, Peter/OESTERREICHER, Wulf (1990): Gesprochene Sprache in der Romania: Französisch, Italienisch, Spanisch. Tübingen: Gunter Narr. MARTÍNEZ SÁNCHEZ, Rocío (en prensa): “Evolución discursiva del testamento: entre la tradición y la innovación”, en: VII Congreso Nacional de la AJIHLE. Universidad de Alcalá de Henares, 21,22 y 23 de marzo de 2007. PAREDES GARCÍA, Florentino (2003): “Un cuadernillo del censo de vecinos de Alcalá en 1619”, en: Anales Complutenses XV, 199-216. — (2005): Textos para la historia del español III. Archivo Municipal de Alcalá de Henares. Alcalá de Henares: Universidad de Alcalá. SÁNCHEZ-PRIETO BORJA, Pedro (coord.) (1991): Textos para la historia del español I. Reproducción facsímil, transcripción paleográfica, presentación crítica y comentario lingüístico de documentos medievales y de los siglos XVI y XVII. Alcalá de Henares: Universidad de Alcalá. — (coord.) (1995): Textos para la historia del español II. Archivo Municipal de Guadalajara. Alcalá de Henares: Universidad de Alcalá. — (1998): Cómo editar los textos medievales: criterios para su presentación gráfica. Madrid: Arco/Libros. — (2007): “El romance en los documentos de la Catedral de Toledo (1171-1252): la escritura”, en: Revista de Filología Española, LXXXVII, 1º enero-julio, 131-178. SÁNCHEZ-PRIETO BORJA, Pedro/TORRENS ÁLVAREZ, Mª Jesús (en prensa): “Las tradiciones de escritura del País Vasco comparadas con las de las regiones limítrofes”, en: Oihenart.

38

PEDRO SÁNCHEZ-PRIETO BORJA ET AL.

SIMÓN PARRA, María (2006): El nombre de persona en Castilla en la Edad Media. Alcalá de Henares. Tesis de licenciatura inédita. Julio 2006. SIMÓN PARRA, María/VICENTE MIGUEL, Irene (2008): “Nombres de pila y apodos en la documentación toledana medieval”, en: Nuevas perspectivas en torno a la diacronía lingüística. Actas del VI Congreso Nacional de la AJIHLE (Granada, 29-31 de marzo de 2006). Granada: Universidad de Granada, 473-486. TORRENS ÁLVAREZ, Mª Jesús (2002): Edición y estudio lingüístico del Fuero de Alcalá (Fuero Viejo). Alcalá de Henares: Fundación Colegio del Rey. — (2005): “Un tipo de hipérbaton en la lengua medieval no literaria: la coordinación escindida”, en: Actas del VI Congreso Internacional de Historia de la lengua española. Madrid, septiembre-octubre de 2003. Madrid: Arco/Libros, II, 1169-1178. — (en prensa): “Primeros intentos de normalización gráfica para la representación de [y] y [ñ]. Usos de i, j e y”, en: Actas del Congreso Internacional “Orígenes del español”. El Burgo de Osma, octubre de 2004. VICENTE MIGUEL, Irene (2007): “El léxico de la agricultura en la documentación medieval de la catedral de Toledo (siglos XI a XIII)”, en: Interlingüística 17, 1058-1067.

LOS DOCUMENTOS AMERICANOS (O INDIANOS) EN LA RED CHARTA MICAELA CARRERA DE LA RED/MIGUEL GUTIÉRREZ MATÉ Universidad de Valladolid

1. La red CHARTA En octubre de 2005 se celebró en la Universidad de Deusto una reunión, coordinada por las profesoras Carmen Isasi y Rosa Miren Pagola, con el título “Encuentro de investigadores. Informática para el documento antiguo”. En aquella ocasión la intervención del profesor Pedro Sánchez-Prieto (Universidad de Alcalá) incluía la propuesta de creación de una red integrada de grupos de investigación. Allí se apuntaron como posibles líneas de actuación: 1) el intercambio de experiencias previas de cada grupo, 2) la elaboración de unos criterios de edición unificados que favorecieran la utilización en soporte electrónico de los materiales, 3) la creación de un corpus electrónico de colecciones de documentos transcritos por los grupos participantes en el proyecto de red y 4) el fomento de encuentros periódicos entre los grupos integrados. En una de estas reuniones –concretamente en mayo del 2007 en la Universidad de Valladolid– los seis grupos de investigación “fundadores”1 adoptaron el acrónimo CHARTA (Corpus Hispánico y Americano en la Red. Textos Antiguos) y se constituyeron en red de ámbito internacional al incorporar, además de nuevos grupos españoles, grupos procedentes de centros de investigación europeos y americanos2. La coordina1 Grupos fundadores de CHARTA: Universidad de Alcalá (Pedro Sánchez-Prieto Borja: [email protected]), Consejo Superior de Investigaciones Científicas (María Jesús Torrens Álvarez: [email protected]), Universidad de Deusto (Carmen Isasi Martínez: [email protected]), Universidad de Murcia (Pilar Díez de Revenga Torres: [email protected]), Universidad de Valladolid (Micaela Carrera de la Red: [email protected]). Universidad de Las Palmas de Gran Canaria (Rosa González Monllor: [email protected]). 2 Nuevos grupos de CHARTA: Universidad de Los Andes (Enrique Obediente: [email protected]), Universidad de Gotemburgo (Ingmar Söhrman: [email protected]), Universidad de Jaén (José Luis Ramírez Luengo: [email protected]), Universidad de Múnich (Eva Stoll: [email protected]), Universidad de Neuchâtel (Juan Pedro Sánchez Méndez: [email protected]), Universidad de Padua (José Luis Rivarola: [email protected]), Universidad de Salamanca (Nieves Sánchez González: dimes@ usal.es), Universidad de las Islas Baleares (Andrés Enrique-Arias: [email protected]).

40

MICAELA CARRERA DE LA RED/MIGUEL GUTIÉRREZ MATÉ

ción pertenece a la Universidad de Alcalá y se cuenta con los profesores Bautista Horcajada (de la Universidad Complutense de Madrid) y Carmen Isasi (Universidad de Deusto) como especialistas en informática y tratamiento de textos. La estructura en red ha propiciado la elaboración de unos criterios de transcripción/edición de textos con un alto nivel de aplicación en el ámbito hispánico, fruto del acuerdo y del intercambio entre los distintos grupos. 2. Corpus de “textos antiguos” “Texto antiguo” refiere a todo testimonio de lengua escrita susceptible de tratamiento filológico, cronológicamente anterior al siglo XIX y delimita el ámbito de aplicación de los acuerdos y criterios. Los integrantes del grupo CHARTA, desde su ámbito originario, habían reunido diferentes corpus y, en no pocos casos, el objeto de preparación de textos en soporte electrónico eran obras literarias3. El concepto que subyace en “texto” en el acrónimo CHARTA es más amplio que “texto” como documento. Sin embargo, no puede negarse que el objetivo central es el tratamiento filológico del texto documental hispánico, recogido en archivos o repositorios españoles, europeos y americanos. 3. El estándar de presentación formal de los textos El sistema de trabajo en el que estamos inmersos implica una dinámica de interacción entre el trabajo filológico y la edición electrónica. El establecimiento de acuerdos sobre los criterios de preparación de los textos es una tarea esencialmente filológica. No hay que confundirla con los criterios de visualización de dichas transcripciones/ediciones en la red, esto es, con los principios técnicos que, si bien se toman en consideración en los debates, se precisarán más adelante. Esto último implica un manejo de editores electrónicos de textos, algunos de ellos existentes en un ámbito internacional y multilingüe, otros creados específicamente para el tratamiento de textos hispánicos. En unos y en otros son precisas ciertas modificaciones para que se adapten perfectamente al ámbito hispánico y a todo tipo de manifestación textual (códices, libros, documentos). Hasta ahora hay acuerdo en que la presentación formal de cada corpus parcial dentro del macro-corpus y de cada texto en el corpus conste de los siguientes componentes:

3

Remitimos a los proyectos desarrollados desde la Universidad de Deusto sobre traducciones literarias (Proyecto UNAI, Proyecto ROMULO).

LOS DOCUMENTOS AMERICANOS (O INDIANOS) EN LA RED CHARTA

41

• La cabecera • Los elementos “codicológicos” De todos los textos se dispondrá de: • Facsímil • Transcripción paleográfica • Presentación crítica El logro de unos acuerdos mínimos sobre la presentación gráfica de los textos era punto de partida imprescindible tanto para la labor filológica, como para el tratamiento electrónico. Se trabajó sobre distintos borradores de “normas gráficas de edición”, hasta llegar a unos acuerdos básicos: 1) para la cabecera de los textos, 2) para lo que, de momento, se denomina “elementos codicológicos”, 3) para la transcripción paleográfica y 4) para la presentación crítica. Podemos hablar de un primer logro de la red CHARTA desde el momento en el que diversas instituciones dedicadas al fomento de los estudios de la historia del español dispusieron una jornada de discusión sobre la propuesta de CHARTA, bajo el título “Hacia un estándar en la edición de los textos antiguos españoles: criterios de presentación gráfica”. En la reunión, que tuvo lugar en junio de 2007, en San Millán de la Cogolla (Logroño), quedó aprobada la propuesta dirigida a la presentación de textos antiguos literarios. En ella constan los principios rectores de la grafía en la presentación crítica (Figura 1) 4: FIGURA 1 Principios de la presentación gráfica de textos españoles antiguos y clásicos • El criterio general para el establecimiento de la forma gráfica del texto crítico no es la modernización, sino la unificación de diferencias gráficas no fonológicas. • De esta manera se preserva la identidad de la palabra: uiuo, uivo, vjvo, etc. = vivo. • Esta unificación facilita la lectura... • También favorece el tratamiento electrónico de los textos. • Y todo ello sin falsear la lengua antigua (vivo/bivo).

4

La edición de textos españoles medievales y clásicos. Criterios de presentación gráfica Fundación San Millán de la Cogolla, CILENGUA, 2007. Fundación San Millán de la Cogolla, CILENGUA, 2007. Instituciones que avalan esta propuesta de presentación gráfica: Fundación San Millán de La Cogolla CILENGUA (Centro Internacional de la Lengua Española), Real Academia Española (NDHE Nuevo Diccionario Histórico del Español) y Red Internacional CHARTA (Corpus Hispánico y Americano en la Red de Textos Antiguos).

42

MICAELA CARRERA DE LA RED/MIGUEL GUTIÉRREZ MATÉ

El carácter estándar de la propuesta –es decir, codificada, consensuada y generalizable– se observa en la redacción final de cada uno de los apartados (Figura 2). FIGURA 2 u, v, b en la propuesta aprobada por CILENGUA

Bajo la misma norma se ofrece una pluralidad en la solución según la naturaleza de los textos a los que se aplique: a) textos literarios, b) textos marcados. La variación textual es decisiva a la hora de proponer una regularización gráfica o el mantenimiento de las grafías específicas. Ahora bien, el estándar CHARTA para la presentación gráfica necesita aplicarse y ver los problemas que suscita en aquellas colecciones de corpus que, como los que proceden del ámbito americano, en las que fechas utilizadas como frontera en la presentación gráfica –1600 y 1713– tienen una significación distinta en el marco del desenvolvimiento de la escritura hispánica que en el seno de una intensísima actividad “diplomática” a ambos lados del Atlántico, como vamos a intentar esbozar de aquí en adelante. Sirva de punto de partida la realidad constatada de que los documentos americanos ofrecen un sistema ortográfico extremadamente complejo: en algunos puntos, se muestra extremadamente conservador de las tradiciones, mientras que en otros, bajo el peso de la fortísima evolución fonética, es muy innovador.

4. La grafía del español vista por hispanoamericanos A los que vamos a adentrarnos en el intento de regularizar y crear el estándar filológico de corpus documentales de las distintas zonas americanas nos interesa

LOS DOCUMENTOS AMERICANOS (O INDIANOS) EN LA RED CHARTA

43

tener bien presentes las reflexiones hechas desde la propia filología hispanoamericana. Destacan dos aspectos: 1) la concepción sobre la ortografía de la lengua española en textos antiguos y 2) el tratamiento gráfico dado hasta ahora a diferentes colecciones documentales hispanoamericanas. Rosenblat se mostraba contrario a la regularización sistemática de la ortografía sobre un único criterio (1951, 1971). En su famoso trabajo titulado “Fetichismo de la letra” (Rosenblat 1971: 41-81), este lingüista venezolano de origen argentino no acepta fácilmente la tarea normativizadora que implica la eliminación de variantes gráficas. Recorre todos los puntos neurálgicos en el aún hoy imperfecto sistema ortográfico del español desde sus orígenes medievales hasta mediados del siglo XVIII, momento en el que la Real Academia se arrogó la tarea de fijación ortográfica (en 1742 se publicó la primera versión de la Ortographia). Los epígrafes de Rosenblat son muy elocuentes: “Grupos consonánticos cultos”, “¿Transmitir o trasmitir?”, “Expiar y espiar”, “¿México o Méjico?”, “Pronunciación labiodental de la ‘v’”, “El fetichismo de la coma”, “¿Yrigoyen o Irigoyen?”, “Fetichismo editorial”. Desgrana un sinnúmero de ejemplos, con el fin de encontrar las razones motivadoras de cada elección, a este y al otro lado del Atlántico. Rechaza los casos extremos de “conservadurismo” intolerable que se han dado a lo largo de la historia con afirmaciones del tipo: “toda ortografía es tradicionalista por esencia ¿No es también manifestación de fetichismo la conservación de tanta h muda?” Pero el contrapunto lo pone la espontaneidad lingüística del castellano en las fases previas a la normativización académica, según su parecer a veces improductiva (por exceso de peso de la etimología y del afán purista latinizante) y siempre imperfecta: (…) nuestros antiguos y clásicos escribían como pronunciaban: aver, combidar, onbre, etc. Pero ha terminado por imponerse en la lengua, a pesar de todos los esfuerzos de reforma ortográfica, una grafía más bien latinizante (…) La reforma de la ortografía por la Academia ha ido sometiéndola al criterio etimologista latinizante (Rosenblat 1971: 58).

Guitarte (1960 [1959], 1969, 1983), gran impulsor de la idea de que había que dotar al español de América de herramientas de estudio similares a las colecciones hispánicas de documentación medieval pidalianas, afirmaba que los documentos son la otra gran ventaja del español de América –junto con las grandes obras de la historiografía cronística indiana– y se refería a ellos como ámbito próximo a la lengua hablada La enorme masa de documentos de toda índole que surgió durante la administración española: declaraciones, probanzas, de servicios, pleitos, cartas a amigos y familiares,

44

MICAELA CARRERA DE LA RED/MIGUEL GUTIÉRREZ MATÉ

etc., que representan variedades de lengua más próximas a lo que se hablaría en América, casi no ha sido tocada (Guitarte 1969: 194).

Habla también sobre el “papel nivelador de la lengua de los documentos”, comentando la idea de Cuervo de que “la lengua de la administración y la literatura habían nivelado en América las hablas de los conquistadores de diversos orígenes, si bien no con un resultado completo, sino que perduran expresiones regionales de todos ellos”. En consonancia con Cuervo y Rosenblat, Guitarte (1960 [1959]) habla como algo no resuelto del todo de la relación entre grafías y “pensamiento fonológico”. Y en otro orden de cosas, este lingüista argentino afirma también que, a finales del XVI, peninsulares y criollos se sienten ya distintos entre sí.

5. Sobre el tratamiento gráfico de fuentes documentales americanas María Beatriz Fontanella, coordinadora desde 1990 hasta su muerte en 1995 del Proyecto para el Estudio Histórico del Español de América de la ALFAL, se atrevió a realizar una descripción de la “evolución fonológica del español americano durante la etapa colonial” (1992), según sus propias palabras, porque “se había avanzado en las décadas de los ’70 y ’80 en los estudios documentales en distintas regiones de Hispanoamérica, tanto por autores oriundos de países de allá como por hispanistas europeos, incluidos españoles”. Este impulso, visto desde FIGURA 3 Normas de presentación gráfica del Proyecto Histórico de la ALFAL • Se respetará en un todo la grafía original del texto. • Sólo se apartará del mismo en cuanto contemplará la separación gramatical de las palabras. • Se conservarán las abreviaturas. • Las s larga y las s de doble curva (redonda) se transcribirán con s redonda. • La c con cedilla se transcribirá literalmente: ç. • Se respetará el uso de i e y, ya sea como vocales o consonantes según el texto original. • La r mayúscula con valor fonético de rr, se mantendrá: Rio, CoRe. • Se respetará la dulicación de letras: cossa, cappitan, ottra, ffecha. • Se conservarán las contracciones: del, della, desta, ques. • Se respetará el signo copulativo τ. • Se conservará la puntuación del original. • Se conservará el uso de mayúsculas y minúsculas del original. • Se respetará la acentuación (o su ausencia) del original.

LOS DOCUMENTOS AMERICANOS (O INDIANOS) EN LA RED CHARTA

45

FIGURA 4 Criterios de presentación gráfica seguidos por Craddock (1999/2000) y Coll (1999/2000) Las abreviaturas las desarrollan tanto Craddock como Coll, pero el primero lo hace señalando los fragmentos o palabras abreviadas (tratamientos, Reverendo Padre) con cursiva, en cambio la segunda no las marca de ninguna forma. 1. Mantiene la consonántica 2. Mantiene consonántica: aian 3. Grafía representando /h/: quegas, quegar, trugo, guicio, Gusepa 4. Mantiene : sienpre, enbiaua, onbre 5. No repone la : acienda, echo; en cambio, hindia 6. No repone la : ciuda, uerda 7. ante : alcauan, ico, aco-/tadolas 8. para fonema vibrante múltiple interior de palabra: tiera, aborecerme. 9. Conserva en casos como poquo 10. No repone alguna consonante elidida: lagriones (por lagrimones) 11. No repone la tilde en : renirla, reni (al lado de reñirla, cicañeros) 12. No repone el diptongo en casos como uergunca – Entre los elementos codicológicos destacan: 1. (^ ) interlineado 2. (^???) interlineado ilegible 3. [???] reconstrucción ilegible 4. Las líneas se indican con barra recta y número volado |n 5. La palabra final de línea con un guión: suigien-tes, uiui-|r – Puntuación: la del documento – Palabras juntas 1. Se mantienen secuencias como: quella, questa, queran, ques; dela, dello 2. Se mantienen las repeticiones superfluas de sílabas: i le de decia

el momento actual, parece una obviedad, pero entonces no lo era tanto y no se había llegado a plasmar aún como realidad la necesidad de basar los estudios de diacronía lingüística en las diferentes zonas hispanoamericanas en el análisis de textos manuscritos o, en todo caso, en ediciones confiables de carácter paleográfico. Las normas de presentación formal adoptadas por la Comisión del Proyecto se publicaron en 1990, en San Juan de Puerto Rico. El resumen de los criterios es el que aparece en la Figura 3 y la realidad fue, por una parte, que no todos los integrantes del proyecto lo siguieron (algunos de ellos tan importantes como los mejicanos liderados por Lope Blanch) y, por otra, hay que reconocer que pecaba de cierto “fetichismo del manuscrito” –me atrevo a parafrasear a Rosenblat– que

46

MICAELA CARRERA DE LA RED/MIGUEL GUTIÉRREZ MATÉ

provocaba no poca confusió entre los usuarios y rechazo de los lectores. No consiguió, por tanto, el rango de estándar. Frago habló en su momento –creo que apelando a los criterios del Proyecto de la ALFAL– de la “enorme complejidad de todo intento de imprimir paleográficamente, en el más estricto sentido del término, un extenso corpus indiano de los siglos XVI-XVII, en mayor medida para el primer tramo de este período (…) además de que lingüísticamente tampoco es del todo necesaria semejante rigurosidad en el aspecto formal” (Frago 1999/2000: 129-130). Mostraba, asimismo, sus dudas sobre todo intento de lograr cierto acuerdo en el aspecto formal de presentación de textos documentales: “en este terreno –dice– una uniformidad total de criterios es prácticamente imposible” (Frago 1999/2000: 130). En el mismo número que recoge el trabajo de Frago, un monográfico doble de Romance Philology sobre Documenting the Colonial Experience, with Special Regard to Spanish in the American Southwest (De Marco/Craddock 1999), de forma no explícita, sino mediante la aplicación a un documento mexicano de mediados del siglo XVII (1664), Craddock (1999/2000: 69-118) y Coll (1999/2000: 289-361) adoptan una propuesta concreta de transcripción paleográfica, bastante estricta en la representación gráfica –tal como se ve en la Figura 4– que se diferenciaba del Proyecto de ALFAL de forma notable tan sólo en el desarrollo de las abreviaturas.

6. Primeros intentos de aplicación de CHARTA. Éxitos y dudas Llega ahora el momento de mostrar con ejemplos concretos la efectividad de la propuesta de CHARTA y aquellos puntos oscuros que van, sin duda, a aparecer y que, en algunos casos, precisan de imaginación para lograr la total unidad en la presentación. Otros precisan de un debate y de un acercamiento de posturas, dada su repercusión en zonas concretas de la historia del español.

6.1. SOBRE LAS CABECERAS Uno de los aspectos que habrá que resolver afecta a la presentación de los documentos complejos en su estructura, porque contienen, bajo una misma signatura archivística, varios tipos de documentos, muchas veces copiados por una mano única, aunque en origen pertenezcan a escribanos distintos, tal como se ve en la Figura 5, así como de los expedientes archivísticos. Es interesante señalar el interés del apartado dedicado en el regesto al tipo de documento. La tipología documental indiana o americana está pidiendo aten-

LOS DOCUMENTOS AMERICANOS (O INDIANOS) EN LA RED CHARTA

47

FIGURA 5 Ejemplo de cabecera de un documento “complejo” de Colombia (siglo XVIII) GEHLIB, Col18, AGI, Nº–– AGI, Santa Fé 362, N.14 (1) ff. 14-2v AGI, Santa Fé 362, N. 14 (2) ff. 34-5v 1712 abril 28 (Antioquia Colombia (1) 1713 septiembre 21 (Madrid) Carta Informe Real Provisión (2) El Capitán General de Antioquia, D. Joseph López de Carbajal, informa al rey sobre la entrada al río Murrí, en el Chocó (Joseph López de Carbajal) Real Provisión del Consejo respaldando las acciones del Capitán General D. Joseph López Carbajal (escribano del Consejo) (1) la localidad ¿incluye el país? (2) REGESTO. registro - tipología

ción, porque está aún por hacerse un estudio serio y sistemático. Su importancia tiene que ver, por ejemplo, con futuros trabajos de tipo discursivo. Una vez determinada la tipología de los textos (consultas, memoriales, probanzas, capitulaciones e informes), sería posible atender a la fijación de los registros entendidos con Conrad/Biber (2001) como variedades dentro de una cultura y que responden a contextos situacionales distintos. En los documentos americanos, por ejemplo, se podría hacer un estudio de registros que se contienen en los múltiples tipos diferentes de cartas (petición, queja, informe, etc.).

6.2. SOBRE EL PASO DE LA TRANSCRIPCIÓN PALEOGRÁFICA (TP) A LA PRESENTACIÓN CRÍTICA (PC) Hasta ahora los documentos americanos o indianos se han trabajado por parte de los filólogos y lingüistas con criterios estrictamente paleográficos. En CHARTA se pide dar el paso que implica un grado de abstracción mayor, desde la transcripción paleográfica (TP) a la presentación crítica (PC), una tarea que no se ha hecho todavía. Si se observa la transcripción paleográfica de la Figura 6, llama la atención el grado de complejidad que alcanza el desarrollo de las abreviaturas de algunas

48

MICAELA CARRERA DE LA RED/MIGUEL GUTIÉRREZ MATÉ

FIGURA 6 Carta de petición de Belalcázar a favor de una india (Popayán 1544) ◆ TRANSCRIPCIÓN PALEOGRÁFICA {8} muy noble señor hrdo andino allde hordin en esta çibdad de popa{9}yan por su mgt el adeldo don sebastia de belalcaçar ante vra {10} mrd paresco en la mejor manera q puedo e de drco devo e digo q {11} al tienpo que yo estuve en el nuevo rreyno de granada quado {12} yva al descubrimjo de las sierras nevadas ./ anduvo conmigo vn con{13}quistador que se dezia lucas bejarano. el qual fallesçio en aquella {14} sazon q yo llegue al dho nuevo rreyno de çierto flechazo q los {15} yndios le dieron con yerva. e al tpo que stava para morir tenja vna {16} yndia de mexico que se dezia beatriz e se caso con ella segun dezian ◆ TRANSCRIPCIÓN CRÍTICA {8} Muy noble señor Hernando Andino, alcalde ordinario en esta cibdad de Popa{9}yán por Su Majestad. El adelantado don Sebastián de Belalcaçar ante Vuestra {10} Merced parezco en la mejor manera que puedo e de derecho devo, e digo que {11} al tiempo que yo estuve en el Nuevo Reino de Granada, cuando {12} iva al descubrimiento de las Sierras Nevadas, anduvo conmigo un con{13}quistador que se dezía Lucas Bejarano, el cual falleció, en aquella {14} sazón que yo llegué al dicho Nuevo Reino, de cierto flechazo que los {15} indios le dieron con hierva e, al tiempo que estava para morir, tenía una {16} india de México que se dezía Beatriz e se casó con ella, según dezían.

FIGURA 7 Vecinos de Azua (Santo Domingo 1756) ◆ TRANSCRIPCIÓN PALEOGRÁFICA {f8r} {1} S desde el punto que benga la {2} rasos de Bvtad Magestad estamos {3} dispuestos ha irnos a nuestro pueblo pu{4}esto que el mesmo Rei y S nuestro nos {5} puso allâ como ha buelta queda dicho {6} tanbien sabemos que la noble chansilleria {7} le escribieron ha Bvta Magestad sobre {8} el asunto de dha mudada y sabemos tan {9} bien que escribieron mui â lo contrario ◆ TRANSCRIPCIÓN CRÍTICA {f8r} {1} Señor, Desde el punto que benga la {2} rasón de Vuestra Magestad, estamos {3} dispuestos a irnos a nuestro pueblo, pu{4}esto que el mesmo Rey y Señor nuestro nos {5} puso allá, como a buelta queda dicho. {6} También sabemos que la noble Chansilleía {7} le escribieron a Vuestra Magestad sobre {8} el asunto de dicha mudada y sabemos tam{9}bién que escribieron muy a lo contrario

LOS DOCUMENTOS AMERICANOS (O INDIANOS) EN LA RED CHARTA

49

FIGURA 8 Carta de Diego de Frías en los Autos de Francisco de Vera (Cartagena 1694) {f 1r} {1} En el nombre de la passion de muerte de christo redentor nu {2} estro diego de frias preso en esta calse publica dos meses y {3} medio de orden del señor alcalde don Juan de castro y salga {4} do a pedimento del padre bachiyer don silbestre por cantida {5} d de treyntaynueve pessos de que le soy deudor prosedidos de be {6} ynteysinco que le pago cada vn año de (arriba: la casa de) mi morada y de otros dos {7} ssobrinos mios con albeltensia de dicha devda no me la e comido n {8} y echadola por ayr que los moradores de dicha finda lo estan debien {9} do avnque e pedido contra eyos no se a gecho diligensia ninguna {10} Ni el padre bachier gusta que se aga diligensia ninguna ssino que m {11} alisiosamente me quiere tener padessiendo como se ynfiere de lo que a {12} pasado pues aviendole suplicado don baltolome narbaes me echase fue {13} ra quedando su mersed a la sastifassion de dicha devda respondio que {14} No queria y asi mesmo el padre don lorenso polo se lo suplico quedan {15} do a la sastifasion por ser mi ofisio ofisial de albanil y averm {16} e el dicho padre don lorenso polo menester para vna obra que tie {17} Ne en san agustin y respondio lo mesmo que a don baltolome na {18} rbaes y por ser la malisia conosida y por ser el tiempo santo que es {19} Sse a de servir vsseñoria de mandarme soltar de la prision en qu {20} e estoy en asimiento de grasia de estas santas pascuas y pu {21} es ocasion de que vseñoria debe gaser senaladas mersedes a sus c {22} ryados por el resien nassido ynfante que be vseñoria criado con lo {23} Avmentos que dios puede darle y sus servidores desean esta espero {24} que vsenoria me jaga de eyo quedare agradessido;

palabras, de forma especial, los tratamientos (Su Mgt). En el caso de los documentos indianos es frecuente que no aparezca ninguna lineta ni marca abreviativa, a pesar de lo cual, tendrán que desarrollarse las abreviaturas. Nuestra propuesta iría en el sentido de que, al menos a partir de 1600, las abreviaturas del tipo vm o vmd, cuando aparecen en contextos en los que sabemos que debían ser leídas como usted/osté, etc. y no como vuestra merced, no debieran ser desarrolladas en la TP; en la PC podría sustituirse la abreviatura por los pronombres de tratamiento si tenemos seguridad de que esta era la forma en que se quería transmitir (sobre todo en cartas privadas y fragmentos orales de los autos judiciales); se puede desarrollar en otros casos la fórmula vuestra merced (en otro tipo de documentación oficial) o dejarla sin desarrollar cuando la duda sobre su lectura se sigue manteniendo.

50

MICAELA CARRERA DE LA RED/MIGUEL GUTIÉRREZ MATÉ

Sobre la regularización hacia la forma actual de la palabra yerva (en la PC, hierva) resultan extrañas dos cosas: a) que se altere tanto la primera parte de la palabra, cuando esta palabra tiene enorme vitalidad hasta el siglo XIX en textos de toda América, con derivados como yerbaje, yerbazal (Harris-Northall/Nitti 2003) y b) que, en cambio, no se modifique la grafía de la labial. Este fragmento de un documento del siglo XVI muestra las dos presentaciones gráficas bien diferenciadas, pero en otras zonas y en otras épocas los usos gráficos son tan irregulares que la presentación crítica no admite demasiados cambios en la modernización gráfica frente a la transcripción paleográfica, como se ve en la Figura 7, que corresponde a un documento dominicano de principios del siglo XVII. Aparte de estos casos –que tal vez no confundan a los filólogos experimentados– hay otros más complejos donde la transcripción paleográfica deja ver que las grafías absolutamente confundidas no obedecen simplemente a errores ortográficos del semianalfabeto autor del documento, sino que encierran un estadio de la pronunciación de enorme confusión. La presentación crítica de textos –como el de la Figura 8– no resulta fácil sin dejar de sentir que se puede traicionar la lengua hablada por aquel individuo y otros como él en la Cartagena convulsionada por la mezcla de razas y lenguas de finales del siglo XVII. ¿Cómo se presentarían las variantes bachiyer ~ bachier? o ¿cómo desarrollar vseñoria? ¿Se repondría la –e en ayr?

6.3. SOBRE LOS DOCUMENTOS DUPLICADOS Sumamente útiles para el estudio de la variación gráfica son los documentos indianos que, por el afán de garantizar la recepción en la metrópoli, llegaban en forma de lo que se llama, desde la diplomática, duplicados. Las grafías entre ambas copias, obra de la misma mano, muestran, en no pocas ocasiones, variantes en la misma palabra. La pregunta es si en el análisis de ejemplos como los recogidos en la Figura 9, procedentes de un expediente de información para concesión de canongía a Luis Jerónimo Alcocer en el Santo Domingo de 1624, habría que proceder con el mismo criterio utilizado en la transmisión mediante copia de los textos medievales –por ejemplo las grafías en las variantes del Rimado de Palacio o de los Soliloquios de Fernández Pecha (Clavería 1998: 49-64)– con la salvedad de que aquí el escribano es la misma persona y las copias son simultáneas. Y en cuanto al traspaso a la presentación crítica se presentan interrogantes: ¿conbinieren o combinieren, inbien o embien? En cada una de las copias, una de las variantes parece ser la predominante ¿Se mantendrían formas como assendientez?

51

LOS DOCUMENTOS AMERICANOS (O INDIANOS) EN LA RED CHARTA

FIGURA 9 Duplicado de la carta de presentación de Luis Jerónimo Alcocer (Santo Domingo 1624) GRAFÍAS v- ~ u-b- ~ -u-

SIBILANTES

g~j~x

VOCALISMO

TP

PC

TP

PC

biexos sauen siruio conbinieren

biexos saven sirvio conbinieren

uiejos sauen sirbio combinieren

viejos saven sirbio combinieren

sido aszendientes raças ofiçio ynquissiçion rreputaçion ofreçieron

sido aszendientes raças oficio inquissición reputación ofrecieron

çido assendientez razas ofizio ynquisision rreputasion ofresieron

cido assendientez razas ofizio inquisisión reputasión ofresieron

biexos

biexos

uiejos

viejos

TP

PC

TP

PC

a~e

traslados

traslados

treslados

treslados

y, i ~ e

ynbien

inbien

embien

embien

i~e

Emiliana (*)

Emiliana

Emeliana

Emeliana (¿?)

6.4. SOBRE ALGUNAS MALAS GRAFÍAS En el caso de los textos indianos de los siglos XVI a XVIII podemos plantearnos el problema que planteó Pensado (1998: 225-242) “sobre los límites de la mala ortografía en romance”. De muchos documentos americanos puede decirse que, en buena medida, se escriben al margen de las tradiciones gráficas dominantes en el ámbito hispánico y en un ambiente de evolución fonológica muy fuerte, por lo que son campo propicio para la aparición de errores ortográficos que habrá que ver si corresponden a esas nuevas etapas evolutivas de la fonética. Como ejemplo traemos el dígrafo çh, cuya presencia es ocasional pero muy constante en los textos en los que llega a aparecer, como por ejemplo, en unos autos colombianos del finales del siglo XVII (cf. Figura 10), donde encontramos arçhivo, noçhe, oçho, muçhos, Vn çhifle, grillos Remaçhados, Vn çhuço, o en apellidos y

52

MICAELA CARRERA DE LA RED/MIGUEL GUTIÉRREZ MATÉ

FIGURA 10 Autos criminales contra el mulato Francisco de Vera (Cartagena de Indias, 1694)

topónimos como Eçharri, Sançhez y çhanbacu. Esta última opción parece ser la de mayor fidelidad al manuscrito y por ella nos decantamos para la transcripción paleográfica y nos preguntamos si debería incluso pasar a la presentación crítica, con la hipótesis de que el dígrafo çh quiera reflejar la pronunciación de la fricativa prepalatal [∫] y no de la africada [t∫], una posibilidad bastante fiable de paso de la vacilación gráfica a la vacilación fonética en español del Caribe.

7. Colofón En realidad, este final no es sino el pórtico de la tarea ingente que aún queda por hacer. Si bien es un buen augurio que estos problemas de presentación gráfica y formal de documentos se traten en todo el conjunto del dominio hispánico. Pese a lo diferencial de cada zona, en conjunto es más fuerte lo común en las tradiciones escriturísticas, grafemáticas y de presentación de las acciones diplomáticas en la administración española.

Bibliografía CLAVERÍA NADAL, Gloria (1998): “Grafías cultas en las variantes del Rimado de Palacio de P. López de Ayala y de los Soliloquios de Fr. P. Fernández Pecha”, en: Blecua, José

LOS DOCUMENTOS AMERICANOS (O INDIANOS) EN LA RED CHARTA

53

Manuel/Gutiérrez, Juan/Sala, Lidia (eds.): Estudios de Grafemática en el dominio hispano. Salamanca: Instituto Caro y Cuervo / Ediciones Universidad de Salamanca, 49-64. COLL MORE, María Magdalena (1999/2000): “‘fio me a de librar Dios Nuestro Señor...de mis falsos acusadores”: doña Teresa de Aguilera y Roche al Tribunal de la Inquisición (México, 1664)’”, en: De Marco, Barbara/Craddock, Jerry R. (eds.): Romance Philology. Documenting the colonial experience, with special regard to Spanish in the American Southwest 53, 2, 289-262. Special issue in two Parts of Romance Philology, 53. CONRAD, Susan/BIBER, Douglas (2001): Variation in English: Multi-Dimensional Studies. Londres: Longman. CRADDOCK, Jerry R. (1999/2000): “Fray Marcos de Niza, Relación (1539): Edition and Comentary”, en: De Marco, Barbara/Craddock, Jerry R. (eds.): Romance Philology. Documenting the colonial experience, with special regard to Spanish in the American Southwest 53, 1, 69-118. DE MARCO, Barbara/CRADDOCK, Jerry R. (eds.) (1999/2000): Romance Philology. Documenting the colonial experience, with special regard to spanish in the American Southwest 53, 2 tomos (otoño/primavera). Special issue in two Parts of Romance Philology, 53. FONTANELLA, María Beatriz (1992): “Evolución fonológica del español americano durante la etapa colonial”, en: Anuario de Lingüística Hispánica 8, 85-97. FRAGO, Juan Antonio (1999/2000): “Criterio filológico y edición de textos indianos: sobre documentos de la Nueva España”, en: De Marco, Barbara/Craddock, Jerry R. (eds.): Romance Philology. Documenting the colonial experience, with special regard to Spanish in the American Southwest 53, 1, 119-136. Special issue in two Parts of Romance Philology, 53. GUITARTE, Guillermo L. (1960 [1959]): Cuervo, Henríquez Ureña y la polémica sobre el andalucismo de América. Bogotá: Instituto Caro y Cuervo [edición previa en Thesaurus 14: 20-81]. — (1969): “Para una historia del español de América basada en documentos: el seseo en el Nuevo Reino de Granada (1550-1650)”, en: El Simposio de México. Enero 1968. Actas, informes y comunicaciones. México, D.F.: UNAM, 191-199. — (1983): Siete estudios sobre el español de América. México, D.F.: UNAM. HARRIS-NORTHALL, Ray/NITTI, John N. (eds.) (2003): Peter Bowman’s Léxico Hispanoamericano, 1493-1993. Madison: Spanish Seminary of Medieval Studies (cederom). PENSADO, Carmen (1998): “Sobre los límites de la mala ortografía en romance ¿Por qué el inglés fish no se escribe ghoti después de todo?”, en: Blecua, José Manuel/Gutiérrez, Juan/Sala, Lidia (eds.): Estudios de Grafemática en el dominio hispano. Salamanca: Instituto Caro y Cuervo/Ediciones Universidad de Salamanca, 225-242. ROSENBLAT, Ángel (1951): Prólogo sobre las ideas ortográficas de Bello. Caracas: Ministerio de Educación. — (1971): Nuestra lengua en ambos mundos. Madrid: Salvat.

CONFECCIÓN DE UN CORPUS PA R A C O N O C E R E L O R I G E N , L A E VO L U C I Ó N Y L A C O N S O L I D AC I Ó N D E L E S PA Ñ O L E N L A N U E VA E S PA Ñ A B E AT R I Z A R I A S Á LVA R E Z Universidad Nacional Autónoma de México

1. Introducción En su Diccionario de construcción y régimen de la lengua castellana (1886-1893) Cuervo señala que sólo a través del estudio de documentos y manuscritos es posible trazar el desarrollo histórico de nuestro idioma. De manera semejante, Lope Blanch –durante el Simposio de PILEI en 1967– advirtió de la necesidad del estudio histórico del español americano a través de la recopilación y edición de textos. De ahí que una de las grandes preocupaciones de la lingüística mexicana, ha sido y es el estudio del español colonial. Dicha preocupación abarca tanto la recopilación y el estudio de textos novohispanos, tal es el caso de los libros: Las cartas de Diego de Ordaz, publicado por Lope Blanch (1985) o El español de México en el siglo XVI, Estudio filológico de quince documentos, publicado por Arias (1997), como la recopilación y edición de documentos heterogéneos, tal es el caso del libro Documenting Everyday Life in Early Spanish California publicado por Perissinotto (1998) y de los Documentos para la historia Lingüística de Hispanoamérica siglo XVI a XVIII, compilados por Fontanella (1993), que incluye textos que corresponden a la Nueva España. Sin embargo, aunque tanto unos como otros han contribuido al conocimiento del español colonial mexicano, hay que destacar que ninguno de ellos presenta un plan en cuanto al tipo de documentos que deben ser recopilados. En ellos no se consideran los diversos factores de índole lingüística y extralingüística que intervinieron en el origen y en la evolución del español novohispano. Es pertinente señalar que en el planteamiento de cualquier cuestión documental, enfocada hacia el estudio de la variación y el cambio de una comunidad lingüística (suficientemente amplia), deben considerarse parámetros no sólo geográficos o temporales, sino también de estratificación social y cultural. En otras palabras, dentro de una visión dinámica de la arquitectura de la lengua es necesario abarcar toda la gama de variedades lingüísticas posible, como lo seña-

56

BEATRIZ ARIAS ÁLVAREZ

lan Oesterreicher (1998) y Rivalora (2005). En el caso de la Nueva España, hay que añadir que dichos parámetros no deben restringirse únicamente al territorio virreinal, sino a otras zonas como la Península Ibérica, dialectos mayoritarios que se trasladaron al Nuevo Mundo o como Canarias y Cuba, áreas en las que se pudo llevar a cabo la mezcla y homogeneización de dialectos –koiné–1. Parece que se ha olvidado que el español en México no sólo fue la adopción de un español peninsular (difícil de establecer), sino que en éste han intervenido diferentes factores lingüísticos, sociales e históricos que no se limitan a lo sucedido en México. De ahí que el proyecto “Origen, evolución y consolidación del español en la Nueva España” parta de la tesis de que para conocer el español colonial mexicano es necesario adentrarse en sus raíces peninsulares, así como en los testimonios pertenecientes a las zonas de tránsito, Canarias y Cuba y en los registros que corresponden a los diferentes asentamientos de españoles dentro de la Nueva España2. El estudio del español novohispano enfocado hacia sus orígenes y ulterior desarrollo, basado en un corpus estrictamente recopilado, en cuanto al origen del amanuense y a las características del texto y editado siguiendo parámetros rigurosamente estipulados, permitirá no sólo determinar las características del español mexicano en la época colonial, sino también conocer los orígenes de muchos fenómenos lingüísticos del español mexicano actual.

2. Metodología En cuanto a la metodología, se consideran las grandes distinciones utilizadas para conocer el habla de una comunidad, a saber: niveles diatópicos, niveles diastráticos y niveles diafásicos, dentro de estos últimos se incorporan diferentes variedades textuales3. A lo que hay que sumar, dado el tipo de estudio que se realiza, un nivel diacrónico. Esta misma división la apoya Pottier al señalar que: 1

Sobre la koeneización como posible origen del español americano puede consultarse Fontanella (1992) y Granda (1994). 2 Este proyecto está financiado por la Universidad Nacional Autónoma de México (PAPIIT–IN400707). 3 Cf. Lastra (2003), así como Hudson (1981), pero sobre todo Coseriu (1981). En cuanto a la variedad textual coincido con Garatea en incorporar todo tipo de textos (para poder cotejar tradiciones discursivas), ya que la historia del español de América “Se trata de una historia que, por lo demás, no se definió únicamente por el dominio de un sistema, de una técnica estructural, sino, a la vez, por un conjunto de tradiciones, de modos orales y escritos de usar la lengua, que canalizan las unidades verbales empleadas por un hablante o un escrito según las condiciones pragmáticas del entorno inmediato (2006: 314-315)”.

UN CORPUS PARA CONOCER EL ORIGEN DEL ESPAÑOL EN LA NUEVA ESPAÑA

57

Hay un hecho general, objetivo: el concepto de variación es un universal del funcionamiento de las lenguas. Son muy conocidas las grandes distinciones de la diacronía (el tiempo), la diatopía (el lugar), los niveles diastrático (los estratos sociales) y diafásico (el registro), tal como los utiliza Eugenio Coseriu […] El español, como el inglés o el francés, se pueden definir como un conjunto de virtualidades, de potencialidades que nunca se realizan en su totalidad, sino que se manifiestan a través de los parámetros ya señalados. Dicho de otro modo, enumerar las diferencias implica referirse a una mínima base unitaria virtual (2003: 29-30).

2.1. NIVEL DIATÓPICO En lo que corresponde a este apartado, el proyecto no se ha ceñido únicamente a la procedencia geográfica del documento, sino que también se han considerado diferentes aspectos sociohistóricos y lingüísticos. De ahí que el origen de los amanuenses haya sido dividido en tres grandes zonas, que corresponden a las raíces (Península Ibérica), a las posibles zonas de tránsito (Canarias, Cuba y Filipinas) y a las diferentes zonas de asentamiento en el territorio novohispano.

2.1.1. Península Ibérica La recopilación de los documentos de esta zona se fundamenta, por un lado, en el origen de la emigración hacia la Nueva España. Para Boyd-Bowman (1968: XXIV-XXV) de los 734 primeros conquistadores de México que salieron en 1518-1519 de la isla de Cuba los tres orígenes peninsulares mayoritarios son: andaluces con el 30%, castellanos viejos con el 20% y extremeños con el 13%. Para la segunda época (1520-1539) sobre un total de 4,022 figuran el 35% de andaluces, el 17,3% de castellanos viejos y el 14,8% de extremeños. Además, hacia mediados del siglo XVI los vascos conquistan grandes territorios del norte de México (Nueva Vizcaya) y durante el siglo XVII, pero sobre todo en el XVIII, presentan el mayor porcentaje de españoles en la Nueva España4. Por otro, en la

4 Entre los dialectos que pasaron a América es importante destacar el andaluz, dada la hipótesis del andalucismo americano (sobre el debate del posible andalucismo del español americano cf. Guitarte (1959, 1983) y Frago (1994). Por su parte Echenique (1980) habla del papel de los vascos dentro del español americano. También Frago señala que la emigración vascongada al Nuevo Mundo tuvo gran importancia “dada la cualificación social de este flujo migratorio, entre cuyos integrantes no sólo abundaron los clérigos, así como aventureros y destacados conquistadores, sino los comerciantes y artesanos”; desde el punto de vista lingüístico “Los emigrados vascongados seguramente apoyaron el triunfo del seseo americano”

58

BEATRIZ ARIAS ÁLVAREZ

comparación que se puede establecer entre la norma toledana y las diferentes normas peninsulares, que llegaron a México. Para algunos autores como González Ollé (1988) y Parodi “durante los primeros años del siglo XVI en el mundo hispánico pervivía la norma toledana, propia del buen hablar” (1995: 39), de ahí la importancia de considerarla como representante de la norma culta. Con base en lo anterior, la Península Ibérica se ha dividido en las siguientes subzonas: • • • • •

Zona castellana vieja. Zona andaluza. Zona extremeña. Zona vasco-navarra. Zona cortesana.

2.1.2. Zonas de tránsito Se consideran tres zonas de tránsito: la primera, Canarias, escala de las rutas hacia el Nuevo Mundo. Estas islas se convierten en nodos comerciales entre las dos orillas del Atlántico. Desde la perspectiva lingüística, el español de Canarias presenta semejanzas con el español mexicano (como el seseo, el uso de ustedes y los diminutivos en -ito)5; la segunda, la Capitanía General de Cuba. Desde la isla de Cuba se realiza la conquista de México, además, es importante su conocimiento dado el contacto administrativo, comercial y cultural que tuvo con el Virreinato de la Nueva España; la tercera, Filipinas (Capitanía General de las Filipinas), zona de intercambio comercial entre la Nueva España y el Asia. La importancia de su conocimiento se basa tanto en la transculturación de elementos asiáticos a México y mexicanos hacia el Asia, como en la posible incorporación de léxico para designar los productos procedentes de Asia. Tanto Cuba como Filipinas forman parte del Virreinato de la Nueva España6.

(1999: 101, 109). Para la presencia de los vasos en territorios mexicanos puede consultarse los libros coordinados por Garritz (2002). Para la presencia extremeña en América, Hurtado (1992). 5 Para Lipski la influencia de las Islas Canarias en el español de América es indiscutible, aunque “a menudo ensombrecida por la discusión sobre la contribución andaluza” (2002: 7178). Puede consultarse también Lüdtke (1994a). 6 Sobre la presencia de antillanismos en la Nueva España consúltese Lope Blanch (1981) y sobre la importancia de las Filipinas en el español de América cf. Frago (1999: 199-208).

UN CORPUS PARA CONOCER EL ORIGEN DEL ESPAÑOL EN LA NUEVA ESPAÑA

59

2.1.3. Nueva España Esta gran zona fue subdividida, con base en consideraciones histórico-geográficas y lingüísticas, en las siguientes áreas7: • Zona norte. Abarca los actuales estados de San Luis Potosí, Zacatecas, Durango, Sinaloa, Sonora, Chihuahua, Coahuila, Nuevo León, Tamaulipas, Texas, Arizona, Nuevo México y las Californias. Esta subárea se caracterizó por el tipo de asentamiento que establecieron los conquistadores y colonizadores: las misiones, los presidios y los reales de minas. Son zonas de escasa población, de poco contacto con los grupos indígenas, que en su mayoría eran nómadas. Hay que advertir que esta área más o menos corresponde a la zona histórica de aridoamérica (zona que se caracterizó por tener grupos nómadas, con reducidos asentamientos humanos). Es importante señalar que en la conquista de esta subzona no sólo intervinieron los españoles y criollos, sino también grupos de indígenas del centro (nahuas). Dadas sus características, no presenta un enramado social tan complejo como el que presentan las ciudades del centro de la Nueva España. La colonización de estos territorios comienza en el siglo XVI y continúa hasta el siglo XVIII, lo que indica que se trata de zonas alejadas del Centro y, por eso, retiradas de una fuerte influencia cultural y lingüística. • Zona central. Comprende los actuales estados de Michoacán, Jalisco, Puebla, Querétaro, Guanajuato, Hidalgo, Tlaxcala, León, Estado de México, ciudad de México y Oaxaca, es la zona más poblada y se caracteriza por la presencia de grandes centros urbanos. La capital, México, absorbía la cuarta parte de los españoles, el resto se repartía entre las ciudades de Puebla, Valladolid (Morelia) y Guadalajara. Estas mismas ciudades son las que mayor número de criollos presentan. México y Puebla, a su vez, registran una notable población indígena, en su mayoría nahuas. En Michoacán los indígenas serían mayoritariamente purépechas (tarascos) y Jalisco contaba con un numeroso grupo de huicholes. Por su

7

Cf. para los aspectos sociohistóricos García (2000: 237-306), Lira y Muro (2000: 309362) y Florescano y Menegus (2000: 365-340), además de Cue Cánovas (1961); para los lingüísticos Lipski (2002). Por su parte Lara advierte que “La existencia de un español mexicano no es efecto de un proceso de abstracción o de generalización de variedades dialectales del país, sino que, por el contrario, es un producto de la expansión de la lengua española en el actual territorio mexicano desde el siglo XVI […] Si la hipótesis es cierta, las variedades dialectales mexicanas son posteriores y definidas por las características que adoptaron las regiones del interior: mayor criollismo en el occidente y Norte de México, mayor mestizaje en el Centro, mayor supervivencia del bilingüismo con lenguas indígenas en el Sur […] mayor contacto con el comercio en las costas del Golfo” (1996: 465).

60

BEATRIZ ARIAS ÁLVAREZ

FIGURA 1 Mapa de la división de zonas de estudio de la Nueva España (nivel diatópico)

parte, Oaxaca presenta un número importante de españoles y de indígenas, en su mayoría zapotecas (aunque también de otras etnias). Hay que señalar que a partir del XVI la población negra se incorpora a la vida de la colonia y que algunas zonas presentan un número mayor, incluso, que el de los españoles, aunque también es cierto que en el siglo XVIII disminuye su proporción. • Zona peninsular. Abarca Yucatán y zonas de Campeche y Quintana Roo. La ciudad de Mérida presenta un reducido número de españoles y un gran número de indígenas mayas, el mestizaje es menor que en la zona central. Actualmente, el español hablado en esta zona presenta características particulares como: la glotalización de las oclusivas, el alargamiento vocálico y la presencia de numerosas voces mayas en su léxico, según Lope Blanch (1987) y Moreno de Alba (1994). • Zona de intercambio comercial. Estrictamente se consideran sólo los puertos de Veracruz y Acapulco, aunque posteriormente los de Campeche, en el Golfo y de San Blas, en el Pacífico, empiezan a tener importancia para la Nueva España. Estas zonas, aunque escasamente pobladas, aumentaban su población dos veces al año con la llegada de los navíos. Además del intercambio comercial,

UN CORPUS PARA CONOCER EL ORIGEN DEL ESPAÑOL EN LA NUEVA ESPAÑA

61

son zonas de intercambio cultural a las que llegan muchos “extranjeros” y en las que permanecen muchos negros. En cuanto al aspecto lingüístico, son las zonas que presentan relajación consonántica, como sería la aspiración de la /s/ en posición implosiva y la pérdida de /d/ intervocálica, de acuerdo con Moreno de Alba (1994) y Lipski (2002: 303-304). • Capitanía General de Guatemala. Importante área a la que pertenecía Chiapas. Se caracteriza por la presencia de indios mayas y de españoles (el mestizaje fue reducido). La zona de Chiapas fue difícil de colonizar y sólo hacia el siglo XVIII pudo ser “pacificada”. En cuanto al español de Chiapas, es de las pocas zonas voseantes en México (junto con algunas áreas de Tabasco y de la Costa Chica) 8.

2.2. NIVEL DIASTRÁTICO Algo que ha resultado difícil de determinar, pero que es de suma importancia para este proyecto, es la procedencia social del amanuense, ya que la identificación de dicho parámetro permite advertir cuándo surge el español “criollo” o “mestizo”, qué influencia pudieron ejercer las lenguas indígenas en determinadas regiones y, por último, si el habla de los negros tuvo alguna repercusión en el español en México, más allá del léxico9. Al respecto Lipski advierte: El español de América ha recibido contribuciones lingüísticas y culturales de los cuatro continentes. Además de la herencia patrimonial europea y de los frutos del contacto con las poblaciones indígenas de los dos continentes americanos (sic), el

8 Son pocos los estudios históricos sobre el español de Guatemala; sin embargo, con respecto al siglo XVIII y al aspecto fónico puede consultarse Ramírez Luengo (2006). Para el voseo en Chiapas cf. Sánchez Méndez (2003: 317). 9 Coincido en lo fundamental con lo que señalan Frago Gracia y Franco Figueroa: “Pensar que todos los rasgos constitutivos del español americano tienen su raíz en la lengua de los emigrados españoles resulta un grueso disparate científico, pues ello supondría tanto como negar toda posibilidad de innovación a los hablantes hispanoamericanos […] Pero también resulta ser un error de busto, desenfoque sin duda más grave que el anterior, dar por sentado que los aspectos más importantes, o lingüísticamente fundamentales, del español de América se han desenvuelto a espaldas o con independencia del español de España” (2001:11). Considero que el español novohispano tiene raíces peninsulares; sin embargo, la forma de percibir la nueva realidad, el contacto con las diferentes lenguas indígenas, con lo africano, conllevan la formación de una lengua propia, a la cual puede denominarse “mestiza”. Esta misma postura es la que expone Lüdtke: “aun empleando el lenguaje tradicional, los españoles hablan y escriben de manera distinta de las cosas nuevas en el Nuevo Mundo” (1994b: 83). Sobre las características de la población novohispana puede consultarse Cue Cánovas (1961: 119-134).

62

BEATRIZ ARIAS ÁLVAREZ

español entró en contacto con lenguas africanas, habladas por decenas de miles de africanos […] (2002: 110).

De ahí que se preste mucha atención a la procedencia social del escribano, en el sentido de su pertenencia a las castas más importantes que se dieron en el Virreinato. Esto implica un trabajo riguroso en el que se coteja el macrocontexto, la letra, la firma y cualquier elemento que pueda servir para determinar el origen del amanuense. Es importante señalar que no se da por sentado nada, de tener dudas se advierte mediante una interrogación [?] y de no ser posible conocer la procedencia de algún amanuense se señala como “desconocida”. Muestra de la dificultad que presenta este parámetro es lo que sucede entre españoles y criollos, ya que en los primeros siglos de la Colonia no se hace ninguna distinción, para ambos se utilizaba el término genérico de “español”. Hay que advertir que el vocablo criollo, por lo menos en el siglo XVI y parte del XVII, hacía referencia a los negros nacidos en América y no a los hijos de españoles10. La división que se plantea en el proyecto tiene como base fuentes sociohistóricas, además de lingüísticas. Debe considerarse que la sociedad americana se organiza en estratos sociales inexistentes en España, con un gran número de indígenas, seguidos por mestizos, criollos y negros y, al final, un reducido número de españoles. También es menester hacer las siguientes consideraciones: a) que los indígenas era generalmente analfabetos (los indios caciques eran los que conocían la lectura y escritura del castellano); b) que los mestizos podían o no dominar el español dependiendo si eran considerados o no hijos legítimos; c) que los criollos podían conocer una lengua indígena debido al contacto con sus nanas o nodrizas (así lo señala Suárez de Peralta en su Tratado del descubrimiento de las Indias y su conquista en 1589) y d) que los negros podían manejar una lengua indígena o saber escribir y leer en español, dependiendo de su trabajo11. Con base en lo anterior se ha estipulado la recopilación de textos que pertenecen a los siguientes grupos sociales:

10 Es pertinente aclarar, que dado el rigor de selección, no siempre se encuentran documentos de todas las castas propuestas para cada período; sin embargo, en lo posible, se trata de tener un número análogo de documentos para cada clase social. Otro problema que se ha encontrado, corresponde a las cartas de indígenas dentro de la Inquisición, en un gran número de casos, estos documentos no pueden ser considerados de indígenas, ya que se tiene la presencia de un traductor y de un escribano (españoles). 11 Para los aspectos históricos consúltese García (2000: 237-306), Lira y Muro (2000: 309-362) y Florescano y Menegus (2000: 365-340). Para los aspectos culturales y lingüísticos consúltese Sánchez Méndez (2002: 115-219).

UN CORPUS PARA CONOCER EL ORIGEN DEL ESPAÑOL EN LA NUEVA ESPAÑA

63

a) Españoles que representen cada una de las zonas peninsulares arriba señaladas. b) Para Canarias, Cuba y Filipinas, los documentos deben pertenecer a la gente de tránsito y, toda vez que sea posible, a los nacidos en las islas. c) Para la Nueva España es importante hacer una subdivisión: • • • •

Criollos (hijos de españoles nacidos en la Nueva España). Mestizos (hijos de españoles e indígenas). Indígenas o naturales. Negros y mulatos12.

d) Además, dadas las características heterogéneas de las ciudades o centros urbanos coloniales, se considera también la recopilación de documentos de portugueses, italianos y judíos. Se ha considerado necesario abarcar el estudio de manuscritos pertenecientes a no castellanohablantes: portugueses e italianos, así como el de textos escritos por judíos sefardíes13, ya que el análisis de estos textos permitirá constatar no sólo la adaptación de los hábitos lingüísticos novohispanos en el habla de estos grupos, sino también sus posibles influencias en el español mexicano, sobre todo en el nivel léxico.

2.3. NIVEL DIAFÁSICO Los documentos que conforman el corpus son heterogéneos, se ha tratado de incorporar todas las variedades textuales posibles14, ya que consideramos al igual que Jacob que:

12

Lipski ofrece algunos ejemplos de obras literarias en las que trata de imitar el habla afro-hispánica en América. La primera de ellas corresponde a un poema de Sor Juana Inés de la Cruz que imita el habla de los africanos en México hacia 1670: “Cuché usé, cómo la rá/rimoño la cantaleta;/ ¡huye, husico ri tonina,/con su nalís ri trompeta/” (2002: 122). Sobre la influencia de los negros en México puede consultarse Aguirre Beltrán (1972). 13 Dadas las persecuciones en Europa y lo extenso del territorio, los judíos, sobre todo portugueses, se trasladan y se establecen en el nuevo continente. A partir de 1580, según Revah y Enríquez, los judíos conversos portugueses “llegaron como hombres de negocios que procuraron vivir como cristianos irreprochables pero que mantenían en secreto su fe judía […] Al llegar a la nueva España tuvieron que asimilarse y adaptar su lengua a la de los conquistadores” (1998: 64-65). 14 De acuerdo con Oesterreicher para poder obtener datos sobre el lenguaje de una época, es importante analizar tradiciones discursivas (cartas privadas, documentos jurídiscos, relaciones, crónicas), tomar en cuenta la situación comunicativa (escritor y destinatario), contrastar textos y recurrir a las gramáticas de la época (1998: 37-81).

64

BEATRIZ ARIAS ÁLVAREZ

[…] la actividad lingüística de una comunidad comunicativa no está constituida por unos cuantos modos comunicativos o un espacio variacional con variedades bien circunscritas, sino, más bien, por una multitud de situaciones socio-pragmáticas, cada una de las cuales origina formas particulares de discurso (2001:157).

Con base, por un lado, en estudios de variación y cambio, como los de Lavob (2001) y Pottier (2003) y, por otro, en los trabajos en los que se considera la inmediatez y la distancia comunicativa, no como una distinción binaria, sino como una compleja red de posibilidades discursivas15, se ha dividido en continuo diafásico en las siguientes categorías y variedades textuales: a) Textos informales, que abarcan varios tipos: cartas de amor, cartas escritas a familiares y amigos, y recados. b) Textos formales, que abarcan: juicios, testamentos, cédulas, facturas y actas. Sin embargo, en ocasiones, el trabajo de recopilación nos ha llevado a encontrarnos con la dificultad de definir alguna clase de documento, ya que no es estrictamente formal o informal, este ha sido denominado texto semiformal y puede corresponder a denuncias, autodenuncias, cartas de relación y defensas. Textos en los cuales el escritor, a pesar de seguir determinadas tradiciones discursivas, dado el tema que trata, puede llegar a presentar un discurso que se acerca al de los textos informales. Hay que advertir, además, que cada uno de estos tipos facilita el estudio de algún nivel lingüístico. Por ejemplo, los testamentos o las facturas son importan-

15

Oesterreicher (1994) señala que la distinción entre lo fónico y lo gráfico constituye una dicotomía, en otras palabras, el enunciado es fónico o gráfico, mientras que en el caso de la “concepción” se trata de una graduación, de una escala, de un continuo limitado por dos extremos, que son: Inmediatez comunicativa/Distancia comunicativa. Utiliza el término de proximidad o inmediatez comunicativa para la concepción de lo hablado, la realización fónica, la segunda, para la concepción de lo escrito, la realización gráfica perdurable. Para una visión general sobre lo oral en lo escrito consúltese también Oesterreiche (1996, 1998), Eberenz (2003) y Cano (1996, 2003). En cuanto a la importancia de las tradiciones discursivas Garatea señala “En gran parte, el acto de escribir implica cumplir una rutina que encauza y regula el flujo de la comunicación y la disposición del contenido a partir de preceptos relativamente estables, adquirido junto a la escritura e integrados a la vida social. Por ello, los tipos textuales, que un individuo aprende durante su proceso de socialización y que es capaz de emplear y reconocer en cuanto a su funcionalidad y pertenencia, dan luces sobre los circuitos comunicativos vigentes en un período de la historia de una sociedad” (2004-2005: 367). Cf. También Nencioni (1976) y Garatea (2001, 2006).

UN CORPUS PARA CONOCER EL ORIGEN DEL ESPAÑOL EN LA NUEVA ESPAÑA

65

tes para conocer el léxico; la cartas de relación para el nivel morfosintáctico; las cartas personales para el nivel morfológico y fonológico, además de proporcionar datos relacionados con la oralidad.

2.4. NIVEL DIACRÓNICO Se ha dividido el espacio temporal estudiado en períodos de 25 años, ya que pueden ser considerados como cortes generacionales, además de que, desde la perspectiva del cambio léxico, algunos los consideran como los espacios mínimos para poder registrar variaciones16. Es importante señalar que los cortes temporales son diferentes, dependiendo de las áreas de estudio: a) Para la primera área y de acuerdo con las oleadas migratorias, se estudiarán los períodos comprendidos entre el último cuarto del siglo XV y todo el siglo XVI (de 1475 a 1600)17. De acuerdo con el fenómeno migratorio que se da hacia la Nueva España, para los escribanos procedentes de las vascongadas se consideran dos siglos más. b) Para Canarias el siglo XVI (1525 a 1600) c) Para Cuba desde el siglo XVI hasta el XVIII. d) Para Filipinas desde el siglo XVI (tercer cuarto) hasta el XVIII. d) Finalmente, el área de la Nueva España comprende desde 1525 a 1821 (aproximadamente). Los cortes no son homogéneos para todas las subáreas.

3. Otras consideraciones Con base en lo antes dicho, se ha determinado que para cada período debe incorporarse, si es posible, cada uno de los tipos textuales (denuncias, autodefensas, cédulas, cartas privadas, relaciones, testamentos, etc.)18. Además, para poder

16

Algo semejante es lo que advierten Abad (2003) y López Chávez (2004). Frago considera que “no es posible hacer la historia del español de América sin previamente conocer la de España, al menos por referencia a la situación lingüística del periodo inmediatamente anterior al descubrimiento” (1999: 307). 18 Por lo mismo, no se puede determinar un número exacto de documentos. Además, depende mucho de las áreas, por ejemplo para la zona Norte de México se han podido recopilar facturas, cartas de relación, testamentos y alguna carta privada, en los puertos abundan las relaciones de mercancía y escasean otro tipo de textos; mientras que en la zona Centro pueden encontrarse toda clase de manuscritos. 17

66

BEATRIZ ARIAS ÁLVAREZ

contrastar las tres grandes divisiones: documentos formales, informales y semiformales, se ha considerado que cada categoría debe presentar un número mínimo de palabras, el cual se ha fijado en 2000, aproximadamente. Esto no significa que un solo documento formal, informal o semiformal tenga que cumplir con este requisito. Para obtener las dos mil palabras, en cada período, pueden ser considerados varios documentos del mismo tipo.

4. Edición de documentos Al igual que lo propuesto por Sánchez-Prieto (1991, 1998) la edición del material se hará mediante un esquema de triple presentación: a) una copia de la versión facsímil del documento, b) una versión paleográfica del mismo o transliteración y c) una versión crítica. La normatividad seguida para cada una de las trascripciones se ha elaborado minuciosamente y, en ocasiones, ha tenido que ser corregida a lo largo de la realización del proyecto.

4.1. TRANSLITERACIÓN O TRASCRIPCIÓN ESTRECHA DEL DOCUMENTO Este tipo de trabajo tiene como objetivo facilitar al investigador estudios gráficofonológicos, morfológicos, de adquisición de escritura, así como de la evolución de las normas gráficas; posiblemente esta transliteración pueda ser utilizada para analizar procesos de gramaticalización en los que intervienen diferentes niveles lingüísticos19. Se han establecido los siguientes lineamientos20: • En general, se respeta el uso gráfico, pero siempre tomando en cuenta la letra: debe considerarse la letra y no la grafía, es decir, si una u parece n se pone u y no n: autor y no antor; así como los diferentes tipos de r, por ejemplo: Γ debe transcribirse como r; debe respetarse la omisión o inser-

19 Este tipo de trascripción es la que presenta mayor número de problemas: por una parte si se desea ofrecer una transliteración de los documentos se debe respetar todo uso gráfico, lo cual dificultaría enormemente su lectura; por otra, si se modifica y moderniza la representación gráfica ¿qué diferencia presenta con la edición crítica? 20 Para los cuales se han tomado en consideración el propio análisis de documentos, trabajos de trascripción de documentos coloniales en lenguas indígenas, y se han revisado los parámetros de Carrera y Gutiérrez, en este mismo volumen, y los de Sánchez-Prieto (1991, 1998). Debido a la complejidad que presenta esta transliteración los parámetros pueden ser modificados.

UN CORPUS PARA CONOCER EL ORIGEN DEL ESPAÑOL EN LA NUEVA ESPAÑA

• • • • • • • • •

• • • • • • •

• • •

21

67

ción de grafías y no restituirse o quitarse: a y no ha, setiembre y no septiembre, ingalaterra y no inglaterra. No se unifican los diferentes tipos de s: s, ss, ∫, σ, ß y se conserva Ω21. Se deben respetar los usos de u y v. Se deben respetar los usos de i breve e y griega. Se utiliza i con valor vocálico y j con valor consonántico: tierra y juizio. Se mantiene la i consonántica: aian. La ç con cedilla debe transcribirse igual que como aparece en el texto. Se debe respetar la vacilación de c, z o s (dezir, hasienda, esperança). Las vocales nasalizadas se transcriben como ã, õ. Las digrafías th, ph, ll, rh, ch y ps se respetan por ser comunes a la época. Lo mismo que las geminadas como sabbado o peccados. Se mantienen dobles las ss, ff, rr o tt en cualquier posición. La h superflua se mantendrá y la omitida no se repondrá: hera, onbre. No se desatan abreviaturas. No se debe regularizar el uso de mayúsculas y minúsculas. Se debe respetar la acentuación y la puntuación del original. La v o y no se acentúan aunque aparezcan así en el documento. Algunos signos como ( se omiten. El uso de q se respeta: qual. La unión y separación de palabras se mantienen como aparecen en el documento. Hemos considerado esta opción dado el trabajo paralelo que se realiza con textos de niños que tienen un manejo deficiente de su escritura y de personas adultas con escaso dominio de ésta. Cuando una palabra es ilegible se deberá escribir entre corchetes [ilegible], lo mismo si hay una mancha [mancha]. Si la trascripción es dudosa se debe marcar con un signo de interrogación [?]. Con respecto a las correcciones o errores marcados por el amanuense, se debe señalar la forma errónea entre los signos : y este denunciante rogó a Pero. Cuando el escribano rectifica, se debe escribir la forma correcta entre los signos >te< cle.

Dado el diferente valor fónico que pueden tener las diferentes representaciones de /s/ durante la Colonia, a lo que se debe sumar que en México fueron escritos documentos en diversas lenguas indígenas, cuyo sistema de sibilantes no es el mismo, ni entre sí, ni con el castellano (por ejemplo: mientras que el náhuatl cuenta entre sus sibilantes una fricativa dental sorda, el huasteco presenta una fricativa interdental sorda), se consideró adecuado conservar las diferentes representaciones de /s/, ya que, por lo pronto, pueden ayudar a los estudiosos de filología amerindia.

68

BEATRIZ ARIAS ÁLVAREZ

Estructura: • Se respetará la estructura orgánica del documento. • Los sellos y marcas, así como dibujos, se respetan. • Las rúbricas y firmas se transcriben en lo posible, abajo se señala entre corchetes [rúbrica] o [firma].

4.2. TRASCRIPCIÓN CRÍTICA Este tipo de trabajo facilita las investigaciones sintácticas, léxicas y semánticas. Los parámetros señalados para esta trascripción, se basan, en lo posible, en las normativas gráficas que aparecen en las Cartillas y Doctrinas de los siglos XVI, XVII y XVIII, publicadas por Infantes (1998) e Infantes y Pereira (2003). Esto con el fin de presentar un trabajo que se asemeje a las pautas empleadas en los libros de la época (hay que advertir, sin embargo, que no se respeta la estructura orgánica del texto). Entre los lineamientos más importantes se encuentran los siguientes: • • • • • • • • • • • • •

22

Se respetan las grafías que tienen valor fonológico. Se unifican los diferentes tipos de s (σ, £, ∫ y ß) en s y Ω en z22. Se deben respetar los usos de ss en posición intervocálica. Se deben regularizar los diferentes tipos de r en r (el uso de r simple y rr debe ser el actual). Se utiliza u en el caso de vocal y v en el caso de consonante. Se respetan los usos de v y b: benir, aver. Se unifica i e j en i, pero se respeta y con valor vocálico. La ç con cedilla debe transcribirse con las vocales a, o y u; para i y e se debe utilizarse c. Se debe respetar la vacilación de c, z o s (dezir, hasienda, esperança). Se restituye la nasal en vocal nasalizada: ã = an, no se pone la nasal con cursiva. La nasal palatal siempre se escribe como ñ. Se insertan grafías cuando son necesarias para la interpretación de la palabra. También se pueden omitir para la interpretación del vocablo. En cuanto a Xp (crismón) debe interpretarse como Chr: Xpo= Christo y Ihu como Ihesu.

Este lineamiento no es homogéneo, ya que cada documento presenta opciones que pueden ser contradictorias con respecto a otros.

UN CORPUS PARA CONOCER EL ORIGEN DEL ESPAÑOL EN LA NUEVA ESPAÑA

69

• Se deben desatar las abreviaturas de acuerdo con el uso actual. Toda abreviatura debe aparecer en cursiva. • Se debe regularizar el uso de mayúsculas y minúsculas de acuerdo con el uso actual. Sólo se mantiene el uso de mayúsculas del manuscrito cuando puede indicar un modo particular de ver el mundo: Castellanos, Cielo. • Se debe acentuar y puntuar de acuerdo con el uso actual. No se acentúa y con valor vocálico: sylaba. • El uso de q debe ser el actual. • Se mantienen las aglutinaciones usuales de la época (si aparecen así en el manuscrito): ala, alas, del, dela, desto, destas, dello, quel, enlos y enel. • Cuando una palabra es ilegible se deberá escribir entre corchetes [ilegible], lo mismo si hay una mancha [mancha] que perjudique la interpretación de la palabra (si la mancha no interfiere, se quita). • Si la trascripción es dudosa se debe marcar con un signo de interrogación [?] • Con respecto a las correcciones o errores marcados por el amanuense, se debe señalar la forma errónea entre los signos . Cuando el escribano tacha y rectifica, se debe escribir la forma correcta entre los signos > abeja); los sustantivos neutros latinos, elemento lingüístico, sufren un proceso de desgramaticalización, fenómeno lingüístico, que da como resultado su reestructuración en masculinos y femeninos, de nuevo elementos lingüísticos (TEMPLUM n. > templo m.); el posesivo, elemento lingüístico, experimenta una desgramaticalización, fenómeno lingüístico, al perderse la construcción medieval artículo + posesivo (la mi casa > mi casa). Los elementos lingüísticos colectivos y los fenómenos que sus evoluciones pueden comportar no son aleatorios y siempre se expresan bajo formas definidas y reglas de evolución determinadas y cuando éstas existen de una manera permanente en un área temática, zona geográfica y época concretas se pueden tomar como elementos básicos que sirvan de puntos de referencia de las investigaciones. Una vez establecidos los puntos de referencia para nuestros estudios, hace falta distinguir los elementos y fenómenos lingüísticos normales, los que presentan las formas más frecuentes y generales, de los elementos y fenómenos lingüísticos específicos, los que se desvían de los normales y que Durkheim (2005: 182183), para la sociología, denominaba patológicos. Pero establecer cuáles son los fenómenos normales y cuáles son los específicos tiene su dificultad, puesto que éstos no son fijos y pueden variar a medida que cambia la composición o estructura del corpus. El método experimental a veces debe dejar de lado los fenómenos normales, que puede que demuestren bien poca cosa, para considerar los fenómenos específicos, que suelen ser hechos decisivos o cruciales en la investigación, puesto que, independientemente de su cantidad, estos fenómenos pueden tener valor pertinente y demostrativo en una investigación. De hecho, los elementos lingüísticos específicos o patológicos serían los que no siguen el axioma del principio de causalidad: a un mismo efecto siempre corresponde una misma causa. Por ello, cuando se quiere explicar un elemento lingüístico hace falta buscar la causa que lo produce y la función que tiene en el discurso. La causa se debe indagar entre los elementos y fenómenos lingüísticos precedentes y la función en relación con alguna finalidad comunicativa. Pero se tiene que estar muy atento para no confundir causa y función. Para el estudio de las causas o relaciones causales entre elementos lingüísticos, es necesario observar si un hecho X es causa de otro Y, para ello, se deben cumplir cuatro principios que ya describió Francisco Moreno (1990: 113): 1. Hay que demostrar que X e Y varían conjuntamente en la forma prevista en las hipótesis.

BASES CIENTÍFICAS EN LA INVESTIGACIÓN A PARTIR DE CORPUS

99

2. Hay que buscar la causa de Y en hechos [fenómenos] anteriores y no entre hechos [fenómenos] simultáneos. 3. No deben existir factores extraños a X como causa de Y. 4. Es necesario distinguir entre la causa de un elemento lingüístico (o hecho sociolingüístico) y la función que este elemento cumple.

3.2. MÉTODO COMPARATIVO En el caso de la lingüística histórica, como no se pueden crear artificialmente en un laboratorio los elementos que se necesitan estudiar, sino que debemos ceñirnos al análisis de aquellos que ya existen, la utilización del sistema de experimentación indirecta o método comparativo puede resultar muy apropiada y ventajosa. Este método se basa en comparar diferentes fenómenos y su finalidad consiste en la producción de generalizaciones de orden causal referidas a las relaciones entre las variables observadas en el marco de la investigación. Tal como reseña Iván Llamazares, el análisis comparativo de todos los casos pertinentes (aquellos en los que están presentes los factores causales que se consideran relevantes y/o los tipos de proceso o resultado [...] que se pretende explicar) resulta imprescindible para establecer inferencias causales de carácter general y para facilitar la comprensión de los casos específicos analizados (Llamazares 2002).

De este modo, en primer lugar, se tiene que investigar cómo uno de los dos elementos comparados ha podido producir el otro y, después, se debe verificar el resultado de la deducción con nuevas comparaciones de casos similares. Si las verificaciones coinciden, se habrá obtenido una prueba, pero si no coinciden será necesario seguir la búsqueda analizando un tercer elemento del cual dependan los otros dos o que haya podido hacer de intermediario entre ellos. Este método de variaciones concomitantes, o sea, que actúan conjuntamente, no obliga a analizar todos los casos, sino que hace posible dar por buena una deducción a partir del análisis de un cierto número de casos, puesto que, desde el momento en que en un número determinado (que la estadística estipula) dos fenómenos varían dependiendo uno de otro, se puede establecer que nos encontramos ante una ley del cambio lingüístico. Es erróneo pensar que la ciencia no puede establecer leyes si no ha revisado todos los hechos que las definen, creer que no se puede describir un fenómeno general si no se han descrito todos los particulares que lo forman.

100

JOAN TORRUELLA CASAÑAS

Ahora bien, ejemplificar una idea no es demostrarla y para demostrarla se deben comparar no variaciones de elementos aisladamente, sino series de variaciones regularmente constituidas y de una extensión significativa. No se puede probar nada si no se trabaja con rigor estadístico y nos contentamos en hacer ver, mediante una cantidad más o menos grande de ejemplos, que en algunos casos los elementos varían tal y como sugiere la hipótesis que se quiere demostrar. Las variaciones de un elemento lingüístico no permiten deducir ninguna ley a no ser que expresen claramente y en una cantidad suficiente la manera en la que se desarrolla en unas circunstancias concretas. Si el investigador tiene en cuenta, por ejemplo, diferentes textos de una misma tipología o de un mismo período, ya dispone de un campo de comparación bastante determinado. Entonces se deben confrontar los rasgos lingüísticos de un texto con los de los otros textos y observar si en cada uno de ellos por separado un mismo fenómeno evoluciona en función de las mismas condiciones. Posteriormente se pueden establecer comparaciones entre épocas o tipologías diferentes. Hace falta determinar la forma que toma un rasgo lingüístico específico en los diferentes ejes de análisis. No se puede explicar un rasgo lingüístico de cierta complejidad si no se sigue su desarrollo íntegramente en cada época cronológica, en todas las tipologías textuales y en sus veriedades dialectales. El método comparativo no quiere sólo describir los fenómenos lingüísticos, sino que pretende explicarlos, pero la comparación se debe hacer siempre entre factores paralelos: entre tipologías de una misma época o entre épocas de una misma tipología, etc.

3.3. ESTADÍSTICA La utilización de técnicas estadísticas en la investigación en general y en la investigación en el campo de la lingüística histórica en particular, es hoy inevitable, puesto que abre la puerta a la justificación de las teorías existentes o a la argumentación de nuevas sobre bases analíticas. La estadística, sin embargo, debe ser considerada sólo como un puro instrumento para la investigación, nunca como su finalidad. Un instrumento que ha de ayudar a la consecución de dos objetivos: en primer lugar, describir y resumir los datos y, en segundo lugar, hacer estimaciones de significación y de fiabilidad. Para ello hace falta trabajar con cuatro conceptos básicos en el terreno de la estadística: población y muestra, característica de la población, cuantificación y distribución (Fasold 1984: 85-112). Pruebas del tipo x2, test de Student, análisis de la varianza y correlación, pueden ser muy eficientes a la hora de obtener datos para justificar una teoría.

BASES CIENTÍFICAS EN LA INVESTIGACIÓN A PARTIR DE CORPUS

101

En general, tal y como apunta Francisco Moreno (1990: 112), las finalidades de un estudio estadístico pueden ser: 1. Describir las características de un grupo. 2. Determinar la frecuencia de un hecho lingüístico en relación con otros. 3. Comprobar y describir hipótesis de relación causal entre diferentes variables. 4. Justificar nuevas hipótesis. Con respecto al primer punto, las frecuencias nos pueden ayudar a describir las características de un grupo y, posteriormente, su tratamiento estadístico nos puede facilitar la obtención de probabilidades (estudios variacionistas o de la regla variable). A partir de los resultados obtenidos en los análisis estadísticos, ya se puede empezar la fase de interpretación de los datos. Esta interpretación se debe hacer teniendo en cuenta la finalidad del estudio y los análisis realizados a los datos. Análisis de datos e interpretación son dos procesos que están íntimamente unidos, puesto que no puede haber el segundo sin el primero. En el trabajo antes mencionado de Francisco Moreno (1990), Las reglas del método sociolingüístico, se exponen tres normas que hace falta seguir a la hora de interpretar los datos: 1. Que la interpretación esté en correspondencia con el fin del estudio y el análisis de los datos. 2. Que mediante la interpretación se organize la continuidad en el proceso investigador general, relacionando los resultados de nuestro estudio con los de otros estudios. 3. Que la interpretación proporcione conceptos aclaratorios. En resumen, si se quiere aplicar un método científico en los trabajos de investigación lingüística, el investigador debe descartar las nociones previas que pueda tener respecto del elemento o fenómeno que quiere analizar si no han sido justificadas científicamente y ha de desarrollar sus hipótesis a partir de los análisis de los hechos en sí; el investigador debe contemplar y analizar los rasgos lingüísticos desde la perspectiva más objetiva; ha de ser capaz de buscar bases de clasificación que faciliten el tratamiento de los datos y pueda observar los que se pueden tipificar como dentro la normalidad y los que presentan algún tipo de especificidad, y se debe regir por los mismos principios en las explicaciones de los fenómenos y en la manera de probarlos.

102

JOAN TORRUELLA CASAÑAS

3.4. EL PROGRAMA Francisco Rico, refiriéndose al Quijote –pero creemos que sus afirmaciones se pueden generalizar–, defiende la necesidad y pondera las ventajas de la utilización de aplicaciones informáticas para el análisis lingüístico de textos que faciliten al investigador datos para ser analizados estadísticamente: En efecto, para ver un rayo de sol entre la selva salvaje de la escritura coetánea, solo podría tomarse en consideración el inventario y análisis exhaustivo de todas las grafías del Quijote. Solo la ley de los grandes números, la estadística aplastante, valdría, quizá, como prueba de convicción. Pero el paso inicial y más arduo en la tarea de un recuento total, que hace algunos años hubiera sido de gigante, se convierte ahora en juego de niños con un ordenador y un programa que permita apreciar punto por punto la frecuencia y distribución de las variantes ortográficas (Rico 1998: 77).

La aplicación informática que se usa como motor para gestionar el Corpus Informatitzat del Català Antic es la Estació d’Anàlisis Documentals (EAD), creada en el Seminario de Filología e Informática de la Universitat Autònoma de Barcelona y desarrollada por la empresa JAD: Solucions Informàtiques, S. L. Esta aplicación cubre las tres necesidades que se consideran básicas para poder desarrollar las investigaciones para la Gramàtica del Català Antic: a) permite estructurar adecuadamente los diferentes parámetros de selección de obras, b) tiene un sistema potente de búsquedas de carácter léxico y morfológico y también documental, y c) ofrece datos estadísticos comparativos. La Estació d’Anàlisis Documentals aporta diversas funciones que facilitan la obtención de datos estadísticos que proporcionan al investigador los elementos necesarios para poder desarrollar su trabajo de manera científica a partir del inventario y el análisis exhaustivo de los datos que maneja. Entre otras funciones, el programa ofrece la posibilidad de obtener: – índices de frecuencias de elementos léxicos y morfológicos de cada una de las obras del corpus o de grupos determinados de obras según los tres ejes en que éste se estructura (temporal, tipológico y dialectal); – las frecuencias absolutas y relativas de las unidades léxicas en cada uno de los diferentes apartados en que se dividen los tres ejes del corpus; – la distribución de las ocurrencias en los diferentes apartados de cada eje del corpus, expresada en números y representada en polígonos de frecuencias y gráficos de sectores circulares; – las coocurrencias entre diferentes unidades léxicas calculadas según la fórmula de la informacion recurrente (mutual information). Dicha fórmula

BASES CIENTÍFICAS EN LA INVESTIGACIÓN A PARTIR DE CORPUS

103

mide la dependencia que hay entre diferentes variables y calcula la probabilidad de que dos palabras aparezcan dentro un mismo contexto. El programa lleva asociado un analizador morfológico que permite hacer consultas no solamente por formas léxicas (como, por ejemplo, verbos conjugados, caminaré, caminarás, etc..), sino por lemas (infinitivo para los verbos, caminar, que recuperaría todas sus formas conjugadas) o por categorías gramaticales, 3 o combinando las dos .

4. Ejes sobre los que está configurado el CICA Teniendo en cuenta el caracter diacrónico del proyecto, el Corpus Informatitzat del Català Antic está organizado a partir de dos ejes principales: el temporal y el tipológico. El programa que gestiona el corpus facilita su consulta a partir de los diferentes apartados de estos dos ejes y también es sobre los diferentes apartados de estos dos ejes sobre los que se intenta equilibrar la distribución del número de ocurrencias del corpus. Existe un tercer eje, el dialectal, sobre el que también se pueden cruzar las consultas pero en el que, de momento, no aspiramos a equilibrar el número de ocurrencias de sus distintos apartados. Téngase en cuenta que cuantos más parámetros se tienen que equilibrar, mayor tiene que ser el corpus y, en nuestro proyecto, no pretendemos crear un corpus exhaustivo, sino que preferimos un corpus restringido, pero que sea representativo y bien estructurado. Sí que queremos equilibrar los dos grandes bloques en que se divide el catalán (oriental y occidental), pero no es posible hacerlo con los diferentes dialectos que incluye cada bloque.

4.1. EJE TEMPORAL Dado que la finalidad del Corpus Informatitzat del Català Antic es aportar datos para la realización de una Gramàtica del català antic, desde el principio tuvieron que establecerse los límites de la palabra “Antic”. Por la parte baja del eje temporal, el límite era claro: el inicio de la historia de la lengua, o sea, desde los primeros testimonios escritos en catalán (siglo XI), ya que “a partir del momento en que una lengua tiene presencia en textos escritos es

3

En estos momentos el analizador morfológico está en fase de pruebas y se prevé que su explotación se podrá realizar a partir del año 2010.

104

JOAN TORRUELLA CASAÑAS

cuando comienza propiamente su historia. Las etapas anteriores se dice que pertenecen a la prehistoria (Vázquez 2002: 35). Por la parte alta del eje temporal, se fijó el límite a finales del siglo XVI o principios del XVII, para recoger así lo que se suele llamar el catalán preliterario, el catalán medieval y el catalán del siglo XVI, lo que nos deja a las puertas del catalán moderno. Se trata, pues, de un Corpus diacrónico que va desde los orígenes de los textos escritos (siglo XI) hasta principios del siglo XVII. Para cualquier tipo de trabajo referente a la historia de la lengua o a la gramática histórica, con la finalidad de poder realizar una ordenación y cronología de los elementos lingüísticos que se han de analizar, es imprescindible acudir a divisiones temporales y a la implantación de períodos. Hasta la actualidad, las periodizaciones en el campo de la gramática histórica se han sustentado en intuiciones definidas de manera poco precisa. De hecho, si se consultan diferentes gramáticas históricas e historias de la lengua se observa que no existe una periodización canónica, sino diversas periodizaciones dependiendo de la obra. En nuestro caso, pensamos que lo mejor para empezar las investigaciones era marcar unos períodos siguiendo criterios externos a la lengua, que nos dieran el máximo de imparcialidad. Para ello se creyó que lo más conveniente era establecer una estricta división temporal (períodos de 25 o 50 años). Este sistema no solamente resulta muy cómodo, sino que evita prejuzgar algo antes de tener datos cuantificables que avalen otros tipos de periodización. Se desestimaron otros criterios extralingüísticos de periodización como pueden ser los avatares políticos (cambios de dinastía), los sucesos sociales (repoblaciones, crisis sociales, guerras, etc.), o los hechos literarios porque, de algún modo, están prejuzgando algo que queremos establecer nosotros a partir de nuestros materiales y de la observación de las evoluciones cronológicas de los diferentes fenómenos lingüísticos. Pensamos que al final del proyecto, cuando a la vista de los análisis hechos al corpus se hayan establecido cronologías de cambios, quizás será el momento de reorganizar las diversas etapas cronológicas de nuestro corpus, ahora ya a partir de fenómenos internos del sistema funcional de la propia lengua, tal y como proponen estudios como los de Eberenz (1991), Marcos Marín (1992) y Buenafuentes (2002). Para ello, se trata, en primer lugar, de saber qué hechos lingüísticos evolucionan y, en segundo lugar, de verificar si estos hechos lingüísticos evolucionan a un ritmo constante o si, por el contrario, los cambios se acumulan en determinadas épocas en las que se produce un reajustamiento acelerado de las estructuras lingüísticas (Ridruejo 1993). Y, en este punto, las posibilidades de la estadística aplicada a un corpus bien estructurado son considerables.

BASES CIENTÍFICAS EN LA INVESTIGACIÓN A PARTIR DE CORPUS

105

4.2. EJE TIPOLÓGICO El otro parámetro principal sobre el que se estructura nuestro corpus es el tipológico. Este parámetro está pensado para poder analizar la lengua según el tipo de documento en el que ha pervivido e, implícitamente, también según los registros lingüísticos, ya que suele haber relación entre tipología y registro, a pesar de que puede haber diversos registros en una misma tipología y de que un registro se puede encontrar en más de una tipología. El análisis del corpus por tipologías textuales (subcorpus) permite observar una serie de rasgos lingüísticos de tipo especializado que, si se repiten en diferentes tipologías, pueden considerarse comunes y propios de la lengua general. De este modo, se pueden describir aquellos fenómenos lingüísticos que se producen en la lengua general y aquellos que sólo se producen en ciertas áreas específicas, es decir, en determinados lenguajes sectoriales. Por lo que se refiere a la especificidad de los textos del corpus, es necesario advertir que se trata de un Corpus general, ya que pretende reflejar la lengua en su sentido más amplio y, para ello, se interesa por recoger el máximo número posible de géneros. Los 10 apartados en los que está estructurado el Corpus Informatitzat del Català Antic son los siguientes: A B C D E F G H Y J

Prosa de ficción Crónicas y obras historiográficas Obras religiosas y morales Prosa de la cancillería Textos administrativos Textos jurídicos Libros de la Corte Textos científicos y técnicos Epistolarios y dietarios Poesía

Esta clasificación, más o menos parecida a la utilizada en otros proyectos similares, creemos que recoge toda la casuística posible de los documentos que tenemos hasta el siglo XVII. Algunos apartados están compuestos de textos escritos por profesionales de la administración, otros por profesionales de la literatura y otros por simples autores aficionados, pero todos ellos configuran diferentes ángulos de visión de una misma lengua. Una cuestión que se plantea es la de crear un grupo independiente de textos traducidos, ya que son tipos de textos que por su naturaleza exigen una atención especial a la lengua al tener que transportar la sintaxis de la lengua de partida a la

106

JOAN TORRUELLA CASAÑAS

de la lengua de llegada. Estos textos, normalmente traducidos por profesionales, suelen reflejar la norma de la lengua establecida con bastante fidelidad. Debe de considerarse, sin embargo, que existen diferentes tipos de traducciones (unas literales que siguen al pie de la letra el original, otras que hacen adaptaciones más o menos literarias y aquellas que introducen interpretaciones bastante libres) y que cada tipo de traducción puede tener una influencia distinta en el texto traducido. El texto original puede influir en la lengua de llegada motivando un cierto grado de distorsión debido al calco de estructuras lingüísticas o incluso de adaptaciones léxicas que pueden haber pasado por alto al traductor. La cuestión no es trivial, ya que algunas de estas adaptaciones o de estos calcos puede que, posteriormente, hayan pasado a formar parte de la lengua general y se incorporen a la gramática como algo natural. Por ejemplo, Enrique-Arias (en este volumen) da cuenta de la influencia de las traducciones bíblicas en la creación del registro escrito en castellano debido al hecho de que el registro escrito religioso tenía prestigio y, por lo tanto, podía fácilmente influir en otros registros escritos, especialmente los pertenecientes a la variedad culta. Según Enrique-Arias “es un hecho bien conocido que las traducciones bíblicas han jugado un papel importante en el desarrollo del estándar de las lenguas europeas modernas”. Debe advertirse que algunas tipologías quizá no sean muy apropiadas o productivas para dar cuenta del aspecto sintáctico de la lengua. Por ejemplo, las muestras de textos poéticos aportan una sintaxis muy forzada y poco natural, las de inventarios pueden aportar mucha riqueza léxica pero una sintaxis pobre, pero es necesario actuar con cautela a la hora de desechar textos o de dejar de lado ciertas tipologías, ya que existe el peligro de hacerlo o bien siguiendo intuiciones apriorísticas que no se ajusten a la realidad, a pesar de que intuitivamente siempre se hayan dado como válidas, o bien de quedarse con aquellos rasgos que ya estaban previamente identificados como previsiblemente importantes sin explorar otros.

4.3. EJE DIALECTAL La productividad que pueda tener el hecho de estructurar el corpus tambien en el parámetro dialectal es, de momento, una incógnita, ya que, como explica Joan Veny (1998: 11) al referirse a los textos catalanes, cuando se analizan los documentos de la época medieval, uno se da cuenta de que “el català és una de les llengües més unitàries de la Romània [...], les diferències que s’hi observen estan en funció de la cronologia de la redacció més que de la procedència geogràfica dels autors”. Seguramente, las variaciones dialectales se producían en mayor medida en la lengua coloquial, pero se reflejaban muy poco en el código escrito.

BASES CIENTÍFICAS EN LA INVESTIGACIÓN A PARTIR DE CORPUS

107

En el mismo trabajo, Veny (1998: 22) menciona que es más significativo el parámetro cronológico que el dialectal e insiste en que “no s’ha tingut prou en compte la cronologia dels canvis que separen el català oriental de l’occidental”. Éste será otro de los aspectos que seguramente se podrán puntualizar mejor cuando sea posible observar el comportamiento de los rasgos dialectales en el transcurso de las diferentes etapas cronológicas definidas en el corpus. De todos modos, a la hora de clasificar geográficamente los documentos del Corpus Informatitzat del Català Antic se han seguido los criterios de división dialectal usuales en el catalán y se han establecido dos grandes bloques dialectales: Oc NO V Or S B C

= = = = = = =

Occidental Noroccidental Valenciano Oriental Septentrional Balear Central

5. Características de la estructura del CICA 5.1. ARQUITECTURA DE CORPUS Cualquier corpus que pretenda aportar datos para realizar análisis lingüísticos tiene que estar estructurado y su estructura debe responder a la finalidad para la que el corpus se ha creado. Para trabajar en el campo de la lingüística histórica, la estructura básica del corpus que se ha creído más apropiada estipula tres niveles: Parámetros generales o ejes (diacrónico, tipológico, dialectal, etc.). Apartados (tipologías: textos jurídicos, textos científicos, etc.; épocas: siglo XII, catalán preliterario, etc.; dialectos: oriental, valenciano, etc.). Elementos lingüísticos (preposiciones, neutros, sufijos latinos, etc.).

Siguiendo este esquema, podemos definir el Corpus Informatitzat del Català Antic como un Corpus que está formado por tres parámetros generales divididos en diversos Subcorpus (apartados) dentro de los cuales se pueden localizar los distintos elementos lingüísticos. Estos elementos lingüísticos configuran la materia sobre la que podemos experimentar. Así pues, entendemos por corpus el total de textos que configuran los diferentes apartados de cada uno de los parámetros y, por subcorpus, los textos que

108

JOAN TORRUELLA CASAÑAS

forman cada uno de los apartados, por ejemplo, los textos de orden jurídico, los textos del siglo XII, los textos en dialecto balear, etc. De todos modos, cada subcorpus debe tener las mismas propiedades del corpus, aunque de manera más restringida, esto es, debe estar formado por muestras representativas del lenguaje que el apartado quiere representar.

5.2. CANTIDAD Y DISTRIBUCIÓN DE LOS TEXTOS DEL CORPUS Ya hemos dicho anteriormente que el Corpus Informatitzat del Català Antic no pretende ser un corpus exhaustivo de la lengua catalana antigua, sino un corpus de referencia a partir del cual se puedan extrapolar o generalizar las tesis que se vayan estudiando. Para ello, más que grandes cantidades de textos es necesario recopilar en cada apartado cantidades parecidas de textos representativos de la lengua del apartado. Es obvio, pues, que los criterios de selección de los documentos que deben configurar el corpus son de capital importancia (véase el apartado Selección del corpus). Por eso, en la fase en la que hay que equilibrar el corpus, es cuando se buscará, “hasta donde sea posible”, que las diferentes variedades textuales y las diferentes etapas cronológicas tengan un número parecido de ocurrencias y estén representadas por obras significativas de cada apartado. Los textos o partes de textos que se excluyan al equilibrar el corpus no se dejarán de lado, sino que pasarán a formar parte de un Corpus de control. Este corpus complementario, que incluirá la totalidad de los textos, servirá para comprobar si un caso determinado aparece en algún texto y, por tanto, en la lengua, aunque no aparezca de manera numéricamente significativa. En ocasiones, puede ser más interesante un hecho lingüístico que se aparte de la norma que la propia norma. Se ha mencionado anteriormente que se buscará el equilibrio del corpus “hasta donde sea posible”. En algunos apartados tipológicos y, sobre todo, en algunas etapas cronológicas, el número total de textos que ha pervivido es muy limitado (en especial en la etapa del catalán preliterario). Si se quisiera equilibrar el corpus según estos apartados, con pocas muestras posibles, resultaría un corpus con un número de ocurrencias insuficiente para reflejar la realidad lingüística y, por tanto, poco representativo. La única solución en los casos de apartados con pocas ocurrencias es trabajar con frecuencias relativas, con resultados ponderados o, cuando la muestra es demasiado pequeña, simplemente tomando los datos como indicativos. Por este motivo, desde el punto de vista de equilibrio entre las diferentes etapas cronológicas del corpus se han establecido dos secciones: una, desde los orígenes hasta principios del siglo XIII, y la otra, desde mediados del siglo XIII hasta

BASES CIENTÍFICAS EN LA INVESTIGACIÓN A PARTIR DE CORPUS

109

el siglo XVII. De la primera sección, debido a los pocos textos existentes y a las pocas ocurrencias de cada texto, solamente se pueden extraer datos que indican posibilidades o tendencias del funcionamiento de la lengua. En la segunda sección, al poder disponer de cantidades suficientes de documentos para establecer subcorpus equilibrados y representativos, ya se pueden formular comparaciones entre los distintos apartados del corpus y aplicar las reglas estadísticas que darán valor científico a nuestro trabajo.

5.3. EXTENSIÓN DE LAS MUESTRAS En la primera etapa de la incorporación de obras en el Corpus Informatitzat del Català Antic se recopilan textos enteros para cada muestra del corpus (Corpus textual). Cuando posteriormente se tenga que equilibrar el corpus de manera definitiva, seguramente se deberá pasar de Corpus textual (textos enteros) a Corpus de referencia (fragmentos de textos), por lo menos en las obras de gran extensión. Pensemos, por ejemplo, en obras como el Tirant lo Blanch que por sí solas tienen más ocurrencias que la suma de todas las obras existentes en el siglo XII. Trabajar con corpus de referencia no es ningún inconveniente para nuestras investigaciones, ya que no nos interesa tanto la obra en sí, como el tipo de lengua que representa y, para ello, con muestras adecuadamente grandes es suficiente. Algunos estudios, como el de Biber (1990), han demostrado que las muestras entre 2.000 y 5.000 palabras son suficientemente extensas para un corpus de referencia. Ciertamente esto es así para realizar estudios léxicos, pero para estudios sintácticos en los que lo que se busca no son ocurrencias léxicas, sino ocurrencias de las combinaciones y relaciones entre las unidades léxicas dentro de la frase, estos números nos parecen escasos. Con la confección de muestras para el corpus de referencia se potencian los aspectos de equilibrio y representatividad, aspectos muy importantes para poder ofrecer datos cuantitativos de los hechos lingüísticos (porcentajes, frecuencias, etc.) y poder comparar los diferentes estadios evolutivos de la lengua o las diversas tipologías textuales.

6. Selección del corpus Una vez estipuladas las bases teóricas que debían regir la confección de Corpus Informatitzat del Català Antic, se pasó a la práctica. Como primer paso, fue necesario definir las obras que debían formar parte del corpus y clasificarlas por épocas y por tipologías, principalmente, y por dialectos en segundo orden. Posterior-

110

JOAN TORRUELLA CASAÑAS

mente, se eligió para cada obra el documento que la contuviera que fuera más adecuado a la filosofía de nuestro proyecto, tanto desde el punto de vista de la calidad filológica, como desde el punto de vista de las posibilidades de obtener la transcripción en soporte informático. Recordamos que una obra puede estar transcrita en muchos documentos y que hace falta convenir un criterio adecuado para decidir cuál es el más apropiado para los intereses de nuestro corpus. Finalmente, se aplicaron a los documentos seleccionados las “Normes d’edició” establecidas para nuestro proyecto, así como el marcaje estructural y analítico de los documentos, con el fin de que éstos pudieran ser tratados informáticamente (Torruella 2005).

6.1. SELECCIÓN DE LOS TEXTOS Para hacer la primera selección de las obras que debían formar parte del corpus se partió de dos listas bastantes exhaustivas presentadas en el I Simposi Internacional “Vers una sintaxi històrica del català: metodologia i objectius”: una de textos no literarios, elaborada por Gabriel Ensenyat (2003) y otra de textos literarios, confeccionada por Vicent Martines (2003). Teniendo como punto de referencia estas dos listas, se redactó la primera propuesta de textos para el corpus con su distribución por tipologías textuales y por franjas temporales.

6.2. SELECCIÓN DE LOS DOCUMENTOS El paso siguiente a la selección de las obras que debían formar parte del corpus fue el de la elección del documento concreto que se debía utilizar de cada obra. Los criterios de selección de los documentos para un corpus pueden ser diversos: – – – – – – – –

Autoridad: el original, si existe, o el más próximo a él. Integridad: documento más completo. Comprensibilidad: documento más inteligible. Edición: documento editado según los criterios que mejor se ajusten al proyecto. Calidad: documento mejor editado. Accesibilidad: documento de más fácil obtención. Soporte: documento en soporte electrónico. Economía: documento más barato (ediciones asequibles).

BASES CIENTÍFICAS EN LA INVESTIGACIÓN A PARTIR DE CORPUS

111

– Copyright: documento libre de derechos de autor. – Etc. En nuestro caso, para la selección de cada documento concreto, se tendió a dar prioridad al criterio de autoridad y, por lo tanto, a seleccionar documentos próximos a los originales. Pero, por el hecho que nuestro corpus es una herramienta para facilitar datos para la redacción de una gramática del catalán antiguo en la que ya se está trabajando, no podíamos emplear mucho tiempo en su recopilación y, por lo tanto, se dio también importancia al criterio de accesibilidad, escogiendo obras ya editadas siempre que se considerara que se había hecho con garantías y no comprometieran la calidad filológica de la edición. Sólo en casos muy necesarios se ha recurrido a realizar nosotros la edición (por ejemplo, el Llibre de Cort de Justícia d’Alcoi (anys 1263-65)). También se priorizó el criterio de integridad, puesto que, en principio, se incorporan al corpus sólo textos enteros (excepto en el caso del Dotzè del Crestià: primera part, volum primer, de Francesc Eiximenis, por el gran volumen que representa) con la intención de recortarlos, si hace falta, posteriormente. Así, al cabo de un año y medio de trabajo (mayo de 2005), gracias al esfuerzo de muchos colaboradores, las obras entradas al corpus superaban la cincuentena y sumaban casi 1.200.000 ocurrencias, cantidad nada despreciable para empezar. Al final de esta primera etapa de recopilación del corpus y a la vista de la distribución y peso en número de ocurrencias que las obras ya incorporadas tenían en los dos ejes principales de nuestro corpus, el temático y el temporal, una comisión formada por Manel Pérez-Saldanya, Josep Martines y Joan Torruella se reunió (julio de 2005) en Valencia con la finalidad de confeccionar una nueva lista con textos que, por una parte, fueran equilibrando los diferentes apartados de la parrilla y, por otra, aseguraran la presencia en el corpus de las obras más destacables dentro de la bibliografía catalana y que fueran útiles para nuestros intereses. De esta manera, al finalizar la segunda etapa (finales del 2006), ya se disponía de un corpus bastante más equilibrado y representativo de la lengua catalana antigua (unas 3.500.000 ocurrencias). Con todo, por el momento, no se ha querido cerrar el corpus, puesto que, a la vista de las observaciones que los usuarios van haciendo, sobre todo en los encuentros anuales del “Simposi Internacional: Vers una sintaxi històrica del català”, periódicamente se replantea la inclusión de nuevos textos, pero ahora no sólo para ir equilibrando los diferentes apartados, sino para cubrir necesidades que vayan surgiendo o para eliminar lagunas que los diferentes colaboradores vayan detectando en el uso del corpus. Actualmente (julio de 2009), el corpus ya supera los 6.000.000 de palabras distribuidas cronológicamente de la manera que se muestra en la Figura 1. Las

112

JOAN TORRUELLA CASAÑAS

nuevas incorporaciones están encaminadas a ir equilibrando el número de ocurrencias en los distintos apartados a partir de la segunda mitad del siglo XIII. Anteriormente a esta fecha, como ya se ha dicho, no disponemos de documentos que nos permitan aumentar el número de ocurrencias, de manera que habrá que tomar los datos obtenidos en los documentos de los orígenes hasta el siglo XII como indicativos y podremos aplicar a los datos obtenidos en los documentos posteriores del siglo XII las técnicas estadísticas que permitan extrapolar conclusiones. FIGURA 1 Distribución cronológica de los textos del CICA

7. Conclusión Estamos convencidos de que uno de los méritos principales del CICA es, precisamente, el hecho de haberlo confeccionado a la medida de las necesidades de un proyecto concreto (aunque esto no lo invalida en absoluto para otros proyectos) y a partir de la relación constante entre los usuarios y sus diseñadores. Hay ya un número apreciable de trabajos que han empleado el CICA para obtener datos, principalmente para temas relacionados con la morfosintaxis y la sintaxis (Bosque/Picallo (en prensa), Montserrat (2007c), Pérez Saldanya y Rigau (2005, 2007, 2008), Segura (2007), Bartra-Kaufman (2007), Espinosa y Sánchez Lancis

BASES CIENTÍFICAS EN LA INVESTIGACIÓN A PARTIR DE CORPUS

113

(2006), Rigau (2006)) pero también para trabajos desde otras perspectivas: por ejemplo, para cuestiones de léxico (Torruella, en prensa), para cuestiones de morfología (Montserrat 2007a, 2008), para procesos de gramaticalización (Bartra-Kaufmann, en prensa) o para temas de semántica (Montserrat 2007b).

Bibliografía BARTRA-KAUFMAN, Anna (2007): “Determinerless noun phrases in Old Romance passives”, en: Stark, Elisabeth/Leiss, Elisabeth/Abraham, Werner (eds.): Nominal Determination. Amsterdam: John Benjamins, 257-286. — (en prensa): “Some remarks about the grammaticalization process of the DP functional domain in Old Romance”, en: Espinal, María Teresa/Leonetti, Manuel/McNally, Louise (eds.): Proceedings of the IV Nereus International Workshop “Definiteness and DP Structure in Romance Languages”. Arbeitspapier 12x. Fachbereich Sprachwissenschaft, Universität Konstanz. BIBER, Douglas (1990): “Methodological issues regarding corpus-based analyses of linguistic variation”, en: Literary and Linguistic Computing 5, 4, 257-269. BOSQUE, Ignacio/PICALLO, Maria Carme (en prensa): “Determiners as Partitives”, en: Brugé, L./Cardinaletti, A./Giusti, G./Munaro, N./Poletto, C. (eds.): Functional Heads. Oxford: Oxford University Press. BUENAFUENTES, Cristina (2002): “Cambio gramatical y periodización en español”, en: Res diachronicae: Anuario de la Asociación de Jóvenes Investigadores de Historiografía e Historia de la Lengua Española, 1. Universidad de Córdoba y Universidad Complutense de Madrid, 96-105. Corpus Informatitzat del Català Antic (CICA), Joan Torruella (dir.), juntamente con Manuel Pérez Saldanya y Josep Martines. (2008). COSERIU, Eugenio (21973): Sincronía, diacronía e historia. Madrid: Gredos. DURKHEIM, Emile (1895/2005): Les règles de la méthode sociologiques. Paris. Reedición en Las reglas del método sociológico. Madrid: Biblioteca Nueva, 2005. EBERENZ, Rolf (1991): “Castellano antiguo y español moderno: reflexiones sobre la periodización en la historia de la lengua”, en: Revista de Filología Española 71, 79-106. ENSENYAT, Gabriel (2003): “Un corpus textual no literari del català antic: una proposta”, en: I Simposi Internacional “Vers una sintaxi històrica del català: Metodologia i objectius”. No publicado. ESPINOSA ELORZA, Rosa/SÁNCHEZ LANCIS, Carlos (2006): “«Adrede»/«acaso»: Historia de una antonimia”, en: Villayandre Llamazares, Milka (ed.): Actas del XXXV Simposio Internacional de la Sociedad Española de Lingüística. Madrid: Arco Libros. FASOLD, Ralph (1984): The sociolinguistics of society. Oxford: Blackwell. LLAMAZARES, Iván (2002): “Método comparativo”, en: Reyes, Román (dir.): Diccionario Crítico de Ciencias Sociales. Madrid: Universidad Complutense. .

114

JOAN TORRUELLA CASAÑAS

MARCOS MARÍN, Francisco (1992): “Spanisch: Periodisierung, Periodización”, en: Holtus, G. y otros (eds.): Lexikon der Romanistischen Linguistik, VI, 1. Tübingen: Max Niemeyer, 602-607. MARINA, José Antonio (1993): Teoría de la inteligencia creadora. Barcelona: Anagrama. MARTINES, Vicent (2003): “Proposta de corpus literari per a un estudi de sintaxi històrica”. I Simposi Internacional “Vers una sintaxi històrica del català: Metodologia i objectius”. No publicado. MONTSERRAT, Sandra (2007a): “Entre la dixi i la definitud: els verbs de moviment resultatiu en català antic”, en: Caplletra 39, 61-83. — (2007b): “Les perífrasis amb gerundi en català antic”, comunicación presentada en el Col·loqui Internacional sobre Corpus Diacrònics en Llengües Iberorromàniques, 25, 26, 27 de octubre en Palma de Mallorca. — (2007c): La semàntica diacrònica cognitiva. Una aplicació a propòsit de venir, arribar i aplegar (segles XII-XIX). Barcelona: Institut Interuniversitari de Filologia Valenciana/Institut d’Estudis Catalans/Publicacions de l’Abadia de Montserrat. — (2008): “Aplegar i arribar en el Curial e Güelfa: un parell sinonímic?”, en: Caplletra 44, 33-53. MORENO, Francisco (1990): “Las reglas del método sociolingüístico”, en: Moreno, Francisco (recopilador): Estudios sobre la variación lingüística. Alcalà de Henares: Universidad, 103-114. PÉREZ SALDANYA, Manuel/RIGAU, Gemma (2005): “Cuesta arriba e por llano: The development of postpositions in Spanish and Catalan”, en: Journal of Portuguese Linguistics 4, 69-81. — (2007): “Els adverbis de lloc intransitius i la formació de construccións amb adverbis posposats”, en: Estudis Romànics 29, 61-80. — (2008): “L’é tengut baix e sota peu: Alguns aspectes dels adverbis i les preposicions al Curial e Güelfa”, en: Aspectes lingüístics i culturals en Curial e Güelfa. Madrid: Castalia. RICO, Francisco (1998): “Componedores y grafías en el Quijote de 1604 (sobre un libro de R. M. Flores)”, en: Bernat Vistarini, Antonio (ed.): Actas del tercer Congreso Internacional de la Asociación de Cervantistas (III-Cindac), Galdana, Menorca, 20-25 de octubre de 1997. Palma: Universidad de las Islas Baleares. RIDRUEJO, Emilio, (1993): “¿Un reajuste sintáctico en el español de los siglos XV y XVI?”, en: Deyermond, Allan/Penny, Ralph (eds.): Actas del Primer Congreso Anglohispano. Madrid: Castalia, vol. 2, 49-60. RIGAU, Gemma (2006): “Estudi microsintàctic del verb caldre en el català antic i en l’actual”, en: Caplletra 38, 241-258. SEGURA, Carles (2007): “Les preposicions que expressen finalitat al Segle XIII segons el Corpus Informatitzat del Català Antic. El naixement de la preposició per a en català”, comunicación presentada en el Col·loqui Internacional sobre Corpus Diacrònics en Llengües Iberorromàniques, 25, 26, 27 de octubre en Palma de Mallorca. TORRUELLA, Joan (2005): Procediments per a l’edició electrònica de textos del “Corpus Informatitzat del Català Antic”. .

BASES CIENTÍFICAS EN LA INVESTIGACIÓN A PARTIR DE CORPUS

115

— (en prensa): “Estudio contrastivo del léxico de finales del siglo XIII y principios del siglo XIV entre el catalán, aragonés, castellano y leonés”, en: Actes du XXVe Congrès International de Linguistique et de Philologie Romanes (CILPR). TORRUELLA, Joan/LLISTERRI, Joaquim (1999): “Diseño de corpus textuales y orales”, en: Blecua, José Manuel/Clavería, Gloria/Sánchez, Carlos/Torruella, Joan (eds.): Filología e Informática: Nuevas tecnologías en los estudios filológicos. Barcelona: Universidad Autónoma de Barcelona, 45-77. VÁZQUEZ, Jesús (2002): “Aportaciones de las lenguas preromanas a la conformación del Aragonés”, en: Caplletra 32, 35-51. VENY, Joan (1998): Els parlars catalans (síntesi de dialectologia). Mallorca: Moll.

P E N S A N D O U N C O R P U S E N M O D O C O L A B O R AT I VO : H AC I A E L P ROTOT I P O D E L C O R P U S J U D E O E S PA Ñ O L D I G I T A L ANA STULIC-ETCHEVERS/SOUFIANE ROUISSI Universidad de Burdeos EA 3656 AMERIBER-GRIAL, EA 4200 CEMIC-GRESIC

Introducción A pesar del interés científico por la lengua de los sefardíes expulsados de España en 14921, las fuentes documentales en judeoespañol, aunque numerosas, son poco conocidas y poco estudiadas. Aparte de los documentos en formato imagen, puestos a disposición del público para la consulta en línea por algunas instituciones en cuyo seno se conservan estos documentos2, no existen ediciones electrónicas de textos judeoespañoles. Por consiguiente, dentro del marco de nuestro proyecto de elaboración de un corpus judeoespañol digital, que estamos realizando en la Universidad de Burdeos (EA 3656 AMERIBER), ha sido necesario adoptar un doble enfoque que implica, por un lado, la creación de ediciones digitales de textos judeoespañoles y, por otro, la integración de estas ediciones dentro del corpus digital que deseamos configurar como herramienta de investigación en los estudios lingüísticos. La elaboración de versiones digitales de los documentos judeoespañoles es compatible con un enfoque multidisciplinario de estudio de textos. La especificidad del campo de estudios sefardíes (el número poco elevado de investigadores, la diversidad de disciplinas científicas representadas) otorga a la tarea de edición de estos documentos una necesidad singular de optimizar el esfuerzo y de favorecer su reutilización. De modo que, aunque al principio nuestro proyecto se

1 Los datos comparativos que provienen del judeoespañol han ampliado los conocimientos sobre la historia de la lengua española (algunos ejemplos significativos son Hanssen 1966 [1910] y Alonso 1967, 1969). Por otra parte, el estudio de las evoluciones y de los usos propios de la lengua sefardí permite estudiar los fenómenos diacrónicos en relación con el estado o los estados de la lengua hablada en el suelo ibérico antes de la expulsión. 2 Ladino Digital Library (Stanford University), . The Jewish National and University Library, .

118

ANA STULIC-ETCHEVERS/SOUFIANE ROUISSI

orientaba hacia la creación de un corpus destinado a la utilización en los estudios lingüísticos, nos ha parecido oportuno ampliar el enfoque e incluir la posibilidad de que los documentos digitalizados se utilicen en otras disciplinas. Esta perspectiva, más amplia, permite asimismo el enriquecimiento de los documentos por las informaciones extra-lingüísticas, que resultan a menudo necesarias para contextualizar los hechos lingüísticos3. En este trabajo presentamos una reflexión que parte de los fundamentos metodológicos de estudio de las fuentes documentales en distintas disciplinas concernidas y nos fijamos, en su primera parte, en la noción de “documento” y de sus representaciones digitales. A la luz de estas conclusiones, en la segunda parte examinamos los problemas específicos que atañen a la realización del corpus judeoespañol digital. Dedicamos la última parte de este trabajo al estudio de las prácticas y de las expectativas de los investigadores que trabajan con los corpus documentales.

1. Desde el documento tradicional hasta el documento digital El término “corpus” denota una selección de “documentos” en los cuales se apoya la investigación empírica. El establecimiento del corpus no es, sin embargo, independiente del objeto de estudio ni de las hipótesis en las cuales la investigación se funda y el criterio de la selección influye inevitablemente en las observaciones y sus interpretaciones (Habert/Nazarenko/Salem 1997: 121-134; Dalbera 2002: 12-16). En la época actual, el “corpus” se refiere también a un dispositivo tecnológico que permite la búsqueda en una selección de documentos en forma digital. La facilidad de reutilización de contenidos digitales ha hecho de los criterios de selección y de representatividad una de las preocupaciones más importantes en su concepción. De este modo, los corpus digitales que tienen vocación de ser los corpus de referencia se apoyan en las hipótesis sobre la representatividad de las fuentes para una lengua, una variedad lingüística, un registro, un tema, etc. Los criterios pueden ser múltiples y dependen del objetivo de la creación del corpus. No obstante, en la práctica, la imposibilidad de poner en duda las hipótesis que estructuran el corpus (aunque sean justificadas), la escasa descripción de las fuentes, así como la imposibilidad de acceder inmediatamente a los textos ente3 Los estudios de la lengua judeoespañola han sacado provecho de modo considerable de las investigaciones llevadas a cabo sobre la historia, la cultura y la literatura de los sefardíes. Los textos judeoespañoles conocidos y estudiados actualmente están accesibles gracias a las ediciones filológicas destinadas al estudio en el campo de la literatura, la filosofía o la historia.

PENSANDO UN CORPUS EN MODO COLABORATIVO

119

ros4 limitan considerablemente el uso de estos recursos documentales. Por lo que se refiere a las lenguas nacionales, como es el caso del español, la multitud de dispositivos (que existen gracias a la extensión de los recursos concedidos) y la existencia paralela de ediciones filológicas (electrónicas o no), pueden paliar estos problemas por su complementariedad. En el caso del diseño del corpus judeoespañol, donde se siente una necesidad evidente de economía, estamos buscando la mejor manera de adaptar el dispositivo a las necesidades de la investigación. En este sentido, estimamos que es importante tomar en cuenta siguientes dos puntos: (1) la configuración de un corpus (digital o no) representa el resultado de investigación que se basa en las hipótesis5 y como tal sigue siendo cuestionable; (2) el objetivo de la creación y de la puesta en marcha de un corpus digital destinado al uso en la investigación es proporcionar una herramienta reutilizable. En consecuencia, es preferible que la estructura del corpus digital, como “selección de documentos”, sea transparente para el investigador y en la medida de lo posible, adaptable a otros tipos de investigación. Esto es sólo posible si en el diseño del corpus adoptamos un enfoque documental6. La elaboración del corpus judeoespañol significa la digitalización de los documentos tradicionales7 y necesita que se integre una reflexión epistemológica sobre el concepto de “documento”. En nuestro trabajo, seguimos la definición desarrollada en la ciencia de la información que considera como documento cada objeto real sujeto al análisis y estudio. Definido de este modo, el “documento” expresa un contenido (interpretado por el investigador), pero es indisociable de su soporte8. Si el documento es indisociable de su soporte material, es necesario garantizar las condiciones satisfactorias de su acceso y consulta de manera estable en el tiempo9.

4

En muchos casos, la extensión del fragmento que se puede consultar está condicionada por los derechos de autor respecto al editor o a la sociedad editorial. 5 Sobre la representatividad de un texto particular de una lengua, de una variedad lingüística, o sobre la representatividad de un tipo de texto o de género en el conjunto de las actividades lingüísticas de una comunidad. 6 Este criterio debería permitir que los investigadores de otras disciplinas (historia, literatura, sociología, etc.) saquen provecho de los documentos utilizados como fuentes lingüísticas. 7 Dejamos aparte los contenidos lingüísticos producidos directamente en el medio digital. 8 Para la definición del documento v. Briet (1951); Meyriat (1978) y Otlet (1990); para una síntesis de los enfoques adoptados en el análisis de la noción de “documento” Buckland (1998). 9 Esta idea de perennidad se encuentra también en la norma ISO – TC46 que define el documento como un “conjunto formado por un soporte y una información, generalmente grabada de modo permanente y de tal modo, que pueda ser leída por el hombre o por la máquina”. ISO International Organization for Standardization, TC (Technical Committee) 46 es el comité técnico para las normas en materia de información y de documentación.

120

ANA STULIC-ETCHEVERS/SOUFIANE ROUISSI

La digitalización de las fuentes documentales tradicionales hace surgir las dificultades relacionadas con la representación y la descripción de los documentos tanto de su contenido, como de su soporte. La experiencia de la ciencia de la documentación muestra que en la materia de metadescripción es preferible seguir las normas bien establecidas en la disciplina concernida, porque su uso facilita la localización y la identificación de los documentos digitalizados. Puesto que el corpus judeoespañol que deseamos poner en marcha está destinado a los investigadores que se encuentran en distintos puntos del planeta, hemos optado por situar su concepción en un contexto full web. Nuestro proyecto debe ofrecer, por consiguiente, una respuesta al riesgo de la fragmentación y de la dispersión de la información en el contexto digital. En esta perspectiva, identificamos tres grupos de problemas: (1) la identificación y la localización del documento digital (¿cómo encontrar un documento digital en un conjunto cada vez más extenso?) (2) la proliferación y la volatilidad del documento digital (varias versiones de un mismo documento situadas en direcciones distintas, alteración de las versiones, desaparición del dispositivo, etc.) (3) los nuevos modos de difusión del documento digital (¿cuáles son las fuentes fiables? ¿cuál es el grado de validez y de fiabilidad de las fuentes?) Por otra parte, el “documento digital”10, soporte de las representaciones de los documentos tradicionales, presenta las posibilidades propias del medio digital. Destacamos aquí sólo sus rasgos principales: la capacidad del documento digital de ser almacenado, su plasticidad (la posibilidad de tomar varias formas) y la posibilidad de asociar varios documentos entre ellos, como lo había imaginado ya Vannevar Buch con el “Memex” (Bush 1945). Los dos últimos rasgos, i. e., plasticidad y asociación de los documentos, se pueden fusionar: la posibilidad de asociar los documentos deriva de su plasticidad, es decir un documento digital puede presentarse bajo la forma de varios fragmentos asociados. A estos rasgos se puede añadir la “programabilidad” del documento digital, consecuencia de la posibilidad de generar documentos digitales de modo automático o semiautomático11.

10

Seguimos la definición del “documento digital” propuesta por la red temática multidisciplinaria 339 del departamento Ciencias y Tecnologías de la Información y de la Comunicación (STIC) del CNRS (Centre National de la Recherche Scientifique, France) (Pédauque 2003). 11 Michael Buckland describe el documento digital utilizando el ejemplo de los logaritmos (Buckland 1998). Hace sólo unos decenios, para hacer los cálculos, habríamos utilizado

PENSANDO UN CORPUS EN MODO COLABORATIVO

121

La programabilidad del documento digital es lo que hace que la digitalización de contenidos lingüísticos sea tan atractiva y útil. La implementación de los algoritmos aplicados a los materiales textuales es posible gracias al enriquecimiento y a la interpretación de los documentos originales por las anotaciones añadidas a distintos niveles de estructura. En el diseño del corpus judeoespañol, intentamos ir más allá en la exploración de esta dimensión creativa del soporte digital, apoyándonos en las prácticas de la configuración de los dispositivos digitales existentes destinados a la publicación y a la consulta de materiales lingüísticos. Este capítulo expone las reflexiones teóricas en las que basamos nuestro proyecto. Consideramos que la elección de los medios tecnológicos concretos para la realización del corpus no es una cuestión periférica, separada del objetivo que perseguimos. Más allá de los problemas concretos de formato de edición, nos interesa explorar los usos potenciales en un entorno sostenido por las tecnologías de la información y de la comunicación (TIC), en especial el entorno web. A continuación analizamos algunos problemas propios a la aplicación de la tecnología digital al diseño del corpus judeoespañol.

2. Problemas propios a la elaboración del corpus judeoespañol digital 2.1. INVENTARIO DE LAS FUENTES JUDEOESPAÑOLAS La consulta y la identificación de las fuentes en judeoespañol no están exentas de dificultades. Para escribir en español los sefardíes empleaban los caracteres hebreos (muy a menudo, aunque no exclusivamente, se trataba de los caracteres rabínicos, llamados rashí), como ya era usual antes de su llegada al oriente, hecho del que guardan noticia los numerosos manuscritos conservados en la Península Ibérica. Es justamente este aspecto lo que ha dificultado su inventario y estudio12.

una tabla de valores en formato papel, que constituye así un documento tradicional. En la época actual es fácil imaginar esta misma tabla en forma de una página web interactiva que se apoya en un formulario y en un código que implementa el algoritmo de cálculo. No obstante, el objetivo del documento (proporcionar los valores de la tabla) sigue siendo idéntico y el dispositivo así construido es una especie de documento dinámico, documento “programado” o que se puede “programar”. 12 Los primeros filólogos que manifestaron interés por el judeoespañol eran conscientes de este obstáculo. V. Foulché-Delbosc (1961 [1894]), Subak (1906: 180-185); Lamouche (1907: 973-975/5-7), Wagner (1914: 173-174); también Bunis (1974) para las convenciones

122

ANA STULIC-ETCHEVERS/SOUFIANE ROUISSI

La identificación correcta de los documentos necesita a la vez el conocimiento de la escritura hebraica (y de sus convenciones aplicadas al judeoespañol) y el conocimiento de la lengua española (y más generalmente, de las lenguas románicas), dos condiciones que, por razones evidentes, no se encuentran reunidas muy a menudo ni entre los estudiosos de la lengua española ni entre los hebraístas. Por esta razón, no es raro encontrar en los catálogos libros o manuscritos con texto en judeoespañol clasificados como documentos en hebreo, sobre todo porque los escritos en judeoespañol llevan con frecuencia un título en hebreo o contienen fragmentos en hebreo. Fuera de los círculos rabínicos e intelectuales sefardíes, los escritos en judeoespañol eran durante mucho tiempo casi desconocidos y el estado de investigación sobre este tema no ofrecía suficiente información ni sobre su extensión ni sobre su diversidad. En 1930 Wagner escribía: Desgraciadamente se conoce poco la producción literaria de los sefardíes, lo cual es de lamentar no sólo por el aspecto literario, sino también desde el punto de vista lingüístico. Para hacer escrupulosamente la historia del desarrollo del judeo-español haría falta todo un estudio concienzudo de las obras literarias publicadas en los primeros siglos después de la expulsión. (Wagner 1930: 55).

Algunos años más tarde, el historiador Salo Wittmayer Baron notaba que la historia de la literatura judeoespañola estaba todavía por escribir (Baron 1957 [1937]: 94). En fecha reciente, la historiadora Aviva Ben-Ur recuerda que, aunque en la época actual conocemos la tradición escrita judeoespañola mejor que en los años treinta, el inventario del conjunto de los escritos judeoespañoles no ha sido realizado (Ben-Ur 2002: 309). El número de libros impresos en judeoespañol se estima en varios miles (de cinco a seis mil según Molho 1960: 145; para el resumen de distintas estimaciones v. Ben-Ur 2002: 322, nota 4), pero es probable que en el futuro se descubran otras colecciones, ahora desconocidas. En cuanto a los manuscritos, es imposible hacer una estimación, pero el conocimiento que tenemos de las colecciones existentes permite decir que es posible que se produzcan nuevos descubrimientos13. de la escritura judeoespañola; Pascual Recuero (1988) para la evolución de la adaptación de la escritura hebraica al judeoespañol; Minervini (1992: 12-36) para el análisis de la escritura hebraica en los documentos medievales; Hary (1996) para el sistema de adaptación de escritura hebraica al judeoespañol y a otras lenguas judías. 13 La historia del archivo de la comunidad de Belgrado es un caso instructivo. Confiscado durante la segunda guerra mundial por el ejército alemán, este archivo se encuentra al final de la guerra entre las manos del ejército rojo y entra en los fondos del llamado “Archivo especial”, hoy conocido bajo el nombre de Centro para la preservación de las coleccciones histó-

PENSANDO UN CORPUS EN MODO COLABORATIVO

123

La investigación sobre la bibliografía judeoespañola ha sacado a la luz los catálogos de las colecciones de diversas instituciones: Yaari (1934) para la Biblioteca Nacional y Universitaria de Jerusalén, Besso (1963) para la Biblioteca del Congreso estadounidense, Rodrigue (1992) para la Biblioteca de la Universidad de Harvard, Hassán (1970) para el fondo Molho del Instituto Arias Montano (CSIC), Bunis (MS) para la colección Milwitzky del centro de investigación YIVO de Nueva York, Ben-Ur (2001) para la colección privada de Louis N. Levy y Ben-Ur (en preparación) para la colección de Lubavitcher Rebbes de Nueva York. Otras noticias bibliográficas sobre los manuscritos y los libros impresos en judeoespañol se encuentran catalogadas en las colecciones hebraicas14. Las fuentes escritas sefardíes mejor conocidas son las que han sido estudiadas debido a su valor literario o filosófico15. Para facilitar el estudio de las fuentes escritas en el campo de la historia, Aviva Ben-Ur (2002) subraya la necesidad de elaborar bibliografías anotadas de las fuentes judeoespañolas impresas

ricas y documentales, que pertenece a los Archivos Militares del Estado de Rusia (Rossiiskii gosudarstvennyi voennyi arkhiv) y cuyo contenido exacto permanecía desconocido hasta 1990. Los ficheros que provienen de la comunidad judía de Belgrado forman parte de una amplia colección de documentos judíos que reunía los documentos de contenido administrativo y político compilada por los nazis. Para la investigación sobre la lengua judeoespañola es útil mencionar que fuera de un conjunto de 351 ficheros del período entre 1866 y 1941 de la comunidad de Belgrado (RG 1429), esta colección contiene también 12 ficheros del período entre 1783 y 1857 de la comunidad de Dubrovnik (RG 1439), así como cierto número de documentos cuyo contenido no ha sido revelado públicamente (Mayorek 1999). 14 En este lugar se pueden nombrar sólo algunos: Steinschneider (1852-60) para los fondos de la Bodleian Library de la Universidad de Oxford; Catalogue des manuscrits hébreux et samaritains de la bibliothèque impériale (1866), París, para la Bibliothèque nationale de France; Zeider (1867), Van Straalen (1894) y Rowland Smith (ed., 1994) para los fondos hebraicos de la British Library; Dictionary Catalog of the Klau Library (1964); Eskenazi/ Gicev (1966) para los libros judíos impresos en Bulgaria; Mehlmann Collection: Exhibition of 214 Rare Books (1972); Moskona (1974) para los libros de los fondos de la sinagoga central de Sofía; Fuks/Fuks-Manfeld 1975 para los manuscritos de la Biblioteca Ets Haim de Amsterdam; Kerner (1977) para el Fondo Danon (Fond Danon) de INALCO (París); Lebl (1990) para los libros judíos impresos en Belgrado entre 1837 y 1905; con mucho interés puede consultarse Habersaat (1942) para el escrutinio de algunos catálogos de escritos en hebreo y la identificación de los documentos escritos en judeoespañol; también Romero (1992: 25-26) para una lista de instituciones que poseen los documentos sefardíes. Sobre las fuentes escritas, se pueden consultar también las bibliografías: Kayserling (1890), Studemund (1975), Sala (1976), Bunis (1981) y Stulic/Vucina (2003). 15 Para la historia de la literatura judeoespañola v. Kayserling (1890: xviii-xxi); Besso (1962); Hassán (1981, 1982); Díaz-Mas (1997 [1986]: 131-184); Vidakovic (1986); Romero (1992); Nezirovic( 1992). V. también las antologías de textos judeoespañoles: Grünbaum (1896); Molho (1960).

124

ANA STULIC-ETCHEVERS/SOUFIANE ROUISSI

que podrían incluir información sobre el contenido (con el énfasis en el peritexto, los prólogos, las notas finales, etc.), la distribución de las ediciones (la tirada, la historia, el número y el sitio donde se conservan los ejemplares, los ex libris y las notas manuscritas añadidas por los antiguos propietarios), así como las distintas ediciones conocidas. Habitualmente, los corpus lingüísticos no procuran este tipo de información y presentan las selecciones cerradas y definitivas de los textos. Por otra parte, podemos observar que el tipo de base de datos sugerido por Aviva Ben-Ur tendría una utilidad más grande si contuviera también los textos enteros de las fuentes. Ahora bien, lo que proponemos en el caso del corpus judeoespañol es un dispositivo que integra tanto la información sobre el inventario de las fuentes como la representación digital de las fuentes mismas en su totalidad. Esto es posible dentro de una estructura tecnológica que permite un enriquecimiento progresivo de la colección inicial gracias a las colaboraciones externas. No obstante, para llevar a cabo tal proyecto en el futuro, es necesario definir previamente la arquitectura del corpus de tal manera que permita que su estructura evolucione en el tiempo.

2.2. PROBLEMA DE TRANSCRIPCIÓN Y DE REPRESENTACIÓN DE LAS FUENTES En el caso de las fuentes judeoespañolas, a los problemas habituales en la representación de los documentos, se añade una dificultad particular que se debe a su sistema de escritura. La mayoría de los textos judeoespañoles producidos desde la fecha de expulsión (1492) hasta los principios del siglo veinte están escritos en caracteres hebreos. De modo similar a los textos en hebreos, sólo las traducciones de los textos sagrados y, en menor medida, algunos textos pedagógicos, estaban plenamente vocalizados. En la adaptación de la escritura hebraica al judeoespañol, el uso de los grafemas vocálicos se sistematizó y se volvió obligatorio. Sin embargo, un grafema denotaba más de una vocal16. Por consiguiente, uno de los problemas principales en la representación de los textos reside en la interpretación de las vocales. El sistema vocálico judeoespañol no ha seguido el mismo camino de evolución que el español peninsular estándar. Por otra parte, las variedades judeoespañolas presentan numerosas variaciones en cuanto a las vocales en posiciones átonas, de modo que resulta imposible aplicar de modo unívoco en la transcripción las correspondencias fonéticas o fonológicas al sistema de escritura no vocalizado.

16

Se trata de un sistema de denotación de las vocales mediante cuatro grafemas: aleph, waw, yod y he.

PENSANDO UN CORPUS EN MODO COLABORATIVO

125

En las ediciones filológicas de los textos judeoespañoles, los editores aplicaban varios criterios en cuanto a la transcripción. En la época actual existen varias tradiciones de representación de los textos judeoespañoles aljamiados. En las ediciones filológicas elaboradas en el seno del Departamento de Estudios Hebreos y Sefardíes del CSIC, a lo largo de las últimas décadas los investigadores han empleado el sistema de transcripción propuesto por Iacob Hassán (1978) que toma como criterio de normalización el español moderno estándar enriquecido por un sistema de diacríticos que marcan la diferencia en la pronunciación judeoespañola. Por otro lado, la revista israelí Aki Yerushalaim utiliza un sistema que aplica el criterio fonético (en la misma medida que la norma ortográfica del español actual), pero se diferencia por los caracteres elegidos. Tampoco es raro que los filólogos elaboren un sistema de transcripción definido ad hoc para representar una fuente de modo adecuado17. Estas diferentes soluciones están relacionadas con las disciplinas y con los enfoques distintos adoptados y todas son justificadas si su aplicación es coherente y sistemática. Sin embargo, a la hora de la elaboración de un corpus que se dirige potencialmente a los investigadores de horizontes científicos diferentes, la elección del sistema de transcripción es uno de los problemas cruciales. Es preferible encontrar una solución que a la vez permita la interoperabilidad entre los diferentes sistemas de escritura y facilite la “programabilidad” con miras a la extracción de datos lingüísticos significativos. Para esto, se deben reunir dos condiciones: por un lado, (1) el reconocimiento de la importancia del juicio humano y de la interpretación en la elaboración de las representaciones (digitales) y por otro, (2) el reconocimiento de la legitimidad de la pluralidad de las representaciones. En el estudio de los textos antiguos generalmente se reconoce la necesidad de recurrir a las diferentes representaciones que dependen del objetivo que se quiere cumplir con su realización. Cada representación se fundamenta en la voluntad de representar con fidelidad el documento y su contenido, pero este principio se puede interpretar de modos muy diferentes. De acuerdo con los objetivos, se conservan las informaciones que se consideran importantes. Las diferentes representaciones se sitúan en un continuum donde los dos extremos representan los criterios según los cuales la representación está elaborada: en un lado se encuentran las ediciones paleográficas y semipaleográficas y en el otro, las ediciones en las cuales la interpretación del editor alcanza un grado más elevado. La ambición de garantizar la perennidad de los materiales que deseamos digitalizar, así como las perspectivas científicas amplias que abarcan tanto el estudio

17

Para algunos ejemplos significativos v. las ediciones de Minervini (1992) y de Zemke (2004).

126

ANA STULIC-ETCHEVERS/SOUFIANE ROUISSI

del libro impreso, como la historia, la literatura y la lingüística, nos conduce a adaptar un enfoque documental cuyo objetivo es representar el documento con la mayor fidelidad posible. En la época actual, este criterio puede satisfacerse por el uso de las imágenes de los documentos originales junto a sus representaciones textuales, lo que no dispensa de la metadescripción de las representaciones de los documentos tanto en el formato de texto como en el formato de imágenes18. Por el presente, las representaciones en formato imagen todavía no presentan todas las posibilidades de manejo y de búsqueda que se encuentran en el formato texto. Por consiguiente, es necesario elaborar un sistema de transliteración, adaptado al contexto digital, que reproduce con la máxima exactitud el sistema de escritura de la fuente y en el cual cada grafema se sustituye por otro, codificado numéricamente de tal modo que remita invariablemente al grafema del documento fuente. Los textos transliterados de este modo pueden luego transcribirse por el uso de las operaciones automáticas o semiautomáticas al sistema de escritura deseado. Para la perennidad de los materiales digitalizados es imprescindible que el código utilizado para convertir el contenido de la fuente original en texto digital sea un código normalizado. En esta fase del desarrollo de la plataforma, nos inclinamos hacia una solución en el marco de la norma Unicode, que ya incluye una norma para la escritura hebraica, con algunos caracteres complementarios desarrollados en yiddish. Aunque por el momento no parecen resueltos todos los problemas de su aplicación a la escritura sefardí, la norma Unicode va enriqueciéndose progresivamente y la última versión contiene algunos caracteres habitualmente utilizados en judeoespañol (el signo diacrítico “Judeo-Spanish varika” que es una variante del rafé hebreo, en la versión más reciente Unicode 5.1.19). En el seno de la aplicación informática deseamos posibilitar transcripciones automáticas para los sistemas de transcripción habitualmente utilizados entre los especialistas de judeoespañol. También es fácil imaginar la aplicación de un nuevo sistema de transcripción, o la corrección de una versión propuesta, efectuada por el usuario y conservada para el trabajo personal o para la publicación o la difusión dentro de la comunidad científica. La situación es similar en cuanto a la estructura del documento. Parece necesario integrar en la primera codificación numérica del documento, la información que refleja su estructura original (la disposición en las páginas, parágrafos, líneas; la presencia de los fragmentos en otras lenguas, etc.). Los formatos nor-

18

La metadescripción debe aplicarse a los documentos digitales generados. Para la codificación Unicode (versión 5.1) de los caracteres hebreos consúltese http://www.unicode.org/charts/PDF/U0590.pdf. 19

PENSANDO UN CORPUS EN MODO COLABORATIVO

127

malizados de la descripción del documento basados en XML son hoy bastante extendidos. Sin embargo, la aplicación de la norma XML (como las distintas versiones de la TEI) presenta algunos inconvenientes de uso y por el momento estamos en busca de soluciones técnicas que permiten explorar la anotación libre sobre los documentos. Del mismo modo que para el sistema de escritura, deseamos ofrecer al usuario, para su uso personal y, eventualmente, para compartir con la comunidad científica concernida, la posibilidad de enriquecer el contenido por las anotaciones libres o semilibres. Independientemente de los medios empleados para marcar la estructura del documento, es preciso que el documento sea exportable en los formatos normalizados, como son en la época actual, los formatos basados en la XML.

3. Estudio de las prácticas actuales y de las expectativas de los investigadores El modelo conceptual que hemos desarrollado para la plataforma digital destinada a la publicación de los documentos judeoespañoles (Rouissi/Stulic 2006) incluye la posibilidad del trabajo colaborativo tanto en la creación del dispositivo inicial (es decir la puesta en línea de los materiales documentales) como en su enriquecimiento ulterior por las anotaciones libres o semilibres. Es legítimo preguntarse, no sin cierto escepticismo, si es posible la realización de tal proyecto. En consecuencia, para poder evaluar la compatibilidad de nuestro modelo conceptual con las condiciones reales de la investigación, nos ha parecido importante examinar las prácticas actuales y la actitud de los investigadores. Con este objetivo condujimos una encuesta sobre el uso de las herramientas digitales en las actividades de análisis y de estudio de materiales documentales. A través de un formulario en línea, accesible en tres lenguas (francés, inglés y español), al que los participantes fueron dirigidos por una invitación enviada por el correo electrónico, recogimos más de 200 cuestionarios rellenados por investigadores de diversos países (entre los más representados se encuentran España, Francia, los Estados Unidos, el Reino Unido, Bélgica, Alemania, Venezuela, etc.). El número significativo de participantes a la encuesta, la cantidad de comentarios proporcionados, los mensajes que hemos recibido y la amplitud de los horizontes científicos de los participantes20 demuestran que el uso de las herramientas digi-

20

En la realización de la encuesta, teníamos la ambición de recoger la opinión de los estudiosos de las disciplinas que creíamos de interés inmediato para el desarrollo del corpus, como lingüística, literatura e historia. Su número prevalece en la totalidad de cuestionarios rellena-

128

ANA STULIC-ETCHEVERS/SOUFIANE ROUISSI

tales en la investigación representa un campo que despierta un gran interés, pero conlleva también muchas interrogaciones en la comunidad científica. La encuesta, llevada a cabo en mayo y junio del año 2006, fue consultada 976 veces para un total de 245 cuestionarios rellenados. Después de un tratamiento de verificación (eliminación de los cuestionarios dobles, supresión de cuestionarios vacíos y completados sólo muy parcialmente), obtuvimos 223 cuestionarios de los cuales presentamos aquí los principales resultados. En nuestro estudio, queríamos tratar tres temas importantes para el desarrollo de nuestro proyecto: (1) El uso de los programas informáticos en el estudio de corpus documentales. (2) El trabajo de investigación en el contexto digital. (3) El trabajo en modo colaborativo y la difusión de resultados.

3.1. EL USO DE LOS PROGRAMAS INFORMÁTICOS El uso de los programas de oficina es casi sistemático en las actividades de investigación. Sólo el 2,2% de los participantes en la encuesta declara no utilizarlos, contra el 96,9% que declara que los utiliza. Fuera de estos programas de uso muy extendido, una gran mayoría de investigadores interrogados recurre en su trabajo a los programas especializados o específicos para su investigación (el 81,6% contra el 16,6% que no utiliza ningún programa de ordenador específico). Otro punto importante que se debe subrayar es el uso de documentos digitales para la conservación de los apuntes que resultan de las actividades de investigación. Aunque la proporción es menos elevada que la que corresponde al número de investigadores familiares con los programas informáticos, se puede decir que la grabación de documentos digitales es el modo más extendido, aunque no exclusivo, de la conservación de los resultados de trabajo. El 71,7% de investigadores encuestados declara conservar sus apuntes principalmente bajo la forma de documentos digitales, el 17,7% prefiere las fotocopias con los apuntes al margen del texto estudiado, mientras que el 4% se sirve principalmente de fichas modelo (el 4,9% declara utilizar otras formas). La actitud de los investigadores hacia el uso de las herramientas digitales es generalmente positiva. La mayoría (61%) considera que el hecho de utilizar los

dos, pero los temas propuestos en el cuestionario despertaron también el interés de investigadores de disciplinas tan distintas (pero basadas en el estudio de corpus documentales) como pedagogía y climatología.

PENSANDO UN CORPUS EN MODO COLABORATIVO

129

programas informáticos facilita el trabajo de investigación. Sin embargo, parece importante observar que la proporción es mucho menor que la que corresponde a la totalidad de investigadores que utilizan y conocen los medios digitales. Así, el 35,4% de los investigadores interrogados se muestra más desconfiado y admite que esto depende del caso. En cambio, la proporción de los que tienen una actitud más negativa y afirman que el uso de los programas de ordenador facilita el trabajo poco (1,3%) o muy raramente o nunca (0,9%) no es elevada.

3.2. EL TRABAJO DE INVESTIGACIÓN EN EL CONTEXTO DIGITAL Aparte del ahorro del tiempo, que excluimos deliberadamente de las opciones de respuesta, los investigadores perciben la facilidad de búsqueda en los resultados como ventaja principal del uso de las herramientas digitales. El 63,7% reconoce que las nuevas posibilidades de tratamiento de los datos es el mayor aporte de las nuevas tecnologías, mientras para el 21,1% esto es la posibilidad de conservar los resultados del trabajo efectuado. Muchos de los que respondieron a esta pregunta por “otras (ventajas)” (11,2%) declara en el espacio previsto para el comentario que las dos ventajas mencionadas (i.e., facilidad de búsqueda, conservación de los resultados) son de igual importancia. La generalización del uso de las herramientas informáticas en la investigación hace surgir el problema de la formación de los investigadores. Una gran mayoría (85,2%) reconoce esta dificultad y estima que la adquisición de una cultura tecnológica adecuada es indispensable, mientras que el 11,7% no comparte esta opinión.

3.3. EL TRABAJO EN MODO COLABORATIVO Y EL INTERCAMBIO DE LOS RESULTADOS La mayoría (91,5%) de los investigadores encuestados considera que el uso de las herramientas informáticas facilita el intercambio de los resultados de investigación en el campo en que trabajan. Sólo el 5,4% no piensa así. A pesar de esta convicción extendida, son minoritarios (30,9%) los que declaran trabajar principalmente en colaboración. La mayor parte (65,5%) declara trabajar principalmente de modo individual. Por otra parte, la opinión de los investigadores sobre el trabajo en modo colaborativo en el contexto digital permite mitigar los resultados obtenidos. Para el 39,9% el trabajo en modo colaborativo es una realidad, mientras que un poco más de la mitad (52,9%) de los encuestados considera que el trabajo en modo colaborativo “está por organizar”. Constatamos, no sin sorpresa, la proporción

130

ANA STULIC-ETCHEVERS/SOUFIANE ROUISSI

muy baja (1,8%) de los que consideran que los proyectos en modo colaborativo son utopía. Por lo que se refiere únicamente a los investigadores encuestados que declaran trabajar con los corpus documentales (el 68,6% de la totalidad de los participantes), el 77,8% de entre ellos declara utilizar un (o varios) programa(s) informático(s) para cumplir su trabajo. El 58,8% indica estar dispuesto a intercambiar los resultados de su trabajo (contra el 19% que no desean compartir los resultados). Sin embargo, el intercambio de los resultados en la investigación no se puede imaginar sin ciertas condiciones. Los comentarios que recibimos sugieren que es necesario establecer una definición clara de “trabajo colaborativo” y garantizar el respeto de la ética del intercambio de la información.

4. Conclusión Si debiéramos resumir todas las observaciones de la encuesta en una constatación, ésta sería la siguiente: aunque la mayoría de los investigadores considera que el uso de los programas informáticos hace posible el intercambio y la difusión de los resultados de investigación, más de la mitad reconoce que la organización del trabajo en modo colaborativo todavía no ha alcanzado la configuración satisfactoria. El modelo conceptual que proponemos para el diseño del corpus judeoespañol digital pretende contribuir a la organización del trabajo en modo colaborativo. Su objetivo principal es favorecer la reutilización de los materiales y facilitar el tratamiento (en todos los niveles) de los materiales documentales por el usuario/investigador. El optar por un corpus “dinámico” en modo colaborativo no deriva sólo de las dificultades reconocidas en el tratamiento informático de los documentos judeoespañoles, sino que se justifica también por los principios metodológicos. Considerando que un corpus de investigación es siempre un objeto construido, el corpus “dinámico” que deseamos poner en marcha como fuente de recursos documentales para la investigación le permite al investigador poner en duda todas las dimensiones de su configuración y de su representación. Una de las condiciones necesarias para el buen funcionamiento de la plataforma es el respeto del principio documental. En nuestro prototipo, esto se traduce por la presencia paralela de la representación de la fuente en formato imagen, así como por una codificación numérica de la estructura del contenido textual que remite de modo invariable al sistema de escritura original. El texto que resulta de esta codificación numérica puede luego ser tratado de modo automático o semiautomático para transformarse en una de las transcripciones normalizadas. De manera general, orientamos las soluciones técnicas hacia la aplicación y, si se

PENSANDO UN CORPUS EN MODO COLABORATIVO

131

revela necesario, la ampliación de los estándares existentes que garantizan la perennidad de los materiales y la interoperabilidad entre distintos medios tecnológicos.

Bibliografía ALONSO, Amado (1967): De la pronunciación medieval a la moderna en español. Ultimado y dispuesto para la imprenta por Rafael Lapesa. T. 1, segunda edición. Madrid: Gredos. — (1969): De la pronunciación medieval a la moderna en español. Ultimado y dispuesto para la imprenta por Rafael Lapesa. T. 2. Madrid: Gredos. BARON, Salo Wittmayer (1957 [1937]): A Social and Religious History of the Jews, vol. 3, New York/London: Columbia University Press. BEN-UR, Aviva (en preparación): A precious inheritance: The Ladino (Judeo-Spanish) collection of the Lubavitcher Rebbes: A Descriptive Bibliography. — (2001): A Ladino legacy: The Judeo-Spanish collection of Louis N. Levy. Alexander, NC: Alexander Books. — (2002): “Ladino in Print: Towards a comprehensive bibliography”, en: Jewish History 16, 309-326. BESSO, Henry V. (1962): “Literatura judeo-española”, en: Thesaurus 17, 625-651. — (1963): Ladino Books in the Library of Congress. A Bibliography. Washington, D.C.: Hispanic Foundation Reference Departement Library of Congress. BRIET, Suzanne (1951): Qu’est-ce que la documentation? Paris: Edit. BUSH, Vannevar (1945): “As we may think”, en: The Atlantic Monthly. July 1945.

BUCKLAND, Michael K. (1997): “What is a Document?”, en Journal of the American Society for Information Science, vol. 48, n° 9, sept. 1997, 804-809. — (1998): “What is a “Digital Document”?”, en: Document numérique 2, 221-230. BUNIS, David M. (1974): The historical development of Judezmo orthography: a brief sketch. New York: Max Weinreich Center for Advanced Jewish Studies of the YIVO Institute for Jewish Research. — (MS): A Bibliographical Catalogue of the Milwitzky Collection of Judezmo Publications in the YIVO Institute for Jewish Research. New York. Catalogue des manuscrits hébreux et samaritains de la bibliothèque impériale. (1866): Paris. DALBERA, Jean-Philippe (2002): “Le corpus entre données, analyse et théorie”, en: Corpus, Numéro 1. Corpus et recherches linguistiques - novembre 2002. Puesto en línea el 15 diciembre de 2003. http://corpus.revues.org/document10.html (20 septiembre 2008). DÍAZ-MAS, Paloma (1997 [1986]): Los sefardíes. Historia, lengua y cultura. Barcelona: Riopedras. ESKENAZI, Eli/GICEV, Strachil (1966): Opis na evrejskite staropecatni knigi v Balgarija. Sofija: Izdat. na Balgarskata Akad. na Naukite.

132

ANA STULIC-ETCHEVERS/SOUFIANE ROUISSI

FOULCHÉ-DELBOSC, Raymond (1961 [1894]): “La transcription hispano-hébraïque”, en: Revue hispanique 1 [Kraus Reprint Corporation, Nueva York], 22-33. FUKS, Lajb/FUKS-MANFELD, Renate G. (1975): Hebrew and Judaic Manuscripts in Amsterdam Public Collections II, Catalogue of the Manuscripts of Ets Haim - Livraria Montezinos Sephardic Community of Amsterdam. Leiden: Brill. GRÜNBAUM, Max (1896): Jüdisch-Spanische Chrestomatie. Frankfurt: J. Kauffmann. HABERSAAT, Karl (1942): “Contribucion a la bibliografia de los manuscritos judeo-españoles, con un complemento a Shunami”, en: Sefarad 2, 377-381. HABERT, Benoît/NAZARENKO, Adeline/SALEM, André (1997): Les linguistiques de corpus. Paris: Armand Colin/Masson. HANSSEN, Friedrich (1966 [1910]): Gramática histórica de la lengua. Halle: Niemeyer. HASSÁN, Iacob M. (1970): “Bibliografia de publicaciones judeo-espanolas aljamiadas: fondo Molho” en: Sefarad 30, 201-204. — (1978): “Transcripción normalizada de textos judeoespañoles”, en: Anejo de Estudios Sefardíes 1, 147-150. — (1981): “Hacia una visión panorámica de la literatura sefardí”, en: Actas de las Jornadas de Estudios Sefardíes de 1980. Cáceres: Universidad, 51-68. — (1982): “Visión panorámica de la literatura sefardí”, en: Hispania Judaica, vol. 2, Barcelona: Puvill, 25-44. HARY, Benjamin (1996): “Adaptations of Hebrew Script”, en: Daniels, P. T./ Bright, W. (eds.): The World’s Writing Systems. New York/Oxford: Oxford University Press, 727-734. HEBREW UNION COLLEGE-JEWISH INSTITUTE OF RELIGION. LIBRARY (1964): Dictionary Catalog of the Klau Library, Cincinnati. 32 vols. Boston: GK Hall. KAYSERLING, Meyer (1890): Biblioteca Española-Portugueza-Judaica. Dictionnaire bibliographique des auteurs juifs, de leurs ouvrages espagnols et portugais et des oeuvres sur et contre les Juifs et le judaïsme. Strasburg: Charles J. Trubner. KERNER, Samuel (1977): “Les manuscrits hébreux du “Fonds Danon” de la Bibliothèque de l’Institut National des Langues et Civilisations Orientales”, en: Bulletin des Bibliothèques de France 7, 449-460. LAMOUCHE, Léon (1907): “Quelques mots sur le dialect espagnol parlé par les Israélites de Salonique”, en: Romanische Forschungen 23, 2, 969-991. LEBL, ›eni (1990), Jevrejske knjige ?tampane u Beogradu 1837-1905. Gornji Milanovac: De™je novine. MAYOREK, Yoram (1999), “Guide to Jewish Archives in Moscow: The Jewish Holdings of the Center for Preservation of Historico-Documentary Collections (former “Special Archive”) in Moscow”. Jewish Historical & Geneological Research. (20 septiembre 2008) Mehlmann Collection: Exhibition of 214 Rare Books. (1972). Jerusalén: Ladino: 193-201. MEYRIAT, Jean (1978): “De l’écrit à l’information: la notion de document et la méthodologie de l’analyse du document ”, en: Inforcom 78, Société française des sciences de l’information et de la communication, Premier congrès Compiègne. Paris: SFIC 1978, Vol. 1, 23-32.

PENSANDO UN CORPUS EN MODO COLABORATIVO

133

— (1981): “Document, documentation, documentologie ”, en: L’écrit et le document, Schéma et schématisation 14, 51-63. MINERVINI, Laura (1992): Testi giudeospagnoli medievali. Castiglia e Aragon. 2 vols. Nápoles: Liguore Editori. MOLHO, Michael (1960): Literatura sefardita de Oriente. Madrid/Barcelona: Instituto Arias Montano, CSIC. MOSKONA, Isaak (1974): “The books in the Library of the Central Synagogue in Sofia”, en: Annual 9, 167-200. NEZIROVIC´, Muhamed (1992): Jevrejsko-sˇpanjolska knjizˇevnost. Sarajevo: Svjetlost. OTLET, P. (1990): International Organization and Dissemination of Knowledge: Selected Essays (FID 684). Amsterdam: Elsevier. PASCUAL RECUERO, Pascual (1988): Ortografía del ladino. Granada: Universidad de Granada, Departamento de los Estudios Semíticos. PÉDAUQUE, Roger T. (2003): Document: forme, signe et médium, les re-formulations du numérique. Working paper. . RODRIGUE, Aron. (1992): Guide to Ladino Materials in the Harvard College Library. Cambridge, MA: Harvard University Library. ROUISSI, Soufiane/STULIC, Ana (2006): “Annotation of Documents for Electronic Editing of Judeo-Spanish Texts: Problems and Solutions”, en: Ties, Isabella (ed.): Lesser Used Languages and Computer Linguistics. Proceedings of LULCLC Conference. Bolzano, 27th-28th October 2005, 265-280. ROMERO, Elena (1992): La creación literaria en lengua sefardí. Madrid: Mapfre. ROWLAND SMITH, Diana (ed.) (1994): Second supplementary catalogue of Hebrew printed books in the British Library 1893-1960. 2 vols. SALA, Marius (1976): Le judéo-espagnol. The Hague/Paris: Mouton. STEINSCHNEIDER, Moritz (1852-60): Catalogus librorum Hebraeorum in Biblioteca Bodleiana. Berlin. STUDEMUND-HALEVY, Michael (1975): Bibliographie zum Judenspanischen. Hamburg: Helmut Buske. STULIC, Ana/VUCINA, Ivana (2003): “Jevrejsko-sˇpanski jezik: komentarisana bibliografija literature i periodike”, en: Zbornik 8. Studije, arhivska i memoarska grad-a/Jewish Studies 8. Studies, Archival and Memorial Materials, 195-298. SUBAK, Julius (1906): “Zum Judenspanischen”, en: Zeitschrift für Romanische Philologie 30, 129-185. VAN STRAALEN, Samuel (1894): Catalogue of Hebrew books in the British Museum acquired during the years 1868-1892. London. VIDAKOVIC´, Krinka (1986): Kultura sˇpanskih Jevreja na jugoslovenskom tlu. Sarajevo: Svjetlost. WAGNER, Max Leopold (1914): Beitrage zur Kenntnis des Judenspanischen von Konstantinopel. Wien: Hölder. — (1930): Caracteres generales del judeo-español de Oriente. Madrid: Revista de filología española –Anejo XII.

134

ANA STULIC-ETCHEVERS/SOUFIANE ROUISSI

YAARI, Abraham (1934): Reshimat sifre ladino ha-nimtsaim be-vet ha-sefarim ha-leumi ve-ha-universitai bi-yerushalaim. Jerusalén: Universidad Hebrea de Jerusalén. ZEDNER, Joseph (1964 [1867]): Catalogue of the Hebrew printed books in the Library of the British Museum. London. ZEMKE, John M. (ed.) (2004): Mo£e ben Baruk Almosnino, Regimiento de la vida. Tratado de los suenyos (Salonika, 1564). Tempe, AZ: Arizona Center for Medieval and Renaissance Studies.

III

CUESTIONES DE ARQUITECTURA INFORMÁTICA

CREATING USEFUL HISTORICAL CORPORA: A C O M PA R I S O N O F C O R D E , T H E C O R P U S D E L E S PA Ñ O L , A N D T H E C O R P U S D O P O R T U G U Ê S MARK DAVIES Brigham Young University

1. Introduction Many people mistakenly think that corpora are composed strictly of words and phrases, and that the corpus interface and architecture exist mainly as an “afterthought”, to allow users to “look through many books and pages” to find words and phrases as quickly as possible. In this view, the best corpora are those that are the largest, which have texts from the widest range of genres and sources, and whose texts are the most accurate. However, this is an overly-simplistic view, and application of this approach may result in a corpus that is only of minimal value for many types of linguistic research. As we will discuss at some length in this paper, a truly usable corpus is composed of at least two elements: • The textual corpus (the texts in the corpus) • The corpus architecture and interface One can have a historical corpus that is composed of hundreds of millions of words of text from several different centuries, and which represent a wide range of genres. But without an adequate architecture and interface, this data is in essence “trapped”, with little if any way of getting the data out. Users may be limited, for example, to just looking for specific words and phrases (such as with the Google interface), or to find the first occurrence of a word or phrase. If this is the extent of the complexity of the search, then essentially any architecture will work. But for more complex research on morphological, syntactic, lexical, or semantic change, this simplistic architecture may be completely inadequate. On the other hand, one can have the most advanced architecture and interface imaginable, but if it is built on top of a weak textual corpus, then its value is likewise questionable. For example, if the corpus is composed of just a million or so words, then there simply may not be enough data to answer the relevant questions.

138

MARK DAVIES

In this paper, we will review two corpora that have been widely used for research on historical Spanish linguistics –CORDE (from the Real Academia Española) and the Corpus del español. (For information on an earlier version of the Corpus del español, see Davies 2002, 2005a, and 2005b. For information on the new architecture (from late 2007), see Davies 2008a and 2008b). In addition, we will briefly consider one corpus of Portuguese –the Corpus do português– which has an architecture and interface that is exactly the same as that of the Corpus del español. We will briefly consider the textual corpus for each of these three corpora. However, the main focus of this paper deals with the way in which the architecture and interface of the corpora either help or hinder research on a wide range of linguistic phenomena, particularly those dealing with language change and variation.

2. The textual corpus CORDE was created in the late 1990s, and was the first large corpus of historical Spanish. It is composed of approximately 250 million words of text, with good representation across the different historical periods, and a nice balance between genres, including poetry, historical writings, literature, didactic materials, and so on.1 The Corpus del español was completed in 2002, and underwent a major revision in late 2007. It is composed of about 100 million words from Old Spanish to the late 1990s, with about 18 million words from the 1200s-1400s, 42 million words from the 1500s-1700s, and about 40 million words from the 1800s-1900s. As with CORDE, it is also composed of texts from a wide range of genres, including more than five million words from transcripts of spoken conversation from the late 1900s. For the 1900s, they are evenly divided among spoken, fiction, newspaper, and academic. Complete details on each of the nearly 14,000 texts can be found via the “Texts” link at the corpus website, and users can download an Excel file listing all of the texts. The Corpus do português was completed in 2006, and was revised in early 2008. It is composed of about 45 million words of text, with about 15 million

1

There are differing figures for the size of the CORDE corpus. Pascual and Domínguez (this volume) mention “over 300 million words”. The page http://www.rae.es/rae/Noticias.nsf/ Portada3?ReadForm&menu=3 suggests that it is 250 million, while at the CORDE website itself (see http://corpus.rae.es/ayuda_c.htm), it says 125 million words. Actual searches of the corpus suggest about 220-240 million. This is calculated by finding the frequency for common words like de, que, en, and then using a ratio to compare those frequencies from CORDE to the frequency in a corpus of a known size, such as the Corpus del español.

CREATING USEFUL HISTORICAL CORPORA

139

from the 1200s-1400s, 10 million words from the 1500s-1700s, and 15 million from the 1800s-1900s. For the 1700s and later, the texts are evenly divided between Portugal and Brazil, and for the 1900s they are evenly divided among spoken, fiction, newspapers, and academic. As with the Corpus del español, complete details on each of the more than 60,000 texts can be found via the “Texts” link at the corpus website, and users can download an Excel file listing all of the texts. In summary, each of these three corpora is quite robust in terms of the textual composition, especially when they are compared to what is available for other languages. For example, the most widely-used corpus of historical English (the Helsinki Corpus) contains only about 1.6 million words from Old English to the early 1700s, and there are virtually no structured corpora of English from the 1700s-early 1900s (see http://davies-linguistics.byu.edu/personal/histengcorp. htm). So even the 45 million word Corpus do português –the smallest of the three corpora that will be compared in this paper– is about thirty times as large as the main corpus of historical English. Both CORDE and the Corpus del español, on the other hand, are more than sixty times as large as the Helsinki Corpus.

3. Using historical corpora to study a wide range of linguistic phenomena Truly useful historical corpora should allow users to carry out research on phenomena like the following: • Lexical: simple. At the most basic level, users can search for a word or phrase, find the first occurrence of the word or phrase, and see all occurrences in context. • Lexical: more advanced. Users can easily see the frequency of a word or phrase over time, with normalized frequencies. (In other words, frequency per thousand or per million words of text, to account for the different corpus size in different historical periods.) • Lexical: most advanced. Rather than having to tell the corpus what specific words or phrases to search for, the corpus can generate a list of words whose frequency matches certain criteria, such as nouns that entered the language in the 1600s, or all words that are used at least five times as much in the 1200s than in the 1300s. • Morphological. Users should be able to search by prefixes, suffixes, and roots, and see the frequency of each matching form in the different historical periods, as well as the overall frequency of all forms in each historical period.

140

MARK DAVIES

• Syntactic. In a truly useful corpus, the words will be tagged for part of speech and they will be lemmatized. This allows users to search for specific syntactic constructions, rather than having to search thousands of different exact phrases, with is the only option with an untagged and unlemmatized corpus. • Semantic: simple. Users can find the most frequent collocates (nearby words) of a given word or phrase, which obviously provides very good insight into the meaning of the word. Virtually any corpus architecture and interface allows users to see the nearby words on a case by case basis, but truly useful corpora summarize all of this collocational information for all occurrences of a given word or phrase. • Semantic: more advanced. Assuming the corpus can find collocates, it should be possible to compare these across historical periods or between different genres. Changes in collocates across historical periods often serve as markers of semantic change. • Semantic: most advanced. Rather than just searching for words and phrases, users can search by semantic field. For example, if a thesaurus is integrated into the corpus, or if users can create customized lists of words, then they could create a search where any word in a semantic field is part of the query. An example of this might be [member of family] followed by [synonym of pedir] followed by [synonym of limpiar], or [time of day] near [synonym of lúgubre]. Likewise, they could compare the frequency for all of the words or phrases in an entire semantic field, and compare the frequency and distribution of each member over time. In the sections that follow, we will provide concrete examples of how the three corpora – CORDE, the Corpus del español, and the Corpus do português –can (or cannot) be used to research the wide range of phenomena listed above. As we do so, some readers may begin to gain an entirely new perspective on what can be done with historical corpora. If they have used corpora with limited architectures and interfaces, they may be used to just doing queries to find the occurrences of a specific word or phrase. Once a person has used a corpus that allows a wide range of queries like these, however, they suddenly realize that there are hundreds and thousands of topics in historical linguistics that could be studied with a full-featured corpus.

4. Lexically-oriented searches: basic As was mentioned above, the most basic thing that a corpus should allow one to do it to search for a word or phrase, find the first occurrence of the word or

141

CREATING USEFUL HISTORICAL CORPORA

phrase, and see all occurrences in context. The programs to allow such searches are plentiful, and (because of the simple search), all should be quite fast –1-2 seconds for even a 100 million word corpus. CORDE is of course able to do these basic searches, and it does them quite well. For example, suppose that the user wants to find all occurrences of the word braueza. After submitting the search, the user sees that there are 273 tokens in 86 documents. Clicking on “Obtención de Ejemplos”, the user then sees Keyword in Context (KWIC) entries like the following: TABLE 1 Keyword in Context display with CORDE 1

los buenos que los malos, sino que á en ellos braueza e espántanse ante las águilas. E los ruuios s

1250

Toledo, Abraham de

2

o buen fecho uos dara mas su amor que non uuestra braueza. Et sepades que los non abredes a uuestro man

c. 1250

Anónimo

3

que demostro Saturno. de tempradas maneras entre braueza & mansedat. de fermosa voz. de buen conseio

1254-1260

Anónimo

4

trar al Rey deue lo ffazer omjldosa mjente & ssin braueza. Et otrossi non deue denostar njn Amenazar A

a1260

Anónimo

One disadvantage of the CORDE interface, however, is that it limits users to seeing the word in context, only when the word occurs less than 1000 times in the corpus. For thousands of words, then, there is no easy way to see the words in context. A basic search for simple words and phrases works in a similar manner with the Corpus del español and the Corpus do português. With the Corpus del español, for example, after submitting the search, the user will see the following: TABLE 2 Frequency listing with the Corpus del español

1

PALABRA

TOT

s13

s14

s15

s16

s17

BRAUEZA

144

48

32

27

32

5

6.10

10.80

2.78

1.62

0.31

...

142

MARK DAVIES

This shows the raw frequency of the word in each century, the occurrences per million words as well. Unlike CORDE, however, the user can easily see the frequency per century. In addition, one can see the keyword in context for any word, not just those with a low frequency (as is the case with CORDE). In the Corpus del español, clicking on the numbers in any column will show the Keyword in Context display for that century, or one can see all entries at one time by clicking on TOTal. TABLE 3 Keyword in Context display with CORDE 20

General Estoria IV

& quando estos consules uieron que ninguna yente non se podie enffestar contra la braueza de belino & de brennio. & ouieron estos consules so conseio con sos senadores

21

General Estoria V

por vos non detener ca pieça ha que quedaron los vientos contrarios & la braueza dela mar. / las primeras estrellas del cielo paresçen ya & yua el sol

24

Judizios de las estrellas

fuere en Gemini. es conlo que demostro Saturno. de tempradas maneras entre braueza & mansedat. de fermosa voz. de buen conseio. & de bien fablar

25

Siete partidas I

por todo esto no serie derecha si la diesse con sanna o con braueza por malquerencia que ouiesse contra el. E por esto dixo santyago en su epistola

To this point, then, the searches in the two corpora are quite similar. CORDE has one advantage –in that it is a large corpus– while the Corpus del español (and the Corpus do português) have the advantage of showing the frequency in each century and in showing the keyword in context for all words, regardless of frequency.

5. Lexically-oriented searches: more advanced In addition to just displaying all occurrences of a given word or phrase, however, users often want to know how frequent a word was in different centuries or other historical periods. It is at this point that CORDE begins to exhibit some serious weaknesses. For example, after searching for braueza and then selecting “Ver estadística”, the user sees:

143

CREATING USEFUL HISTORICAL CORPORA

TABLE 4 Frequency (by year) with CORDE Año

%

Casos

1627

20.95

35

1547

20.35

34

1610

17.96

30

1632

8.98

15

1566

4.79

8

1622

2.39

4

…

…

…

Otros

14.97

25

This table tells us the specific years in which the word or phrase is most common, but it is impossible to see the frequency by decade or by century. It does little good to show that the word was the most frequent in 1627, if in fact the word is much less common in the 1600s than in the 1200s or 1300s. The other serious problem is that the figures are not normalized. In other words, we see the raw frequency per year, but a word or phrase may be more common in that year simply because there are more words for that year in the corpus. Any serious comparison of frequency requires that the results be “normalized” across historical periods, so that we can take into account the differing sizes of the corpus in different historical periods, and see how frequent the word or phrase is per million words. The Corpus del español and the Corpus do português allow such types of searches quite easily. For example, with braueza in the Corpus del español, we can either see the “table display” (as in Table 2 above), or a chart display (Figure 1). This shows us the raw frequency (e.g., 32 tokens in the 1300s), as well as the important normalized frequency (por millones), which takes into account the size of the section, in millions of words. For example, there are 32 tokens in the 3.0 million words from the 1300s, or 10.8 tokens per million words. A chart such as this is the only way to really see shifts in the frequency of a word, phrase, or construction, and it is only possible with the Corpus del español (and the Corpus do português).

144

MARK DAVIES

FIGURE 1 Corpus del español: Frequency of word and phrase by century SECCIÓN

s13

s14

s15

s16

s17

s18

s19

POR MILLONES

6.1

10.8

2.8

1.6

0.3

0.0

...

TAMAÑO

7.0

3.0

9.7

19.7

14.8

11.5

...

OCURRENCIAS

48

32

27

32

5

0

...

6. Lexical: most advanced Rather than having to tell the corpus what specific words or phrases to search for, a well-designed corpus architecture and interface would generate a list of words whose frequency matches certain criteria. For example, it might find all nouns that entered the language in the 1600s, or all words that are used at least five times as much in the 1200s than in the 1300s. Such as query is completely impossible with CORDE. All it can do is search for specific words and phrases. If it does “know” the frequency of all words and phrases in all historical periods, it certainly does not allow researchers to use that information as part of the query. With the Corpus del español and the Corpus do português, on the other hand, such queries are quite simple. For example, with the Corpus del español, one can simply search for [nn*] (nouns) and select [s. XIII-s. XIV] (1200-1499) “SECción 1” to compare to [s. XIX-s. XX] (1800-1999) “SECción 2”. Within one or two seconds, the user sees the following list. (Note that in the version on the web, there are frequencies (raw and normalized) for each word, as well as links to see the word in context, as shown in Table 6. In Table 5, we have simplified the display.) Obviously, only some of the words in this list are meaningful. Many words are simply spelling variants, and others are proper nouns that might occur in a handful of texts in one century but not the other. Although the focus of this paper is on older stages of Spanish, perhaps it might be useful to see an example from Modern Spanish. The following table

CREATING USEFUL HISTORICAL CORPORA

145

TABLE 5 Corpus del español: comparison of word frequency by century (all words at one time) Siglo XIII

Siglo XIV

capitolo, ascendente, ladeza, saturnus, orizon, morauedis, roque, xaque, acendent, armella, murcia, baldouin, ascendent, segonda, gudufre, significador, fferrando, corualan, alffil, zonte, dond, iudga, tiemplo, boymonte, catamiento, infortunas, uinie, caput, camyaron, sacrifficio, declinacion, sacrifficios, yguador, juppiter, algarue, linnas, deillos, hierusalem, decima,

armadas, osso, ome, avia, paris, ahe, collado, camjno, hercoles, .ley, çima, rrayzes, armada, elena, falcon, yuierno, verano, gonçales, encarnaçion, pase, bjen, venja, avras, falcones, jnfante, façer, puerco, ynfanta, ynfante, ynperio, vyno, venjdo, sembrar, fojas, ençima, talante, mjel, menalao, syenpre, dolençia, ssiete, avedes, castilla, muria, aujdo, peça, arroyo, vuas, çiençia, termjno, tenjan

shows (to the left) nouns that are common in the 1900s but not the 1800s and (to the right) those that are common in the 1800s but not the 1900s. (SEC 1 and PM1 gives the raw frequency and normalized frequency (per million) in Section 1 (with SEC 2 and PM 2 for Section 2), as well as the ration between the two.) For example, control occurs 3059 times in the 1900s but only 3 times in the 1800s, and so the normalized frequency is 1,033 times greater in the 1900s than the 1800s. Likewise, aposento occurs 1174 times in the 1800s but only 44 times in the 1900s, and the normalized frequency is about 26 times more frequent in the 1800s than in the 1900s. (Note that a frequency of 0 is assigned a value of 0.1 to avoid division by zero.) Due to the architecture of the Corpus del español and the Corpus do português, where the corpus “knows” the frequency of each word and phrase in each historical period, such comparisons are quite simple. But with CORDE, where the corpus apparently does not know the frequency of words and phrases in each section (until they are searched for, one specific word at a time), such a listing would be completely impossible.

7. Morphological Ideally, users should be able to move beyond exact words and phrases and search by prefixes, suffixes, and roots. This will allow them to see the frequency of each

SEC1

2540

3059

942

2119

838

795

705

1360

550

1208

1119

452

PALABRA

SECTOR

CONTROL

PELÍCULAS

TELEVISIÓN

INICIO

DIRIGENTE

CAPITALIZACIÓN

SECTORES

CONTAMINACIÓN

FÚTBOL

LÍDER

EMERGENCIA

1

0

0

1

0

1

1

1

0

1

3

0

SEC2

19.81

49.03

52.93

24.10

59.59

30.89

34.83

36.72

92.85

41.28

134.04

111.29

PM 1

+ 1900s / – 1800s

0.04

0.00

0.00

0.04

0.00

0.04

0.04

0.04

0.00

0.04

0.13

0.00

PM 2

458.21

490.31

529.31

557.55

595.91

714.68

805.92

849.51

928.48

954.94

1,033.67

1,112.95

RATIO

PRECEPTO

VIZCONDE

SAZÓN

MARQUÉS

PRESIDIO

CONDESA

DUQUESA

ERMITAÑO

MENESTER

HONRA

APOSENTO

VENTURA

PALABRA

386

588

1133

1676

618

1370

632

553

1545

1652

1174

1237

SEC1

23

33

60

86

29

59

27

23

60

63

44

25

SEC2

16.68

25.42

48.97

72.44

26.71

59.22

27.32

23.90

66.78

71.40

50.74

53.47

PM 1

+ 1800s / – 1900s

TABLE 6 Corpus del español: comparison of word frequency (nouns in 1800s/1900s)

1.01

1.45

2.63

3.77

1.27

2.59

1.18

1.01

2.63

2.76

1.93

1.10

PM 2

16.56

17.58

18.63

19.22

21.02

22.91

23.09

23.72

25.40

25.87

26.32

48.81

RATIO

146 MARK DAVIES

CREATING USEFUL HISTORICAL CORPORA

147

matching form in the different historical periods, as well as the overall frequency of all forms in each historical period. CORDE has serious problems in terms of morphologically-oriented searches, because the search engine was not designed to be used for linguistically-oriented research. In the best of cases, the corpus produces results, although they are not overly useful. For example, suppose that a user searches for des*m?ento in the 1200s-1400s. The corpus indicates that there are “797 casos en 81 documentos”. One can then page through all of the 797 tokens –one by one– and manually count up the total for each different form (desfazimiento, desaffiamiento, etc.) to see how frequently each one occurs. This would, however, take an hour or two. One could select “Recuperar/agrupaciones” to see the most frequent two, three, and five word strings (destroymiento de, destruimiento de, etc), which might only take an hour or so to find the most frequent words that match this pattern. And these searches only work when the total number of tokens for a given form occurs 1000 times or less in the corpus. For a search like *azo (puñetazo, portazo, etc.) the corpus simply states that “No se pueden ver estadísticas. Demasiados documentos”. Again, this is because their search engine was designed to allow users to find and read entire documents (like with Google), and (in this case, at least) it is inadequate for linguistic research. With the Corpus del español and the Corpus do português, however, morphologically-oriented searches are both easy and fast. For example, suppose that a user wants to find the most frequent forms for des*m?ento in the 1200s-1400s. Within about one second, s/he will see the following (Table 7). In this case, TOT is the total count for the word in all centuries (only the 1200s1600s are shown in the table above, but all are seen in the web interface). The interface then shows the frequency of each form in each century (e.g., 54 cases of desterramiento in the 1200s), as well as the total for the selected centuries (in this case the 1200s-1400s) in the rightmost column. Users can select whichever forms and whichever centuries are of interest, and then click to see the words in context. In addition to seeing the individual frequencies for all matching forms (as in the table above), it is also possible to see the aggregate total for all matching forms in each century, as in Figure 1 above. Finally, as was described in Section 6, we can also compare the frequency of forms across different sections of the corpus. For example, suppose that a user of the Corpus do português wants to see which words ending in *çar are more common in the 1300s and the 1400s, respectively. In less than one second, he would see the following (Table 8). This shows, for example, that escabeçar is found 11 times in the 1300s but none in the 1400s, and that percalçar is found 68 times in the 1400s, but only once in the 1300s (and is there about 44 times as common per million words in the 1400s). The ability to compare word forms across different centuries is a

DESTRUYMIENTO

DESTROYMIENTO

DESTRUYMJENTO

DESFALLESÇIMJENTO

DESTERRAMIENTO

DESCOMULGAMIENTO

DESTERRAMJENTO

DESAFIAMIENTO

DESPRECIAMIENTO

DESEREDAMIENTO

DESFAZIMIENTO

1

2

3

4

5

6

7

8

9

10

11

PALABRA

22

24

26

31

42

42

67

71

87

97

121

TOT

13

22

25

19

4

41

54

14

94

89

s13

3

10

14

10

45

2

17

s14

6

2

24

1

2

71

28

1

15

s15

1

s16

s17

TABLE 7 Corpus del español: frequency of word forms (des*m?ento in 1200s-1400s) …

22

24

25

29

42

42

66

71

87

97

121

SEC 1

148 MARK DAVIES

11

5

4

3

3

10

4

RENUÇAR

DESPEDAÇAR

TERÇAR

POSFAÇAR

ENDERËÇAR

APREÇAR

1

1

0

0

0

0

0

OCCOR1 OCCOR2

ESCABEÇAR

PALAVRA

2.18

5.44

1.63

1.63

2.18

2.72

5.98

PM 1

+ 1300s / – 1400s

0.35

0.35

0.00

0.00

0.00

0.00

0.00

PM 2

6.19

15.47

16.32

16.32

21.76

27.19

59.83

PROP

EXALÇAR

ADERENÇAR

PERCALÇAR

LLAMÇAR

ALCÁÇAR

GAANÇAR

LAMÇAR

PALAVRA

9

9

68

13

18

21

46

0

0

1

0

0

0

0

OCCOR1 OCCOR2

3.16

3.16

23.90

4.57

6.33

7.38

16.17

PM 1

+ 1400s / – 1300s

TABLE 8 Corpus do português: comparison of word forms (*çar in 1300s / 1400s)

0.00

0.00

0.54

0.00

0.00

0.00

0.00

PM 2

31.64

31.64

43.95

45.70

63.28

73.82

161.71

PROP

CREATING USEFUL HISTORICAL CORPORA

149

150

MARK DAVIES

powerful feature of the Corpus del español and the Corpus do português, but is not possible with CORDE.

8. Morphology: lemmatization Because Spanish and Portuguese have rich morphology, it would be very useful to be able to search for all of the forms of a word at one time, rather than having to search for each form individually –one after another. With CORDE, however, lemma-based queries are impossible. The corpus does not “know” the forms of saber (sé, sabemos, supieran, etc), blanco (blanco, blancas, etc), nor any other word of Spanish. With the Corpus del español and the Corpus do português, however, lemmabased searches are quite easy. For example, if a user of the Corpus do português wants to see the most frequent forms of fazer in the 1300s-1500s, he would simply enter [fazer] (the brackets indicate lemma). Within less that a second, he would see a chart like the following (Table 9). (In this case, TOT refers to the total frequency of all tokens in the entire corpus, and SEC 1 refers to the overall frequency in the selected sections of the search form, in this case the 1200s-1400s). As with other types of searches, users can also compare the frequency across time periods in the corpus. For example, if a user wanted to see which forms of ter (= Spanish tener) occurred more in the 1300s than in the 1400s, he would simple enter [ter], select SECTION 1 = [1300s] and SECTION 2 = [1400s]. In less than a second, he would see the following (Table 10). This shows, for example, that there are 171 tokens of tehudo in the 1300s, but only 3 in the 1400s, making it 88 times as common (per million words) in the 1300s. Although it is useful to be able to map out the changes in forms for a given word over time, the real power of lemmatization, however, is that it allows us to carry out complex syntactically-oriented searches, as we will discuss in the following section. Before discussing syntax, however, let us briefly consider what is involved in creating a lemmatized corpus. For the modern stages of the language, there are complications such as whether a form like limpia belongs to the verb limpiar or the adjective limpio in a given case (this is done by looking at the context of the word as it is being lemmatized). For older stages of the language, however, it is much more complex. Not only do we have to take into account the context, but also all of the variant spellings of the particular form. For example, in Old Spanish there are about 72 theoretically possible forms for the single Modern Spanish form hubiese, depending on whether there is an initial [h], whether the first

FAZER

FEZ

FAZ

FEITO

FAZEM

FAZIA

FEITA

FAÇA

FAZENDO

FEYTO

FEZESSE

1

2

3

4

5

6

7

8

9

10

11

PALABRA

1061

1349

7029

4566

6302

10024

8257

11120

20287

24728

47858

TOT

585

531

231

384

581

305

86

879

552

1582

3741

s13

391

373

529

738

572

803

866

884

2023

3241

5908

s14

76

338

922

689

750

1423

1705

1595

2547

5117

7508

s15

9

440

414

561

639

819

750

1940

1738

3602

s16

TABLE 9 Corpus do português: lemmatization (forms of fazer in 1300s-1700s)

9

96

294

355

170

364

974

387

2002

1351

2750

s17

…

1052

1242

1682

1811

1903

2531

2657

3358

5122

9940

17157

SEC 1 CREATING USEFUL HISTORICAL CORPORA

151

16

16

15

15

TEHUDO

TIJÑA

TE˜N

TERRÍA

TI˜JNA

3

4

5

6

7

171

18

TÏJNÃ

2

33

TEVERON

0

0

0

0

3

0

0

OCCOR1 OCCOR2

1

PALAVRA

8.16

8.16

8.70

8.70

93.00

9.79

17.95

PM 1

+ 1300s / – 1400s

0.00

0.00

0.00

0.00

1.05

0.00

0.00

PM 2

81.58

81.58

87.02

87.02

88.19

97.90

179.48

PROP

7

6

5

4

3

2

1

TI˜IA

TYNHAM

33

35

35

41

TEE˜R TEE˜S

44

50

117

0

0

0

0

0

0

0

OCCOR2 OCCOR1

TIUER

TEREM

TE˜

PALAVRA

11.60

12.30

12.30

14.41

15.47

17.58

41.13

PM 2

+ 1400s / – 1300s

TABLE 10 Corpus do português: comparison of lemma forms (ter in 1300s / 1400s)

0.00

0.00

0.00

0.00

0.00

0.00

0.00

PM 1

116.01

123.04

123.04

144.13

154.68

175.77

411.30

PROP

152 MARK DAVIES

CREATING USEFUL HISTORICAL CORPORA

153

vowel is [o] or [u], whether there is a single or a double [s], and so on. In the corpus, 56 of these 72 theoretically possible forms actually appear, including the following (with their associated frequency):

TABLE 11 Corpus del español: forms of hubiese hubiese 2776, ouiesse 1961, ouiese 1898, oujese 558, oviese 423, oviesse 397, uviesse 392, oujesse 359, huviesse 337, houiesse 316, hobiese 186, huuiesse 134, hubiesse 60, ouyesse 54, uviese 53, houiese 44, ubiese 24, huujesse 19, habuisse 18, huviese 17, obiese 12, ovjese 12, huuiasse 11, hobiesse 8, obiesse 7, ouisse 4, ouyese 4, ovyese 4, houjese 3, hoviesse 3, huujase 2, huuisse 2, huuiese 2, hoviese 2, ouesse 2, ovisse 2, ovyesse 2, ubiesse 2, uvisse 2, uuiese 2, huuiose 1, huujasse 1, huujese 1, houiosse 1, oujsse 1, ouiosse 1, objese 1, huviessse 1, huvíesse 1, uvíesse 1, uvyesse 1, uuiesse 1, ovjesse 1

Imagine the difficulty in lemmatizing a historical corpus, with such a high degree of spelling variation. The 56 forms just given are for just one form (hubiese) of just one verb (haber). If we multiply this by all of the possible forms for each lemma, and all of the possible lemmas, we see that there are more than a million distinct forms in a 50-100 million word historical corpus, which need to be lemmatized. In the case of the Corpus do português, there is nearly complete lemmatization of all forms, and it is somewhat less complete for the (older stages of the) Corpus del español. But both of these corpora have much more lemmatization than CORDE, which has none at all.

9. Syntax Perhaps the best example of the difference between a corpus architecture that was designed to do linguistic research and one that was not, is in the area of syntax. Let us briefly consider a syntactic construction or two, and see how researchers would study the constructions using CORDE, the Corpus del español, and the Corpus do português. Let us start with the causative construction, which is composed of a form of hacer followed by an infinitive (fizo llamar, haze venir, fizieron escriuir, etc) (see Davies 1994, 1995a, 1995b, 1996a, 1996b, 2000).

154

MARK DAVIES

How would one study this construction with CORDE? Remember that CORDE is not lemmatized, so we would have to search for each possible form of hacer individually. In addition, it is not tagged for part of speech, so it does not know what a verb, or noun, or infinitive is. In other words, the possible combinations are all of the forms of hacer (possibly 200 or more, if we consider variant historical spellings) plus about 10,000 unique forms for infinitives. (There are about 5400 unique forms for infinitives in the 1800s-1900s portion of the Corpus del español, and we probably have to double that for all forms back to Old Spanish). This would result in perhaps two million (200 x 10,000) unique potential two-word strings. Obviously, it would take a very, very long time to do two million searches. One might think that it would be possible to take an alternate approach with CORDE, and simply use wildcards to search for a syntactic string. For example, even though CORDE doesn’t know what the forms of hacer are, or what an infinitive is, it should be possible to search for something like f?z* *r (fizjesse estar, fazen dezir, etc). Yet this does not work either. Because CORDE cannot really handle substrings, a query such as this causes the corpus to grind away for 4-5 minutes, before “timing out” and producing an error. In other words, there really is no way to do syntactic research with CORDE, without searching for thousands or millions of unique strings. With the Corpus del español and the Corpus do português, things would be considerably easier. Using the Corpus del español, for example, the researcher would simply enter [hacer] [vr*], and in less than three second he would see all of the relevant forms, such as (Table 12). Let us take a second example. In the case of passives, we want to find cases of a form of ser followed by a past participle (fueron llevados, sera destruido, etc). With CORDE, we would have to look for each possible spelling variant of each conjugation of ser (perhaps 200 or more), followed by each possible past participle (possibly 4000-5000 or so). This may not be as time-consuming as with the causative, but it would still take a year or so of non-stop work. With the Corpus del español or the Corpus do português, however, we would simply enter [ser] [vk*]. In less than four seconds, a user of the Corpus do português would see the following, which are the most common passives in the 1300s and 1400s (Table 13). As we can see, there is a huge difference between a corpus architecture that is designed around searching for exact words and phrases (which is what CORDE does quite nicely) and one that can include linguistic annotation such as lemmatization and part of speech. In the first case, it is either very difficult or impossible to do serious research on syntax and syntactic change. In the second case, the corpus architecture makes such searches both quick and easy.

FIZO FAZER

FAZER SABER

FIZO MATAR

FAZER PERDER

FIZO LLAMAR

HIZO HAZER

FIZO VENIR

FIZO ESCRIUIR

FIZO LEUAR

FIZO PRENDER

HAZER SABER

FIZO TORNAR

FIZO VENJR

1

2

3

4

5

12

13

14

15

16

17

18

26

PALABRA

24

30

56

33

36

38

74

64

64

92

113

205

241

TOT

2

9

10

9

7

36

17

21

14

51

14

78

107

s13

17

8

1

8

11

2

5

4

17

24

23

26

61

s14

5

11

20

15

18

18

19

32

16

74

67

61

s15

TABLE 12 Corpus del español: fazer + infinitive in 1200s-1500s

2

24

1

32

20

1

1

34

12

s16

…

B

28

31

32

36

38

40

44

63

91

111

171

229

SEC 1

CREATING USEFUL HISTORICAL CORPORA

155

SEER FEITA

FOY FEITO

FOR MOSTRADA

HE DITO

FOY FEITA

FOY POSTO

HE CHAMADO

FOSSE DADO

FOY DADO

HE FEITA

HE DADO

1

2

3

4

5

6

7

8

9

10

11

PALABRA

134

136

142

144

170

160

148

191

188

211

191

TOT

35

36

51

94

29

89

79

53

18

87

141

s13

64

65

51

14

102

46

57

104

151

93

48

s14

19

20

36

9

28

14

8

27

15

25

2

s15

4

2

6

4

6

s16

TABLE 13 Corpus do português: passive (ser + past participle) in 1200s-1400s

10

12

4

9

5

7

4

s17

…

99

101

102

108

131

135

136

157

169

180

189

SEC 1

156 MARK DAVIES

CREATING USEFUL HISTORICAL CORPORA

157

10. Semantics: simple As corpus linguists are fond of saying, “you can tell a lot about a word by the other words that it hangs out with”. Sometimes, the collocates (nearby words) simple confirm what we already know. For example, the most common nominal collocates (nearby words) for selva are árboles, vegetación, sierra, bosque, etc. For a less concrete word, they are often more insightful. For example, the most common nouns occurring with forms of lúgubre are acento, voz, silencio, noche, eco, gemido, etc. And for foreign language learners, collocates can easily help them to see the difference between two words in the foreign language, which would both be translated as one single word in the native language. For example, native speakers of Spanish have a good sense of the difference between blando and suave, but this is difficult for native speakers of English, where both mean “soft”. However, by seeing the collocates (blando = lecho, tejidos, maderas, cera, cama, créditos, while suave = música, inviernos, melancolía, pelo, aire, temperaturas) the language learner can begin to acquire the same type of intuitions regarding meaning, which the native speaker already had. The key to meaning, then, is often found in collocates, or the nearby words. Virtually any corpus architecture and interface allows users to search for a word, and then see that word in context. The corpus user can always go one by one through the examples, making notes about common nearby words, and then trying to use this to discern meaning. However, this can be extremely time-consuming for common words. A much better approach would be to have the corpus find all of the collocates by itself, and then present them to the user in order of frequency. Let us briefly consider how CORDE, the Corpus del español, and the Corpus do português allow users to find and process collocates, to gain insight into word meaning. Turning first to CORDE, suppose that we want to examine the nearly 38,000 collocates of all forms of duro (dura, duros, etc). Assuming that it takes a user about 20 seconds to find each occurrence in context and write down (what he or she assumes to be) the relevant nearby words, it would take about 26 hours (at eight hours a day) to go through all of the relevant examples. And this assumes that the user does not then decide to change the width of the “collocates window”, or search for a different type of collocate, in which case s/he would have to spend another month or so. CORDE does allow users to see “agrupaciones” for a given word, such as those for the single form duro from the 1200s (Table 14). But such a listing is of little value. Because CORDE does not have any “builtin” way of knowing which words are relevant, it gives us phrases like dura la, dura en, etc (since la, en, etc. occur frequently with almost any word), but these

158

MARK DAVIES

TABLE 14 CORDE: duro + collocates %

casos

duro

la

6.69

30

duro

el

6.02

27

duro

en

5.35

24

duro

fasta

3.79

17

duro

esta

3.34

15

duro

e

3.34

15

duro

&

2.23

10

duro

de

2.23

10

duro

mucho

2.23

10

64.73

290

Otros

phrases provide little if any insight into the meaning of the word. At any rate, it only lists the nine most frequent collocates, which is not enough to be meaningful anyway. Things are much easier with the Corpus del español and the Corpus do português. A user simple enters the “node word” (e.g., duro, or lúgubre, or selva), optionally selects the part of speech of the collocates, and within about 2-3 seconds s/he has all of the collocates, in order. For example, suppose that a user wants to find collocates relating to the concept duro in Old Spanish. After entering [=duro] (duro, duras, etc) and waiting about two seconds, the user then sees a list like the following (Table 15). This table shows the frequency of each collocate in each century (here just the 1200s-1700s are shown). For example, ceruiz occurs 11 times near [duro] in the 1200s and 4 more times in the 1400s. There are 140 total occurrences of ceruiz in the 1200s-1400s, and so the 15 cases near [duro] are about 10.7% of all tokens. This translates into a Mutual Information score of 6.22, which shows the relationship between the two words to be significant. Hence with the Corpus del español and the Corpus do português (which works exactly the same), we can do in 2-3 seconds what would take a month or more to do with CORDE.

3

3

4

3

7

4

5

39

4

10

7

4

15

GOR

FORANOS

BLASFEMADOR

SOLIDOS

CALLOSA

PAPADO

MATER

ALCAZ

OBSTINADO

YERTO

GUJJARROS

CERUIZ

TOT

DUREO

PALABRA

11

3

4

5

s13

s14

4

4

3

4

33

3

7

3

4

3

3

s15

3

2

s16

1

1

1

s17

1

2

1

s18

…

15

4

6

4

4

33

5

3

7

3

4

3

3

SEC1

TABLE 15 Corpus del español: collocates of duro in 1200s-1400s

140

36

52

34

32

258

34

20

46

16

16

10

10

TODOS

10.71

11.11

11.54

11.76

12.50

12.79

14.71

15.00

15.22

18.75

25.00

30.00

30.00

PERC

6.22

6.27

6.33

6.36

6.44

6.48

6.68

6.71

6.73

7.03

7.44

7.71

7.71

InfMut

CREATING USEFUL HISTORICAL CORPORA

159

160

MARK DAVIES

11. Semantics: more advanced If we have a corpus architecture and interface that allows us to easily find collocates (as do the Corpus del español and the Corpus do português), we can then use this information in ingenious ways to examine semantic change. The basic idea is that if the words “nearby” a given word change over time, it may be because the word itself has changed meaning (or is at least being used in a different way). For example, the following table shows (to the left) the nouns that occur with [duro] in the 1900s but which are not very common in the 1800s, and (to the right) in the 1800s but not the 1900s (Table 16). For example, críticas occurs near [duro] 27 times in the 1900s, but no times in the 1800s. Ley, on the other hand, occurs 23 times with [duro] in the 1800s, but only one time in the 1800s. Assuming críticas does occur in the corpus in the 1800s and ley does occur in the 1900s (and both are true), why does their frequency as a collocate with [duro] change so much from one century to another? Is it because the meaning of [duro] itself has changed slightly in some way? To take another example, the following is a partial list of the adjectival collocates of mujer (and mujeres) in the 1900s and the 1800s (Table 17). Notice how the adjectives from the 1800s (to the right) refer to the “moral virtues” of women, whereas these are almost completely absent in the 1900s. In the 1900s, on the other hand, they are much more prosaic, and simple refer to classifications that refer to nationality, employment, and so on. In this case, the corpus data provides interesting insight into the changing view of women in these two centuries. Applied to Old Spanish and Old Portuguese, one could take a similar approach. Using the interface for the Corpus del español or the Corpus do português, one simply indicates what words or concepts are of interest, specifies the type of collocate (noun, verb, etc., if applicable), and then clicks once or twice more to show which two historical periods should be compared. Within two or three seconds, all of the relevant data is gathered and summarized. Using CORDE, on the other hand, searches like this would be either very difficult or impossible, since the CORDE architecture does not know how to find collocates.

12. Semantics: most advanced With the right corpus architecture, it would be possible for users to search by semantic fields, rather than just searching for words and phrases. For example, in the case of the Corpus del español and the Corpus do português, powerful thesauruses are integrated into the corpus architecture. At the most basic level, this

27

10

19

8

18

15

7

7

LUCHA

MADERAS

CUELLO

LÍNEA

COMPETENCIA

MUNDO

ECONOMÍA

1

1

2

0

1

0

1

0

OCCUR1 OCCOR2

CRÍTICAS

PALAVRA

0.31

0.31

0.66

0.79

0.35

0.83

0.44

1.18

PM 1

+ 1900s / – 1800s

0.04

0.04

0.09

0.00

0.04

0.00

0.04

0.00

PM 2

7.10

7.10

7.60

7.89

8.11

8.33

10.14

11.83

PROP

ACENTO

SUERTE

MILES

PESETAS

NECESIDAD

LEY

MEDIO

PALAVRA

12

13

30

18

23

23

30

1

1

0

1

1

1

1

OCCUR2 OCCOR1

0.52

0.56

1.30

0.78

0.99

0.99

1.30

PM 2

+ 1800s / – 1900s

TABLE 16 Corpus del español: comparison of collocates of duro, 1800s / 1900s

0.04

0.04

0.00

0.04

0.04

0.04

0.04

PM 1

11.84

12.82

12.97

17.76

22.69

22.69

29.59

PROP

CREATING USEFUL HISTORICAL CORPORA

161

15

11

10

19

9

9

8

8

8

17

7

15

MAYORES

DIFERENTES

GORDA

MARAVILLOSA

NACIONAL

ARGENTINA

NORMAL

TRABAJADORAS

INTERNACIONAL

DISTINTAS

CUBANAS

0

1

0

1

1

1

1

1

2

1

1

1

OCCUR1 OCCOR2

MADURA

PALAVRA

0.66

0.31

0.74

0.35

0.35

0.35

0.39

0.39

0.83

0.44

0.48

0.66

P/M1

+ 1900s / – 1800s

0.00

0.04

0.00

0.04

0.04

0.04

0.04

0.04

0.09

0.04

0.04

0.04

P/M2

6.57

7.10

7.45

8.11

8.11

8.11

9.12

9.12

9.63

10.14

11.15

15.21

PROP

PIADOSA

HONRADAS

DÉBILES

VULGAR

DESGRACIADA

CELOSA

DÉBIL

DIVINA

GRIS

HONRADA

SANTA

INFELIZ

PALAVRA

12

31

14

15

15

16

56

21

24

57

26

68

1

0

1

1

1

1

3

1

1

0

1

2

OCCUR2 OCCOR1

0.52

1.34

0.61

0.65

0.65

0.69

2.42

0.91

1.04

2.46

1.12

2.94

P/M2

+ 1800s / – 1900s

TABLE 17 Corpus del español: comparison of collocates of mujer, 1800s / 1900s

0.04

0.00

0.04

0.04

0.04

0.04

0.13

0.04

0.04

0.00

0.04

0.09

P/M1

11.84

13.40

13.81

14.80

14.80

15.78

18.41

20.72

23.67

24.64

25.65

33.54

PROP

162 MARK DAVIES

TOT

2188

4503

2068

1137

1038

2082

699

1251

494

1091

409

755

344

171

190

SINÓNIMO

OSCURO

HUMILDE

CERRADO

MISTERIOSO

MODESTO

CONFUSO

SOMBRÍO

PARDO

INCOMPRENSIBLE

DUDOSO

NOCTURNO

INCIERTO

APAGADO

PESIMISTA

OPACO

…

4

6

14

6

40

52

73

25

43

69

32

s15

7

17

179

30

267

49

212

29

441

79

20

408

933

187

s16

12

20

141

39

278

26

206

28

670

122

104

284

1504

170

s17

29

41

149

29

188

45

142

29

204

126

87

163

509

160

s18

53

66

151

148

83

249

268

287

519

530

482

692

544

1199

863

s19

85

105

106

124

216

66

106

275

94

147

201

234

577

284

749

s20

16

29

9

21

34

8

7

99

7

16

19

28

78

25

128

ACAD

TABLE 18 Corpus del español: comparison of synonyms of oscuro

18

21

14

42

28

21

26

101

22

23

57

50

186

60

84

PER

45

12

71

55

103

29

63

63

65

98

93

143

184

143

462

FIC

6

43

12

6

51

8

10

12

10

32

13

129

56

75

ORAL

138

171

257

272

299

315

374

562

613

677

683

926

1121

1483

1612

SEC1

CREATING USEFUL HISTORICAL CORPORA

163

164

MARK DAVIES

allows us to find the historical frequency of all words relating to a particular concept. For example, a user might enter [=oscuro], and he could then see the frequency of all synonyms over time (and in different genres from the 1900s), e.g. (Table 18). This partial listing of results shows, for example, that modesto and sombrío have decreased since the 1800s (per million words), whereas pesimista and opaco increased from the 1800s to the 1900s. In terms of the medieval periods, what would obviously be needed is some type of “historical thesaurus”, which may of course never be available. But to the degree that it was, the corpus architecture could easily accommodate it. In addition to looking for the frequency of single words, semantic information from thesauruses or user-defined, customized wordlists can be integrated directly into the query syntax. For example, in the Corpus del español and the Corpus do português, it is possible for users to create (via the web interface) customized lists of words, which refer to a particular semantic field of interest. Examples might be naval terms, words relating to emotions, a list of terms relating to family structure, or a list of words relating to a particular theological concept. This customized list of words can then be used as part of the query syntax. For example, if a user [andrés.gómez] creates a list of 100 words relating to “emotions” in Old Spanish, as well as another list of 70 words relating to “family relations” (padre, hermanastro, nuera, etc), he could then find every occurrence where a word in List 1 occurs nearby List 2. In this way, powerful semantically-oriented searches can be carried out on the corpus. The Corpus del español and the Corpus do português are able to accommodate these types of semantically-oriented queries, because of the underlying architecture of the corpora, which is based on relational databases. With relational databases, it is possible to add any number of new datasets (thesauruses, userdefined wordlists, etc), and then integrate them in seamlessly into the query syntax. The architecture for CORDE, on the other hand, is not “open”, and cannot be integrated into other datasets. Only single words or phrases can be searched for, but nothing approaching an entire semantic field or anything similar.

13. Conclusion As has already been mentioned, those with a traditional training in philology might think of a corpus as simply a large collection of texts. In this view, the greatest care needs to be taken to ensure that the best texts have been selected, and that they are transcribed accurately. And in this view, once the textual corpus is completed, so is corpus as a whole –the architecture and interface are just an

CREATING USEFUL HISTORICAL CORPORA

165

afterthought. However, once one uses a full-featured corpus, one sees that this model is only half right– there is still so much to do after the texts have been assembled, to make sure that they are usable for a wide range of linguisticallyoriented queries. As we have seen, CORDE uses an older, now-outdated corpus architecture. This architecture relies on “off-the-shelf” Microsoft Indexing Services technology from the late 1990s, which was never designed for –and is completely inadequate for– most types of linguistic research. This technology was designed primarily to allow users to search for an exact word or phrase, and then view the entire document (as if one were reading a book or a series of documents). In this one particular type of search, CORDE does its job quite well. It is able to find all occurrences of a specific word or phrase, and then display these in context. CORDE cannot, however, show whether the word or phrase was increasing or decreasing from one time period to another, or where it was the most frequent (which is quite useful information for philologists). Moving beyond simple word and phrase searches, we also find that it cannot search for all of the words and phrases that have increased or decreased between two time periods, which limits its usefulness for lexicographical research. It cannot search (well) by substring, which limits its useful for morphological research. It cannot search by lemma or by part of speech, which seriously limits its usefulness for syntactic research. And it cannot find collocates and it cannot incorporate information from other databases (such as thesauruses or user-defined wordlists), which seriously limits its usefulness for semantically-oriented research. Although all of these queries are impossible with CORDE, they are both quick and easy with the Corpus del español and the Corpus do português. This is due to the fact that these corpora were designed with linguistic research in mind, rather than just as an afterthought. Certainly, there are ways in which the Corpus del español and the Corpus do português can and should be improved. Although the architecture is “state of the art”, in the case of the Corpus del español particularly, there is certainly some work on the textual corpus that can and should be done to correct a few problematic texts (and the same is certainly true of CORDE as well). Some researchers may be aware that the Corpus del español was created by just one person in less than a year and a half, and with very limited funds. It would therefore be a welcome change to have collaboration with other researchers with the philological expertise to help correct a handful of problematic texts. Yet even with this caveat, one should not ignore or minimize the value of the Corpus del español and the Corpus do português. As more than 120,000 unique users over the past six years have discovered, with these two corpora researchers can examine an extremely wide range of linguistic shifts in ways that are not possible with any other historical corpus.

166

MARK DAVIES

References DAVIES, Mark. (1994): “Parameters, Passives, and Parsing: Explaining Diachronic Shifts in Spanish and Portuguese”, in: Beals, K., et al. (ed.): Variation and Linguistic Theory. Chicago: CLS. Vol 2, 46-60. — (1995a): “The Evolution of Causative Constructions in Spanish and Portuguese”, in: Amastae, John et al. (ed.): Current Research in Romance Linguistics. Philadelphia: John Benjamins, 1995, 105-122. — (1995b): “The Evolution of the Spanish Causative Construction”, in: Hispanic Review 63, 57-77. — (1996a): “The Diachronic Interplay of Finite and Nonfinite Verbal Complements in Spanish and Portuguese”, in: Bulletin of Hispanic Studies (Glasgow) 73, 137-58. — (1996b): “The Diachronic Evolution of the Causative Construction in Portuguese”, in: Journal of Hispanic Philology 17, 261-92. — (2000): “Syntactic Diffusion in Spanish and Portuguese Infinitival Complements”,in: Dworkin, Steven/Wanner, Dieter (eds.): New Approaches to Old Problems: Issues in Romance Historical Linguistics. Amsterdam/Philadelphia: John Benjamins, 109-27. — (2002): “Un corpus anotado de 100.000.000 palabras del español histórico y moderno”, in: SEPLN 2002 (Sociedad Española para el Procesamiento del Lenguaje Natural). (Valladolid), 21-27. — (2005a): “Advanced research on syntactic and semantic change with the Corpus del español”, in: Pusch, Claus/Kabatek, Johannes/Raible, Wolfgang (eds.): Romance Corpus Linguistics II: Corpora and Diachronic Linguistics. Tübingen: Gunter Narr, 203-14. — (2005b): “The advantage of using relational databases for large corpora: speed, advanced queries, and unlimited annotation”, in: International Journal of Corpus Linguistics 10, 301-28. — (2008a): “Relational databases as a robust architecture for the analysis of word frequency”, in Archer, Dawn (ed.): AHRC ICT Methods Network: Expert Seminar on Linguistics: Word Frequency and Keyword Extraction. London: Ashgate. — (2008b): “Spanish and Portuguese Corpus Linguistics”, in: Studies in Hispanic and Lusophone Linguistics 1, 149-86.

U S I N G N O N - A N N OTAT E D D I AC H RO N I C C O R P O R A : B E N E F I T S, M E T H O D S A N D L I M I TAT I O N S KIM SCHULTE University of Exeter

The old quip attributed to Uriel Weinreich, that a language is a dialect with an army and a navy, is being replaced in these progressive days: a language is a dialect with a dictionary, grammar, parser and a multi-million-word corpus of texts – and they’d better all be computer tractable. (Ostler 1998)

1. Why use non-annotated corpora? While the quotation above certainly contains a pinch of irony, it is undoubtedly true that the existence of digitally analysable corpora is increasingly gaining importance for linguistic analysis. For linguists working within any framework that does not rely on introspective grammaticality judgements by idealized native speakers, a large amount of readily available linguistic material is of great benefit, as this makes it possible to draw verifiable and generalizable conclusions that can be assumed to have validity for a specific language, dialect, register, genre, etc. In particular, approaches to language based on the presumption that usage frequency is a crucial factor in change cannot be fully developed without resorting to corpus analysis. For many types of computer-based corpus analysis, in particular for morphosyntactic studies, it is essential to classify individual words according to their morphological features and syntactic class. For instance, a corpus-based study involving an investigation of adjectival usage will require adjectives to be clearly and unambiguously identified. The standard solution is to annotate the corpus, either manually or semi-automatically, usually by creating a hypertext markup that supplies morpho-syntactic information for each individual word.

1.1. UNAVAILABILITY OF ANNOTATED CORPORA The main reason to use non-annotated corpora is the lack of availability of sufficiently large annotated corpora. Whilst extensive annotated corpora have been, or

168

KIM SCHULTE

are in the process of being created for many major languages, this is frequently not the case for specific regional varieties. Nevertheless, for the purpose of diachronic dialectology and for tracing the origin of features that originated in a particular regional variety and subsequently spread, it may be essential to investigate the frequency of a certain feature in texts from a specific geographical area. For instance, we might ask ourselves whether Castilian infinitives with overt subjects of the type “para hacerlo yo” emerged independently, or whether they entered the language due to influence from Old Galaico-Portuguese and Old Leonese, in both of which similar structures were commonly found. If it could be shown that the construction occurred more frequently in western varieties of Castilian at an early stage, this would be an indication that it did, indeed, originate in the west of the Iberian Peninsula and that we may be dealing with an instance of contact-induced syntactic change. To answer such questions, it is necessary to investigate regionally specific corpora, which we may be able to compile from electronically available texts, but which are highly unlikely to be available in a morpho-syntactically annotated form. Similarly, it may be of particular value for a linguistic investigation to analyse corpus data for a very specific, limited historical period in order to localize sudden changes in usage patterns. Given that many linguistic changes have their origin in fashions, it may be useful to compare two corpora from different decades within the same century. This can be difficult to achieve even with existing annotated corpora such as the Corpus del español (Davies 2001) or the Corpus do português (Davies & Ferreira 2006), which generally group together texts into standardized time intervals, usually with a minimum interval of one century. Where dates are provided for the individual documents forming part of the corpus, it is of course possible, if somewhat arduous, to search for relevant tokens in individual texts, effectively creating sub-corpora representing shorter intervals. However, even where existing annotated historical corpora do allow for more temporally specific searches, the amount of material representing such short periods is often insufficient to draw reliable conclusions. Furthermore, it must be kept in mind that the dating of manuscripts is not a trivial matter; the use of copies is particularly problematic because they may contain a variable mix of older features retained from the original text on the one hand, and modernized features on the other.1 When trying to identify small changes in frequency occurring over short

1 The safest way to avoid such potentially distorting inaccuracies is to exclude any copies of earlier documents from the corpus (though it may still not be certain that a document believed to be the original is, in fact, not a copy of an earlier text of which we have no record.) The CODEA corpus presented in this volume (Sánchez-Prieto et al.), which is part of the

USING NON-ANNOTATED DIACHRONIC CORPORA

169

periods of time, inaccurate or imprecise dating can lead to a serious distortion of the data; it may therefore be more advisable to create a new, non-annotated corpus containing only hand-picked texts that can be precisely dated. Finally, it can also be useful to examine a corpus representing a particular text type or register (from a particular region and historical period); this is crucial for historical sociolinguistic studies and may also be useful in determining the source of features. For example, we might ask ourselves whether the Spanish “Accusative and Infinitive” construction (declarative verb + infinitive) is a learned syntactic borrowing from Latin, or whether it developed independently. If it occurs earlier and more frequently in texts with other clearly learned features, this may be an indication that it is borrowed from Latin (cf. Pountain, 1998). In the absence of annotated corpora containing sufficient textual material representing the relevant text types or registers, the use of non-annotated corpora may be the only solution.

1.2. LIMITATIONS IMPOSED BY EXISTING ANNOTATED CORPORA Even if an annotated corpus does exist for a specific variety, time period and text type, the annotation may not be sufficient for a particular research question. This difficulty is often further exacerbated by the limitations imposed by the user interface provided with existing corpora. An example of a plausible search involving parameters not included in the annotations might be one that involves the position of a certain element within the sentence. We might, for instance, be interested in investigating the proportion of sentences beginning with a left-dislocated (topicalized) infinitive. Whilst many standard annotated corpora readily supply the morphological information allowing us to identify infinitives, the user interface does not permit us to differentiate them according to their absolute position within the sentence or clause.

1.3. ECONOMY Ideally, the lack of an appropriate annotated corpus for a particular investigation should encourage the researcher to build an adequately annotated corpus that enables him not only to pursue the issue he is interested in at the time, but will CHARTA network, also presented in this volume (Carrera de la Red & Gutiérrez Maté), is probably the best available corpus for this type of survey, as it contains only original texts and provides information about the exact place and date of origin.

170

KIM SCHULTE

also offer him and other researchers a valuable resource for future investigations. However, corpus annotation is extremely time-consuming, and in many cases a lack of resources and time make it an unrealistic task. In such cases, the only viable alternative may be to use a non-annotated corpus; how this can be done is explained in the following section.

2. How to use non-annotated corpora: methods and procedure The principle underlying the use of non-annotated corpora is the following: instead of embedding grammatical information within the corpus itself, an ‘intelligent’ search string uses purely formal criteria to identify relevant structures. In what follows, a step-by-step description of how this can be technically achieved is provided.

2.1. THE EGREP UTILITY AND (EXTENDED) REGULAR EXPRESSIONS egrep is a simple command line utility, originally developed for Unix-based operating systems, that searches for lines of text matching an extended regular expression2, outputting only the matching lines. A regular expression is a string that is used to describe or match a set of strings according to certain syntactic rules. Regular expressions make it possible to specify an exact search pattern. With the help of the egrep utility, it is thus possible to extract from a corpus a precisely defined set of ‘strings’ or sequences of characters that match specific formal criteria.

2.2. PREPARING THE TEXT It is essential to eliminate any extra-linguistic information such as html-markup elements and line breaks from the text, as these are not linguistically relevant and will cause inaccuracies in the analysis. The usual way of doing this is by converting each document that is to be included in the corpus into plain text format (.txt) and subsequently removing any remaining line breaks. At this stage, each text will represent a single, generally very long, line of text.

2

Extended regular expressions will simply be referred to as regular expressions hereafter.

USING NON-ANNOTATED DIACHRONIC CORPORA

171

In order to be able to identify and extract individual clauses and to make it possible to identify the position of a particular element within a clause, line breaks are then inserted after, or in place of, punctuation marks. As a result, each line of text now corresponds to a clause. This will enable us to extract exactly those clauses containing the structure we are searching for. Depending on the type of analysis envisaged, it may be desirable not to replace commas with line breaks, in which case the maximal unit of analysis is the whole sentence rather than the clause. This is necessary if the structure under investigation extends beyond the clausal domain; it might, for instance, be useful for a study involving relative pronouns and their antecedents, which are frequently separated by commas. Finally, all the texts to be included in the corpus are concatenated into a single file or document, which will be subjected to the search procedure as a whole. 2.3. SEARCH PROCEDURE The search procedure is the central component of the process. The first step consists in preparing a regular expression (RegEx1) that describes all instances of the structure in question. As this regular expression may also describe strings that only resemble the structure in question superficially, a second regular expression (RegEx2) matching strings that only superficially look like the structure in question but are, in fact, no instances of it, is prepared. Subsequently, the egrep utility is used to extract all lines (= sentences, clauses) in the document that contain strings described by the regular expression RegEx1. Then, egrep -v is used to discard all lines (= sentences, clauses) that contain those strings which only superficially resemble the structure in question, as described by the regular expression RegEx2. The output of this process can now be fed into a file which will consist of separate lines representing each sentence or clause containing the structure in question. This file can be used for reference, to check for accuracy of the search routine, and as a convenient and comprehensive list of all instances of the structure in question contained in the corpus. In order to obtain the absolute number of occurrences of the structure in the corpus, a line-counting command is applied to the output; the number of lines equals the number of occurrences. As the absolute number of occurrences depends on the size of the corpus, a more meaningful figure can be obtained by dividing the number of occurrences by the number of words in the corpus and then multiplying the result by a standard factor. If a is the number of instances of a particular structure in a corpus and b is the total number of words contained in

172

KIM SCHULTE

the corpus, it might be useful to establish the incidence x per 100,000 words for the purpose of comparison, by using the following simple equation. 100,000 (a/b) = x 2.4. AUTOMATED ANALYSIS OF A NON-ANNOTATED DIACHRONIC CORPUS: AN EXAMPLE As an example task, let us consider searching for all instances of [hasta+ infinitive], including variants of hasta such as (h)adta, fata, fasta, asta, etc. In order to create the appropriate regular expressions or search patterns, the following elements of RegEx syntax are needed: | (…) ? [a-z]

*

or treat as one unit preceding character or unit optional any lower-case character any number of repetitions of preceding character or unit

The first regular expression, RegEx1, describing all instances of the structure in question (and some more) takes the following shape. RegEx1: (H|h|f|F)?(a|A)(s|d|t)?ta ((no)|(nunca) )?([a-z])*(a|e|i|j|á|é|í)r(((s| m|t|g|j)e)|(n?os))?(((s|m|t)e)|(n?os)|((l(e|a|o))(s?)))?( |-|$|.|,|;|:)

It represents any string made up of the following sequence: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.

optional upper or lower case ‘f’ or ‘h’ upper or lower case ‘a’ optional lower case ‘s’, ‘t’ or ‘d’ the sequence ‘ta’ space ((no)|(nunca) )? optional ‘no’ or ‘nunca’ followed by a space ([a-z])* any number of lower case characters (a|e|i|j|á|é|í)r any of the sequences ‘ar’, ‘er’, ‘ir’, ‘jr’, ‘ár’, ‘ér’ or ‘ír’ (((s|m|t)e)|(n?os))? optional ‘se’, ‘me’, ‘te’, ‘ge’, ‘je’ ‘nos’ or ‘os’ (((s|m|t|l)e)|(n?os)|((l(e|a|o))(s?)))? optional ‘se, me, te, nos, os, le, la, lo, les, las, los’ space, line break ($) or punctuation mark 11. ( |-|$|.|,|;|:) (H|h|f|F)? (a|A) (s|d|t)? ta

USING NON-ANNOTATED DIACHRONIC CORPORA

173

In this search pattern, (1)-(4) represent all the different forms of hasta, (6) represents an optionally inserted negator between hasta and the infinitive, (7)(8) represent the infinitive of any Spanish verb, and (9)-(10) represent all possible (and some impossible) sequences of suffixed clitic pronouns. On its own, this regular expression will thus allow the egrep utility to extract from the corpus almost every instance of [hasta+infinitive], but it will also extract unwanted sequences such as hasta ayer or hasta obreros. To eliminate such unwanted strings, the second regular expression, RegEx2, defines which strings to discard. RegEx2: (H|h|f|F)?(a|A)(s|d|t)?ta (popular|duerme|menester(osos)?|ca(b|v)a lleros|escuderos|moros|senderos|suerte|dineros|altar|par|menester|nu meros(os|ayer|(ap)?arte|muerte|mu(j|g|i|y|(gi)) er|carneros|fueros| companneros|compañeros|((si)|(qual)|(cual))?quier|parte|ayer|obreros |firme|revierte|despierte|lugar|primer|primeros|maguer|mar|dispar|ul tramar|giros|charlas|car(a|á)cter|estercoleros|raros|cuadernos| modernos|est(a|á)ndar|enfermeros|antiyer|anteayer|carteles|camareros |musiqueros|inviernos|espectacular|peculiar|bienestar|regular| placer|severos|lugar|remeros|verdaderos|ejemplar|ch(o|ó)fer|gobiernos| faros|herederos|singular|bar|par|(pica)?pedreros|fuerte|particular| sinceros|tercer(os)?)( |$|.|,|;|:)

RegEx2 is, of course, by no means complete, as there is a far larger number of possible strings that superficially resemble the sequence [hasta+infinitive]. However, it is sufficient to illustrate the type of results delivered by the original search pattern in RegEx1 that must be discarded. After creating the two regular expressions, the following search routine can be applied to create a file containing all identified instances of [hasta+infinitive], as well as supplying the absolute number of occurrences. egrep RegEx1 file | egrep -v RegEx2 | tee wc –l > outputfile

After checking the output file to verify the accuracy of the search results (and modifying the search patterns if necessary), the numeric output can then be fed into a spreadsheet application or database. In order to chart changes in usage frequency over time, it is necessary to create a number of sub-corpora representing different points in the history of the language under examination. The more textual material is available for a certain

174

KIM SCHULTE

period, the more separate sub-corpora can be created without jeopardizing the validity of the data by making each sub-corpus too small to be representative.

2.5. RESULTS OF AN AUTOMATED ANALYSIS OF NON-ANNOTATED DIACHRONIC CORPUS DATA3

With the data obtained by means of the procedure outlined in Section 2.4., Fig. 1 was created. Each dot represents the incidence of [hasta+infinitive] per 100,000 words. The line, intended to allow the viewer to visualize the overall development more easily, is based on a moving average that evens out local extremes, many of which may be attributable to the fact that the individual sub-corpora are comparatively small and therefore not fully representative of the language at the time. The introduction of the moving average levels out these imbalances by incorporating the values from a number of preceding and following sub-corpora.

incidence per 100000 words

FIGURE 1 hasta + infinitive 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 1100

1150 1200

1250

1300

1350 1400 1450 1500

1550 1600 1650 1700 1750 1800 1850

1900 1950 2000

year

The usefulness of a corpus analysis such as the one presented in this section becomes apparent when comparing its results with those of a structurally very similar construction, [desde+infinitive]. Fig. 2 shows that it has undergone a development quite different from that of [hasta+infinitive]; only in the 20th century do we find isolated cases of the former, while the latter has been around since the 15th century. What the graphs do not show is that even today, [desde+infinitive] is virtually never used in a temporal sense, but exclusively to express a range of possibilities. The issue of distinguishing semantically distinct usages of the same word is discussed in Section 4.2. 3

See Schulte (2007: 363-81) for a list of the texts contained in the Spanish and Portuguese corpora used for this example.

175

USING NON-ANNOTATED DIACHRONIC CORPORA

incidence per 100000 words

FIGURE 2 desde + infinitive 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 1125 1150 1275 1200 1225 1250 1275 1300 1325 1350 1375 1400 1425 1450 1475 1500 1525 1575 1600 1625 1650 16751700 1725 1750 1775 1775 1800 1825 1850 1875 1900 1925 1950 1975 2000 2025

year

The corpus data obtained by means of the procedure presented in this section is also useful for comparative studies. A comparison of Spanish [hasta+infinitive] and the corresponding Portuguese até+infinitive (Fig. 3), for instance, shows a generally parallel development between these two languages, but also some interesting, more localized differences.

incidence per 100000 words

FIGURE 3 Spanish hasta + infinitive (continuous) vs. Portuguese até + infinitive (dotted) 22,5 20 17,5 15 12,5 10 7,5 5 2,5 0 1150

1200

1250

1300

1350

1400

1450

1500

1550

1600

1650

1700

1750

1800

1850

1900

1950

2000

year

3. Which types of search do non-annotated corpora allow? 3.1. LEXICALLY-BASED SEARCHES Perhaps the most straightforward type of search that can be undertaken using non-annotated corpora by means of the procedure outlined above is a search for individual lexical items. A regular expression describing one, some, or all forms of a word, as shown for the different forms of hasta within the search pattern presented in Section 2.4., will yield reliable results, except in the case of homonymy.

176

KIM SCHULTE

Lexically-based searches can also provide interesting insights into phonological developments. For instance, we might ask ourselves whether there is any evidence that the differential reduction of the medieval four-term sibilant system (/s, z, ts, dz/) to (/s, ts>θ/) in Spanish and to (/s, z/) in Portuguese originated in specific regions. By searching for orthographic variants of words containing sibilants in individual regional corpora of texts from the period when these changes took place, it may be possible to establish whether these phonemic mergers occurred at an earlier point in time, or more frequently, in certain geographical areas, which would suggest that it is these areas where the changes had their origin. Such a survey cannot be expected to supply precise numeric results, as a clear correspondence between grapheme and sound is not necessarily given. The fact that the sibilant system was undergoing fundamental changes unavoidably caused orthographic variation, often even within a single text. The same lexical item may be found with a more conservative orthography in one instance, but spelt in a way that represents the evolved sibilant system in another. Furthermore, it is not always possible to uniquely determine which phonemic value the sibilant graphemes represent in 15th century manuscripts; indeed, some scribes may have been happy to leave this unresolved, as the degree of variation among different speakers, and possibly even within the speech of individuals, would have made such a decision arbitrary. In fact, if we presume that we are dealing with a gradual phonological process, a transitional period in which a precise orthographic representation of the sounds is impossible must be assumed. Therefore, a lexically-based corpus survey as described above cannot tell us exactly how each individual word was pronounced at the time, but it can offer us insights into trends. We can establish whether certain orthographic variants, namely those indicative of the phonological shift having taken place, are found more frequently in texts from one region than from another. If we assume that a greater proportion of tokens in which the new sibilant system is orthographically reflected corresponds to a more widespread and more well-established use of the new system, we can attempt to identify in which regions the respective sound changes might have originated.

3.2. MORPHOLOGICALLY-BASED SEARCHES Searches for particular morphological forms, for instance for all infinitives in a Spanish corpus, are feasible and can yield relatively reliable results. In Section 2.4. it was shown that superficially similar forms will initially not be distinguished from real infinitives, and to obtain accurate results it is necessary to filter the out-

USING NON-ANNOTATED DIACHRONIC CORPORA

177

put of the initial search. The effort involved in creating a regular expression that will reliably discard inaccurately identified strings can be considerable, and the more ambiguous the relevant morphemes are, the less viable a purely morphology-based search within a non-annotated corpus is (see 4.1. below).

3.3. SEARCHES INVOLVING SYNTACTIC PARAMETERS Certain syntactic parameters can easily be included in the search. Information about the position of a particular element in relation to the boundaries (i.e. the beginning or the end) of a clause or sentence is relatively easily included in the search pattern, as the boundaries themselves are contained in the corpus in form of line breaks. The position of a particular element in relation to another element in its immediate vicinity can also easily be incorporated in the search pattern. For instance, a comparison between the frequencies of pre- and post-infinitival subject pronouns (‘sin yo saberlo’ vs. ‘sin saberlo yo’) is relatively unproblematic.

3.4. COMBINATIONS OF SEARCH TYPES The example presented in Section 2.4. above shows how different types of searches can be combined within a single regular expression. The search for hasta is lexically based, the infinitive is identified on the basis of its morphology, and the fact that the search pattern distinguishes [hasta+infinitive] (e.g. ‘hasta beber’) from [infinitive+ hasta] (e.g. ‘beber hasta’) shows that it also contains syntactic information.

4. Limitations, difficulties, and some solutions Whilst the use of non-annotated corpora is in many cases the only practically viable option, there are a number of limitations, due to the fact that any search by means of regular expressions is necessarily based purely on formal criteria. In this section, some such limitations are illustrated and discussed.

4.1. LACK OF MORPHOLOGICAL DISTINCTIVENESS In cases of lexical syncretism, i.e. when two lexical items belonging to different syntactic classes have the same form, it can be problematic to devise a search

178

KIM SCHULTE

pattern that will identify sentences or clauses containing only one of the two. For instance, the Spanish verb poder ‘to be able to’ and the derived noun poder ‘power’ are formally identical and cannot, themselves, be distinguished in the search pattern. However, it is possible to devise search patterns that are, to some extent, capable of distinguishing between the two by including syntactic criteria; the noun poder is frequently preceded by a determiner and often followed by the prepositions de or para, distinguishing it from the verb. The verb poder, on the other hand, is usually immediately followed by another verb, due to its status as modal verb. Whilst such syntactic criteria are helpful to distinguish between the verb and the noun, a residue of unclear cases will remain. In a sentence such as ‘Sigo sin poder’, for instance, it depends on the wider context whether poder is verbal (‘I still can’t’) or nominal (‘I still don’t have any power’). This difficulty is further exacerbated in cases of genuine syntactic ambiguity. In a sentence such as ‘Este hombre es alemán’ (‘This man is (a) German’), it is not at all clear whether alemán is an adjective or noun. Whilst native speakers’ intuition suggests that it is, in this sentence, an adjective, a structurally equivalent sentence such as ‘Este hombre es profesor’ (‘This man is a professor’), where the noun profesor fills the same slot as alemán in the previous example, shows that determining the syntactic class is not as straightforward as it might appear at first sight. Indeed, what we are dealing with here is an interesting theoretical problem that is dealt with in different ways depending on the theoretical framework chosen; it is, however, not an issue that can or should be resolved mechanically as part of a corpus search. Ambiguous morphology is the most serious factor hampering automated analyses of non-annotated corpora. A word-final /-o/, for example, can indicate either the first person singular present tense form of verbs, or the masculine singular form of nouns and adjectives. Similarly, /-es/ and /-as/ can either indicate the second person singular present tense form of verbs, or the plural form of nouns and adjectives. As a result of such ambiguous morphology, a search based only on the respective word endings will not be capable of distinguishing nouns, adjectives and verbs. The only viable solution is a move towards a more lexically-based search, in which a list of lexical stems is incorporated into the regular expression. Such a list can, for instance, be extracted with relative ease from electronic dictionaries or reverse dictionaries such as Stahl & Stavnicky (1973), who list 10,158 words ending in -ar, -er, -ir; from these, it is a comparatively simple task to create a list of the most common Spanish verbal stems. Such a more lexically-based approach has a number of drawbacks. Long search patterns containing lists of lexemes slow down the automated search process considerably. More problematic still is the fact that lexical lists are never complete, so there will unavoidably be a higher degree of inaccuracy in the

USING NON-ANNOTATED DIACHRONIC CORPORA

179

results of the analysis. Finally, lexical and orthographic variation through the centuries severely complicates the compilation of an appropriate lexical list for diachronic corpus projects.

4.2. SEMANTIC DIFFERENTIATION An automated distinction of different semantic values or nuances of the same word is well-nigh impossible. For instance, to distinguish temporal and scalar uses of hasta, as shown in the following examples, a more semantically-based analysis than permitted by a search using regular expressions would be needed. Temporal hasta: Buscaré el amor hasta encontrarlo. ‘I’ll look for love until I find it.’ Scalar hasta: Las propuestas van desde legalizar la marihuana hasta prohibir las peleas de gallos. ‘The proposals range from legalizing marihuana to prohibiting cock fights.’

4.3. SYNTACTIC STRUCTURES While it was shown in Section 3.3. that automated searches for certain types of syntactic phenomena can be undertaken in non-annotated corpora, identifying syntactic structures beyond the level of adjoining words requires highly complex regular expressions and nevertheless remains unreliable. Such search patterns would have to incorporate a considerable proportion of the grammar of the respective language, and it would still not be capable of resolving syntactic ambiguities in the way the reader or hearer does by including semantic and pragmatic information from the wider context in his analysis and combining this with his knowledge of what is the most likely interpretation, based on real-world knowledge and expectations.

5. Conclusion In this paper, it has been argued that in situations where no appropriate annotated corpus is available, automated analysis of non-annotated corpora is, in many cases, a viable solution. However, it was also shown that the method has its limitations and that some structures are far easier to identify accurately than others,

180

KIM SCHULTE

depending on the phonological uniqueness of the structure to be identified and on how elaborate the search pattern is made. Even with a great deal of attention to detail in formulating precise search patterns, the fact that the search is always based on purely formal criteria makes it impossible to distinguish semantically, morphologically or syntactically distinct structures in cases of homonymy. Therefore, frequency data extracted from a corpus in this way are likely to have a slightly higher degree of inaccuracy than those extracted from a fully scrutinized, morphologically annotated corpus. Whilst it is certainly desirable to obtain maximally accurate data, it is important to keep in mind that the ultimate aim of establishing usage frequencies on the basis of corpus analysis is not to establish precise numeric values, but to draw linguistic conclusions from the frequency data. In the area of diachronic corpus analysis, the overall objective is to observe how usage patterns develop and change through time, and any statistically significant frequency change over time is unlikely to be distorted by slight imprecisions in the count. Furthermore, it must be kept in mind that when using linguistic corpora, we are dealing with a more or less random selection of documents; depending on the content of the individual documents included in the corpus, the frequency of any particular linguistic structure is bound to vary. The amount of inaccuracy generated by the method of analysis proposed in this paper is, in fact, in most cases insignificant in comparison with the degree of natural, content-dependent frequency variation present in any corpus.

References DAVIES, Mark (2001): Corpus del español. http://www.corpusdelespanol.org/ (30 enero 2008) DAVIES, Mark/FERREIRA, Michael (2006): Corpus do português. (45 million words, 1300s–1900s). http://www.corpusdoportugues.org/ (30 enero 2008) OSTLER, Nicholas (1998): Review of Workshop on Language Resources for European Minority Languages, Granada, Spain; 27 May 1998. http://ixa2.si.ehu.es/saltmil/en/ activities/workshops/review-by-nicholas-ostler.html (30 enero 2008). POUNTAIN, Christopher J. (1998): “Learned Syntax and the Romance Languages: the ‘accusative and infinitive’ construction with declarative verbs in Castilian”, en: Transactions of the Philological Society 96.2, 159-201. SCHULTE, Kim (2007): Prepositional infinitives in Romance. A usage-based approach to syntactic change. Oxford/Bern: Peter Lang. STAHL, Fred A./Scavnicky, Gary E.A. (1973): A reverse dictionary of the Spanish Language. Urbana/Chicago/London: University of Illinois Press.

IV

CORPUS Y VARIEDADES IBERORROMANCES

UN CORPUS LINGÜÍSTICO ASTURIANO: ESLEMA XULIO VIEJO FERNÁNDEZ/ARSENIO COTO PÉREZ/ MARÍA CUETO FERNÁNDEZ/ROBERTO HINOJAL DÍAZ Universidad de Oviedo

1. Un corpus para una lengua Podría parecer discutible que un corpus lingüístico como el asturiano Eslema sea presentado en un volumen dedicado específicamente a la problemática asociada a los corpus históricos. Ciertamente, en su actual fase de elaboración, el nuestro no se ajusta propiamente a esa definición de histórico, aunque sí esté previsto desarrollar su dimensión diacrónica en fases posteriores del proyecto. Con todo, siempre cabe ampararse, de momento, en una concepción amplia de lo histórico que contemple el estado sincrónico de una lengua como la culminación natural de una tradición previa de profundas raíces y que, consecuentemente, ofrezca el valor de los datos del presente para el análisis diacrónico correspondiente. El Proyecto Eslema. Corpus Xeneral de la Llingua Asturiana (www.uniovi. es/eslema) es la primera (y, por el momento, única) iniciativa tendente a elaborar un corpus lingüístico del asturiano en su concepción más convencional1. Su propósito es la elaboración y puesta en red de un corpus textual suficientemente representativo de esta lengua iberorromance, en el marco de un programa integral de renovación de la investigación en este dominio. En este sentido, las posibilidades que abre un corpus para el estudio y la misma dinamización social de una lengua pequeña y en regresión son conocidas. Naturalmente, y en primer lugar, cabe valorar el beneficio que supone el estable-

1

Como experiencia previa de recopilación textual sistemática (en este caso de textos orales) ha de conseñarse el extraordinario Archivo de la Tradición Oral del Muséu del Pueblu d’Asturies de Gijón, coordinado por Jesús Suárez López, con interesantes materiales que vienen siendo publicados en formato CD en la colección Atlas Sonoru de la Llingua Asturiana. Por lo demás, a poco de hacerse públicos en Asturias los primeros trabajos de Eslema, en 2007, la Academia de la Llingua Asturiana (organismo financiado por el gobierno del Principado de Asturias) anunció también la creación de otro archivo propio de textos orales en formato de audio digital que dio en llamar Estoyu de la Llingua Oral (ELLO), a partir, básicamente, de las grabaciones realizadas por alumnos de Filología de la Universidad de Oviedo. Ni uno ni otro están, de momento, disponibles en la Red.

184

XULIO VIEJO FERNÁNDEZ ET AL.

cimiento de una base empírica de datos idiomáticos amplia, consistente, bien estructurada y accesible para la descripción y el análisis de sus fenómenos definitorios. Pero, en otra clave, también favorece, y no es un asunto menor en nuestro caso, la visibilidad de la lengua a través de la materialidad de sus textos ante su propia comunidad de habla y, desde luego, ante el amplio y abierto colectivo de investigadores interesados tanto en el aspecto concreto del asturiano, como en sucesivos niveles, de la lingüística hispánica, románica o general. Con relación a esto último, un corpus asturiano como el que se propone adquiere una dimensión en cierto sentido simbólica (como focalización y puesta en valor de un patrimonio cultural) que, sin embargo, resulta también altamente operativa en lo que se refiere a su mera consideración como objeto de estudio científico, de entenderse también el corpus como la afirmación palmaria de la entidad y particularidad del asturiano como dominio lingüístico. Es conocido el ambiguo tratamiento que, en la tradición filológica española, ha venido mereciendo el asturiano entre las lenguas peninsulares, como una variedad románica cuya genuina independencia habría quedado comprometida en fases evolutivas posteriores por la fuerte presión ejercida por el castellano desde los últimos siglos de la Edad Media. A partir de tal supuesto, sea por indefinición teórica, por aproximaciones superficiales en exceso o por mera inercia intelectual, apenas se ha avanzado hacia un consenso clarificador acerca del estatus real del asturiano, lo que de hecho acaba entorpeciendo cualquier intento de avance en la reflexión o el conocimiento crítico sobre este espacio románico, algo que demasiadas veces apenas se concibe como un ejercicio de mera puntualización o matización sobre ciertas ideas o querencias recibidas2. Obviamente, no hará falta ahora insistir demasiado en que establecer sobre bases objetivas (que son los textos en el caso de una tradición lingüística) los límites y la naturaleza del objeto de estudio es el primer paso necesario para un desarrollo solvente de cualquier discurso científico, y esa función es la que primariamente debiera cumplir un corpus como el que proponemos, con su simple existencia. De hecho, en los actuales corpus de ámbito hispánico no se hace, en el mejor de los casos, más que reproducir esas ideas recibidas sobre el particular. Unas veces, éstos se desentienden directamente de las muestras textuales asturianoleonesas, algo que es coherente con la misma idea de independencia del dominio pero que, sin embargo, parece asumir una cierta irrelevancia de los datos locales de nuestro espacio en el marco de la investigación hispanística general, idea que, desde luego, no compartimos, y mucho menos desde una perspectiva histórica. En otros casos, se procede introduciendo en corpus generales muestras testimo-

2

Unas reflexiones propias sobre este tipo de controversias en Viejo (2003: 21-64).

UN CORPUS LINGÜÍSTICO ASTURIANO: ESLEMA

185

niales de nuestro ámbito geolingüístico como algo indiferenciado del dominio castellano, lo que quizá puede ser sostenible sobre muestras de habla actual altamente castellanizadas (pensemos en los textos locales recogidos en el Corpus Sonoro del Español Rural [COSER] dirigido por Inés Fernández Ordóñez en la Universidad Autónoma de Madrid)3 pero que es más arriesgado y comprometedor cuando se opera, con perspectiva histórica, sobre textos medievales, por ejemplo. O cuando, en otro sentido, tales muestras de habla castellanizada, obtenidas a veces por encuestación dirigida o altamente condicionada, solapan la existencia de otros registros de habla viva mucho más definidos y, además, percibidos socialmente como un tipo lingüístico autóctono, dotado de su propio ámbito de variación interna y discretamente diferenciado de la lengua oficial. Frente a ello (y lejos de banalidades diferencialistas, en clave ideológica, identitaria o emocional) el establecimiento de un corpus asturiano o asturianoleonés propio, amplio, estructurado y bien definido ayuda a echar luz no sólo sobre la específica realidad histórica y presente del asturiano, en toda su complejidad y como espacio variacional perfectamente asentado, sino que contribuye también a proporcionar al interesado una visión más completa y matizada del panorama lingüístico peninsular. En este sentido, consideramos que el corpus Eslema puede llegar a constituir una interesante herramienta de trabajo para el investigador en lingüística hispánica y románica. Con tales propósitos, en la confección de nuestro corpus se han considerado, con criterios muy abiertos, textos de la más variada tipología, tanto en formato escrito como en audio (particularmente grabaciones de lengua oral, de las que se aspira a ofrecer una amplia muestra en el corto plazo) así como de distintos momentos de la historia lingüística asturiana, desde el período medieval hasta la actualidad, pasando por la literatura en asturiano conocida desde el siglo XVII. El proyecto Eslema toma su nombre de esta evocadora palabra asturiana, no inventariada en diccionario alguno, aunque sí en una colección de relatos orales asturianos (Suárez López 2000: 184). Su significado es el de “marca dibujada en una piedra, indicativa de la existencia de un tesoro escondido”. Al margen de su fuerza poética, y de sus resonancias lingüísticas (acaso surgido como evolución popular a partir del latín STIGMA), el vocablo como tal ilustra metafóricamente el valor que para la investigación filológica representa una buena recopilación textual, convenientemente estructurada y dispuesta, según se espera de un corpus lingüístico. Eslema se constituyó en 2004 como proyecto en el Departamento de Filología Española de la Universidad de Oviedo, en concreto al amparo del Grupo de

3

http://pidweb.ii.uam.es/coser/

186

XULIO VIEJO FERNÁNDEZ ET AL.

Investigación Seminariu de Filoloxía Asturiana4. Podemos decir, en este sentido, que Eslema es, específicamente, el corpus lingüístico asturiano de la Universidad de Oviedo, en cuanto que nacido de sus propios recursos e integrado en sus propios programas de investigación. El proyecto surgió bajo la dirección de Xulio Viejo Fernández, si bien inspirado y animado por Roser Saurí Colomer, investigadora en el Department of Computer Science de la Universidad de Brandeis (Massachussets, Estados Unidos), y también miembro colaborador de Eslema, que se constituye, por tanto, como proyecto internacional5. Para el desarrollo de los aspectos técnicos del proyecto se cuenta igualmente con el equipo dirigido por Ángel Neira, del Departamento de Informática de la Universidad de Oviedo. La justeza de medios económicos, en concreto los destinados a personal, ha condicionado negativamente el curso de los trabajos que, ciertamente, no han conseguido progresar al ritmo deseado e inicialmente planificado. En ese sentido, el estado actual del proyecto apenas nos permite presentar en el momento presente, no tanto un corpus lingüístico estricto, debidamente anotado y marcado y de fácil tratamiento informático, como una especie de almacén digital de textos dotado de una herramienta de búsqueda diseñada a partir de la metadata de las muestras. Sin embargo, el volumen de textos alcanzado a día de hoy, habida cuenta de los condicionamientos existentes, nos parece altamente satisfactorio y sus posibilidades inmediatas de desarrollo y explotación son importantes.

2. Diseño general del corpus Eslema Como se ha sugerido, Eslema se concibió desde el primer momento como una especie de proyecto marco en el que desarrollar ulteriormente nuevos subcorpus, de ahí el término de Corpus xeneral de la llingua asturiana que acompaña a su nombre oficial. La idea inicial consistía en articular tres de esos subcorpus: el de la lengua medieval asturleonesa (siglos XIII-XV), el de la lengua literaria asturiana clásica (entre 1639-1950) y el de la lengua actual. Naturalmente, los realia se encargaron de matizar las expectativas iniciales, sobre todo en lo que se refiere a plazos temporales, pero en general las tres líneas siguen en pie. 4 Inicialmente, Eslema contó con ayudas puntuales de la Consejería de Cultura del Principado de Asturias. Desde 2006 cuenta con financiación a cargo del Plan Nacional de I+D del Ministerio de Educación y Ciencia, para el período 2006-2008 (ref. HUM2005-06288) Estas ayudas, vitales para la adquisición de material o para costear algunas actividades específicas del proyecto, no contemplan, sin embargo, la contratación de becarios o colaboradores en régimen laboral, salvo por períodos de tiempo muy limitados 5 Puede de hecho considerarse como el texto fundacional de Eslema un artículo programático de esta autora (Saurí 2003-2004)

UN CORPUS LINGÜÍSTICO ASTURIANO: ESLEMA

187

En lo que se refiere al corpus medieval se dispone ya de una muestra amplia de varios cientos de textos medievales asturianos y leoneses del período indicado, todos de tipo notarial. Tales textos aún no son consultables en red y, de hecho, aún están pendientes de marcación de metadatos y a expensas de los criterios que finalmente decidan aplicarse en este sentido, algo que pretende hacerse buscando la homologación con otros corpus similares de nuestro ámbito lingüístico y cultural. En todo caso, sería igualmente indispensable homogeneizar en la medida de lo posible los propios criterios de transcripción y tratamiento de los textos. Si hasta ahora nos hemos beneficiado de algunas transcripciones propias o de ediciones que hemos considerado solventes, la existencia de un amplio repertorio de pergaminos medievales asturianos aún pendientes de transcripción y edición, y a expensas de otro tipo de iniciativas en curso, ofrece tanto la posibilidad de replantear desde la base este tipo de criterios y convenciones como, a otro nivel, de establecer algún tipo de colaboración con otros equipos de investigación o estudiosos particulares que permita potenciar este aspecto del corpus en beneficio general de la comunidad académica. Dada la provisionalidad de este subcorpus, no ha sido aún posible una explotación a fondo de sus posibilidades, si bien ha podido ser aprovechado con utilidad, por ejemplo, en la localización e identificación de topónimos históricos asturianos, para informes concretos demandados en el curso de los trabajos de la Junta Asesora de Toponimia del Principado de Asturias. Así ha sido a propósito de los problemas suscitados por el topónimo Santuyano, para los que el análisis de la documentación ha resultado esclarecedor (Álvarez-Balbuena/D’Andrés/ Viejo 2004-2005: 259-262). Actualmente, están en curso otras investigaciones relativas a la evolución y, en su caso, estandarización, de las grafías medievales asturianas, que, por lo demás, tienen como antecedente un estudio publicado sobre una muestra estadística sacada de una primera versión del corpus medieval asturiano (Viejo 2004). Aparte de la problemática específica de la lengua notarial medieval (tipologías textuales, etc.) en nuestro caso se nos plantea el problema meramente conceptual de delimitar qué tipo de texto consideraremos representativo de la lengua asturiano-leonesa medieval, entendiendo aquí las dificultades de delimitación entre el registro latino y el romance (en no pocos textos anteriores a 1260) y, después, la cuestión de la hibridación creciente con el castellano, desde finales del XIV y sobre todo a lo largo del XV, por lo demás de gran interés. En este sentido, sobre un criterio básico y en general receloso de todo aquello que, en materia de lengua, apele al purismo (y tanto más en materia de corpus textuales, que se supone que deben ofrecer una base empírica objetiva, sin categorizaciones apriorísticas), la particular configuración y fines de Eslema, antes aludidos, sí

188

XULIO VIEJO FERNÁNDEZ ET AL.

podrían aconsejar un cierto escrúpulo en la selección de textos representativos (o al menos un riguroso modelo de marcación), al objeto de delimitar, en perspectiva diacrónica, los procesos internos y diferenciadores del romance local, en particular con relación al castellano. Un posible modelo de análisis para este tipo de deslindes lingüísticos entre el asturiano y el castellano medievales, sobre textos hibridados locales tardíos, ya lo encontramos en Lapesa (1995) y García Arias (1991). En cuanto al corpus clásico de los siglos XVII al XX, ya disponemos en formato digital de la parte más representativa, si bien aun está sin marcar y no está disponible en red. Se trata de una colección textual amplia (al menos, en relación a la propia tradición escrita en asturiano) de textos esencialmente literarios (con pocas excepciones) y normalmente en verso, aunque comprende igualmente una colección de textos en prosa datados desde la segunda mitad del XVIII y un repertorio nada desdeñable de piezas teatrales, que, ofrece en sus mejores exponentes, lo que cabría considerar muestras interesantes de algo parecido al registro oralcoloquial. En este sentido, pretendemos aplicar ciertos criterios discriminatorios referidos, en este caso, a la calidad lingüística de los textos, pues junto a autores y obras de plena competencia y solvencia lingüística, desde finales del siglo XIX se hacen comunes una serie de textos menores (de tipo costumbrista y banal) en los que el recurso a un asturiano poco cuidado, a veces meramente imitativo y artificioso, entendemos que no siempre sirve de testimonio cabal de lo que serían los usos lingüísticos realmente representativos del habla común o de una tradición literaria efectivamente asentada. En todo caso, es problemático, como se imaginará el lector, determinar cuándo estamos ante un uso idiomático representativo y cuándo no, más allá de la mera intuición subjetiva como hablantes y/o filólogos.6 El corpus moderno es, pues, la parte realmente visible del proyecto Eslema en su momento actual, si bien también una parte importante de él aún está pendiente de desarrollo. El corpus Eslema de asturiano actual está compuesto a su vez de un bloque de textos escritos y otro de textos orales, en ambos casos de la más variada tipología. En el primer caso, las muestras están recogidas y disponibles en formato de texto, mientras que para el subcorpus oral es nuestra intención hacer accesibles los textos en formato audio, si bien acompañados de la correspondiente transcripción.

6 Sobre todo cuando la extraordinaria popularidad de algunos de estos textos (García 2004: 192-194) los han convertido en este particular período de nuestra historia lingüística en auténticos atractores paranormativos. Véanse, a modo de ejemplo por ejemplo, las observaciones sobre el particular de Galmés y Catalán en su clásico estudio sobre la aspiración de /f/ en el oriente asturiano (Galmés y Catalán 1946).

UN CORPUS LINGÜÍSTICO ASTURIANO: ESLEMA

189

3. El corpus del asturiano actual En todo caso, la mentada parte visible del corpus Eslema es el repertorio de textos escritos en asturiano actual, considerando como tales los de las tres últimas décadas, un bloque relativamente cohesionado por existir por primera vez en este período un modelo normativo oficioso que, de alguna manera, da unos mínimos de coherencia a la lengua escrita. Actualmente, la consulta en red permite el acceso a una base de datos de esta naturaleza de unos 8.000.000 de palabras (que esperamos aumentar hasta casi el doble a finales de 2008, al acabar la actual fase del proyecto), a través de un buscador propio que entendemos eficiente, que, sin embargo, está a punto de ser sustituido por un nuevo modelo de búsqueda indexada que mejora sensiblemente la consulta, y que está solamente pendiente de solucionar cuestiones relativas a la interfaz. Operamos sobre dos tipos de búsqueda, simple y compleja, que remite a las distintas variables contempladas en la metadata con la que han sido marcados los textos y que, naturalmente, aluden a esa variada tipología textual exigida para un corpus que aspira a ser representativo del estado general de una lengua. Se trata básicamente de textos literarios (de todo género), pero también con significativas muestras de lenguaje periodístico y, en menor medida, científicotécnico y administrativo. Pretende ser igualmente una muestra compensada de distintos tipos dialectales (aunque mayoritariamente son textos en asturiano central y muy testimonialmente los de origen leonés, básicamente por falta de fuentes fiables) y socioestilísticos. Actualmente, por cuestiones de derechos, no son accesibles los textos en su integridad, si bien el buscador actual ofrece la palabra o la secuencia requerida perfectamente contextualizada en su párrafo. Sobre este corpus estamos procediendo a una marcación ya de tipo propiamente lingüístico (morfológico, sintáctico, etc.) con etiquetas XML, a partir del standard Eagles, igualmente aplicado por medio del modelo Freeling7 al resto de lenguas hispánicas. Esta tarea es singularmente lenta, particularmente por la imposibilidad de disponer, en dedicación continua, de técnicos informáticos profesionales. Sin embargo, la colaboración de estudiantes de informática ha permitido avanzar sensible, aunque poco visiblemente, en este sentido, de manera que a corto plazo podríamos empezar a mostrar resultados. En concreto, a lo largo del 2008 dispondremos de un analizador y etiquetador morfológico con las características apuntadas que nos permitirá tanto sofisticar la herramienta de búsqueda, como desarrollar nuevos patrones para el tratamiento y aprovechamiento de los datos. Asimismo, el nuevo buscador, que lleva incorporada un

7

.

190

XULIO VIEJO FERNÁNDEZ ET AL.

patrón de identificación de clíticos (cuya colocación con relación al verbo es un aspecto singularmente complejo y emblemático de la sintaxis asturiana) que permitirá un pequeño avance en las posibilidades de explotación del corpus para análisis de tipo morfológico, sintáctico e incluso pragmático. En todo caso, el estímulo que representa la existencia de un corpus digitalizado y mínimamente estructurado de textos para la investigación estrictamente lingüística nos está permitiendo también avanzar en el propio conocimiento teórico de la gramática y el léxico asturiano. Al amparo del proyecto Eslema, ya ha sido publicado un tratado, esencialmente programático, sobre sintaxis asturiana, algo que, por sorprendente que parezca, resulta más o menos novedoso en nuestro ámbito (Viejo 2008) y que, en todo caso, ha servido para plantear y desbrozar algunos aspectos de la planificación a futuro del corpus, como también se ha servido de su versión actual para validar con ejemplos reales algunas cuestiones comprometidas de gramática asturiana, singularmente el comportamiento de los clíticos tras ciertos adverbios y conjunciones, que frecuentemente desdice, en el uso real, las prescripciones normativas académicas. Este aspecto es precisamente el tema de la tesis doctoral en preparación de Francisco Fernández Rubiera, investigador de la Universidad de Georgetown y colaborador del proyecto Eslema, cuyo corpus viene utilizando abundantemente en su estudio. Está igualmente en preparación otra tesis doctoral sobre preposiciones y régimen preposicional de verbos y perífrasis verbales en asturiano, a cargo de Roberto Hinojal Díaz (Hinojal 2008), e igualmente están ya dispuestos los materiales para la elaboración y publicación de trabajos monográficos sobre complejos léxicos y fraseología asturiana. Igualmente, se publicará de manera inminente una amplia antología anotada y estudiada de textos históricos y actuales asturiano-occidentales (desde la Edad Media hasta la actualidad), derivada del propio corpus y elaborada por María Cueto y Xulio Viejo (Cueto/Viejo 2008). De manera independiente del proyecto Eslema, aunque en colaboración con nuestro equipo y con perspectivas de ser continuada de manera coordinada, se ha abierto igualmente una línea de investigación pionera en el campo de los estudios de neología en asturiano a partir de una compilación de textos tomados del periodismo digital (Fernández-Cernuda 2008).

4. El subcorpus oral En cuanto al corpus de asturiano oral, Eslema dispone actualmente y estará de inmediata disposición en la red, de una amplia colección de archivos sonoros. Por un lado, disponemos de textos más o menos formales (básicamente programas radiofónicos, retransmisiones deportivas, informativos, tertulias, etc., cedi-

UN CORPUS LINGÜÍSTICO ASTURIANO: ESLEMA

191

das amablemente por la emisora Radio Sele) y también, y fundamentalmente, muestras de lengua coloquial espontánea, que constituyen el centro de nuestro interés. El trabajo con estos materiales es lento, pues estamos procediendo a la digitalización de grabaciones originariamente realizadas en cassette (desde finales de los 80) y en la medida de lo posible de mejora de sonido. Por otra parte, nuestro propósito no es sólo colgar las grabaciones en audio, sino facilitar su transcripción para trabajar con ellas, lo que es una tarea singularmente ardua. Además de disponer de grabaciones previas al proyecto mismo (de grabación propia o por cesión de terceros), en el marco de Eslema estamos procediendo a una recopilación sistemática de muestras orales (fundamentalmente conversaciones) nuevas, unas veces mediante encuestación orientada y otras sobre grabación directa de conversación espontánea. A lo largo del último año, hemos conseguido por este método unas cuantas decenas de horas de grabación de lengua viva de calidad, procedentes de las distintas zonas dialectales de Asturias. En el verano de 2008 hemos extendido nuestro ámbito de grabación al occidente leonés y el norte de Portugal, de manera que hemos convertido el corpus asturiano originario en un verdadero corpus del dominio histórico asturiano-leonés, entre el Cantábrico y las tierras portuguesas de Miranda, siendo particularmente valiosas, por su dificultad y su carácter testimonial, las muestras de habla tradicional leonesa, con ejemplos de alta calidad que, desgraciadamente, son cada vez más testimoniales en el uso espontáneo por la fuerte presión castellanizadora. En general, el retroceso a marchas forzadas de lo que pudiéramos llamar el asturiano tradicional (el registro más purista y localista, recluido ya entre sectores de hablantes mayores y habitantes en la zona rural) nos ha hecho plantearnos algún procedimiento de recopilación intensiva para la carga de datos de este tipo en el corpus, aun a despecho de las limitaciones económicas y organizativas ya apuntadas. En concreto, hemos ideado la creación de una especie de red Wiki que permitiese integrar de alguna manera en nuestro trabajo un grupo nada desdeñable de personas, no necesariamente investigadores profesionales, que con cierta asiduidad se dedican a recopilar por los pueblos informaciones etnográficas, sobre cultura tradicional, literatura oral, historia, toponimia, etc.8 Esto, debidamente organizado, nos permitiría acceder a un buen número de textos orales de la generalidad del territorio y de todas sus zonas dialectales y, no menos, dotar a Eslema de lo que pudiéramos llamar una cierta dimensión social, en el sentido de aspirar a implicar a la comunidad de habla en la propia confección del corpus. Dicha herramienta está siendo diseñada en la actualidad por

8

Se da un avance de esta iniciativa en Saurí/Viejo/Neira 2008.

192

XULIO VIEJO FERNÁNDEZ ET AL.

Roser Sauri y Johan Ari Larusson, investigador en lingüística computacional de Brandeis.9 En todo caso, los materiales orales actuales vuelven a enfrentarnos, con nuevos condicionantes, con el mismo problema de delimitación ya comentado a propósito de la lengua medieval y la literatura clásica. Sobre todo en ciertos estratos de población nos vamos a encontrar con un tipo de lengua (el amestáu) difícilmente delimitable entre asturiano y castellano. Desde el punto de vista científico, es evidente que todas las modalidades de lengua, más allá de prejuicios o apriorismos normativos, tienen interés. Otra cuestión es cómo deben de ser incardinados unos y otros registros dentro de la estructura del corpus sin menoscabo de su coherencia interna. En principio, la razón de ser de Eslema es la elaboración de un corpus asturiano bien definido, por lo que a priori los textos híbridos tendrían un interés menor y no digamos aquéllos que podamos convenir en calificar sin más como castellano dialectal de Asturias. Sin embargo, es evidente que unos y otros configuran conjuntamente el paisaje real de la lengua en Asturias que, por sí mismo, presenta interés y no debe dejar de ser atendido. De momento, en la marcación realizada sobre los propios textos escritos, hemos optado por una distinción que hemos denominado diaglósica entre textos en asturiano nuclear (que preferimos a asturiano puro), asturiano híbrido y asturiano periférico, asumido éste último como una variante contactual extrema de asturiano, más bien ya castellano dialectal10. A medio plazo, estamos en la idea de crear un nuevo subcorpus específico para el castellano de Asturias, a expensas de cómo llegamos realmente a delimitarlo conceptualmente.11

5. Perspectivas de futuro Pese a la manifiesta vocación particularista (en el sentido apuntado) de Eslema, a un proyecto que, como un corpus lingüístico, se beneficia de la innovación tec9

En la misma línea y acreditando la voluntad cooperativa del equipo Eslema con otras iniciativas afines, nuestro equipo, a través del Seminariu de Filoloxía Asturiana de la Universidad de Oviedo, organizará en la primavera de 2009, en colaboración con el Muséu Etnográficu del Pueblu d’Asturies de Gijón y su Archivu de la Tradición Oral Asturiana dirigido por Jesús Suárez López, el I Congreso Internacional sobre la Tradición Oral en el que se abordarán, entre otras cosas, problemas relativos a la elaboración de corpus orales. 10 Un modelo de delimitación entre estas variedades contactuales extremas de asturiano y castellano actuales lo encontramos en D’Andrés (2002). 11 En todo caso, se trataría de una iniciativa convergente y complementaria de un proyecto de naturaleza y orientación muy similar impulsado en la propia Universidad de Oviedo por Álvaro Arias Cabal, el Corpus Oral de Asturias (CODA), para el análisis del habla urbana.

UN CORPUS LINGÜÍSTICO ASTURIANO: ESLEMA

193

nológica en el campo de la comunicación y la computación cabe exigirle también tanto una voluntad de interacción con otros grupos de trabajo afines, como de desarrollo de utilidades que, desde el ámbito de la lingüística informática, reviertan en la comunidad, tanto la de investigadores (a la que nos hemos venido refiriendo) como a la propia comunidad de habla de cuyo patrimonio lingüístico pretende dar cuenta. Ambas dimensiones, adquieren una especial relevancia en un proyecto centrado en la lengua asturiana. En primer lugar, las limitaciones en que habitualmente se mueve la investigación asturianística (de recursos, de personas, de adherencias ideológicas o prejuicios de todo género, de falta de renovación teórica, etc.) hacen particularmente deseable y necesario el intercambio y el contacto con grupos externos de similar naturaleza e intereses como posibilidad más razonable para un avance efectivo en el desarrollo de nuestros propios programas. En ese sentido, Eslema se ha ofrecido y se ofrece como plataforma asturiana para distintos proyectos de investigación lingüística. En concreto, en noviembre de 2007, Eslema ha participado en el Workshop organizado en la Facultad de Filología de la Universidad Autónoma de Madrid al objeto de explorar las posibilidades de desarrollo de un proyecto panhispánico de sintaxis dialectal, en el marco del proyecto europeo Edysin (European Dialect Syntax Project) coordinado por el Meertens Institute de Amsterdam12. La idea está activa e integraría grupos de investigación centrados en corpus dialectales de los dominios castellano, gallego, catalán y asturiano. Finalmente, el desarrollo de tecnología lingüística aplicada a un uso social más generalizado ha sido otra de nuestras vocaciones de inicio tanto por un decidido compromiso moral con la lengua asturiana y su pervivencia histórica, como por abrir por ese frente nuevas posibilidades de financiación pública o privada a partir de propuestas de desarrollo de herramientas informáticas. En concreto, de manera inmediata está prevista la suscripción de un convenio con la Consejería de Cultura del Principado de Asturias por el cual el corpus Eslema servirá de base para el desarrollo de un traductor asturiano-castellano/castellano-asturiano a partir del motor de traducción Apertium13, en lo que ya se está trabajando. El desarrollo de esta iniciativa de Eslema permitirá tanto consolidar el proyecto de corpus lingüístico como tal como habilitar una tecnología de evidente trascendencia para la normalización social y las posibilidades de supervivencia de nuestra lengua en el nuevo tiempo. A la satisfacción estrictamente científica de poder ahondar en el conocimiento de una lengua se unirá así la recompensa moral de contribuir, desde la ciencia universitaria, a una empresa de más alto alcance social y cultural.

12 13

http://www. Meertens.knaw.nl/projecten/edisyn/ .

194

XULIO VIEJO FERNÁNDEZ ET AL.

Bibliografía ÁLVAREZ-BALBUENA GARCÍA, Fernando/D’ANDRÉS Díaz, Ramón/VIEJO FERNÁNDEZ, Xulio (2006): Anuariu de la Xunta Asesora de Toponimia (2004-2005). Xixón: Editora del Norte/Gobierno del Principado de Asturias. CUETO FERNÁNDEZ, María/VIEJO FERNÁNDEZ, Xulio (2008): Onde la palabra pousa. Crestomatía de testos occidentales ente Asturias y Miranda. Uviéu: Principáu d’Asturies. D’ANDRÉS DÍAZ, Ramón (2002): “L’asturianu mínimu urbanu. Delles hipótesis”, en: Lletres Asturianes 81, 21-38. FERNÁNDEZ-CERNUDA DÍAZ, Alejandro (2008): “Sondeo neológico en la prensa digital en lengua asturiana (Asturnews 2004-2008)”, Proyecto final de Máster del Máster en Lingüística y Aplicacions Tecnològiques. Barcelona: Universitat Pompeu Fabra. GALMÉS DE FUENTES, Álvaro/CATALÁN MENÉNDEZ-PIDAL, Diego (1946): “Un límite lingüístico”, en: Revista de Dialectología y Tradiciones Populares 2, 169-239. GARCÍA ARIAS, Xosé Lluis (1991): “Sustitución llingüística a lo cabero’l sieglu XV”, en: Lletres Asturianes 42, 35-45. GARCÍA FERNÁNDEZ, Antón (2004): “Public lecteur, diffusion et thématique dans la litterature en asturien de nos jours”, en: Lenguas 56, 187-230. HINOJAL DÍAZ, Roberto (2008): Complexos léxicos de función verbal n’asturianu. Memoria de doctorado. Oviedo: Departamento de Filología Española de la Universidad de Oviedo. LAPESA MELGAR, Rafael (1995): El dialecto asturiano occidental en la Edad Media. Sevilla: Universidad de Sevilla. SAURÍ COLOMER, Roser (2003-2004): “Un corpus para el asturiano. Las tecnologías lingüísticas en la consolidación de las lenguas minorizadas”, en: Revista de Filoloxía Asturiana 3-4, 135-174 SAURÍ COLOMER, Roser/VIEJO FERNÁNDEZ, Xulio/NEIRA GARCÍA, Ángel (2008): “Eslema. Towards a Corpus for Asturian”, LREC 2008. Marrakech: inédito. SUÁREZ LÓPEZ, Jesús (2000): Tesoros, ayalgas y chalgueiros. La fiebre del oro en Asturias. Gijón: Muséu del Pueblu d’Asturies. VIEJO FERNÁNDEZ, Xulio (2003): La formación histórica de la llingua asturiana. Uviéu: Trabe. — (2004): “Las vocales velares finales en asturiano medieval: oralidad y norma”, en: Boulon Agrelo, Ana Isabel (ed.): Novi te ex nomine. Estudos filolóxicos ofrecidos ao Prof. Dr. Dieter Kremer. A Coruña: Fundación Pedro Barrié de la Maza, 589-599. — (2008): Pensar asturiano. Ensayos programáticos de sintaxis asturiana. Uviéu: Trabe.

O C O R P U S D O G A L E G O M E D I E VA L T E S O U RO M E D I E VA L I N F O R M AT I Z A D O DA LINGUA GALEGA (TMILG) RICARDO PICHEL/XAVIER VARELA BARREIRO Instituto da Lingua Galega (Universidade de Santiago de Compostela)

1. Introdución 1.1. O TMILG COMO SUBPROXECTO O Tesouro Medieval Informatizado da Lingua Galega1 constitúe a liña de investigación máis avanzada e de maior proxección externa dun proxecto moito máis amplo e ambicioso denominado Tesouro Medieval Galego-Portugués (TMGP), cuxa finalidade é pór a disposición do usuario a inmensa masa textual producida en Galicia e Portugal ao longo da Idade Media. Baixo esta etiqueta agrúpanse diversos subproxectos complementarios que o noso equipo de traballo do Instituto da Lingua Galega (ILG) vén realizando no eido da lingüística de corpus desde 1992. Así pois, o TMGP confórmase como a interacción de cinco subcórpora delimitados polos criterios glotolóxico e xeográfico, como se pode ver na seguinte figura: GRÁFICO 1

Xeograficamente, o TMGP vertébrase en dous córpora integrados por textos medievais de factura galega (Xelmírez) e portuguesa (Dom Dinis). Dentro de cada un deles opera un criterio glotolóxico, segundo o cal o primeiro corpus é 1

Na súa fase inicial este proxecto denominábase Gramática Histórica da Lingua Galega. Ofrécese información pertinente en Varela Barreiro 2004.

196

RICARDO PICHEL/XAVIER VARELA BARREIRO

arrequentado por diplomas galegos redactados non só na nesta lingua (TMILG), senón tamén en latín (TMILL-G) e castelán (TMILC-G); pola súa banda, o segundo corpus agrupa a masa textual portuguesa en romance (TMILP) e en latín (TMILL-P). Pasamos a comentar a orixe e situación actual de cada un destes subproxectos. O Tesouro Medieval Informatizado da Lingua Latina [Galicia] (TMILL-G) é debedor dos traballos de preparación de coleccións documentais plurilingües que foi achegando o equipo do Xelmírez desde o seu nacemento. Grazas a este labor, fóronse importando á base textual do proxecto un importante número de documentos e obras labrados en latín. Na actualidade a cifra ronda os 5.000, o que fai do TMILL-G un corpus abondo representativo do latín medieval galaico. Dada a existencia desde hai moitos anos do CODOLGA (Corpus Documentale Latinum Gallaeciae) e a posiblidade de consultalo on line, non é previsible a posta en rede do TMILL-G. Mais as facilidades que reporta contar con tantos diplomas latinos homologados na súa etiquetación aos do TMILG fan imprescindible continuar arrequentando as súas bases textuais. O carácter “híbrido” de moitos destes textos, canto á mistura ou alternancia do código latino e romance, fai deste subcorpus unha fonte esencial para o estudo da progresiva habilitación da scripta innovadora en detrimento do monolingüismo latino. Por outra banda, ademais da sociolingüística histórica, estanse a desenvolver tamén traballos propios de carácter onomástico, se ben na actualidade fundamentalmente centrados na toponimia. A presenza de documentos labrados en castelán entre a documentación procesada estase aproveitando para ir construíndo un corpus do castelán de Galicia (TMILC-G) que sexa abranguente de toda a historia. Na actualidade son máis 2.500 os documentos preparados. No futuro ampliarase o arco cronolóxico, comezando pola Idade Moderna, na procura dun subcorpus en castelán que vai permitir encher algunhas lagoas –especialmente léxicas e onomásticas, mais tamén fonéticas e morfosintácticas– ás que condena a precariedade do galego escrito no período medio da nosa historia. Nese momento está previsto que o TMILC-G pase a denominarse Corpus Histórico do Castelán de Galicia (CHCG). Por outra banda, nos inicios da década dos 90, estableceuse o obxectivo de construír un corpus que comprendese textos ao sur do río Miño –e tamén da franxa occidental de Asturias, León e Zamora. En diferentes momentos, como resposta ás necesidades concretas dos traballos do equipo na altura, fóronse informatizando e etiquetando obras do Portugal medieval de tipoloxía variada (TMILP e TMILL-P). Na actualidade son máis de 100 as obras que, en diferente fase de preparación, están ao dispor do equipo. Algunhas das máis significativas son: Livros de Linhagens, Tempos dos preitos, Livro dos bens de dom João de Portel, Crónica Geral de 1344, Livro de Joseph de Arimateia, Arte de bem caval-

O TESOURO MEDIEVAL INFORMATIZADO DA LINGUA GALEGA

197

gar toda sela, Demanda do Santo Graal, Foros de Castelo Rodrigo, Foro Real, Primeira Partida, Livro das aves, Cancioneiro Geral de Garcia de Resende, Documentos de Clarinda Maia, Documentos de Ana Maria Martins, Documentos de José António Souto Cabo, etc. A codificación empregada é a mesma do TMILG (vid. infra) e a súa posta en rede está prevista a medio prazo. Na actualidade atópanse abertas senllas vías de colaboración cos equipos dos profesores portugueses Maria Francisca Xavier (Universidade Nova de Lisboa) e João Malaca Casteleiro (Academia das Ciências de Lisboa). As frutíferas relacións con estes dous centros de investigación darán lugar ao desexable corpus medieval conxunto galego-portugués (TMGP). A colaboración ampliarase no futuro á elaboración do Dicionario medieval galego-portugués, botado xa andar polo equipo lisboeta co seu Dicionário do Português Medieval e que deberá ser redefinido no futuro para axeitalo ao novo horizonte.

1.2. A XESTIÓN DO TMILG: ORIXE, SITUACIÓN ACTUAL E EXPECTATIVAS Como xa adiantamos, o TMILG nace no seo do Instituto da Lingua Galega (Universidade de Santiago de Compostela) no ano 1992, se ben algúns dos membros do equipo inicial traballan hoxe noutras universidades galegas. A construción deste proxecto implica labores diversos que van do arrequentamento e diversificación do corpus (incorporación de novas fontes) ao procesamento e revisión minuciosa dos textos de acordo cunhas pautas previamente establecidas e sometidas a unha constante actualización por parte do grupo. Tendo isto en conta, non debe estrañar que no TMILG estean implicadas persoas de extraccións e condicións diversas: bolseiros, investigadores contratados da Universidade de Santiago de Compostela e mesmo voluntarios procedentes principalmente dos derradeiros cursos da titulación de Filoloxía Galega, así como dos distintos programas de doutoramento directa ou indirectamente relacionados coa lingua galega medieval. O proxecto diríxeo Xavier Varela Barreiro e conta con dous investigadores responsables de cadansúa sección: Ricardo Pichel (fontes documentais e edición de textos) e Paulo Martínez Lema (codificación do corpus). Os integrantes do equipo de traballo do TMILG2 encárganse principalmente da revisión e corrección das coleccións documentais asignadas en cada caso e en función das necesidades máis inmediatas do proxecto3. 2 A día de hoxe, ademais dos citados, figuran os seguintes: Amparo Cereixo Silva, Rocío Dourado Fernández, Iria Pérez Mariño e Iago Santiso Fernández. 3 É xusto recoñecer, por outra banda, que o TMILG non sería un proxecto posible nin viable sen o apoio de distintas institucións, entre as cales débese salientar a propia Universidade

198

RICARDO PICHEL/XAVIER VARELA BARREIRO

O TMILG foi posto en rede por vez primeira no ano 2004 contando coa axuda técnica e informática do Centro Ramón Piñeiro (CIRP), que o tivo accesible no seu servidor ata setembro do ano 2006. Ao longo dese período rexistráronse varios centos de usuarios regulares, concretándose máis de 23.000 consultas en pouco menos de 4.500 sesións, dato que deixa constancia do interese e utilidade dun produto coma o TMILG. En decembro de 2007 o buscador trasladouse á páxina web do ILG (www.ilg.usc.es/tmilg), incorporando nesta nova versión novos modos de busca, de asociacións gráficas e de cálculo de estatísticas (vid. infra). As expectativas de futuro do TMILG son certamente prometedoras, sobre todo no tocante á multiplicidade de proxectos que, directa ou indirectamente, derivan del. No terreo estritamente lexicográfico participará na elaboración do Dicionario Histórico da Lingua Galega e mais do Dicionario Medieval GalegoPortugués, este último en colaboración con equipos da Universidade Nova de Lisboa. Tamén se está a traballar na Dialectoloxía Medieval Galego-Portuguesa e, nunha fase máis avanzada, na Gramática Histórica da Lingua Galega, no Inventario Toponímico da Galicia Medieval e na edición paleográfica de distintas obras medievais, tanto literarias como notariais4. Por último, salientemos que o TMILG, xunto co TILG, os dous Dicionarios de Dicionarios (o medieval –DDMLG– e mais o moderno –DDLG) e o Seminario de Lingüística Informática da Universidade de Vigo, está a participar na construción dunha plataforma de recursos informáticos integrados para a investigación da lingua galega (RILGA), co patrocinio do Ministerio de Educación e Ciencia.

2. O corpus do TMILG: estrutura e características 2.1. XÉNESE TEXTUAL O Tesouro Medieval Informatizado da Lingua Galega abrangue a día de hoxe máis de 16.000 documentos, distribuídos á súa vez nun total de 82 obras e reprede Santiago de Compostela, que xa desde as orixes ofreceu un marco espacial de traballo axeitado no Instituto da Lingua Galega, así como o propio persoal investigador. A nivel estritamente económico cómpre destacar as achegas da Secretaría Xeral de Política Lingüística, que veu prestando apoio neste sentido desde as fases máis embrionarias do TMILG, e o Ministerio de Educación e Ciencia. 4 Algunhas das obras literarias traballadas son as seguintes: Cantigas de Santa María, Historia Troiana ‘bilingüe’, Tratado de Albeitaria, Miragres de Santiago, Xeral Historia. Canto á prosa instrumental, podemos citar diversas coleccións diplomáticas monacais, nestes momentos en estado avanzado de transcrición: Sto. Estevo de Chouzán, S. Salvador de Sobrado de Trives, Sta. María de Pesqueiras, Sta. María de Ferreira de Pallares, etc.

O TESOURO MEDIEVAL INFORMATIZADO DA LINGUA GALEGA

199

sentativos das tres grandes categorías en que se articula a produción textual da Galicia medieval: a prosa notarial, a prosa non notarial e a lírica. No entanto, o peso cuantitativo de cada unha delas é moi desigual, como se pode observar na gráfica seguinte: GRÁFICO 2

Dos tres grupos que vimos de mencionar, o que maior volume de texto achega é sen dúbida a prosa notarial, que constitúe por si soa case un 80% do total. Esta abundancia cuantitativa ten o seu correlato nunha grande riqueza de subtipos textuais, se ben esa diversidade pode reducirse en última instancia a cinco grandes grupos, os mesmos detectados por Vázquez Bertomeu (2001: 69-82) para a produción notarial da Terra de Santiago no séc. XV. Eses grupos son os seguintes: a) Documentos referentes á adquisición e xestión do patrimonio: neste grupo, quizais o máis amplo e variado, incluímos vendas, traspasamentos, desembargos, aforamentos, arrendamentos, alugueiros, nominacións, almoedas, doazóns, concambias, etc. Cómpre lembrar que moitos destes tipos presentan á súa vez subtipos específicos, como ocorre p. ex. nos aforamentos, categoría moi ampla que pode xebrarse en subconxuntos tex-

200

b)

c) d) e)

RICARDO PICHEL/XAVIER VARELA BARREIRO

tuais máis reducidos como os traspasamentos de foro, o subaforamento, a renovación de foro, etc. Documentos relativos ao mundo mercantil e ás transaccións comerciais: gardas, peñoramentos, fianzas, etc. formarían este segundo subconxunto textual. Documentos administrativos: memoriais, inventarios de bens, apeos, etc. Documentos pertencentes ao ámbito familiar e doméstico: nesta categoría incluímos textos como as mandas, testamentos, codicilos, dotes, etc. Escritos de tipo xeral: testemuños, procurazóns, poderes, avinzas, sentenzas, renunciamentos e quitazóns, albalás, outorgamentos, demandas, frontas, etc.

A estas cinco categorías xerais podemos engadirlles aínda outras dúas representadas por documentos de características temáticas bastante peculiares, mais que veñen especificamente singularizados polo contexto institucional en que se xeraron. Referímonos, por un lado, aos documentos reais (privilexios, acoutamentos, mandatos, ordenanzas, pesquisas) e, polo outro, aos documentos eclesiásticos e especialmente aos relativos á regulación interna monástica (cartas de irmandade, decretos de anexión, repartimentos, restauracións monásticas, etc). Desde o punto de vista dos focos xeradores de documentación, o TMILG permítelle ao usuario acceder á documentación elaborada tanto nos núcleos eclesiásticos (catedrais, mosteiros, parroquias, sínodos) como nos civís (concellos, universidades, documentos de carácter privado e outros textos de natureza diversa). Porén, é o primeiro grupo, o da prosa notarial relixiosa e máis concretamente a de procedencia monacal, a que goza dunha maior presenza numérica dentro do corpus. Neste sentido, están xa incorporadas ao TMILG un total de 40 coleccións documentais procedentes de diversos mosteiros das catro provincias galegas. Ademais, están xa revisadas, preparadas e listas para a súa inminente inclusión varias coleccións diplomáticas de mosteiros pertencentes aos territorios galegófonos de Asturias, Zamora e León. A listaxe inferior ofrece os principais centros monásticos cuxa documentación foi integrada no corpus (gráfico 3). Na seguinte gráfica visualízase a relación porcentual existente entre as distintas procedencias xeográficas da documentación cenobítica do TMILG, tomando como referencia o marco administrativo actual. Deste xeito, podemos observar algúns datos congruentes tanto co decorrer da historia medieval galega e, nomeadamente, coas tendencias xeográficas dos asentamentos monásticos no Noroeste peninsular: p.ex., comprobamos que a provincia que maior cantidade de coleccións documentais achega é Lugo, e máis en concreto a súa vertente meridional, que, xunto cos territorios máis setentrionais da provincia de Ourense artellados ao redor do río Sil e Miño, constitúe unha área especialmente rica no que a institucións monásticas se refire: a Ribeira Sacra. Por outra banda, resalta a precariedade documental que

O TESOURO MEDIEVAL INFORMATIZADO DA LINGUA GALEGA

GRÁFICO 3

201

202

RICARDO PICHEL/XAVIER VARELA BARREIRO

presenta a provincia de Pontevedra (4 coleccións), mesmo superada de feito polos territorios galegófonos hoxe administrativamente asturianos e castelán-leoneses (5 coleccións). A provincia da Coruña, pola súa banda, proporciónalle ao TMILG 9 coleccións documentais, se ben hai que ter en conta o considerable peso cuantitativo e cualitativo que teñen os mosteiros radicados en Santiago de Compostela, capital eclesiástica de extraordinaria relevancia neste sentido. GRÁFICO 4 Coleccións documentais monásticas no TMILG

O segundo grupo en importancia cuantitativa é o da prosa non notarial, que comprende aproximadamente o 15% do total dos textos. Está representada por obras ou fragmentos de obras pertencentes a cinco grandes bloques temáticos ben coñecidos e delimitados. a) Prosa literaria: pertencen ao xénero da narrativa extensa a Crónica Troiana (CT), a Historia Troiana (HT) e mais o fragmento conservado do Livro de Tristan (LT). b) Prosa histórica: como sabemos, a historiografía medieval conservada en lingua galega nútrese exclusivamente de traducións feitas sobre orixinais noutras linguas, nomeadamente o castelán5: a Xeral Historia (XH), a Crónica Xeral e Crónica de Castela (TC). 5

Cómpre matizar que, tanto na prosa literaria como na histórica, as traducións galegas dalgúns textos baséanse en versións castelás que atoparon a súa orixe, á súa vez, nun texto

O TESOURO MEDIEVAL INFORMATIZADO DA LINGUA GALEGA

203

c) Prosa relixiosa: no TMILG rexístranse tres obras deste tipo, os Miragres de Santiago (MS), a Crónica de Santa María de Iria (CI) e un fragmento do tratado Sobre a simonía (SaS). Non sabemos da existencia, cando menos a día de hoxe, de obras prosísticas galegas medievais pertencentes ao xénero da haxiografía, a catequística ou o sermón, por exemplo. d) Prosa técnica: no noso corpus inclúense dúas obras que, polo seu carácter descritivo e directivo, poden clasificarse sen maiores problemas dentro desta categoría, se ben cada unha delas desenvolve temáticas ben distantes entre si. Por unha banda, a Arte de Trobar (AT) inscríbese dentro do ámbito da teoría poética e, a un nivel máis amplo, no mundo das ciencias sociais e humanas; en cambio, o Tratado de Albeitaria (AT) céntrase no terreo da hipiatría e, xa que logo, pode considerarse un manual de ciencias aplicadas, o único existente a día de hoxe na nosa tradición prosística medieval. e) Prosa xurídica: aínda carecendo de tratados xurídicos propiamente ditos, a prosa galega medieval si conta cun amplo repertorio de ordenamentos e códigos legais, todos eles xa dispoñibles no TMILG: referímonos aos fragmentos conservados do Foro Xuzgo (FX), Flores de Dereito (FD), Foro Real (FR), Glosas de Textos Legais (GTL) e o Ordenamento de Alcalá de Henares (OA), así como a versión completa conservada dos Foros de Castelo Rodrigo (FCR). A todas estas obras hai que lles engadir aínda os distintos fragmentos das sete Partidas de Afonso X, na súa tradución ao galego. Finalmente, os textos en verso (todos eles pertencentes ao subxénero lírico nas súas distintas variantes), a pesar da súa innegable relevancia cualitativa dentro da produción escrita galega medieval, son os menos numerosos do noso corpus textual e supoñen aproximadamente un 5% do mesmo. Este conxunto pode dividirse á súa vez en dous grupos atendendo á cronoloxía e á tradición estética na que se inscriben os textos: a) Lírica trobadoresca, que abrangue grosso modo as derradeiras décadas do séc. XII, a totalidade do s. XIII e a primeira metade do s. XIV. No TMILG podemos consultar os distintos subxéneros da vertente profana, maioritariamente agrupados baixo as siglas LP (Lírica Profana), con excepcións como o descort plurilingüe de Raimbaut de Vaqueiras (DPRV), xoia poética que inclúe unha estrofa en galego, ou o texto Us Castellans (UC) de occidental (redactado en galego ou portugués) hoxe perdido. Isto é o que acontece, como se veu demostrando en diversas ocasións (Lorenzo 1985, 2003), nas obras pertencentes ao ciclo temático de Troia (CT, HT) ou a textos de materia histórica (TC).

204

RICARDO PICHEL/XAVIER VARELA BARREIRO

Raimón Vidal de Besalú. Completan este rico corpus lírico as Cantigas de Santa María, tanto as narrativas como as propiamente líricas ou de loor, no que constitúe o fundamental monumento poético de temática relixiosa con que conta a nosa tradición literaria medieval, complementado pola Cantiga de Valcavado. b) Lírica da decadencia (CGC) ou, atendendo á denominación máis comunmente aceptada e empregada, escola galego-castelá, que se desenvolve ao longo dos sés. XIV e XV.

2.2. CRONOLOXÍA E GLOTOLOXÍA DOS TEXTOS Desde o punto de vista da cronoloxía, o corpus do TMILG cobre un período amplísimo que vai do séc. VIII ao XVII. O diploma máis antigo é unha doazón (a. 787) procedente do mosteiro de Sta. María de Sobrado dos Monxes6. Aínda que no TMILG podemos atopar representadas diversas linguas, o certo é que soamente o galego(-portugués), o latín e o castelán teñen verdadeira presenza como linguas vehiculares preferentes dos textos. Deste xeito, por volta de 16.000 das pezas consultables están labradas no noso idioma, fronte ás aproximadamente 5.000 redactadas en latín e as non desdeñables 2.500 en castelán.

3. Microestrutura do TMILG 3.1. O PROCESAMENTO E ETIQUETAXE DOS TEXTOS Unha das fases de maior relevancia do proceso de tratamento dos textos consiste na previa etiquetaxe dos mesmos, aplicándolles un encabezamento no que se fan constar distintos ítens informativos, que podemos agrupar da seguinte maneira: a) Rexesto: inclúese o rexesto literal redactado polo editor para cada documento, mais prescindindo de informacións complementarias como, p. ex., a cota arquivística ou os detalles codicolóxicos, etc. b) Título da obra: no TMILG combínase o título extenso da obra (regularizado e traducido sempre ao galego) cun título en clave formado xeralmente a partir das iniciais daquel (p.ex. Colección Diplomática do Mosteiro de Oseira = CDMO).

6

Editada por López Ferreiro no seu Galicia Histórica (1901: 626-7, cap. 113).

O TESOURO MEDIEVAL INFORMATIZADO DA LINGUA GALEGA

205

c) Información autorial, isto é, o nome do autor de cada documento: neste punto faise constar, en primeiro lugar, o nome do autor con todos os seus posibles atributos tal e como figuran no texto (p. ex., Johannes Petri, notarius concilii Noye juratus), mentres que nun segundo momento rexistramos unicamente a cadea antroponímica illada, sen ningún tipo de información complementaria (Johannes Petri). Contémplase tamén a posibilidade da autoría múltiple coas súas diversas variantes, entre as cales salientan como máis habituais a presenza dun notario e dun escribán ao seu servizo (caso no que figura sempre en primeiro lugar o nome do notario), a participación de varios notarios ao mesmo nivel na xénese do documento, etc. Todas estas opcións contan cun sistema de codificación específico dentro da etiqueta Autoría. d) Información cronolóxica: sinálanse o século e o ano concreto nos que foi redactado cada documento. Tamén fixemos constar o ano no que o documento en cuestión foi copiado ou trasladado, información que explica moitas das distorsións léxicas, gráficas ou doutro tipo observables nos textos. e) Transmisión textual, isto é, se o documento en cuestión é un orixinal, unha copia, un traslado, un rexesto, unha tradución, unha falsificación, etc. f) Información lingüística: indícase a lingua do texto mediante unha serie de claves numéricas específicas, e nos documentos traducidos exprésase ademais a lingua en que foi redactado o orixinal. Na revisión do material textual ponse especial atención en illar, mediante os marcadores oportunamente establecidos, aqueles treitos, capítulos ou mesmo textos enteiros escritos en linguas distintas do galego. Deste xeito, o corpus do TMILG pode dividirse en varios subconxuntos desde o punto de vista glotolóxico, un dos cales é precisamente o dos documentos híbridos (vid. supra § 1.1). O TMILG, como xa indicamos, abrangue desde textos moi temperáns, con fortísima presenza do latín, ata textos moi serodios, nos que o castelán consegue hexemonizar xa a práctica escrita. Fica polo medio unha importante masa textual ao longo da cal imos asistindo á progresiva emerxencia e consolidación do romance galego-portugués como lingua escrita, sempre en tensión coa tradición escriptográfica latina precedente e coa paulatina intromisión do castelán a partir do s. XIV. Xa que logo, a porcentaxe de textos híbridos resulta considerable, e o TMILG permítenos explotar as potencialidades que esta realidade lle ofrece ao investigador en eidos moi diversos que van desde a lexicografía á sociolingüística, pasando pola fraseoloxía ou a onomástica. g) Información xeográfica: nesta etiqueta indícase a demarcación ou demarcacións onde exercía o seu labor o notario responsable da creación do documento. Cando se descoñece tal dato, figura tan só o lugar concreto no que foi redactado o texto. Este apartado, como se comprenderá, resulta de especial interese para os historiadores e para os toponimistas, pois sempre se procura representar a forma lingüística exacta coa que aparece nomeada no documento esa referencia xeográ-

206

RICARDO PICHEL/XAVIER VARELA BARREIRO

fica concreta, así como, na medida do posible, contextualizala dentro dos parámetros administrativos que lle corresponderían na actualidade (provincia, concello, freguesía, etc.). Por outra banda, cómpre lembrar que a vinculación dun notario cunha determinada xeografía ou xurisidición pode levar aparellado o emprego duns hábitos escriturais particulares a nivel léxico, gráfico e/ou morfosintáctico. Por tanto, o estudo desas relacións pode ser de grande utilidade para ir artellando un modelo de dialectoloxía medieval do romance galego-portugués. h) Tipoloxía documental do texto: sinálase se o documento en cuestión responde ás características temáticas e/ou estruturais dun contrato de aforamento, dunha doazón, dunha venda, etc. Co fin de ir creando un repertorio amplo e representativo faise constar sempre o nome que se lle dá no texto á acción xurídica da que este emana, mais tamén os sintagmas (moitas veces fosilizados e convertidos en verdadeiras fórmulas fixas asociadas a unha tipoloxía textual concreta) utilizados para expresar a natureza da dita acción. P.ex., a tipoloxía ‘doazón’ aparece representada nesta etiqueta por substantivos como doaçon, dationem, donationem, scripturam testamenti et donationis, etc., e por sintagmas verbais como dono et concedo, concedo et offero, do et offero, do et dono et offero, etc. Nestas secuencias obsérvanse as distintas posibilidades combinatorias duns elementos léxicos máis ou menos constantes e recorrentes, e desde logo moi ligados semanticamente á acción que xera e xustifica o documento en cuestión. Neste sentido, a expresión das últimas vontades do testador ilustra, de novo, esta riqueza léxica: substantivos transparentes como testamentum, mandatione, manda, ordinatione ou codeçilo (coas múltiples variantes gráficas existentes en cada caso) conviven no corpo do documento con fórmulas como uolo ut omnia mea ordinata remaneant, ordino et faço meu testamento, etc. En definitiva, este apartado do encabezamento ofrece unhas posibilidades nada desprezables no estudo do léxico medieval e da súa vinculación semántica máis ou menos sistemática a unhas determinadas accións xurídicas. Por outra banda, a variedade documental novidosa en relación ás clasificacións canónicas de historiadores e paleógrafos é significativa, como tamén o son as denominacións utilizadas para identificar cada un deses tipos; unha nomenclatura que en galego é moitas veces debedora da tradición castelá. Deste xeito, o procesamento de documentación para o TMILG permítenos rescatar termos ata o de agora ausentes dos manuais e dicionarios ao uso, cando menos cos matices semánticos cos que concorren na documentación medieval. P. ex., xunto ao corrente deslinde ou deslindar (establecemento dos lindes dunha propiedade), testemúñase tamén a forma sinonímica devisar ou devisaçon. Noutros casos, o proceso de revisión de textos permítenos tamén identificar certos subtipos textuais caracterizados por matices xurídicos, estruturais e/ou mesmo lingüísticos que os diferencian do tipo textual máis xenérico no que se incardinan: p. ex.,

O TESOURO MEDIEVAL INFORMATIZADO DA LINGUA GALEGA

207

ademais de foro/aforamento atéstanse subcategorías xuridicamente nítidas como: cesión de foro, confirmación de foro, demisión de foro, devolución de foro, traspasamento de foro, subaforo, nomeamento de foreiros, etc7. i) Información editorial: neste derradeiro apartado do encabezamento rexístrase a páxina da obra na que comeza o documento, así como o rango de páxinas que abrangue. Tamén se fai constar o capítulo da edición que lle corresponde a cada documento.

3.2. A NOVA DTD A información ata aquí presentada constituía o encabezamento inicial do corpus, que veu funcionando, con certos reaxustes puntuais, ao longo destes case 20 anos de vida do TMILG. Na actualidade o grupo de investigación desenvolveu un novo e máis ambicioso etiquetario (DTD) no que se recolle toda a información pertinente non só de cada documento en particular, senón tamén do conxunto da obra ou volume no que se atopa. Os ítens informativos contemplados nese novo encabezamento son esencialmente os mesmos aos que se veu recorrendo ata o de agora, pero moito máis matizados e detallados, como veremos a continuación. Ademais, incorpórase toda a información de tipo arquivístico e codicolóxico existente para cada documento e moitas veces accesible xa a través das propias edicións dos textos. Así pois, a nova DTD do corpus vertébrase en dúas cabeceiras complementarias, tendo en conta a identificación do conxunto da obra (encabezamento xeral) e a de cada documento dentro da obra (encabezamento individual). Velaí unha descrición principal da nova etiquetaxe do TMILG: 1. Encabezamento xeral 1.1. Información da versión electrónica do texto: • título por extenso • título abreviado • versión (1ª, 2ª, 3ª...) • extensión do arquivo: nº de palabras e caracteres. 1.2. Descrición bibliográfica: • autoría: autor(es) e/ou editor(es) • título orixinal • datos da publicación 1.3. Revisión do procesamento do texto: • 1º asentamento/corrección: preparación do propio texto e etiquetaxe

7

Para unha aproximación á rendibilidade tipolóxica do TMILG vid. Martínez Lema 2009.

208

RICARDO PICHEL/XAVIER VARELA BARREIRO

• 2º asentamento/corrección: marcaxe onomástica, locutiva, unión e separación de palabras 2. Encabezamento individual 2.1. Localización do documento na obra: sección/capítulo, páxina, rango de páxinas. 2.2. Datación crónica: • século e ano: os números 1 e 2 fan referencia á transmisión textual básica do documento (copia e orixinal respectivamente) • era: hispánica, cristiá ou outras datacións (períodos correspondentes a papados, reinados, etc.) • día da semana • quotum: calendario moderno (día do mes, mes e forma literal) e calendario romano 2.3. Datación tópica: • circunscrición notarial (de todos os amanuenses implicados na confección do texto: notario(s), escribán, notario substituto, etc.): – referente xeográfico administrativo – referencia medieval: forma literal e estandarizada (lema, vid. nota 7) – referencia moderna: forma actual, tipoloxía referencial, freguesía, concello, provincia • lugar de redacción do documento 2.4. Autoría, isto é, o(s) notario(s) implicados na conscriptio do documento • nome: inclúense todas as denominacións presentes no texto – forma extensa (literal) – forma abreviada (literal) – forma estandarizada8, a partir da forma abreviada – lingua na que está redactado • signum notarial: gráfico (incorpórase a imaxe) ou verbal • condición: notario substituto, encomendante, escribán, etc. 2.5. Tipoloxía documental: • natureza xurídica: texto dispositivo ou non dispositivo, segundo a súa escriturización teña transcedencia de dereito ou non • tipoloxía xeral (vid. § 2.1) • tipoloxía específica (vid. 2.1): – fórmula antiga literal – fórmula da acción xurídica – forma moderna estandarizada • subcategoría tipolóxica (vid. § 3.1.h)

8 A elaboración de formas estandarizadas para os nomes dos notarios medievais segue pautas en certa medida coincidentes coas da lematización dos topónimos nas súas formas medievais, e facilita a identificación de moitos notarios (así como a compilación da súa obra textual) cuxa identidade aparece por veces diluída nas diversas variantes formais do seu nome.

O TESOURO MEDIEVAL INFORMATIZADO DA LINGUA GALEGA

209

2.6. Participantes. Para cada unha das figuras xurídicas implicadas na actio documental indícase a seguinte información: natureza (particular, institucional), condición (eclesiástica, civil, real), nome, profesión, outras referencias: • concedente • representante (do concedente) • concesionario ou destinatario 2.7. Lingua. Indícase, en coherencia co punto 2.2 deste esquema, a lingua na que está redactado o orixinal e, de ser o caso, a copia. A posibilidade de documentos lingüisticamente híbridos contémplase mediante a combinación das cifras correspondentes a cada unha das linguas coexistentes, sempre na orde que corresponda á importancia de cada idioma concreto dentro do documento. 2.8. Aspectos editoriais, codicolóxicos e paleográficos: • transmisión textual (vid. § 3.1.e) • mecanismos de autenticación (na documentación dispositiva): signum, sigillum, quirógrafos, etc. • rexestos: antigo (medieval e/ou moderno) e actual (de editor). Nos dous casos procúrase o contido, o autor e a data. • información arquivística: arquivo, fondo ou sección, caixa, carpeta ou cartafol, número, foliación, etc. • información codicolóxica: soporte (pergameo, papel), tipo de letra, tamaño do soporte, estado de conservación • edicións actuais dispoñibles: inclúese tanto a referencia bibliográfica como o tipo de edición (interpretativa, paleográfica, crítica...) e o seu aproveitamento ou rendibilidade como fonte de estudo (histórica, filolóxica, paleográfica...) • outras versións do texto: no caso de que existan copia(s), traslado(s), etc. do documento en cuestión. Nese caso, procúrase a información arquivística e codicolóxica pertinente

A continuación, na seguinte táboa ilustramos cada un destes aspectos aplicados a un documento en concreto (editado en apéndice). Escollemos un texto pertencente á transcrición dunha colección diplomática monacal levada a cabo polo equipo de traballo do proxecto.

210

RICARDO PICHEL/XAVIER VARELA BARREIRO

O TESOURO MEDIEVAL INFORMATIZADO DA LINGUA GALEGA

211

212

RICARDO PICHEL/XAVIER VARELA BARREIRO

4. Cabo. Tarefas en marcha Nunha segunda e máis fonda fase de revisión, o equipo do TMILG leva traballando desde os comezos do proxecto na marcaxe onomástica mediante os indicadores previamente convidos. Os elementos onomásticos considerados son, fundamentalmente: topónimos, antropónimos, títulos de obras, nomes de días e de meses, nomes de institucións... Este labor realizado é o que permite o desenvolvemento actual de proxectos como o xa mencionado Inventario Toponímico da Galicia Medieval. Na actualidade atopámonos no proceso de lematización do corpus. A súa planificación e codificación orixinou un etiquetario gramatical estruturado conforme a parámetros fundamentalmente morfolóxicos. A partir deles, fóronse implementando os distintos valores lingüísticos de cada categoría gramatical: adxectivo, substantivo (común e propio), pronome (tónico, átono [clítico], posesivo, artigo, demostrativo, de identidade, cantidade, existencial, relativo, etc.), adverbio (afirmación, cantidade, dúbida, lugar modo, aspecto, etc.), verbo, conxunción (coordinante, subordinante), preposición, interxección, unidades marxinais. Algúns dos parámetros morfolóxicos codificados para cada categoría, a partir dos cales se vén confeccionando o lemario medieval, son os seguintes: número (‘1’ singular, ‘2’ plural, ‘w’ singular/plural), xénero (‘1’ masculino, ‘2’ feminino, ‘3’ neutro, ‘4’ humano [masc./fem.], ‘w’ masculino/feminino), persoa (‘1’ primeira, ‘2’ segunda, ‘3’ terceira, ‘5’ terceira por segunda, ‘w’ 1ª/2ª/3ª ou 2ª/3ª.), modo (‘1’ indicativo, ‘2’ subxuntivo, ‘3’ imperativo, ‘4’ infinitivo, ‘5’ xerundio, ‘6’ participio), tempo (‘1’ presente, ‘2’ pretérito, ‘3’ futuro, ‘4’ copretérito, ‘5’ antepretérito, ‘6’ pospretérito), estrutura (no verbo: ‘d’ derivado, ‘li’ locutivo infinitivo, ‘lx’ locutivo xerundio, ‘lpc’ locutivo participio concertado, ‘lvpnn’ locutivo participio non concertado en número, etc.). En definitiva, camiño do primeiro lustro de vida en rede, O TMILG converteuse nunha ferramenta indispensable para achegarse ás múltiples vertentes da cultura galega medieval, con especial relevancia das dimensións lingüística e histórica. Caracterizado polo abondoso material textual que constitúe o corpus de base, e pola súa diversidade tipolóxica e lingüística, o TMILG representa unha achega multidisciplinar a un período da nosa historia especialmente rico e aínda non totalmente explotado en todas as súas múltiples posibilidades. Con estas páxinas queremos formalizar unha invitación para todos.

O TESOURO MEDIEVAL INFORMATIZADO DA LINGUA GALEGA

213

6. Apéndice 1283, marzo, 21. Dona Sancha López, prioresa do mosteiro de Chouzán, outorga a Xoán Domínguez e a súa muller Sancha Rodríguez a metade do foro de Camseyda. A. AHN, Clero, A Coruña, S. Paio de Antealtares, carp. 522, nº 7 (sign. ant. AHN leg. 312, nº 78; ant. AA mazo 4, nº 6). Quirógrafo (abcde). Galego. Gótica documental cursiva. 275 x 190 mm. Excelente estado de conservación. Apuntamentos ao dorso. Rexestos modernos: “Foro echo por la priora, doña Sancha, de Chozan de ciertas heredades por las quales dan vn tocino, VJ gallinas y màs, como se contiene en este foro”. Outra man engade: “A Pedro Muñiz”. Outros dous escribáns anotan: “Choçan” e “de Cansayda”. En letra coetánea ao documento, foi escrito na marxe inferior: “Do foro de Cansayda”.

[Jn De]j nomine, amen. Conozuda cousa seya a quamtos esta carta uirem que eu, dona Sancha |2 [Lo]pez, prior do moesteyro de Sancto Esteuáó de Chouzam, con conselo e con outorgamento do conuen|3[to] das donas desse méésmo lugar, damos e outorgamos a uos, Joham Dominguez, e a uossa |4 moler Sancha Rodriguez e, de|pus uossa morte de uos ambos, a uosos filos e fi|5las e a uosos netos e netas de uos ambos sobredictos, a meadade do foro e da er|6[dade de] Cam|seyda, assy como se departe pelo foro da Cela e uay ferir áó ríó do Mi|7[n]o, e da outra parte como uay a agua de Toques e intra áó rio do Mino e in|8de como se uay afesto e uay ferir áó Foro dos Condes, e inde como s\e/ uay a ay|9ra de Munio Diaz e inde como se uem a dereyto áó foro da Cela. Per tal prey|10to e per tal condizon que tenades este foro e esta erdade in toda uossa uida de uos |11 ambos de|suso dictos, e depus uossa morte de uos ambos téérena uosos fi|12los e filas e uosos netos e netas in toda sa uida. E que a lauoredes e pare|13des bem, e que seyades uassalos do moesteyro de Chouzam seruentes e obe|14dientes, e que dedes ende in cada un ano áó moesteyro de Chouzam per seu ma|15ordomo meadade de uino no lagar e meadade de todo pam que y lauorar|16des na eyra, posta a semente de consúó, e meas de castanas e de nozes se|17cas e limpias, assi comó ás arendaren os outros oméés do móésteyro. E de toda|18las outras cousas que y lauorardes e chamtardes dardes inde meo, saluo in|19de que non dedes nunca do nabal que y lauorardes. E dardes in cada un ano un |20 toucino no mes de yaneyro que uala XVJ soldos da móéda da guerra, e quatro ga|21linas. E dou|uos y demais a uos sobredictos e a uosos filos e a uosos netos to|22dalas pesqueyras que som feitas, e quamtas mays y poderdes fazer in este fo|23ro e in

214

RICARDO PICHEL/XAVIER VARELA BARREIRO

este termio de|suso dito que as fazades, e que dedes delas sempre áó moestey|24ro iam dito per seu máórdomo méó e dizemo do pescado que y filarem. E se per uen|25tura in este foro quiserdes fazer casas in este foro sobredito e morar in elas, |26 fazerdelas e non uos séér refertado do móésteyro. Et todalas outras cou|27sas que uos y ouuerdes e criardes e gáánardes nuncas inde a uos mais deman|28dem do moesteyro de Chouzam por razom deste foro e desta erdade. Sobre todo |29 esto se per uentura ouuerdes algua mingua ou necessidade que este foro queyra|30des uender ou sopinorar, uenderdes ou supinorardes áó moesteyro de Cho|31uzam; e se do moesteyro comparar non quiserem, entom uenderdes áá tal homee que9 |32 seya semelauel de uos con conselo e con outorgamento do moesteyro, e que sempre |33 in paz faza o foro áó moesteiro qual de|suso dito e. Sobre todo esto se per uentu|34ra uéér intre uos e o moesteyro algua ignoranza ou queixida que seya de |35 melorar ou de correyer, corregase a mandado de dous oméés bóós comuna|36es postos a prazer das partes; e a parte que non quiser comprir o mandado dos oméés \boos/ e non |37 guardar o prazo peite áá outra parte pela auctoridade del rey C morauidis de |38 pea da moeda que corer, e o preito e a carta estando sempre in seu reuor permae|39cente. Feyta a carta X dias por andar de marzo, sub Era Ma CCCª XXaJa. Reg|40naua in Léóm e in Castella e na Anda|luzia rey dom Affonso. Os que presentes |41 forom: Domingo Iohannis, capelam do moesteyro, testemuya, e Pedro Sancíj Peuedro, testemuya, e Pedro |42 Uelo, testemuya, e Ruy Gunsaluez, capelam de Chouzam, testemuya, e Pedro Muniz de Greyóá, testemuya, |43 e Pedro Martiz de Páázos e Ffernam Garsia d’ y, testemuyas; et outros muytos que o |44 uirom e o oyrom. Eu Joham de Castro, notario iurado in terra de Teméés |45 e téénte as uezes de Ruy Perez, notario publico del rey in Monteroso, que fuy presente |46 e escriuj esta carta per mandado das partes e puye y meu sinal in testemuyo de |47 uerdade (signo: Johan Perez). |48 Sobre todo esto sempre amparem a uos do moes|49teyro, assy como os outros seus oméés |50 que bem defesos forem.

9

A mesma forma aparece repetida no inicio da liña seguinte.

O TESOURO MEDIEVAL INFORMATIZADO DA LINGUA GALEGA

215

7. Referencias bibliográficas CODOLGA = José Eduardo López Pereira (dir.): Corpus Documentale Latinum Gallaeciae. Santiago de Compostela: Xunta de Galicia, Centro Ramón Piñeiro para a Investigación en Humanidades, . DDMLG = Ernesto González Seoane (dir.) (2006): Dicionario de dicionarios medieval. Anexo 57 de Verba. Santiago de Compostela: Universidade de Santiago de Compostela. DDLG = Antón Santamarina (ed.) (2003): Diccionario de diccionarios. Versión 3. A Coruña: Fundación Pedro Barrié de la Maza / Instituto da Lingua Galega. LÓPEZ FERREIRO, Antonio (ed.) (1901): Galicia Histórica. Colección diplomática. Santiago: Tipografía Galaica, 626-627. LORENZO, Ramón (1985): Crónica Troiana. A Coruña: Fundación Pedro Barrié de la Maza. — (2002): “La interconexión de Castilla, Galicia y Portugal en la confección de las crónicas medievales y en la transmisión de textos literarios”, en: Revista de Filología Románica 19, 93-123. MARTÍNEZ LEMA, Paulo (2008): “Un corpus para o estudo do galego medieval: o TMILG (Tesouro Medieval Informatizado da Lingua Galega)”, en: González, Ernesto/Santamarina, Antón/Varela, Xavier (eds.): A lexicografía galega moderna. Recursos e perspectivas. Santiago de Compostela: Instituto da Lingua Galega / Consello da Cultura Galega, 217-223. PICHEL, Ricardo (2009): Fundación e primeiros séculos do mosteiro bieito de Santo Estevo de Chouzán (ss. IX-XIII). A Coruña: Toxosoutos (Col. Trivium, nº 36). TILG = Antón Santamarina (dir.) (2004): Tesouro Informatizado da Lingua Galega. Santiago de Compostela: Instituto da Lingua Galega, . TMILG = Xavier Varela Barreiro (dir.) (2004): Tesouro Medieval Informatizado da Lingua Galega. Santiago de Compostela: Instituto da Lingua Galega, . VARELA BARREIXO, Xavier (2004): “Un proxecto do ILG no abalo da Gramática Histórica da Lingua Galega”, en: Álvarez, Rosario/Fernández, Francisco/Santamarina, Antón (eds.): A Lingua Galega: Historia e actualidade. Actas do 1º Congreso Internacional (16-20 de setembro de 1996). Vol. II, Santiago de Compostela: Instituto da Lingua Galega / Consello da Cultura Galega, 649-684. VÁZQUEZ BERTOMEU, Mercedes (2001): Notarios, notarías y documentos en Santiago y su tierra en el siglo XV. Sada (A Coruña): Ediciós do Castro.

E L P R OY E C T O D E “ E D I C I Ó N D E L F I C H E R O M A N U S C R I T O D E L É X I C O J U D E O E S PA Ñ O L DE CYNTHIA CREWS” AITOR GARCÍA MORENO Universitat de les Illes Balears

Han pasado casi treinta años desde que Leonor Carracedo (1979) llevó a cabo la descripción del fichero manuscrito sobre léxico judeoespañol de Cynthia Crews, cedido al entonces Instituto Arias Montano del CSIC por el Girton College de la Universidad de Cambridge. Desde entonces, las miles de papeletas del fichero han sido repetidamente consultadas por cuantos investigadores del judeoespañol hemos tenido la oportunidad de trabajar en la Biblioteca de Estudios Sefardíes, buscando la información léxico-semántica (aunque también fonética y gramatical) en ellas contenida: ya fuera por la traducción al inglés del encabezado de cada ficha; la eventual remisión a variantes, sinónimos y aun paralelos en otras lenguas o dialectos, o la reseña de fuentes primarias (textos judeoespañoles) o secundarias (bibliografía sobre el judeoespañol) donde documentar o entender las voces recogidas en el fichero. Sin embargo, han sido precisamente tantos años de manejo los que de una parte posibilitan y de otra parte exigen afrontar un proyecto de digitalización de la información contenida en las fichas, dentro de una base de datos que incluya los campos relevantes de cada papeleta. Los objetivos que se persiguen con un trabajo de tales características y envergadura son, principalmente, dos: 1) la puesta al día y eventual revisión, a lo largo del proceso de informatización y edición, de los contenidos del fichero, en ocasiones obsoletos a la luz de lo publicado con posterioridad por la propia Cynthia Crews y 2) la edición en formato digital (soporte cederrón o similar) de un Lexicon que no sólo recoja la información del fichero de manera uniforme y organizada, sino que además permita llevar a cabo búsquedas y referencias cruzadas, en la línea de dotar de una serie de fuentes para posteriores investigaciones sobre el judeoespañol, más allá de la consulta in situ del fichero. En las próximas páginas expondremos los pormenores de dicho proyecto, desde la doble perspectiva de los problemas surgidos y las soluciones adoptadas, completando primero anteriores descripciones del fichero.

218

AITOR GARCÍA MORENO

1. El fichero manuscrito sobre léxico judeoespañol de Cynthia Crews El fichero de trabajo de Cynthia M. Crews, que ahora nos ocupa, fue conformándose paulatinamente durante los casi cuarenta años que esta investigadora británica dedicó a sus estudios sobre el judeoespañol. Iniciado hacia 1929 –fecha de sus primeros contactos con textos judeoespañoles recogidos en Sarajevo por ella misma–, el fichero la acompañó hasta su muerte en 1969 en sus varios viajes a Turquía y los Balcanes, si bien a punto estuvo de perderse tras uno de ellos, como la propia Cynthia Crews relata: A fines de 1940 me trasladé a Turquía llevando conmigo mi fichero y una buena parte de mi biblioteca [...] En 1942 emprendí mi viaje de regreso a Inglaterra y la Embajada Británica de Angora se ofreció amablemente a guardar mi fichero hasta el final de la guerra. [...] El fichero volvió a mis manos en 1947, pero hasta dos años más tarde no tuve ocasión de reanudar mis trabajos sobre el judeo-español (Crews 1979: 92).

Señalaba Leonor Carracedo (1979) que el fichero está formado por unas 40.000 fichas1 y que las papeletas –que pueden contener entradas principales o secundarias–, aunque no tienen una estructura invariable, en su mayoría responden al siguiente esquema: a) encabezamiento con b) traducción al inglés y eventualmente c) remisiones a otras entradas (variantes, sinónimos o familia léxica), todo ello en su cabecera; en la parte central d) una o varias citas textuales, seguidas de e) las respectivas abreviaturas de fuente y al pie de la papeleta, diversas anotaciones como f) etimologías, g) voces paralelas en otras lenguas o dialectos, etc. Para ser más exactos diremos que el fichero no tiene más de 35.000 fichas y que, de ellas, cerca de 1.500 corresponden a las fichas bibliográficas de la propia Crews junto con apuntes varios sobre sus anotaciones en las fichas léxicas y, por tanto, no presentan el esquema general antes descrito. El resto, que sí corresponde a papeletas sobre voces y expresiones del judeoespañol se podría dividir a su vez en: 1) el núcleo central del fichero, con unas 28.000 fichas que se ajustan plenamente al esquema citado; 2) un grupo de fichas aparte (unas 2.500) de hebraísmos del judeoespañol, extraídas del fichero general; 3) otro grupo de fichas aparte (cerca de 1.000) con formas y expresiones del judeoespañol presentes en obras sefardíes del siglo XVI –existan o no entradas para ellas en el fichero general, se citen o no ocurrencias en esas mismas obras para otras entradas del fichero general– y 4) un último grupo de fichas (otras 2.500), aparentemente traspapeladas del fichero general. 1

Tal es el número que consigna Elisabeth Brine (1979: 262).

EDICIÓN DEL FICHERO MANUSCRITO DE CYNTHIA CREWS

219

Asimismo, dentro del núcleo central, encontramos intercaladas un número significativo de fichas correspondientes a fenómenos fonéticos o gra-maticales del judeoespañol con encabezamientos del tipo: a- prosthetic; -cc- > -s-, o metathesis... ordenadas alfabéticamente en la A, la C o la M, respectivamente, con remisión a entradas del fichero o a la bibliografía correspondiente. La lematización de las papeletas no resulta en absoluto homogénea, pues frente a la sistematicidad de los diccionarios, que suelen presentar como entradas el singular de los sustantivos, el masculino de los adjetivos o el infinitivo de los verbos, el fichero de Cynthia Crews puede, en ocasiones, contener fichas encabezadas por un sustantivo en su forma plural, o por diminutivos, aumentativos, etc. De acuerdo con el sistema de remisiones que presenta el fichero, existen (muchas) papeletas que corresponden a “entradas secundarias” en la medida en que tan sólo se remite a otras, en las que sí se resuelve su contenido; también hay (bastantes) otras papeletas en las que –generalmente, por reflejar distintas acepciones de la principal– también se resuelve la entrada, e incluso encontramos (unas cuantas) papeletas que comparten lema y –con información repetida o no– simplemente amplían la documentación de éste. Estos dos últimos tipos corresponderían a una especie de “duplicados”. Asimismo, podríamos considerar como asimilables a dichos “duplicados” aquellos casos de papeletas encabezadas por sustantivos plurales cuando el mismo sustantivo en singular también presenta ficha. Respecto de las citas textuales contenidas en la parte central de las papeletas –apartado d) descrito supra–, cabe aclarar que pueden corresponder a: 1) Fuentes primarias judeoespañolas, ya sean testimonios orales de ciertos informantes (Merú Levy, Aelión, S. Levy o Francés) o documentaciones de la entrada en textos originales sefardíes. 2) La aparición de la entrada en la bibliografía sobre el judeoespañol, con lo que, de alguna manera, se pretende aclarar tanto la existencia de ciertas variantes, como el sentido, o incluso la etimología recogida en la papeleta. Ni que decir tiene que en muchos de los títulos de la bibliografía citados puede haber tanto estudios de la forma en cuestión, como textos originales editados (ya provengan de fuentes orales o de testimonios escritos), lo que obliga a recurrir a la fuente citada para ver si se trata de una remisión a la entrada en contexto, o a explicaciones de ésta y, en este último caso, a comprobar si, por ejemplo, la información de tipo etimológico no está tomada de fuentes bibliográficas interpuestas. Finalmente, cabe señalar que las fuentes utilizadas por Cynthia Crews aparecen citadas de una forma casi criptográfica. Así, junto a abreviaturas más o

220

AITOR GARCÍA MORENO

menos claras como Wagner, Esp. 39 (= WAGNER, «Esp[igueo judeoespañol», Revista de Filología Española, XXXIV (1950), págs. 9-106:] 39), podemos encontrar otras tales como W. §171 (=WAGNER, Beiträge zur Kenntnis des Judenspanischen von Konstantinopel (Viena, 1914)], §171), o aun Su. 30, p. 135 (= SU[BAK, «Zum Judenspanischen», Zeitschrift für Romanische Philologie], XXX[: 2 (1906), pp. 129-165]:135), que exigen un conocimiento previo de la bibliografía. Por poner un último ejemplo, señalaremos el caso de ciertas abreviaturas como esta de X:180, referente a la línea 180 del texto número 10 –hasta ahí, todo bien–, de un cuaderno inédito de la propia Cynthia Crews con la transcripción mecanografiada de 18 relatos; con el agravante de que algunos de esos relatos fueron editados póstumamente (Crews 1979) y el texto número 10 pasa a tener el número 8 en la edición y, por supuesto, la línea no coincide. A modo de ejemplo, veamos por último un grupo de papeletas del fichero aquí descrito, que precisamente corresponderían al grupo de “duplicados”:

Las dos primeras papeletas comparten un mismo lema fizˇón en el ángulo superior izquierdo, en tanto que la tercera presenta como lema la misma forma pero en plural (fizˇones). En la cabecera, en un caso se amplía el lema con la información sobre su categoría y género (n.= nombre, m. = masculino), en otro –donde sólo se indica su carácter nominal–, se da una posible traducción ?‘kidney bean, haricot’, y en el tercero tan sólo se introduce la remisión a otras formas, en esta caso sinónimas (alúb ¯ jas, fab ¯ as).

EDICIÓN DEL FICHERO MANUSCRITO DE CYNTHIA CREWS

221

En el cuerpo central de las dos primeras papeletas aparecen mezclados los testimonios orales (Salon. fizˇón [de saláta] ‘haricot bean’. London; o ML = fasulya) junto con las documentaciones en fuentes escritas (Salon. fijón ‘habichuelas’, llamadas judías en España. Molho, 150; o esta yamava alos ¬es fasulya i por esto le kedo el nombre de fasulya. Sol. 18, 117); e incluso –como en la papeleta de la derecha– con remisiones a la bibliografía (Bit. fijón. Lur. §171 ‘bean’). En cambio, la cita de la tercera papeleta (Karaferia. Brusa. Bulg. fizˇones ‘una especie de judías’) no trae especificada en este punto la fuente de la que está tomada ni su localización. Por último, en la parte inferior de las dos últimas papeletas se introduce la información de tipo etimológico (gall. feijó, feixoo. Cf. port. feijão, Lur. §171; y Andal. frijón / Salamanca frejón / Jsp. forms without r: gall. feijó, port. feijão, astur. feisuelo, cat. fesol. Wagner. Esp. 56) en este caso tomada de la bibliografía específica sobre el judeoespañol. Como vemos, a la hora de introducir citas o étimos, es frecuente –aunque no sistemática– la notación del lugar o idioma correspondiente al contexto, así como de la fuente; de hecho, a veces sólo contamos con la notación de la fuente y la localización (Sol. 17, 73) como en la segunda referencia de la ficha de la derecha y, en el caso de la tercera papeleta, la remisión a Wagner del apartado correspondiente a la etimología resultó ser la misma que para la referencia de la parte central.

2. El proyecto de edición Hasta aquí hemos concretado algunos de los puntos someramente expuestos por Leonor Carracedo en su descripción del fichero, con la única intención de mostrar los problemas que se nos plantean a la hora de afrontar su edición informatizada. A continuación expondremos las soluciones adoptadas durante el proceso de edición.

2.1. OBJETO DE ESTUDIO Una vez apartadas las papeletas correspondientes a fichas bibliográficas y teniendo en cuenta la fragmentación del conjunto del fichero, en ocasiones decidida por la propia Crews (caso de los grupos de fichas de hebraísmos y de fichas de formas presentes en varias obras del siglo XVI) y otras veces consecuencia negativa del traslado (caso del grupo de fichas aparentemente traspapeladas), hemos decidido centrarnos en la edición del núcleo central del fichero (unas 28.000 fichas, como decíamos, de esquema más o menos homogéneo, organizadas alfa-

222

AITOR GARCÍA MORENO

béticamente), pasando por alto las papeletas correspondientes a fenómenos fonéticos, morfológicos o gramaticales, que pudieran aparecer en cada subgrupo.

2.2. METODOLOGÍA Y ORDEN DE TRABAJO Nuestra idea inicial era la de digitalizar primero las fichas una por una, para, en una fase ulterior del trabajo, adscribir la información de cada papeleta a los correspondientes campos de una base de datos y contrastar las citas bibliográficas por si fuera necesario algún tipo de corrección o adición. Sin embargo, las particularidades de un fichero de trabajo concebido como tal, y no como diccionario propiamente dicho, hicieron necesario un trabajo simultáneo de análisis y contraste (cuando no corrección) de la información contenida en cada papeleta, para poder realizar la consiguiente adscripción a un determinado campo de la base de datos y proceder a su digitalización. Así, habida cuenta de que sería imposible abarcar todo el fichero de esta manera, decidimos trabajar con determinados subgrupos (letras del alfabeto F, H e I) no excesivamente amplios, de manera que pudieran quedar disponibles para su consulta, en una fase más o menos final del trabajo. Asimismo, la idea de empezar precisamente por subconjuntos como el de la F o la H responde al hecho de que, en judeoespañol, se documenten múltiples variantes de formas bien con [f-] etimológica, bien con [h-] –aspirada o no–, e incluso sin ella.

2.3. LA BASE DE DATOS Siguiendo el esquema más o menos homogéneo de las papeletas, la base de datos contiene campos como: 1. Lema Crews: donde se introduce la entrada de cada ficha (generalmente en el ángulo superior izquierdo de las papeletas) en la grafía original utilizada por Crews, aun cuando ésta pueda mostrar a) la transcripción fonética de testimonios orales, b) la transliteración de formas aljamiadas, o c) la forma tal y como aparece en originales sefardíes en letras latinas. 2. Categoría y género: donde se recoge la información relativa a la categoría gramatical de la entrada (nombre, adjetivo, verbo, adverbio, etc.), señalada por la propia Crews. 3. Traducción: donde se recoge, pasada al español, la traducción o explicación propuesta por Crews para cada entrada. 4. Variantes: donde se introducen las distintas variantes de la entrada (si las

EDICIÓN DEL FICHERO MANUSCRITO DE CYNTHIA CREWS

223

hay), notadas por Crews en el ángulo superior derecho de las papeletas. 5. Etimología: donde se presentan los étimos o cognados de otras lenguas que Crews introdujo para explicar la forma o el uso de la entrada, con los subcampos señalados y referidos a lengua, cita, referencia y localización. Estos son los campos de la base de datos que presentan su unívoco paralelo en las papeletas; sin embargo, tras el análisis de la información recogida en las fichas, hemos creído conveniente añadir otros (y aun corregir algo de los citados) con el fin de hacer más sistemáticos los contenidos. Así, una vez vista la complejidad de la información contenida en las papeletas hemos llevado a cabo ciertas adiciones: a) Dado que entre las formas notadas en el ángulo superior derecho de las papeletas no sólo se hacía referencia a variantes (mayormente fonéticas) de la entrada, sino también a otras formas de la misma familia léxica, o a sinónimos con entrada en el fichero, hemos introducido un campo 6. Familia léxica y un campo 7. Sinónimos, con el fin de advertir de su diferenciación. b) Puesto que entre las citas presentes en el centro de la papeleta encontrábamos juntas remisiones a estudios de la bibliografía sobre el judeoespañol, testimonios de informantes orales o contextos tomados de originales sefardíes, hemos distinguido dos campos más: el 8. Referencias, donde se recogen todas aquellas citas que vienen a apoyar, bien la forma de la entrada, bien la existencia de variantes, o incluso la traducción o explicación dada (ya sean testimonios orales, remisiones a diccionarios del judeoespañol o reseña de la bibliografía específica) y el 9. Contextos, donde estrictamente se introducen aquellos contextos en los que la entrada aparece (ya provengan de originales sefardíes o de textos recogidos en estudios sobre el judeoespañol). En ambos casos se introduce la información sobre lugar, fuente (informante u obra de referencia), cita y localización, señalada por Crews. c) Tras comprobar que la propia Crews introducía en sus fichas anotaciones o juicios de valor sobre la información recogida y que, en muchas ocasiones, las referencias bibliográficas –sobre todo las referidas a étimos y cognados de otras lenguas– estaban tomadas a partir de fuentes bibliográficas interpuestas, hemos incorporado un campo 10. Observaciones, donde recoger estas circunstancias. Por otro lado, éstos son los mínimos cambios introducidos: a) La propia Crews utiliza a veces dos signos distintos para una misma realidad fonética de las entradas ([w] y [u], para la semiconsonante velar, e [y] e [i] para la semiconsonante palatal), aun cuando dichos signos se oponen por referir-

224

AITOR GARCÍA MORENO

se los unos a las semiconsonantes ([w] e [y]) y los otros a las semivocales ([u] e [i]), y hemos decidido distribuirlos como corresponde. b) En ocasiones no resulta idéntica la entrada de una ficha con la remisión que a ella se hace desde otras (presencia o ausencia de tildes, uso de [cˆ] y […] con el mismo valor, etc.), por lo que hemos corregido las distintas remisiones (como variante, familia léxica o sinónimo) en función de la forma del lema de entrada de la ficha. c) Como decíamos, se ha pasado al castellano la traducción o explicación propuesta por Crews en inglés o francés y, en los casos en que ésta falta, se ha tomado por definición lo expuesto en alguna de las obras citadas como referencia, tal y como la propia autora hace en muchas de sus fichas. d) En aquellos puntos donde la información que falta es subsanable (categoría gramatical, lugar de documentación de una forma, obra de referencia de donde se toma una cita, etc.), ésta se ha introducido sin avisar atendiendo a la información que otras fichas nos proporcionan. Por ejemplo: si los trabajos de Benoliel citados se refieren al judeoespañol de Marruecos y falta la indicación Mar. ante un ejemplo, ésta se añade por no ofrecer lugar a dudas; si se habla de un étimo turco y se añade la traducción en alemán, aunque falte la indicación S¸.H., se presupone que está tomada del Türkisch-Deutsches Worterbuch de S¸evket & Heuser, el único diccionario de turco-alemán que ella utiliza, etc. Asimismo, buscando uniformizar los registros, se añade c.p. en la localización si es la comunicación personal de un informante, o s.p.v. si es la propia entrada de un diccionario. Asimismo, si lo que falta es la propia cita en contexto –aun cuando se nota la referencia y localización, como veíamos antes para la abreviatura Sol. 17, 73– se ha incluido como tal el propio lema seguido de un asterisco, dejando así constancia del punto donde (esperemos que en un futuro no muy lejano) habrá de incluirse un contexto lo suficientemente amplio, tomado de la fuente en cuestión. e) Por supuesto, las intrincadas abreviaturas de las fuentes utilizadas han sido sustituidas por otras más transparentes (aunque igualmente abreviadas), enlazando a su vez con la ficha bibliográfica correspondiente de cada obra. Así por ejemplo, volviendo a algunos casos citados supra (W. §171. y Subak. 30, p. 135) diremos que han pasado, respectivamente, a WAGNER, Beiträge, §171, y SUBAK, «Zum judenspan.», p. 135, con la intención de que la diferente tipografía, según se trate de un artículo o de un libro, haga más accesible la información. f) Por último, ante la posibilidad de que dos o más papeletas compartieran la misma entrada sin mostrar acepciones distintas, se ha procedido a agrupar la información en una sola ficha en tales casos. Por el contrario, cuando en una misma papeleta se recoge más de una acepción de la misma entrada o varias expresiones complejas con la misma voz, se han creado las correspondientes fichas distintas en la base de datos.

EDICIÓN DEL FICHERO MANUSCRITO DE CYNTHIA CREWS

225

A continuación presentamos las mismas papeletas de antes con su información ya incorporada a una ficha de la base de datos, a fin de poder apreciar más claramente lo expuesto en estos párrafos:

Como vemos en la imagen, se ha tomado como lema válido en los tres casos la forma singular fizˇón; se ha simplificado la información repetida referente a la categoría gramatical (n. m.); se ha pasado al castellano la traducción dada por Crews en inglés; se han introducido las remisiones a sinónimos del lema; se han agrupado las referencias que aclaran tanto la forma, como el sentido del lema; se han presentado aparte las ocurrencias del lema en contexto (marcado el lema con asterisco cuando se carece de más); se han desglosado las distintas referencias a étimos o cognados, presentes en una misma fuente y se han recogido también las observaciones anotadas por Crews (en este caso entre corchetes por presentar nuestra traducción de éstas).

3. Oportunidad del proyecto Si en el apartado anterior hemos presentado lo que no es sino una propuesta de conversión de lo que fuera un fichero de trabajo en curso, en una base de

226

AITOR GARCÍA MORENO

datos lingüísticos accesible, que mantuviera en lo esencial la estructura de aquel y teniendo en cuenta que la nuestra no sería la única manera de llevar a cabo el proceso de informatización, tal vez sólo nos quede insistir en la necesidad de un proyecto de tales características, por su calidad y representatividad. En primer lugar existen motivos tan básicos como el ya citado de la propia conservación del fichero en sí, toda vez que el manejo (en el sentido más etimológico del término) de las papeletas originales ha ido poco a poco deteriorándolas. Si bien este problema sería relativamente fácil de solventar mediante el microfilmado o escaneo del fichero, no es menos cierto que el acceso a la información contenida en las fichas no estaría asegurado, de la misma manera que cualquier otro texto antiguo (o moderno) puede requerir una labor de edición crítica que lo haga accesible. Por otro lado, ninguno de los glosarios de cualquiera de las (no pocas) ediciones críticas de textos sefardíes al alcance de los investigadores, ni ninguno de los diccionarios de judeoespañol aparecidos en los últimos años –aun habiendo sido diseñados éstos con criterios lexicográficos de corte moderno–, viene a cubrir toda la información recogida por Crews en sus más de 30.000 fichas. Por ejemplo, el completísimo diccionario de David Bunis (1993), con unas 5.000 entradas, se dedica sólo a los hebraísmos (y aramaísmos) del judeoespañol; en tanto que el de Joseph Nehama (1977), aunque con pretensiones más amplias, no deja de resultar parcial por recoger principalmente la variedad sefardí de la Salónica de la primera mitad del s. XX. Por último, el hecho de que magnos proyectos lexicográficos como el del propio Diccionario Histórico de la Lengua Española, llevado a cabo por la Real Academia Española, no contemplen de manera específica la inclusión de la variedad sefardí, hacen necesario más que nunca abordar la digitalización del fichero Crews. Como hemos comentado más arriba, el fichero incluye (o prevé su inclusión) referencias a las voces en contexto, con citas de obras originales sefardíes de distintos géneros (traducciones de la Biblia, literatura rabínica, prensa satírica, narrativa tradicional, etc.) y épocas (ss. XVI-XX), por lo que bien podría constituir el embrión del tan ansiado Tesoro lexicográfico judeoespañol. Un tesoro con pretensiones de corpus textual en el que localizar no sólo formas léxicas, sino también variantes morfológicas o construcciones sintácticas de determinada extensión, toda vez que tampoco otros magnos corpus lingüísticos hispánicos como el Corpus diacrónico del Español (CORDE) incluyen más textos sefardíes que la Biblia de Ferrara. El resultado final, más allá de la digitalización del propio fichero, tendrá que dar cuenta de aquellos tres componentes de los que hablara Jacob Hassán en su “Advertencia al lector” del diccionario de Nehama (1977):

EDICIÓN DEL FICHERO MANUSCRITO DE CYNTHIA CREWS

227

1) el despojo léxico sistemático de la literatura sefardí; 2) el aprovechamiento de anteriores contribuciones científicas al estudio del judeoespañol (glosarios, voces documentadas en encuestas dialectales, etc.), y 3) la documentación viva de los últimos sefardófonos. Sin olvidar que, como incompleto fichero de trabajo por enriquecer que es, podrá llegar a incluir la referencia a toda la bibliografía científica disponible sobre léxico judeoespañol, y –aprovechando los medios digitales de nuestros días– por qué no también el enlace a otros recursos audiovisuales de la producción cultural sefardí de todos los tiempos, una vez que el grueso de la información disponible esté debidamente informatizado.

4. Resultados y desiderata Tras un primer año de trabajo que ha podido ser retomado en los últimos tiempos merced a un contrato de investigación en el CSIC, contamos ya con los siguientes resultados2: 1) Una descripción pormenorizada del fichero que, como hemos visto, pretende completar descripciones anteriores. 2) Una base de datos manejable para futuras intervenciones en el proceso de digitalización del fichero. 3) Unas 2.000 fichas ya digitalizadas a plena disposición del usuario. Por último, aparte de los elementos concretos de discusión ya expuestos, surgidos durante el proceso de revisión e informatización del fichero, cabe señalar dos aspectos fundamentales que quedan aún pendientes. El primero de ellos atañe a la propia estructura del fichero, pues aunque se ha mantenido en lo esencial la original, con el resultado de una base de datos manejable tanto para el usuario, como para quienes lleven a cabo futuras intervenciones en el proceso de informatización, se plantea también la necesidad de agrupar las distintas informaciones de una misma entrada en lo que a diferentes acepcio-

2 El proyecto de “Edición del fichero manuscrito sobre léxico judeoespañol de Cynthia Crews” fue presentado en su día en el III Congreso Nacional de la Asociación de Jóvenes Investigadores de Historiografía e Historia de la Lengua Española (AJIHLE), celebrado en marzo de 2003 en Jaén, con motivo de la mesa redonda sobre “Horizontes y perspectivas en el estudio del judeoespañol”.

228

AITOR GARCÍA MORENO

nes y a expresiones de carácter conlocativo se refiere, en la línea de otros proyectos de diccionarios o lexicones informáticos. El segundo, de carácter más general, se refiere a la citada necesidad de sentar definitivamente las bases de lo que podría llegar a ser con el tiempo un magno diccionario histórico del judeoespañol tras la inclusión –esperemos también que en un futuro no muy lejano– de todas las demás referencias e informaciones lexicográficas disponibles de forma fragmentaria.

Bibliografía citada abreviadamente BRINE, Elisabeth (1979): “A handlist of the Crews Papers in Girton College Library”, en: Estudios Sefardíes 2 (= Miscellanea Crews), 261-275. BUNIS, David M. (1993): A lexicon of the Hebrew and Aramaic elements in modern judezmo. Jerusalem: Misgav. CARRACEDO, Leonor (1979): “El Judaeo-Spanish Dictionnary de Cynthia Crews”, en: Estudios Sefardíes 2 (= Miscellanea Crews), 301-302. CREWS, Cynthia (1979): “Textos judeoespañoles de Salónica y Sarajevo con comentarios lingüísticos y glosario”, en: Estudios Sefardíes 2 (= Miscellanea Crews), 91-258. NEHAMA, Joseph (1977): Dictionnaire du Judéo-Espagnol. Madrid: CSIC.

E L C O R P U S D I AC R Ó N I C O D E L E S PA Ñ O L DEL REINO DE GRANADA (CORDEREGRA)* M I G U E L C A L D E R Ó N C A M P O S / M A R Í A T E R E S A G A R C Í A G O D OY Universidad de Granada

1. Introducción Los principales objetivos de este artículo son presentar el proyecto de corpus que hemos bautizado con el acrónimo CORDEREGRA, esto es, Corpus diacrónico del español del Reino de Granada y explicar los criterios geográficos, cronológicos y textuales que estamos siguiendo para seleccionar documentos. Además, ofreceremos ejemplos de nuestro corpus provisional que revelen la variación lingüística, aspecto que está guiando, en última instancia, la selección de textos en cada una de las clases documentales. Por último, ilustraremos el interés lingüístico de los textos1 con fenómenos de naturaleza fonética (yeísmo y pérdida de /d/) o morfosintáctica (sistema de tratamiento). Los orígenes del Reino de Granada se remontan al año 1013, cuando se establece un reino independiente, dominado por la dinastía zirí, de origen bereber. A partir de 1090, el reino pierde su independencia, primero bajo dominación almorávide y luego almohade (1146-1232). Pero es desde 1232 cuando el Reino de Granada existe verdaderamente como entidad política reconocida2, en un primer momento como reino nazarí y luego, desde 1492, como estructura administrativa dentro del estado español, regido por los Reyes Católicos, luego por Austrias y Borbones, hasta la actual demarcación provincial llevada a cabo por Javier de Burgos en 1833. * La realización de este trabajo se encuadra en el Proyecto de referencia HUM200760546, financiado por el MCyT. 1 Hasta el momento, la mayoría de los documentos transcritos son del siglo XVIII, por lo que muchas de las observaciones que hagamos se limitarán a este siglo y tendrán, necesariamente, carácter provisional y parcial. Por otra parte, cabe señalar que, aunque casi la totalidad de los textos seleccionados son inéditos, se han incluido en nuestro corpus una minoría de documentos ya editados por historiadores (véanse notas 6 y 8). Tales documentos, partiendo de los originales, volverán a transcribirse con los criterios de edición adoptados para el CORDEREGRA. Un procedimiento análogo siguieron Fontanella (1993: 3) y Company (1994: 2) para la edición de documentos coloniales con fiabilidad filológica. 2 Es la opción adoptada por los editores de la Historia del Reino de Granada (Peinado Santaella/Barrios Aguilera/Andújar Castillo 2000).

230

MIGUEL CALDERÓN CAMPOS/MARÍA TERESA GARCÍA GODOY

Nuestro corpus se extiende, por lo tanto, desde la llegada de la lengua española al reino nazarí de Granada, en 1492, hasta 1833, y ofrecerá documentación procedente de Málaga, Granada y Almería, las tres provincias actuales que configuraban el reino granadino. Se trata pues de un corpus de casi tres siglos y medio (341 años), cuyo interés reside en tres aspectos fundamentales: a) La castellanización del Reino de Granada es simultánea a la de América y Canarias3. b) La inexistencia, hasta la fecha, de un estudio historicolingüístico de conjunto del citado territorio4. c) La relevancia, desde el punto de vista dialectal, de que en el dominio de este corpus estén representadas las dos Andalucías lingüísticas: la occidental (Málaga) y la oriental (Granada y Almería).

2. Criterios de selección y edición documental Para el diseño del Corpus diacrónico del español del Reino de Granada se están considerando, principalmente, tres criterios extralingüísticos:

3

Los historiadores han señalado ya la necesidad de comparar los procesos históricos que generaron la nueva estructura social del Reino de Granada, tras su incorporación a la Corona castellana, con los que desembocaron en la formación de la nueva sociedad americana: “Granada tiene el interés (...) de ser una sociedad recién incorporada al occidente europeo. La comparación se impone –y tendrá que ser estudiada un día– con las comunidades españolas de las Indias en la misma época, donde la inmigración y la creación de una jerarquía neo-nobiliaria echaron las bases de una sociedad particular” (Casey 2000: 110). 4 Los movimientos de población que generaron las nuevas koinés americana y granadina tuvieron que ser muy similares. La población del Reino de Granada quedó muy mermada después de la guerra de la conquista (1482-1492) y de la deportación de los moriscos, tras las revueltas de 1568-1570, hasta el extremo de que algunas regiones (Alpujarras, amplias zonas de la provincia de Almería) quedaron prácticamente despobladas. Antes de 1482, la población del reino rondaba los 300.000 habitantes y a finales del XVI apenas llegaba a los 200.000. Esta drástica reducción demográfica vino acompañada de impulsos repobladores de iniciativa gubernamental, de desigual éxito y distribución: en líneas generales, y ordenados de mayor a menor, los nuevos pobladores procedían del Reino de Jaén, de otras zonas del Reino de Granada, de Castilla la Nueva, del Reino de Murcia, del Reino de Sevilla, del Reino de Córdoba, de Antequera y de Valencia. Entre 1480 y 1600 la estructura de la población del Reino de Granada se modificó completamente: los moriscos, después de 1570, no representaban más del 5% del total de la población, y los vacíos que dejaron fueron ocupados por los nuevos repobladores cristianos (véase Vincent 2000). Los efectos lingüísticos de estos movimientos migratorios todavía no han sido estudiados para el reino granadino.

EL CORPUS DIACRÓNICO DEL ESPAÑOL DEL REINO DE GRANADA

231

a) Cronológico. b) Geográfico. c) Textual. a) Criterio cronológico Como ya se ha anunciado, estamos transcribiendo documentos del periodo comprendido entre 1492 y 1833, fecha esta última en que la actual división provincial sustituye al antiguo Reino de Granada. Adoptando la periodización externa establecida por Peinado Santaella/Barrios Aguilera/Andújar Castillo (2000), dividiremos este gran lapso de casi tres siglos y medio en dos etapas, cuya bisagra es el año de 1630: 1492-1630 y 1630-18335. Para estos dos periodos se seleccionará un número similar de documentos. El lapso que abarca el CORDEREGRA coincide con el de otros corpus ya publicados6, relativos a territorios cuyos procesos de castellanización están sincronizados con el del Reino de Granada. b) Criterio geográfico Granada, Málaga y Almería, las tres provincias que constituían el Reino, estarán representadas en la selección documental de forma equilibrada. Con esto se pretende ofrecer datos que permitan trazar la evolución histórica, tanto de la modalidad oriental (Almería y Granada), como de la occidental (Málaga) del español de Andalucía. c) Criterio textual En consonancia con las decisiones adoptadas en el diseño de otros corpus lingüísticos similares, para elaborar el CORDEREGRA tenemos especial cuidado en que estén representados, con igual proporción, los tipos de documentos archivísticos que enumeramos a continuación7:

5

La Historia del Reino de Granada se divide en tres tomos: I) De los orígenes a la época mudéjar (hasta 1502); II) La época morisca y la repoblación (1502-1630), y III) Del siglo de la Crisis al fin del Antiguo Régimen (1630-1833). 6 Fontanella de Weinberg 1993, Company 1994, Rojas 2001, Stefano/Tejera 2006. 7 En esta fase inicial de diseño del CORDEREGRA, no nos es posible precisar el porcentaje de textos de cada clase documental, ni el número total de palabras con el que contará el corpus.

232

– – – – – – – – –

MIGUEL CALDERÓN CAMPOS/MARÍA TERESA GARCÍA GODOY

Declaraciones de testigos incluidas en probanzas y pleitos8. Correspondencia oficial9. Cartas privadas10. Informaciones y averiguaciones11. Memoriales y peticiones de particulares. Partes médicos. Testamentos. Cartas de dote y arras. Inventarios de bienes12.

Los textos de estos nueve tipos documentales proceden, principalmente, de los siguientes fondos archivísticos: Archivo de la Real Chancillería de Granada (ARChG), Archivo Histórico de la Alhambra (AHA), Archivo General de Andalucía (AGA), Archivo de la Diócesis de Granada (ADG), Archivo de Protocolos

8 De los pleitos y probanzas de índole criminal, estamos analizando principalmente los que tratan de asesinatos, estupro, injurias y heridas. El carácter polémico de estos temas propicia la tensión comunicativa entre los intervinientes y, con frecuencia, el escribano reproduce literalmente las palabras de los testigos en estilo directo (véase el ejemplo 15). Además de estos pleitos criminales, estamos analizando otros de carácter eclesiástico, en concreto, nos ocupamos de los “expedientes matrimoniales” del Archivo de la Diócesis de Granada, especialmente de los pleitos por incumplimiento de palabra matrimonial (ejemplo 6). 9 El epistolario del Conde de Tendillas constituye, hasta la fecha, el ejemplo más representativo de correspondencia oficial. Algunos aspectos lingüísticos de este epistolario ya han sido analizados por Calderón 2002. 10 Hasta el momento, no nos ha sido posible localizar epistolarios familiares que abarquen varias generaciones. Las cartas de particulares incluidas en el corpus proceden, en la mayoría de los casos, de los pleitos matrimoniales en los que, en ocasiones, se incluyen como pruebas de una relación amorosa. Véase el ejemplo (3). 11 Desde el siglo XV, por orden real se instruían “informaciones” o “averiguaciones” sobre sucesos políticos y sociales controvertidos, en las que se recoge el parecer de distintos sujetos versados en el tema. Estos textos constituyen, como reconoce Wesch (1994: 57), “una clase textual muy interesante y poco estudiada”. He aquí dos ejemplos de este tipo documental en el CORDEREGRA: La averiguación de Loja de 1508 (Archivo General de Simancas. CámaraPueblos. Leg. 10-246. Para el estudio lingüístico de este documento véase Calderón 2006) y la información ordenada por el Rey Fernando VI el 8 de noviembre de 1755 sobre los efectos del terremoto de Lisboa del 1 de noviembre del mismo año (AHN, sección de Estado, legajos 2909, 3173 y 31839). De estos legajos se han seleccionado únicamente los testimonios que proceden de los pueblos del Reino de Granada. 12 Los testamentos, las cartas de dote y arras y los inventarios de bienes proceden, mayoritariamente, del Archivo de Protocolos Notariales de Granada (APNG). Una primera exploración lingüística de documentos granadinos de esta naturaleza puede verse en García Godoy 2006. Sobre el interés léxico de estas clases documentales véase infra (apartado 3).

EL CORPUS DIACRÓNICO DEL ESPAÑOL DEL REINO DE GRANADA

233

Notariales de Granada (APNG), Archivo Histórico Provincial de Almería (AHPA) y Archivo Histórico Nacional (AHN). Cabe señalar que algunas de las clases documentales que hemos indicado no cuentan con una regesta propia en los instrumentos de descripción de tales archivos. En efecto, a veces, en un determinado expediente, aparecen intercalados documentos ajenos al tipo textual predominante. Por ejemplo, en un juicio puede haber anexados, como prueba, alguna carta privada o alguna petición particular. Así, el texto (1), adjunto a un expediente matrimonial, es una petición escrita por Pedro de Osorio, de quince años, hijo de un Veinticuatro de Granada, que solicita protección a las autoridades eclesiásticas para poder casarse a pesar de la oposición materna: (1) para lo qual estan echas por mi parte i la del dicho su padre escritura de capitulaciones y ansimismo el uno a el otro y el otro a el otro nos abemos dado palabra de casamiento y anbos abemos quedado conformes de nos casar... atento a lo qual a VSa pido i suplico mande dispensar en la (sic) amonestaciones que faltaren y que se me deposite Adonde yo pueda estar con toda libertad por temerme que la dicha mi madre me a de sacar desta ciudad i trasportar della (ADG, L230-63, Pedro Osorio con Teresa de Figueredo, 1657)13.

Del mismo pleito procede también la siguiente petición de la madre de Pedro de Osorio, escrita de su puño y letra, en la que denuncia las maniobras de fray Pablo de Cuenca para apartar a su hijo de ella: (2) el dho mi hijo es de hedad de quince años tan solamente y en el dho depossito no esta en su entera libertad porque en el dho convto es conbentual el padre fray Pablo de quenca el qual lo a ynduçido y persuadido ynduçe y persuade con notables ynstançias a que se case con la dha Doña ana de figueredo... (ADG, L23063, Pedro Osorio con Teresa de Figueredo, 1657).

En los expedientes matrimoniales puede haber cartas de los propios contrayentes, como esta de Juliana Martínez a su novio. Obsérvese el tratamiento cariñoso hijo mío, que da la novia al novio, muy frecuente a mediados del XVII y en la centuria siguiente14:

13

Los fragmentos documentales que presentamos en este trabajo se ofrecen sin todas las convenciones de la transcripción paleográfica estricta, para facilitar la lectura. 14 Véanse las cartas del siglo XVIII publicadas por Macías/Morales 1991. Allí aparecen encabezamientos de cartas del marido a la mujer del tipo: “Estimadísima hija mía, única y sola”. De la misma forma empiezan algunas cartas que hemos transcrito, procedentes del Archivo Histórico de la Alhambra: “Yja y querida mia” (Carta de Pedro Antonio Bocanegra a su mujer, Feliciano de Zúñiga, AHA, L-165-44. 1710).

234

MIGUEL CALDERÓN CAMPOS/MARÍA TERESA GARCÍA GODOY

(3) ya me pareçe yjo mio que as qunplido con tu obligasion en aberme pedido a mi padre y a mi madre y supuesto que no se an resuelto a serlo [a hacerlo] es mi voluntad de que seas mi marido y que lo pongas por obra pues con tu gusto no a de ser otro mi esposo y para que no lo ynores te esqribo este papel [firmado por Dona Juliana Martínez de Quesada] (ADG, Carta incluida en el expediente de Bernabé Daza y Juliana Martínez de Quesada, 2-32, 1658).

Por último, los juicios que tratan de heridos suelen incluir partes médicos o “declaraciones de esencias”, en la terminología del siglo XVIII, tipos textuales de un enorme interés para reconstruir esta parcela del léxico especializado: (4) vn alcabuzazo que orixino zinco heridas en el lado yzquierdo sobre las costillas mendozas o bastardas, otras del dho alcabuzazo en los yprocondios o rrexion del bientre coxiendole anbas en la cauida (sic) natural y bital y la natural Ronpio cuero y carne y gordura y membrana carnosa y la pleura y le Ronpio vn pedazo de redaño en la natural de las cuales dhas heridas murio en presenzia del to (ARChG, Probanza, L10348-57; 1700, Vélez Málaga y Alhama; fol. 50v). (5) hauia otro hombre que decian estaba herido y le mandaron le reconoçiese sus heridas el qual hauiendo llegado a el lo allo bibo y quejandose y hauiendolo desnudado en vna almadraqueja donde estaua acostado bio tenia en el braço y costado derecho vna herida de forma que tenia pasado el braço por el molledo y correspondiente a esta entraba en el costado dadas a el parecer con ynstrumento de fuego y de bala redonda y de escopeta que le penetraua el costado a el soslayo y junto a la dha herida del costado tenia otra (sic) dos heridas dadas al parecer con el mesmo ynstrumento redondas como de postas redondas pequeñas penetrantes adentro como la dha bala que le causo las heridas anteçedentes (ARChG, Probanza, L10348-54; 1700, Salar, fol. 10r).

Por otra parte, para editar los documentos del CORDEREGRA se pretende presentar tres versiones de cada uno de los textos: una edición facsímil del manuscrito, una transcripción paleográfica, especialmente destinada a los historiadores de la lengua, y una edición crítica, orientada a un público más amplio15. Respecto de la transcripción, aplicamos los criterios adoptados para la edición de documentos coloniales publicados por la RAE16 e incorporados actualmente al Corpus Diacrónico del Español (CORDE).

15

Seguimos aquí los criterios del proyecto CODEA, que dirige Sánchez-Prieto Borja. Se trata de las compilaciones documentales realizadas por la Comisión de Estudio Histórico del Español de América. El primer volumen (Fontanella 1993), recoge documentos coloniales de Santo Domingo, México, Lima, Santiago de Chile, Tucumán y Buenos Aires. En 16

EL CORPUS DIACRÓNICO DEL ESPAÑOL DEL REINO DE GRANADA

235

3. Diversidad documental y variación lingüística Una vez establecida la tipología textual del CORDEREGRA, la selección de los diversos documentos persigue que estos, en la medida de lo posible, se alejen de los registros de mayor corrección idiomática, toda vez que, como es sabido, las fuentes más exploradas en la historia del español son las de naturaleza culta y literaria. Por este motivo, los textos que suscitan mayor interés en el proceso de selección son los susceptibles de adscribirse a hablantes de menor conciencia lingüística, verificable en la inseguridad escrituraria revelada y en la recurrencia a usos ortográficos que emulan la lengua oral. Por otra parte, las alternancias de formas lingüísticas en un mismo texto, como es sabido, son indicio de un posible cambio lingüístico en proceso. Todo ello nos lleva a valorar que para el estudio que proyectamos sobre la evolución del español en el Reino de Granada revisten especial interés los documentos que contienen alguno de estos aspectos: – – – –

muestras de estilo directo. ejemplos de fonética sintáctica y coexistencia de variantes gráficas. alternancias de exponentes morfosintácticos. variación y riqueza léxica.

La presencia de estilo directo en un documento es, a nuestro juicio, un buen indicador de su interés lingüístico. En nuestro corpus buscamos, como ya se ha señalado, muestras de habla espontánea17 y ésta surge con relativa frecuencia, en las declaraciones de testigos, tanto de juicios penales (véanse los ejemplos 8, 15, 17, 18, 26 y 27) como de expedientes matrimoniales. En el ejemplo (6), el testigo reproduce literalmente las palabras de la declaración amorosa de Alonso de la Paz: (6) ...puede aber tres dias que se dieron palabra de casamiento el uno a el otro y el otro a el otro estando la susodha asomada a una rreja de la cassa de su morada en

el segundo volumen (Rojas 2001), además de textos de las distintas regiones americanas, se incorporan documentos canarios. El tercer volumen (Rojas 2008) incorporado al CORDE, incluye trece documentos del Reino de Granada transcritos por nosotros. 17 Siempre seleccionamos los documentos escritos por semicultos, en los que es más fácil que aflore la oralidad. De esta forma, intentamos que en el corpus haya, en la medida de lo posible, diversidad de “informantes” (véanse los ejemplos escritos por particulares, no por profesionales de la escritura: ejemplos 2, 3, 6). El documento del que procede el ejemplo 2 está redactado por un párroco rural. En los expedientes matrimoniales, los párrocos eran los encargados de tomar declaración a los testigos y levantar acta de las iniciativas llevadas a cabo por los contrayentes.

236

MIGUEL CALDERÓN CAMPOS/MARÍA TERESA GARCÍA GODOY

presencia del tso diziendole el dho alonso de la paz a la dha doña Lucrezia de nabarrete “Sra doña Lucrecia de nabarrete Vmd me da palabra de casamiento” a que la susodha Respondio “si sor” y le dio la mano y el susodho le dio otra tal palabra de casamiento y quedaron conformes de casarse y contraher matrimonio (ADG, L232, Alonso de La Paz/Lucrecia de Navarrete, 1658).

Como ya hemos advertido, la coexistencia de variantes fonéticas y morfosintácticas en un mismo texto es indicadora de un posible cambio lingüístico. Nuestros documentos revelan estas alternancias en el plano morfológico, tanto en el paradigma verbal (vido/vio, vide/vi, vía/veía, riendo/riyendo, etc.), como en el uso de derivados actualmente perdidos: tumultuar, altercar (véanse ejemplos 15 y 16), soltura ‘puesta en libertad de un preso’ (“Y puso en la cárcel publica donde todauia lo estubiera a no auer soliçitado el presente Reçeptor su soltura”)18, grosedad ‘grosor’ (“en razon de la grosedad y ponpa de ellos [de los árboles]”)19, profundar (“no aver profundado mucho”)20, etc. Son también interesantes los ejemplos de verbos que han modificado su régimen preposicional, como es el caso de arrancar de [un cuchillo o una espada] ‘sacar violentamente [un cuhillo o una espada]’ (7) y, en general, cualquier aspecto que pueda aportar datos sobre la evolución morfosintáctica del español21: (7) si el susodho aRanco del dho cuchillo que tenia colgado en la zintura, fol. 19v; si... traían algun cuchillo de horqueta o otra arma Y que en la dha Refriega arrancasen de ella para defenderse del cuchillo de que Arranco el dho Dn Andres (fol. 20r); ninguno...Vbiese tenido cuchillo de orqueta ni arrancado del (fol. 20v); el mesmo que... traía colgado de la zintura Y del que arranco al tienpo que le quisieron prender (fol 21r); el dho cuchillo es el mesmo de que arranco Dn Andres Canberos y el dho capote Y Jugon el mismo que tenía el puesto el susodho al tienpo de su muerte (fol. 25r) (ARChG, L10348-57; 1700, Vélez Málaga y Alhama).

Alternancias análogas se advierten en el plano fonético. En el siguiente apartado, comentaremos la coexistencia de variantes desollar/desoiar, indicadora de yeísmo, o la de lúa con su forma ultracorrecta luda, prueba de la frecuente omisión de -d- intervocálica.

18

ARChG, L10348-53, 1700, presidio de las Alpujarras, fol. 21v. ARChG, L10367-20, 1705, Montefrío, testigo 7, segunda pregunta. 20 ARChG, 5232-007, 2v. 1739. 21 Como la presencia, todavía en el XVIII, de quien con valor de plural: “quatro o cinco onbres a quien no conocio” (ARChG, 5232-033, fol. 4r, 1733), “no sabe quien son” (ARChG, 5232-035, fol. 4r, 1739), o de CD animado sin la preposición a: “que matasen dicho perro” (5233-029, fol. 4r, 1759). 19

EL CORPUS DIACRÓNICO DEL ESPAÑOL DEL REINO DE GRANADA

237

Pero también debemos prestar atención a los casos en que la ausencia de variación pueda ser significativa, como en el siguiente texto, en el que aparecen siempre las variantes muncho y efeto, reflejos inequívocos de la pronunciación del escribano: (8) Miguel López Labrador Vo del Lugar de Otura el qual […] prometio de dezir uerdad y preguntado dijo q. conoze a Franco de la Cuesta Vo del dho Lugar desde que nazio y saue que a mas de seis años que el suso dho a galanteado y solizitado a maria de espinosa Hija de andres garrido y de maria de espinosa difuntos vos de el dho Lugar para efeto de contraer matrimonio y el no auerse efetuado muncho tiempo a sido por causa de ynpedirlo Leonor garrido su ermana en cuya casa biue y es ppco y notorio q los suso dhos se an dado palabra de casamto munchas ueces y en presenzia del tto la suso dha le dijo al dho Franco de la cuesta que uiniese por mandamto de la Ya para sacarla por que de otra forma no auia de tener efeto el casarse y en algunas ocaciones le a oido dezir como le tiene dada palabra de casamto al susodho (ADG. Expediente de Francisco de la Cuesta y Mª de Espinosa, 2-32, 1658).

Lo mismo cabe decir de la ausencia de variación en pisebre, defunto y jugón ‘jubón’, en un documento muy extenso de 1700. Estas formas invariables, pronunciadas inequívocamente de esa forma, contrastan con las frecuentes alternancias dizquierdo/ izquierdo, mesmo/mismo en el documento (ARChG, L10348-57, Vélez Málaga y Alhama, 1700). Por último, la variedad y riqueza léxica es otro de los aspectos destacables de muchos de los textos seleccionados, especialmente las “declaraciones de esencias”, las cartas de dotes y arras, los inventarios de bienes y los testamentos. Ya se ha advertido que los partes médicos intercalados en determinados pleitos constituyen una fuente privilegiada para el estudio del este léxico especializado o su deformación, al pasar las palabras del cirujano o del barbero a la pluma del escribano22. En los fragmentos ofrecidos de estas declaraciones médicas, pueden advertirse interesantes aclaraciones sinonímicas, en las que una forma coloquial aclara el tecnicismo, a veces deturpado por la transmisión oral (“yprocondio”): “costillas mendozas o bastardas”, “yprocondios o rrexion del bientre” (4). El léxico culto propio de los informes jurídicos (“a el soslayo”, “ynstrumento de fuego”) se mezcla en estos tipos textuales con expresiones coloquiales: “el molledo del brazo” (5). 22 Como “hueso hisipittal” (ARChG, 5232-12, fol. 6r, 1741), “en el serrati [serratil] y el deltoires que son los que guarnesen dha artticulazion” (ARChG, 5232-30, fol. 10v, 1737), “thubillo” (ARChG, 5235-14, 1722), etc. En otros casos encontramos diversas formas eufemísticas: “una herida en la asentadera derecha” (ARChG, 5232-007, fol. 4v, 1739), “Vna herida en la cadera sobre el gueso femur” (ibíd., fol. 2v), “lo hirió en el trasero” (ibíd., fol. 3r).

238

MIGUEL CALDERÓN CAMPOS/MARÍA TERESA GARCÍA GODOY

Igualmente, los protocolos notariales (testamentos, inventarios de bienes, embargos, cartas de dote y arras, etc.) ofrecen una riquísima información léxica sobre asuntos de la vida doméstica. Incluimos aquí algunos ejemplos, tomados de documentos notariales almerienses23: “una armilla de tela de seda” (‘almilla, corselete o chaqueta corta de mujer’24); “unas espaviladeras de azofar nuevas” (‘tijeras para espabilar velas y candiles’25); “Ytem dos bugias pequeñas de estaño” (‘candelero’26); “calzon de calimanco negro a medio servir... unos calzones pequeños de calimanco de colores y vueno todo” (‘calamaco, tela de lana delgada’27); “Ytem un escusa baraxas pequeña y en el se hallo un cuello blanco de Cambray fino” (‘cesta de mimbre pequeña, con tapa’28), etc.29

A veces, el interés léxico de los documentos se advierte en el uso de combinaciones frecuentes, hoy olvidadas, como votos y rumbos (9), votos y porvidas (11) o voces y votos (10), o en colocaciones ya perdidas (a)sentar plaza de soldado ‘alistarse’ (12): (9) prosiguió dando voçes, y echando muçhos Votos, Y rrumbos diçiendo que a su hermano le tocaban aquellas dilixençias, Y a este tiempo ambos a dos hermanos se arrojaron a enbestirle y maltratar a el testigo que lo ubieran ejeçutado a no auerse metido de por medio el dho liçençiado (...) diçiendoles que se aquietasen, que era muçha picardia i no auia de ser pendençia lo que se Reduçia a Justiçia... (ARChG, Probanza, L10348-53; 1700, presidio de las Alpujarras, fol. 13v).

23

En el fragmento que figura a continuación, descubrimos que la cocina y caballeriza eran habitaciones contiguas, sin separación; la pelea que da origen al juicio empieza en la cocina, al lado de la chimenea y termina junto a unos bueyes: “Y asidos Vnos Y otros andubieron como cuatro o zinco pasos zerca de Vnos bueies que estauan comiendo en el portal de dha casa que es donde esta la cozina ... fueron bregando hasta donde estauan los dhos bueies Y desde alli hasta la puerta de la calle la cual estaua entornada... Vno de los dhos soldados se fua desarrebozar de la capa que traía y apago Vn candil que estaua colgado en medio de la chimenea a cuio tienpo el to los bio bregar con el dho Dn Andres lo cual bio con la luz que daua la lunbre del fuego y en dha forma fueron zerca de vnos beies (sic) que estauan comiendo como cuatro o zinco pasos de la dha chimenea (fol. 22v); y forzexeando con el to Para desasirse le llebo zerca de Vn pisebre donde estaua Vna baca comiendo y en las astas de ella se detubo del empellon que el to le dio (fol. 30v)” (ARChG, L10348-57, 1700, Vélez Málaga y Alhama). 24 AHPA, Inventario de bienes, Adra, 1749, Protocolo notarial 811. 25 AHPA, Inventario de bienes; Almería, 1706, Pronocolo notarial 305. 26 AHPA, Testamento, Adra, 1751, Protocolo notarial 812. 27 AHPA, Inventario de bienes, Almería, 1706, Protocolo notarial 305. 28 Ibíd. 29 Datos tomados de la tesina de Esther Quiñones Sánchez, defendida en la Universidad de Granada en 2007.

EL CORPUS DIACRÓNICO DEL ESPAÑOL DEL REINO DE GRANADA

239

(10) dho escriuano echando muçhos Votos altercando si a el le tocaua o no se le llego feliz de morales su hermano abonando la tema del dho su hermano con la mesma alteración de voçes y uotos... (ARChG, L10348-53; 1700, presidio de las Alpujarras, fol. 16v). (11) con muchos botos y porbidas (ARChG, L10348-57; 1700, Vélez Málaga y Alhama, fol. 30v). (12) iendo el declarante de quinçe años se fue desta ciud. por un disgusto que tubo con sus padres y se fue a la ciud. de Veles Malaga donde sento plaza de soldado en el tercio de la compañía de D. Bartolome de Porras (…) dixo conoce al dho Pedro de Vico y el (…) conozmto que tubo con el suso dho fue en la ciud. de Veles Malaga donde es natural q. cuando le conocio fue a sentar plaza de soldado y la asento en la compañía del Capitan Porras (ADG, Ana Morales / Pedro de Vico, 145 95 21 expediente 241, 1688).

Además, en los documentos se registran frecuentemente acepciones o voces perdidas: ofender ‘herir físicamente’; tema ‘manía, idea en que uno se obstina’; conmover, en su acepción ‘perturbar, inquietar, alterar’, distinta de la moderna ‘enternecer’; altercar ‘disputar’, etc.: (13) que con Vna de ellas [puñaladas] alcanzo al to en la manga de la casaca del lado yzquierdo y no le ofendio (ARChG, L10348-57; 1700, Vélez Málaga y Alhama, fol. 30v).

(14) dentro de las casas de cauildo el dho esçriuano auia sobre su tema continuado en las Voçes y uotos como antes y diçiendo que si ubiera alcalde lo agarrara de una oreja y metiera en un calabozo y que auia Maltratado al dho Dn Lazaro Brauo asiendolo de los auitos Y dandole empujones Y el dho Alcalde Juan balbuena prendidolo Y a ruego del dho Lizdo Don Jeronimo Caro que auia allado presente soltadolo... (L10348-53; 1700, presidio de las Alpujarras, fol. 17r); ...dho escriuano echando muçhos Votos altercando si a el le tocaua o no se le llego feliz de morales su hermano abonando la tema del dho su hermano con la mesma alteraçion de voçes y uotos...(ibíd. 16v); ...se oiio mui bien que dho Dn Lazaro repitio leiendo sus despachos, y el dho escriuano a continuar en su tema y uoçes... (ibíd., fol. 18v). (15) diçiendole en altas voces que si el fuera el alcalde de una oreja auia de (fol.14a) // lleuar preso a la carçel con cuias Raçones diçiendolas para conmouer a el dho alcalde para que lo executara estando el testigo sentado en el escaño de dho alcalde iendose a leuantar como para quererse salir del cuarto el dho alcalde asio del manteo a el testigo diciéndole: “donde ua usted quedese usted aquí” Y

240

MIGUEL CALDERÓN CAMPOS/MARÍA TERESA GARCÍA GODOY

dijo el testigo: “pues que, quedo preso?” y dijo que si a que Respondio el testigo muçhas veçes y en voçes altas: “por preso, por preso, por preso” (ibíd., fol. 14v); ...el testigo uiendo que miraua con ellas a tumultuar y conmouer la mucha jente que estaua en la plaza... dijo a uoçes: “ustedes sean testigos de como el señor Leonardo de Morales a uenido a tumultuar Y provocar a que nos perdamos” a cuyas raçones dho escriuano le imbistio a el testigo asiendolo por detras de la ropa y dandole muchos enpujones y echan (fol.14v) dolo de la Reja... (ibíd., fol. 15r). (16) dho escriuano echando muçhos Votos altercando si a el le tocaua o no se le llego feliz de morales su hermano abonando la tema del dho su hermano con la mesma alteraçion de voçes y uotos... (fol. 16v); ...continuo con las mesmas voçes a altercar que a el le tocaua... (fol. 18r); ...Y aunque dho Dn Lazaro le Reconuino que con el hablauan tanuien leiendo los Renglones en que se mandaua todauia dho escriuano altercaua sobre ello diçiendo que si el alcalde fuera otro lo cojiera de una oreja y lo lleuara a la carçel (ibíd. fol. 20r).

4. Análisis lingüístico de algunos datos extraídos del corpus Ofrecemos en este apartado un somero análisis de la información que ofrecen algunos documentos del CORDEREGRA sobre el sistema de tratamientos del español del siglo XVII (apartado 4c) y sobre dos fenómenos fonéticos presentes en el español del setecientos: el yeísmo (apartado 4a) y la pérdida de consonante intervocálica (4b).

4a) Pruebas de yeísmo Lapesa (1981: 384) considera probada la “existencia de yeísmo entre rústicos, moriscos y menestrales del reino de Toledo en los siglos XIV a XVII”, así como su “ocasional contagio” a sectores sociales más elevados. Igualmente, considera “asegurado” el yeísmo andaluz para los siglos XVI y XVII30 y ofrece, basándose en trabajos de Parodi (1977) y Boyd-Bowman (1975), testimonios americanos desde 1527. Mondéjar (1991: 205-206) ofrece testimonios yeístas andaluces recogidos por Charles Davillier en su Voyage en Espagne (1862-1873) y afirma que los

30

1971.

Lapesa utiliza, entre otros, datos procedentes de Galmés de Fuentes 1956 y de Guitarte

EL CORPUS DIACRÓNICO DEL ESPAÑOL DEL REINO DE GRANADA

241

ejemplos de yeísmo andaluz anteriores al XVIII son muy esporádicos y dispersos. Frago (1993: 501) reconoce que el yeísmo es uno de los aspectos peor estudiados de la historia del español. Las posibilidades de confusión de ll y y se limitan a pares prácticamente homófonos (rallar-rayar, halla-haya), y a palabras de uso poco frecuente o nuevas (Frago 1993: 507). Según Frago, el yeísmo estaba popularmente muy extendido en Andalucía a mediados del XVI, tanto en las ciudades como en el campo y, en el último tercio del XVIII, estaba “bien consolidado socialmente” (Frago 1993: 108). Por último, pone en duda el origen andaluz del fenómeno, pues no hay estudios documentales suficientes que lo acrediten. Similar postura adopta Pascual, al considerar el yeísmo como un fenómeno del español general, no específicamente andaluz. Según su interpretación, la -ll- se pronunciaría, desde siempre, como palatal lateral y como palatal central, pero ambas articulaciones tendrían distinta aceptación social. Según las regiones y las épocas, la pronunciación lateral podría verse como normal, formal o anticuada, y lo mismo ocurriría con la palatal central, que se interpretaría como vulgar, general o incluso como la única pronunciación disponible. Por lo tanto, no se trata de que el yeísmo se haya originado en Andalucía antes que en otros territorios, sino que la aceptación social en Andalucía ocurrió antes que en otros sitios (Pascual 2000: 77-93). Fontanella (1987: 25-26) no encuentra ejemplos yeístas en el corpus documental bonaerense que analiza para el periodo 1580-1700, seguramente porque sus documentos están escritos por personas de nivel sociocultural alto. En un artículo posterior (2003 [1992]) resume los datos tomados de su propio trabajo (1987) sobre la región bonaerense, de Rojas (1985) sobre Tucumán y de Quesada Pacheco (1990) sobre Costa Rica. Quesada Pacheco ofrece casos yeístas para la región costera costarricense procedentes de documentos de 1591 y 1623. Para el Valle Central, los primeros casos son más tardíos, de 1682. En la región bonaerense, los primeros ejemplos yeístas son de la primera mitad del XVIII y su generalización de finales de este siglo. Por último, en Tucumán aparecen 5 testimonios yeístas anteriores al XVIII y uno de 1717, por lo que Rojas considera que la indistinción no se generaliza hasta el XIX (apud Fontanella 2003 [1992]: 110). Como puede apreciarse, hay todavía muchas regiones hispánicas de las que no tenemos datos sobre la aparición del yeísmo. Además, los resultados no son siempre comparables: en algunos casos tenemos testimonios aislados que indican los inicios del fenómeno, pero no sabemos casi nada de su generalización. Y en la mayoría de los estudios, los datos proceden de fuentes dispersas, rara vez de corpus sistemáticos sobre una región determinada. Ofrecemos a continuación algunos datos que nos ofrece nuestro corpus. En los documentos que llevamos transcritos, no encontramos testimonios de confusión yeísta anteriores al siglo XVIII, pero en este siglo los ejemplos dan prueba de

242

MIGUEL CALDERÓN CAMPOS/MARÍA TERESA GARCÍA GODOY

una enorme generalización, pues las confusiones son relativamente frecuentes y aparecen en textos redactados por escribanos de la Chancillería de Granada, a los que se exigía un nivel aceptable de formación: (17) y el dho essno le dixo “Señor aqui esta el amigo Salbador de roxas a quien se le a coxido el ganado” a que respondio el dho correxidor “estaba el ganado en la tierra de su cortijo” y entonzes respondio el dho essno “no señor pero estaban zerca adonde no azian daño alguno” y entonzes respondio el dho correxidor “en año y medio que me queda estando fuera de la tiera que labran (fol. 25v) // los tengo de desollar Probisionzicas me train de la chanzilleria” a cuio tienpo se lebanto dando en el suelo golpes con los pies y diziendo “no se me da nada de la chanzilleria de Granada ni del consejo” (ARChG, L10367, 1705, Alozaina y Coín). (18) “piensan en alozaina que se me da nada que con probisionzicas me andan pues a el que coguiere (sic) lo tengo de desoiar como cazon que a mi no se me da nada de las provisiones ni de la chanzilleria ni del conssexo” este danto patadas en el suelo (ibíd. fol. 50a). (19) y bisto a el dho correxidor que estaba en su casa y dichole como iba a llebar el dinero de dha condenazion y que si queria bagarle algo de ella lo hiziese de carida porque era un pobre guertano y su amo le azia cargo de la multa y el dho correxidor le respondio que si el testigo era guertano el tanbien lo era y tenia dos hermanas un ama y dos mulas y que estaban como los (fol. 60a) pagaritos en el nido aguardando a que callese alguno para comer y que llebase el dinero a el essno (ibíd. fol. 60v). (20) que si el era niño o auia nazido aller (ibíd. fol. 60v)31.

4b) La pérdida de -d- intervocálica La pérdida de /d/, tanto en posición intervocálica como final, se da con bastante frecuencia en los documentos del Reino de Granada del siglo XVIII32. El fenómeno se muestra tanto en las omisiones de -d- como en significativas ultracorrecio-

31

Más ejemplos en el mismo documento: “desollar” (fol. 53a), “desoiar” (fol. 55a); “diziendo que lla estaba ajustado en tres doblones de a quatro pesos” (fol. 57v); y en otros expedientes: “yebaba” (ARChG, 5232-033, fol. 3r, 1733); “aller” (ARCHG, 5232-001, fol 3v, 1738), “un baguido de estar en allunas” (ARChG, 2441-4, 1723, fol. 2v); “llunta de buelles” (Probanza 10367-19, 1705, 3r). 32 Véase Torres Montes (1998:77-84) para un análisis de la pérdida de /d/ en la obra teatral dieciochesca La infancia de Jesu-Chisto, del malagueño Gaspar Fernández y Ávila.

EL CORPUS DIACRÓNICO DEL ESPAÑOL DEL REINO DE GRANADA

243

nes, que ponen de manifiesto lo extendido que estaba la pérdida y, seguramente también, que los sectores más cultivados de la sociedad (los escribanos estaban entre ellos) eran conscientes de las omisiones, se mostraban lingüísticamente inseguros y empezaban a ponerle freno. La prueba de la extensión de la pérdida de la sonora intervocálica la tenemos en el hecho de que no se limitaba a la posición más favorable, los participios en –ado33 (“un capote y Vno calzones de paño fino mediaos”34), sino que afectaba también a los terminados en –ido (como en la ultracorrección “baldidos”35, o en “me bide jería”36) y a otros entornos de muy diversa naturaleza37, como se aprecia en los siguientes ejemplos: “apesaumbrada” 38, “thenian gana de darle de palos el dueño de dhca collera porque con ella trabajaba mucho y a las dellos les quitaba el creitto”39, “vna contusion en el brazo hizquierdo en el molleo”40; “vna cama de madera de pino con su encordelaura”41, “paraero”42, “un cadaver que estaua en medio de un laero, en un pedregal”43. Muy significativas resultan, como hemos apuntado más arriba, las ultracorrecciones, entre las que merece especial mención el caso registrado en el ejemplo (21), pues a lo largo del mismo juicio van alternando las formas luda y lúa44, lo que pone de manifiesto la inseguridad del escribano ante este fenómeno lingüístico. Otros ejemplos los tenemos en “aneda”45, “bacidas”46, “acadecer”47, “se sobreseda”48.

33

En esta posición, Frago ofrece ejemplos no andaluces (turolenses) de 1412 y 1450 (Frago 1993: 471). Los primeros ejemplos andaluces hallados por este autor son un poco más tardíos (1547). Se trata, por tanto, en esta posición, de un fenómeno general, no circunscrito a las hablas andaluzas. 34 ARChG, 5232-12, 1741, fol. 6v. 35 ARChG, Probanza 10367-19, 1705, fol. 31r. 36 ARChG, 5233-23, 1759, fol 4r. 37 Frago (1993: 472-473) ofrece bastantes ejemplos andaluces de este tipo desde el siglo XVI. 38 ARChG, 5233-033, 1759, fol. 9v. 39 ARChG, 5232-033, 1733, fol. 8v. En el mismo documento alterna con “creditto”: “tenían gana de apalearlo pr que con dha collera trabajaba mas quellos y les thenia quitado el creditto a las suias” (declaración de torquatto Cauellos). 40 ARChG, 5232-30, 1737, fol. 1v. Y más adelante, en el mismo documento: “vn golpe en el molleo del brazo hizquierdo” (ib., fol. 2r). 41 ARChG, 5232-12, 1741, fol. 6v); más adelante otra vez (fol. 7r). 42 ARChG, 5233-024, 1759, fol. 15r. 43 ARChG, 5233-034, 1759, fol. 2v. 44 En el texto, ‘especie de bolsa’. 45 ARChG, 5233-021,1753, fol.5r. 46 ARChG, 5233-014, Colomera, 1753, fol. 5r . 47 ARChG, 5233-22, 1753, fol. 3r. 48 ARChG, 5232-30, 1737, último folio.

244

MIGUEL CALDERÓN CAMPOS/MARÍA TERESA GARCÍA GODOY

(21) y estando descargando dicho azafran bio estaba ronpido el costal y luda donde benia que segun le pareze lo yzieron con algun cuchillo y abiendo bisto lo referido rejistro dicho costal y bido le abian quitado dos pares de medias de las tres que traia y con este motibo en presenzia de el dho montañes desbalijo dha lua y fueron el declarante y dho montañes a una tienda y abiendo pesado la luda con el azafran allo pesar menos libra y media (ARChG, 5235-018, 1713, fol. 2v).

Menos interés presentan, por ser una posición muy inestable, los casos de pérdida de –d final. Señalamos solo algunos de ellos: “madnitu”, “manitu”49, “berda”50. Por último, no queremos acabar este apartado sin mencionar los casos de pérdida de -g- intervocálica hallados en nuestro corpus, otro indicio más del desgaste que sufrían las sonoras intervocálicas en las hablas andaluzas del XVIII: aijada (‘aguijada, vara larga para picar a la yunta’) y peujal (‘pegujal, pequeña porción de terreno cultivable’): (22) se abalanzaron a ellos vnos con sus espadas y los dhos Andres de Sola y el hijo de Caravaca con sus llamaderas (...) no le dieran algun golpe con espadas o las aijadas y palos (ARChG, 5235-023, 1713, fol. 10v). (23) a rregar otro peujarillo de melones que tiene (ARChG, 5232-30, 1737, 4v); estando el testigo guardando dicho melonar de diferentes peujareros vezos deste lugar (ibíd., fol. 5r).

La situación descrita para la Andalucía oriental del XVIII se asemeja bastante a la bonaerense del mismo siglo y difiere de la situación de Costa Rica y Tucumán, donde el fenómeno estaba menos extendido (Fontanella 2003: 113).

4c) El estilo directo en los documentos. La reconstrucción del sistema de tratamiento Una probanza de 1670 realizada en Abla (Almería), para investigar el asesinato de Salvador de Calancha, nos permite reconstruir con datos bastante fiables el sistema de tratamiento usado en esta localidad. Uno de los sospechosos resulta ser Juan Feroche, enemigo del difunto, pues ambos se acusaban mutuamente de haber robado unos mazos de seda. La enemistad había llegado al extremo de que Salvador de Calancha perseguía por el pueblo, “prevenido de armas de fuego”, a Juan Feroche, con intención de matarlo. 49 50

Los dos ejemplos de ARChG, 5233-23, 1759, fol. 2r. ARChG, 5233-23, 1759, fol. 3v.

EL CORPUS DIACRÓNICO DEL ESPAÑOL DEL REINO DE GRANADA

245

Lo interesante de esta probanza está en la respuesta que dan algunos testigos a la tercera pregunta, cuyo enunciado era el siguiente: (24) Tercera pregunta: Y si saben que haçiendose diligençias sobre el hurto de dhos maços de seda el dho Salbador de calançha deçia y publicaba aberlos hurtado el dho Juo ferroçhe y respecto de que dho Juo ferroçhe deçia lo que abia pasado, y que el salbador de calançha era quien los abia hurtado, se declaro por su enemigo capital dho salbador de calançha y lo busco en diferentes sitios y lugares yendo prebenido de armas de fuego y en espeçial lo quiso executar una noçhe yendo a casa de Juo de salaçar tras de el dho Juo ferroçhe , y lo hubiera heçho, a no aberse salido huyendo por el postigo, y pcamente deçia que abia de matarlo y que lo buscaba para ello por lo qual dho Juo ferroçhe andaba con mui grandes miedos ocultandose y huiendo las ocasiones de tener disgusto con el susodho (ARChG, Probanza, L10121-2, Abla, 1670).

Los testigos responden a esta pregunta en estilo directo, con lo que podemos reconstruir una especie de microdiálogos, perfectamente contextualizados, entre Salvador de Calancha y vecinos del pueblo. La principal ventaja es que sabemos quiénes hablan, qué edad y profesión tienen, su grado de conocimiento mutuo, etc., pues muchos de estos datos aparecen en el encabezamiento de los interrogatorios. Tenemos noticia, por ejemplo, de que Salvador de Calancha era joven, por la respuesta del segundo testigo: (25) entro en ella un mozo con una espada desnuda y le dixo andres fernandez q tanbien estaba alli “para q trays esa espada de ese xenero” y le respondio “para matar a un ladron y asta q lo mate no tengo de parar” con q se bolbio a salir el dho mozo y preguntado el testigo a los susodhos q quien era aquel mozo le respondieron q era salbador de calancha y q andaba por matar a Juo feroche (ibíd., respuesta a la tercera pregunta, segundo testigo).

Como vemos, en este primer microdiálogo (en negrita), Andrés Fernández, de mediana edad, tutea (“trays”)51 al joven Salvador de Calancha, a quien el primero conoce, por ser vecinos del mismo pueblo. El segundo diálogo tiene lugar entre Agustín Muñoz, de 23 años, maestro de molinero y Salvador de Calancha. Se produce un trato asimétrico entre ambos: Salvador de Calancha trata a Agustín Muñoz con nombre de pila y de vos (“Agustín, abeys visto”), mientras que éste emplea el nombre y apellido de su interlocutor, al que trata de usted (“qué quiere usted salbador de calancha”). 51

La diptongación de “ae” en la Península tuvo que ser más frecuente que en la actualidad. Véase train, en el ejemplo 17. Y “las trai”, en el mismo documento (fol. 28b).

246

MIGUEL CALDERÓN CAMPOS/MARÍA TERESA GARCÍA GODOY

(26) A la terçera pregunta dixo q diez u doze dias antes q suzediera la muerte del dho salbador de calancha estando el testigo una noche como a las nuebe en la calle Real lo encontro el dho salbador de calancha q llebaba la espada desnuda y le dixo “agustin” y le Respondio “q quiere uste salbador de calancha” y le dixo “abeys bisto a Juo ferohe” (sic) y le dixo q no con que se aparto del testigo y se fue a la calle abaxo y despues como dho tiene oyo dezir publicamente q lo andaba buscando para matarlo (ibíd., respuesta a la tercera pregunta, quinto testigo).

Por último, el tercer microdiálogo se produce entre el Regidor y Salvador de Calancha, donde, de nuevo, aparecen formas voseantes en la advertencia que le hace el regidor: (27) el dho andres fernandez chinchilla Rexidor q entonzes hera le dixo al dho salbador de calancha adonde vays con esa espada desnuda ponelde la bayna q es mal exenplo y el susodho le respondio no le e de poner la bayna asta q mate a un ladron q es Juan Ferohe esto diçiendolo como enoxado (ibíd., respuesta a la tercera pregunta, octavo testigo).

Tenemos, por tanto, confirmación de que en el sistema alocutivo de Abla de 1670 estaban vivas las formas tuteantes, voseantes y ustedeantes; que las formas voseantes no eran necesariamente despectivas, como con frecuencia se afirma, y ninguna duda de que usted estaba ya plenamente gramaticalizado. Sobre esta última cuestión queremos hacer algunas apreciaciones, pues es interesante indicar la fecha de la primera datación de usted en algunos de los corpus editados con criterios filológicos y compararla con la que ofrece el CORDE y algunos manuales de historia de la lengua española. De Stefano/Tejera (2006: 190) ofrecen un ejemplo venezolano de 1692: “un sambo que no conose llego a la dicha su cassa y le entrego dicho negritto disiendole se lo ttubiese hasta que Vsted biniese”. El primer ejemplo mexicano que se recoge en el corpus de Company es de 1694: “Y le dixo dicho alcalde mayor al susso dicho: “¿es usted el señor don Sebastian de Guzman?”. A que respondio: “yo soy criado de mi señor”. A que dicho alcalde mayor le reconvino, diçiendole: “¿usted conoçe quién su alcalde mayor?”. Dicho yndio le dixo: “sí señor, lo es vuesa merçed, y por tal reconosco a mi señor”52. A estos ejemplos americanos debemos añadir el nuestro de Abla de 1670. El CORDE ofrece ejemplos anteriores, los más tempranos localizados en México en 1572: “En lo que usted me dice que Pedro Ocharte quería pagar a Jorge de Aranda de la manera que usted me dijo”53. Pero es un documento en el 52

Company (1994: 443); 1694, Calpulalpan, estado de Oaxaca. CORDE, consulta realizada el 14/06/07; Proceso de Pedro de Ocharte [Documentos para la historia de la imprenta en México, 1525-1612]. 53

EL CORPUS DIACRÓNICO DEL ESPAÑOL DEL REINO DE GRANADA

247

que se modernizan la ortografía y la puntuación, por lo que ese usted podría no ser fiable. Algo parecido ocurre con la primera fecha de usted que se viene ofreciendo tradicionalmente en los manuales de historia de la lengua española: Alvar/Pottier (1987: 133) recogen el primer ejemplo de usted aducido por Pla Cárceles (1923: 403), que ellos datan en 1620. Se trata, como es bien sabido, de un ejemplo de El examinador de Miser Palomo, de Antonio Hurtado de Mendoza. Pero carecemos de datos de la edición manejada y el propio Pla Cárceles, para otros ejemplos de usted, plantea la duda de que pueda tratarse de una modernización del editor o del cajista, en momentos de mayor generalización del pronombre. Por tanto, parece conveniente seguir ampliando los corpus filológicos existentes, para ofrecer datos inequívocos, que no puedan interpretarse como lecturas equivocadas o desarrollo de abreviaturas.

5. Conclusiones a) Un corpus como el descrito abrirá nuevas vías de investigación historicolingüística, al ofrecer datos para reconstruir el proceso de castellanización del Reino de Granada o el de diferenciación dialectal entre las dos Andalucías lingüísticas. b) Los documentos archivísticos del CORDEREGRA permitirán completar vacíos de información en la historia del español, difícilmente superables sin corpus sistemáticos sobre una región determinada. Lo hemos visto, principalmente, en el caso del yeísmo. Salvo raras excepciones, los trabajos realizados hasta ahora se han hecho sin partir de un corpus regional previo, por lo que ofrecen datos valiosos pero dispersos, con los que es difícil hablar de procesos de extensión social y contextual de un determinado fenómeno. c) La triple presentación de documentos en facsímil, transcripción y edición permitirá la consulta del corpus en diversas perspectivas. El hecho de que el corpus contenga textos tipológicamente diferentes y que estos se vinculen con hablantes de diversa cualificación idiomática permitirá que el CORDEREGRA sea una valiosa fuente para el estudio de la variación lingüística en perspectiva histórica. d) Estos corpus regionales, “de pequeño dominio” (Fontanella 1993, Company 1994, Stefano/Tejera 2006, CORDEREGRA, etc.), al estar elaborados con similares principios metodológicos y seleccionar parecidos tipos textuales, permiten hacer estudios comparativos rigurosos entre las zonas de procedencia de los documentos. e) El CORDEREGRA, en tanto que corpus regional en el que se privilegian los documentos donde aflora la oralidad, se concibe como un complemen-

248

MIGUEL CALDERÓN CAMPOS/MARÍA TERESA GARCÍA GODOY

to del CORDE, pues aporta textos de una naturaleza y de una zona de Andalucía con escasa representación en el corpus académico. 6. Abreviaturas ADG: AGA: AHA: AHN: AHPA: ARChG: APNG:

Archivo de la Diócesis de Granada. Archivo General de Andalucía. Archivo Histórico de la Alhambra. Archivo Histórico Nacional. Archivo Histórico Provincial de Almería Archivo de la Real Chancillería de Granada Archivo de Protocolos Notariales de Granada.

7. Bibliografía BOYD-BOWMAN, Peter (1975): “A Sample of Sixteenth Century “Caribbean” Spanish Phonology”, en: Colloquium on Spanish and Portuguese Linguistics. Washington, D.C.: Georgetown University Press, 1-11. CALDERÓN CAMPOS, Miguel (2002): “Fórmulas de tratamiento en las cartas del conde de Tendillas (1504-1506)”, en: Echenique, Mª Teresa/Sánchez, Juan (eds.): Actas del V Congreso Internacional de Historia de la Lengua Española. Madrid: Gredos, vol. I, 476-486. — (2006): “El desgaste pronominal y verbal de vos en la primera mitad del siglo XVI”, en: de Bustos Tovar, José Jesús/Girón Alconchel, José Luis (eds.): Actas del VI Congreso Internacional de Historia de la Lengua Española. Madrid: Arco Libros, vol. I, 557-568. CASEY, James (2000): “La sociedad: la familia y los procesos de oligarquización”, en: Peinado Santaella, Rafael/Barrios Aguilera, Manuel/Andújar Castillo, Francisco (eds.): Historia del Reino de Granada. Granada: Universidad de Granada/El Legado Andalusí, vol. III, 109-143. COMPANY, Concepción (1994): Documentos Lingüísticos de la Nueva España. AltiplanoCentral. México, D.F.: UNAM. FONTANELLA DE WEINBERG, Beatriz (1987): El español bonaerense. Cuatro siglos de evolución lingüística (1580-1980). Buenos Aires: Hachette. — (1993) (coord.): Documentos para la historia lingüística de Hispanoamérica (siglos XVI a XVIII). Madrid: BRAE. — (2003 [1992]): “Variedades conservadoras e innovadoras del español en América durante el periodo colonial”, en: García Mouton, Pilar (ed.): El español de América 1992. Madrid: CSIC, 107-123. FRAGO GARCÍA, Juan Antonio (1993): Historia de las hablas andaluzas. Madrid: Arco Libros.

EL CORPUS DIACRÓNICO DEL ESPAÑOL DEL REINO DE GRANADA

249

GARCÍA GODOY, Mª Teresa (2006): “La designación del vínculo conyugal en documentos notariales del Reino de Granada (XVI-XVIII)”, en: de Bustos Tovar, José Jesús/Girón Alconchel, José Luis (eds.): Actas del VI Congreso Internacional de Historia de la Lengua Española. Madrid: Arco Libros, vol. III, 2734-2745. GALMÉS DE FUENTES, Álvaro (1956): “Lle-yeísmo y otras cuestiones lingüísticas en un relato morisco del siglo XVII”, en: Estudios dedicados a Menéndez Pidal. Madrid: CSIC, vol. VII, 273-307. GUITARTE, Guillermo L. (1971): “Notas para la historia del yeísmo”, en: Coseriu, Eugenio/Stempel, Wolf-Dieter (eds.), Sprache und Geschichte. Festschrift für Harri Meier zum 65 Geburtstag. München: Fink, 179-198. LAPESA, Rafael (91981): Historia de la Lengua Española. Madrid: Gredos. MACÍAS, Isabela/MORALES PADRÓN, Francisco (1991): Cartas desde América (17001800). Sevilla: Andalucía 92 /Asesoría Quinto Centenario. MONDÉJAR, José (1991): “La más antigua caracterización fonética de las hablas andaluzas”, en: Carrasco, Pilar/Galeote, Manuel (eds.): Dialectología andaluza. Estudios. Granada: D. Quijote, 167-234. PARODI, Claudia (1977): “El yeísmo en América durante el siglo XVI”, en: Anuario de Letras 15, 241-248. PASCUAL, José Antonio (2000): “La idea que Sherlock Holmes se hubiera hecho de los orígenes del español americano”, en: Carrasco, Inés (coord.), El español y sus variedades. Málaga: Ayuntamiento de Málaga, 77-93. PLA CÁRCELES, José (1923): “Vuestra Merced > usted”, en: Revista de Filología Española 10, 402-403. QUESADA PACHECO, Miguel Ángel (1990): El español colonial de Costa Rica. San José: Universidad de Costa Rica. ROJAS, Elena (1985): El español de Tucumán. Tucumán: Universidad Nacional de Tucumán. — (coord.) (2001): Documentos para la historia lingüística de Hispanoamérica (siglos XVI a XVIII). II. Madrid: BRAE. — (coord.) (2008): Documentos para la historia lingüística de Hispanoamérica (siglos XVI a XVIII). III. Madrid: BRAE. STEFANO, Luciana de/TEJERA, María Josefina (comp.) (2006): Documentos para la historia del español de Venezuela. Caracas: Universidad Central de Venezuela (edición en CD). TORRES MONTES, Francisco (1998): La lengua de La infancia de Jesu-Christo. Contribución al estudio histórico del habla andaluza. Almería: Universidad de Almería. VINCENT, Bernard (2000): “La organización del territorio y la población”, en: Peinado Santaella, Rafael/Barrios Aguilera, Manuel/Andújar Castillo, Francisco (eds.): Historia del Reino de Granada. Granada: Universidad de Granada/El Legado Andalusí, 35-57. WESCH, Andreas (1994): “El documento indiano y las tradiciones textuales en los siglos XV y XVI: la clase textual información”, en: Lüdtke, Jens (comp.): El español de América en el siglo XVI. Actas del Simposio del Instituto Ibero-Americano de Berlín, 23 y 24 de abril de 1992). Madrid/Frankfurt: Iberoamericana/Vervuert, 73-86.

USO DE CORPUS DOCUMENTAL EN SOCIOLINGÜÍSTICA HISTÓRICA Y R E T O S PA R A S U E L A B O R AC I Ó N E N E L S U R E S T E P E N I N S U L A R ( S S . X V- X V I I ) 1 MERCEDES ABAD MERINO Universidad de Murcia

1. Preámbulo Justificar la existencia de la sociolingüística histórica es una tarea completamente innecesaria en la actualidad, pues desde hace años se ha podido comprobar que es posible establecer la correlación entre factores lingüísticos y sociales también en la dimensión diacrónica, incluso más allá de la explicación de un cambio en curso. Los fundamentos teóricos y metodológicos están muy bien definidos sea cual sea la perspectiva de aproximación que se utilice, desde el contextualismo británico o desde el variacionismo laboviano. La sociolingüística histórica ha colocado en primer lugar del escenario la importancia de la dinámica social y contextual en los procesos históricos del cambio lingüístico (López Morales 2006: 2.400) y de su alto rendimiento son buen ejemplo en España los trabajos de Gimeno (1983, 1995) y otros investigadores (Montoya (1986), Abad (1994), Mas (1994) y Calderón (2002)) que muestran distintos ámbitos de proyección de esta disciplina. Sin embargo, una investigación de este tipo entraña todavía muchas dificultades. El principal obstáculo que hay que sortear a la hora de emprender un trabajo de esta naturaleza reside en las fuentes empleadas para llevar a cabo el análisis, pues hemos de basarnos necesariamente en la documentación escrita de otras épocas, buscando por los archivos textos válidos y variados, casi siempre inéditos, que ilustren con amplitud el periodo de tiempo seleccionado. Es sin duda una tarea muy ardua y compleja que nos separa, no poco, de nuestros colegas sincrónicos. Las características que debe tener un corpus para un estudio de naturaleza sociolingüística histórica son difíciles de sistematizar, ya que debe permitirnos

1

Esta investigación se ha llevado a cabo gracias a la concesión del proyecto del MEC I+D+i “La configuración histórica del español hablado en el antiguo Reino de Murcia. (siglos XIII-XVII)” Ref. HUM2007-64902/HIST.

252

MERCEDES ABAD MERINO

explicar las circunstancias sociales y lingüísticas que favorecen el triunfo de una innovación frente a otra. Por esta razón, no sólo debe estar formado por una muestra amplia y variada de textos de la más diversa procedencia, sino que también debe ilustrar todo tipo de variables sociales (sexo, edad, nivel educativo, profesión, procedencia geográfica, etc.). Esto no siempre es posible, pues para cada época hay unos tipos documentales y no otros, bien porque institucionalmente no se generaban, bien porque han desaparecido por distintas causas o bien porque algunos grupos sociales apenas tienen acceso a la cultura escrita, dado el analfabetismo generalizado en el pasado, por lo que la muestra siempre parecerá sesgada. A esto hay que añadir que normalmente la variación va unida al tipo de texto empleado, como mostrara Romaine (1982), por lo que la elección de los textos puede condicionar el resultado final. Pero no son obstáculos insalvables; deberemos hacer, parafraseando a Labov (1972: 100), el mejor uso de datos “deficientes”, aunque habría que matizar esas deficiencias.

2. El material “deficiente”. Discriminación de la idoneidad de los documentos. Suele ponerse en duda la validez de los textos escritos para analizar y estudiar la correlación entre variables lingüísticas y sociales o los mecanismos del cambio. Se cuestiona su utilidad arguyendo que no reflejan la lengua viva, más espontánea y menos sujeta a convencionalismos, que sólo representa a un grupo social… y en parte es cierto, porque la lengua escrita no pretende ni puede ser lengua hablada, sino sólo aquello que es: un medio de expresión que debe diferenciarse del oral, pero que no impide que en lo escrito también pueda verse el cambio, la variación. Por otra parte, además de inconvenientes, un corpus histórico presenta también algunas ventajas de cara a la objetividad de los resultados, puesto que, como opinaba Vàrvaro (1984: 105-117), la documentación del pasado se presenta como un corpus finito cuya consistencia y delimitación es del todo independiente del fin que nos hayamos propuesto; ni es posible verificarlo ni, especialmente, integrarlo en relación a nuestras exigencias. Entendemos que esta polémica forma parte del debate científico, pero ha sido superada en la actualidad, como muestra la vigencia y el desarrollo de los corpus para el estudio de la Lengua, por lo que no nos detendremos en ella, sino en las pautas para localizar y confeccionar un corpus válido. En este objetivo tiene mucho que ver la familiaridad del investigador o investigadores con los archivos, pues cada tipo de archivo atesora una riqueza diferente, y, en el ámbito español, no encontraremos los mismos testimonios en un

USO DE CORPUS DOCUMENTAL EN SOCIOLINGÜÍSTICA HISTÓRICA

253

archivo público que en uno privado, o en el de Simancas y en el Histórico Nacional, pues responde el depósito a la iniciativa que lo generó. El Archivo General de Indias nos ofrece una determinada realidad y los de las Reales Chancillerías (Granada y Valladolid) otra bien distinta. Qué decir de los eclesiásticos, del obispado o parroquiales, donde podemos encontrar un poco de todo —si conseguimos entrar—, o de los municipales, cuyos fondos en algunas ocasiones están sin catalogar y que esconden verdaderas joyas. Estos archivos custodian los más variados tipos documentales según las épocas, la suerte y la política municipal. Muchas veces en los archivos más pequeños, precisamente por la tipología no oficial del documento, encontramos datos muy importantes, aunque también nos presentan las mayores dificultades, sobre todo de acceso. Vamos a ilustrar este apartado con una propuesta para los siglos XVI y XVII, época especialmente propicia para este tipo de acercamiento por la riqueza documental que se desarrolla y que no existe para la Edad Media, por ejemplo, donde la escasez de los documentos responde a múltiples razones, desde la inmadurez de las instituciones que los generaban hasta el simple hecho de que no se conservaron. Y eso que el papel comúnmente utilizado, por poner un caso, a finales del XV era de mucha mejor calidad que el del XVII. Con el fin de encontrar aquellos textos que mejor reflejen la variabilidad social de la lengua, nuestro punto de partida siempre ha sido localizar el tipo documental que se aleje lo más posible de la rigidez estructural y argumental, del peso de la tradición latina en los documentos oficiales, del protocolo notarial, actas capitulares, privilegios, etc., herederos de unas estructuras fijas desde el latín y de unas expresiones recurrentes o lexías complejas (Díez de Revenga, 1985, 1994), aunque también en ellos se puede estudiar la variación de otro tipo y ofrecen información muy valiosa para el estudio de la historia de la lengua. Entre todas las clasificaciones posibles, desde las de Labov o Romaine (1982: 118), donde desde una perspectiva amplia se habla de estilos, o más concretas, como la de Schneider (2002: 71-73), nos encontramos más cerca de la de este último, pues se muestra especialmente apropiada para aplicar a un corpus; habla el autor de cinco categorías de textos escritos que pueden ser utilizados con ciertas garantías en la investigación sociolingüística-histórica y que podemos aplicar a nuestro marco espacio-temporal, que enumeramos a continuación. A) Registros directos de actos de comunicación oral, como los expedientes judiciales. B) Registros escritos de actos de comunicación oral que se recuerdan y realizan tiempo después de su emisión. C) Registros escritos cuya relación con las variedades vernáculas orales del pasado se pueden intuir, como las cartas privadas o los diarios personales.

254

MERCEDES ABAD MERINO

D) Observaciones sobre la conducta lingüística de otros hablantes, aunque no suponga la trascripción de un acto comunicativo real. E) Transcripciones inventadas o imaginadas, sobre todo en las obras literarias. Esta clasificación engloba prácticamente todos los tipos de textos válidos para el análisis sociolingüístico histórico, aunque el último caso, la recreación literaria estereotipada, requiere un tratamiento diferente por su propia naturaleza artificiosa y exagerada, y no lo incluiríamos en el mismo nivel. Si trasladamos esta clasificación, surgida a raíz de la aplicación de los corpus documentales en el estudio de las distintas variedades históricas del inglés americano (SchneiderMontgomery 2001), a nuestro marco espacio-temporal, es decir, siglos XVI y XVII en el sureste peninsular y la ajustamos a tipos textuales específicos (aunque generalizables o tipificables) cabe ampliar los registros que pueden ilustrar cada categoría. Así, por ejemplo, el tercer apartado podría dar cabida a algunas manifestaciones teóricamente más rígidas o más formales que las valiosas cartas privadas, como pueden ser los albaranes, las peticiones, o los recibos que, sin embargo, tienen en común el haber sido escritas por hablantes semialfabetizados y que pueden ofrecer un rendimiento bastante elevado. Por otra parte, la experiencia nos ha mostrado que en la correspondencia oficial también hay sitio para la variación, así como en los libros de contabilidad, por ejemplo. Quizá podría censurársele el excesivo énfasis en la oralidad, ya que implícitamente se establece una equivalencia entre ésta y lengua no escrita, y es cierto que la variabilidad en la lengua escrita puede ir más allá de lo estrictamente oral, pero esa concepción no está reñida con la aplicabilidad de esta clasificación. Vamos a ilustrar estas palabras con la investigación que estamos realizando en torno a la configuración histórica del español hablado en el antiguo Reino de Murcia y su zona de influencia, centrándonos únicamente en los depósitos documentales municipales de las demarcaciones del Sureste, conocedores de que en ellos se encuentra buena parte de la información más preciada. De momento, dejamos de lado la que podemos hallar en otros archivos territoriales, pues contienen éstos una tipología bien distinta, ofreciendo resultados complementarios a los que podemos obtener del análisis en los locales.

3. Nuestra propuesta y su justificación La selección de tipos que traemos es orientativa; no se puede preconcebir un corpus sin conocer qué documentos se han conservado en cada archivo, al depender de la fortuna, conscientes además de que algunos tipos documentales que hemos manejado son excepcionales por su rareza. Además, en estos depósitos es muy

USO DE CORPUS DOCUMENTAL EN SOCIOLINGÜÍSTICA HISTÓRICA

255

importante saber qué evolución han tenido a lo largo de los últimos siglos, pues las guerras, las inundaciones, la mala conservación, la dejadez o el pillaje han definido el estado, cuantitativa y cualitativamente, en que nos encontramos la documentación. En los textos se registran manifestaciones de hablantes procedentes de Orihuela (prov. Alicante), Lorca, Mula y la propia capital murciana (prov. Murcia) y Vera (prov. Almería), pues el área dialectal del murciano excede la delimitación geopolítica de la actual Comunidad autónoma. También son muy interesantes los ejemplos que nos encontramos en la mayor parte de estos archivos, pues la conexión entre los enclaves hace que se conserven documentos procedentes de núcleos comarcanos. No es extraño localizar en Lorca documentación veratense –y viceversa–, en Orihuela de cualquiera de los lugares murcianos, en Murcia, capital del reino, de la mayoría de ciudades y villas, o en Mula de las villas que por entonces pertenecían al patrimonio del Marqués de los Vélez. Por lo tanto, hablamos de una labor muy concienzuda a la par que compleja donde el trabajo de sistematización y búsqueda va acompañado de una intensa actividad paleográfica; pensemos que nos enfrentamos a una diversidad de tipos de letra tan distinta como diversa era la moda de escritura (de albalá, cortesana o procesal, por poner un caso) y diferente también según la mano que los plasmaba. Hemos tomado como ejemplos diversos tipos que, pensamos, ofrecen una mayor versatilidad para el estudio y análisis. No quiere decir que haya de todas las clases en la totalidad de los archivos municipales, pero sí que ofrecen una perspectiva general para complementar esos datos y resultados potenciales. A continuación veremos los que nos han ofrecido mayor rendimiento funcional.

3.1. LIBROS DE CORRESPONDENCIA. Existente en todos los depósitos locales, pueden aparecer como legajos encuadernados o no. Los libros de correspondencia esencialmente pueden tener carácter privado o público. La privada constituye uno de los tipos documentales preferidos por los estudiosos, pues nos dejan acceder al tono más familiar, al lenguaje más intimo de los hablantes, constreñidos tan solo por las reglas elementales que marca la cortesía escrita. Estas colecciones ilustran la lengua viva del momento encarnada en un personaje real del que podemos llegar a conocer todo tipo de información. Un cartulario particular de una casa noble puede abarcar distintas generaciones y en esos casos el cambio se puede analizar mucho mejor (Nevalainen y Raumolin-Brunberg 1994, 1996). En nuestro corpus, no obstante, no hay ningún ejemplo de este tipo, sino de correspondencia oficial, pues resulta también muy interesante para el análisis.

256

MERCEDES ABAD MERINO

La correspondencia oficial de un concejo abarca toda una escala de matices y tonos personales y funcionales en correlación con la identidad del destinatario, pues la simetría o asimetría en la relación hace que se emplee un lenguaje u otro, unas determinadas fórmulas de cortesía y un vocabulario más o menos explícito. Se trata de cartas enviadas por las autoridades a sus asesores, abogados, gobernador, a otros concejos, a la Corona, al obispo y a todo aquel con quien compartieran intereses, y también de cartas recibidas, muchas veces como contestación de aquéllos a otra anterior. En estos documentos podemos seguir el desarrollo de la vida cotidiana y de su léxico por la diversidad de los temas tratados: rivalidad entre municipios cercanos, lamento por la falta de dinero, cartas de felicitación, de recomendación, de queja por los impuestos, el perenne problema del abastecimiento, etc. Es muy importante el depósito de misivas entre las diferentes comarcas, pues el cruce de la correspondencia hace que podamos hallar cartas procedentes de enclaves ajenos al antiguo reino de Murcia, pero que se incluyen en el área de influencia de lo que ha terminado por configurar espacio del español hablado en Murcia. Hemos traído a colación cartas de Orihuela, ya del XVII, donde el proceso de castellanización es imparable en la ciudad de la Vega Baja y algún caso localizado en Lorca, pero procedente del reino granadino. La principal diferencia entre unas –las privadas– y otras –las públicas–, es que las cartas recibidas son siempre originales, mientras que las enviadas que se guardan son en realidad las copias primeras, los borradores del texto definitivo que se manda finalmente. Este aspecto les da un valor añadido, como son las correcciones y tachaduras a que se someten los textos antes de ser configurados definitivamente y que podemos estudiar. En el encabezamiento suele aparecer la identidad del destinatario, por lo que es más fácil reconstruir el contexto social y el tipo de relación que se da entre los interlocutores. 1613, febrero 20. Orihuela. Archivo Municipal de Orihuela. Sig. 103, f. 436 r. A Pedro Masquefa. La señora madre de vuestra merced esta muy enferma, y nos a embiado a dezir escrivamos a vuestra merced se venga, que esta en tan grande peligro que no se lo podemos encarecer. Vuestra merced, vista esta, encomiende los negocios a Pedro Macian y vengase, offreciendole que la ciutat le satisfara cumplidamente los trabajos de mas, que la ciudad esta tal que no sabemos de donde acudir a los cargos que tiene, porque como hizieron los arrendadores pagar las pinciones de los censos que responde esta ciudad, y los demas salarios ordinarios, no ay de donde sacar un dinero. Vuestra merced lo haga, que conviene, y Nuestro Señor, etc. Origuela y febrero a 20, 1613.

USO DE CORPUS DOCUMENTAL EN SOCIOLINGÜÍSTICA HISTÓRICA

257

3.2. LIBROS DE CLAVERÍA/ CUENTAS DEL MAYORDOMO. Los gastos de la institución municipal se registraban en los libros de clavería o de cuentas de mayordomo, según el reino que los generara. Aparentemente las órdenes de pago no constituyen un tipo textual demasiado elocuente, pues están sujetas a una estructura fija que se repite en todas las ocasiones, pero en estos libros se guarda algo más: junto a las disposiciones de libramiento muchas veces aparece el recibo o albarán de quien ha cobrado, confirmando el gasto e incluso, si la fortuna lo permite, la factura que presentó. Por medio de estos libros hemos conseguido una colección de recibos que ponen voz a los grupos sociales menos representados en la escritura en estos siglos: carpinteros, albañiles, cereros, sastres, maestros y un largo etcétera que a veces presenta textos autógrafos, pues saben leer y escribir o incluso dejan traslucir una cierta formación; otras veces sólo los firman, pues no saben escribir y muchas otras los hace otra persona en su nombre por no saber leer ni escribir. En los dos últimos casos suele mencionarse de forma explícita. A pesar de que el texto de un recibo es una muestra breve y poco creativa, la información que nos da del estado de lengua es muy valiosa. Sirva como ejemplo esta muestra de cambio de código en una situación de lenguas en contacto: 1631, julio 10. Orihuela. Archivo Municipal de Orihuela. Sig. 669, f. 133r. Yo, Juan Vicente Franco, impresor de libros, confieso haver recebido de la Señora Ana Pedros, viuda del condam Andreu Manresa, cavaller, cents reals los quals a compte de la damunt dita consignacio y per la veritat fas lo present, gui a 10 del present mes de juliol de 1631. Vicent Franco.

3.3. LIBROS DE LA CÁMARA Y EL PÓSITO DE TRIGO. Las ciudades contaban con un almacén (pósito, almudí o alhorí) de cereal que aseguraba el suministro de su población; se da el caso de que los archivos municipales de Lorca y de Murcia se localizan en estas históricas dependencias. El camarero del pósito anotaba los gastos del mantenimiento y de la compra de trigo, lo que a primera vista no supone un registro interesante, pero, como en el caso anterior, también aparecen de vez en cuando los albaranes de quienes han vendido trigo al pósito, grandes y medianos propietarios y poderosos locales, por lo que nos ponen en contacto con otro grupo social diferente al que acabamos de referirnos en los libros de clavería, aunque con unos textos muy parecidos. Volvemos con el ejemplo oriolano:

258

MERCEDES ABAD MERINO

1604, octubre 14. Orihuela. Archivo Municipal de Orihuela. Sig. 1.290. f. 78r. Digo yo, donia Beatriz Vique, viuda de Andres Soler, que e recebido del señor Pedro Rois soler, canbrero, ochosientos y dies reales por el precio de los sobredichos quinze cayces de trigo que lentregado y por la verda yse aser el presente a Pedro sanches y firmado de mi nombre oy a catorze de otubre año 1603. Donia Beatriz Vique.

3.4. LIBROS DE FÁBRICA DE LAS IGLESIAS Las iglesias tienen un fondo reservado para el mantenimiento del edificio y el culto divino, esto es, la fábrica. Todos los gastos que se acogen a esa partida son anotados escrupulosamente por el fabriquero, por lo que una vez más nos encontramos ante un registro contable con proyección sociolingüística, considerando que los autores de los textos pertenecen al bajo clero, por tratarse de diáconos, coadjutores, o a veces el párroco. Podríamos decir que estos documentos, por el contenido y por el vocabulario seleccionado, tienen un tono doméstico y familiar que precisamente por ello nos aproximan al habla viva del momento: 1673-1674. Archivo Municipal de Orihuela. Fab. E.S. Sig. 1.813, f. 35 v. Item, en el primero de noviembre a los sacristanes seis reales que se acostumbran dar para la noche de las almas. 6 Rs. Item, en dicho dia di para llenar las tenaxas sinco reales. 5 Rs. Item, en15 de dicho mes di para quatro dosenas de vinageras ocho reales. 8 Rs. Item, en 18 de disiembre di nueve reales para tres visagras que se han puesto en una puerta que se ha hecho para la puerta de la escalera que sube a las capillas. 9 Rs. Item, en 22 de dicho mes di seis reales por el presio de un tejuelo, una abrasadera y un goron de yero donde juega dicha puerta. 6 Rs. Item, en 24 de dicho mes di para floresicas de san Anton para enramar los dias de Pasqua como es costumbre, tres reales. 3 Rs. Item, dicho dia di a los sacristanes quatro reales por haver esterado la iglesia. 4 Rs. Item, dicho dia di para quatro papeles de alfileres para el monumento y entre año quatro Rs. 4Rs. Item, en 4 de enero di dos reales para media dosena de cantaricos. 2 Rs.

3.5. DOCUMENTOS JUDICIALES. Este tipo documental es más extraño en los archivos municipales, pues la existencia de organismos institucionales de apelación territorial, leamos la Chancillería

USO DE CORPUS DOCUMENTAL EN SOCIOLINGÜÍSTICA HISTÓRICA

259

de Granada o el superior del Consejo Real, hace que sean esos depósitos los que custodien la mayor parte de esos procesos. Pero la fortuna ha hecho que haya permanecido en la cabeza de la Gobernación oriolana, perteneciente a otro reino y, por lo tanto, a otra dinámica legislativa y judicial, esos pleitos, por lo que Orihuela es un caso excepcional, tanto cuantitativa como cualitativamente. Otro hecho reseñable es el de Vera, también fuera de los límites del reino murciano. Y el último caso es el ya aludido de Mula, donde la concentración de pleitos por la acción judicial del marquesado lo convierte en un depósito magnífico para el estudio del solar murciano y oriental granadino; hay que recordar la extensión del señorío de los Fajardo, que incluía diversas villas del centro geográfico murciano, de la comarca velezana y de diferentes núcleos del Medio y Bajo Almanzora. En estos textos se nos ofrece una valiosa información para caracterizar a los hablantes: sexo, edad, procedencia y profesión. Entre todos los tipos existentes, posiblemente el pleito criminal sea el documento más buscado por los investigadores cuando se trata de analizar el lenguaje oral, la lengua viva y espontánea, ya que en ocasiones podemos encontrar fragmentos completos donde se reproduce en estilo directo las palabras de los testigos, y ése es el procedimiento enuncivo que refleja la oralidad más fielmente, o así se cree, puesto que a menudo se identifica lo oral con lo coloquial. Claro está que, ni todo el texto judicial son declaraciones, ni está escrito en estilo directo, ni tampoco todos los pleitos son criminales. Son muchos los registros que podemos encontrar en una causa judicial: desde el lenguaje jurídico más estereotipado, que aparece en los resúmenes del notario, en las sentencias y en las partes que anteceden y siguen a la declaración de cada testigo, diligencias plenas de estructuras y léxico propios del campo de la abogacía, pasando por las narraciones indirectas de los hechos, en las que a veces se desliza algún resto del discurso directo, hasta llegar a esos testimonios que se recogen al pie de la letra. Terrado (1991) establece una clasificación completa y habla de registro coloquial, testimonial, narrativo, jurídico y contable. Obviamente no todas las partes tienen la misma importancia para este propósito, puesto que son las declaraciones las que atraen más poderosamente nuestra atención. Pero junto a los de tipo criminal también hay pleitos civiles, entre los que destacan los procesos de límites territoriales, tipo éste que hemos tratado detenidamente por su interés para la historia de la lengua –fuentes incalculables para el estudio de la onomástica– en la frontera murciano-granadina. Estos pleitos fronterizos nos ponen en contacto con una minoría especialmente significativa en el XVI, que no suele estar demasiado representado en los textos que conocemos. Nos referimos a los moriscos, que ofrecen testimonio con su propia voz o a través del intérprete, por lo que también son muy interesantes para el conocimiento de la situación lingüística de ese grupo. Tenemos la fortuna de conservar la

260

MERCEDES ABAD MERINO

mayor parte del proceso entre Lorca y Vera por el campo de Huércal, extendido durante todo el XVI, y que se encuentra catalogado en el archivo municipal lorquino. Un fragmento de 1519: 1519-1559. Pleito entre Lorca y Vera por el campo de Huércal. Archivo Municipal de Lorca. Leg. Monográfico «Pleito de Vera». (…) y de alli prosigue mas adelante el dicho termyno por (f.31) el lomo y el cuchillo adelante a dar en el portichuelo entre el rio de Azeytuno o Guadaçena, que es otro limyte de los dichos limites (sic) y de alli prosigue adelante a llegar en el lomo que dizen Albicarin, que es otro limjte de los dichos termynos y de alli prosigue mas adelante el dicho termyno a llegar a dar en la fuente que dizen Orgal, que la dicha fuente es otro limite de los dichos termynos e de alli prosigue mas adelante el dicho termyno a llegar a dar en el cabeçon que nombran de la Marta, que dizen Xebelareyna, e que se dize Gebelarayhana porque ay alli arrayhanes munchos. El qual dicho limjte de Jebelarrayhana ay en el tres mojones que el uno dellos es donde acaba la dicha çibdad de Vera con la dicha çibdad de Almeria de partirse termynos y los de mas que alli empieçan a partir la çibdad de Purchena e la çibdad de Uera e que sabe lo que tiene dicho …”

4. El contexto sociosituacional. El papel de la historia. Las anotaciones en los textos. En la actualidad existen diversos corpus diacrónicos para el español de gran utilidad, bien completos bien en proceso de elaboración, como el Corpus del español de Mark Davies; el Corpus Diacrónico del Español (CORDE), de la RAE; el que se está elaborando con El estudio histórico del español de América, Canarias y Andalucía (Carrera de la Red 2006), o incluso la Biblioteca Virtual Miguel de Cervantes. Estas iniciativas se complementan y aúnan con el desarrollo mantenido de diferentes proyectos regionales. Hay un antes y un después de estas aportaciones en la lingüística diacrónica, pero si queremos emplearlos para investigaciones de orientación sociolingüística no siempre encontramos la posibilidad, ya que la información sobre los factores externos es bastante limitada, puesto que no están diseñados para tal fin. Como es lógico, en un corpus se puede buscar solamente lo que está etiquetado. Por eso, nuestra propuesta consiste en incluir en los documentos toda la información de los factores externos que poseamos, a pesar de que intentar la sistematización en ellos de todas las variables independientes que se utilizan normalmente en sociolingüística es prácticamente imposible, empezando por la

USO DE CORPUS DOCUMENTAL EN SOCIOLINGÜÍSTICA HISTÓRICA

261

propia complejidad que encierra cada concepto en el debate sociolingüístico y en el debate historiográfico, y porque siempre habrá que aplicarla con matices según el momento y el lugar seleccionados, como vamos a ver. Una revisión de las aportaciones más relevantes que se han llevado a cabo en el ámbito sociolingüístico histórico europeo para reconstruir el contexto social nos la ofrece Conde (2007: 53-72), donde se concluye que los lingüistas suelen servirse también de otros métodos, como el análisis del registro y del estilo y del auxilio de la historia social. Romaine (1982: 156) correlaciona los usos de los hablantes según su estatus con distintas categorías estilísticas o clases de textos: prosa epistolar, oficial y literaria y verso. En la Vega Baja del río Segura pudimos comprobar que el cambio de lengua iba unido al tipo documental y a la condición socioprofesional del hablante; los notarios y los curas empleaban castellano o valenciano en la segunda mitad del XVII según se tratara de una manifestación privada o una manifestación oficial (Abad, 1996a). Para establecer esos parámetros, en cualquier caso, debemos servirnos de la historia social, la disciplina indispensable para quien trabaja en este campo de estudio, pues cualquier investigación de tipo sociolingüístico histórico (Abad 1996b) requiere la reconstrucción del contexto social y la información que arrojan los textos en sí mismos es siempre muy valiosa pero también insuficiente. No vamos a solventar lo que parece un problema irresoluble, sino que vamos a mostrar una propuesta más que pretendemos aplicar porque ofrece un buen rendimiento funcional. Los siglos XVI y XVII españoles se caracterizan por su enorme complejidad social (Ruiz y Vincent 2007); no podemos seguir hablando de estructura estamental piramidal (Soria 2000) porque tras la renovación del debate social llevada a cabo en los últimos años, sería poco acertado atribuir un comportamiento lingüístico específico para cada uno de los estamentos tradicionales: nobleza, clero, artesanos, etc., ya que no son representativos del entramado de relaciones que articulaban la sociedad real. Por ello deben ser otras, no sólo la “clase social”, las variables independientes que se empleen en la caracterización de los hablantes y de los textos, aunque tampoco sirven todas las que en sincronía forman parte de ese concepto multidimensional. Factores como la riqueza, por ejemplo, no son nada fáciles de documentar en las manifestaciones escritas y tampoco van unidos a un comportamiento lingüístico determinado ni a un mismo grupo social, puesto que es muy frecuente el noble arruinado y no era extraño el campesino rico, de ahí que no lo incluyamos como distintivo en nuestro modelo ni como factor de estratificación social, a pesar de que hay autores que piensan que la riqueza debe considerarse un factor de estratificación social en la España del momento. Tampoco introducimos la propuesta de Moreno Fernández (2005) de que sobre los factores socioeconómicos, profesionales o educativos que sole-

262

MERCEDES ABAD MERINO

mos utilizar como variables independientes, deba superponerse en los Siglos de Oro un modelo basado en la limpieza de sangre por las diferencias lingüísticas que pueda aportar, pues los estudios más recientes sobre el comportamiento lingüístico de estas minorías, especialmente la morisca, muestran que se trata de una comunidad demasiado heterogénea internamente, como grupo social, y con características completamente diferentes según el área geográfica en que se inscriban, como para poder generalizar cualquier afirmación sin matizar (Abad 1999). Sobre su comportamiento lingüístico, por otra parte, ya sabemos que había grupos completamente castellanizados y grupos que no hablaron en castellano hasta el momento de la expulsión, y como el contacto entre el mundo musulmán y el cristiano era escaso, este parámetro no entra en nuestra clasificación. Tampoco es sencillo clasificar los documentos atendiendo a su estilo: más formal, menos formal, formal con rasgos de oralidad, descuidado, cuidado, etc., según el modelo que se elija, pues el continuum estilístico debe abarcar tonos personales y funcionales que no siempre caracterizan al documento entero, como sucede en los pleitos, donde se reproduce el testimonio de los encausados, los abogados y los oficios de los notarios, lo que ocasiona una alternancia constante de estilos, o en la correspondencia, que puede cambiar de tono en función del receptor. Sea como fuere, se trata de que aparezca el mayor número de información sociosituacional posible para que, si no podemos adscribir el documento a un determinado estrato social por la complejidad que entraña realizar esta operación de forma sistemática, sí podamos al menos contar con datos suficientes para poder situarlo en cada caso, una vez hecho el estudio histórico del momento y del lugar propuestos. Así, seleccionaríamos los siguientes marcadores: Fecha: la mayor ventaja de los documentos históricos es que permiten datarlos con fiabilidad y certeza, incluso cuando son copias, porque se indica de forma explícita casi siempre. Localización geográfica: cualquier transcripción histórica va acompañada de esta información que permite establecer la distribución espacial de una determinada variedad dialectal. Identificación del autor/emisor [y del receptor en el caso de cartas]: Saber quién está escribiendo el documento es fundamental a la hora de caracterizar el discurso del grupo al que pertenece, pero es muy frecuente que el emisor responsable de la enunciación no sea el mismo que quien escribe el enunciado, por lo que será conveniente especificarlo cuando sea posible. En el caso de la correspondencia es muy beneficioso señalar quién es el receptor, pues depende de esta relación emisor-receptor el tono que se emplee y a veces incluso la variedad dia-

USO DE CORPUS DOCUMENTAL EN SOCIOLINGÜÍSTICA HISTÓRICA

263

lectal utilizada. Para esta caracterización recurrimos a otros subparámetros como: – Sexo: Prácticamente no tenemos textos escritos por mujeres, pero cuando aparece una mujer por las circunstancias que sea, hemos de señalarlo. – Profesión/dedicación: Es uno de los subparámetros más asequibles, puesto que suele aparecer con bastante frecuencia en el interior de los documentos la profesión o dedicación de quien firma. Unas veces accedemos a dicha información de manera directa y otras mediante las menciones de otros. Conocer la dedicación nos ayuda a situar al hablante en un determinado grupo social, de ahí su relevancia. – Nivel cultural: la reconstrucción del contexto social puede permitirnos establecer una relación entre dedicación, grupo social y nivel cultural, siendo frecuente que la alta nobleza goce de una formación privilegiada, como el alto clero, los profesionales de la escritura no siempre tenían una formación superior, mientras que un comerciante influyente o un campesino rico podían desenvolverse con bastante soltura en el medio escrito. Nuestra clasificación es la siguiente:

Alfabetizado

Superior

Los poderosos tienen más posibilidades de formación superior y universitaria

Medio

Leen y escriben con soltura

Semialfabetizado

Competencia escrita básica

Analfabeto

No saben leer ni escribir

Grupo social: siguiendo los últimos avances del debate historiográfico, todo parece indicar que los complejos mecanismos de la dinámica social desde el XV no estaban regidos por una estructura estamental, por lo que se ajusta más a la realidad y a la concepción del momento referirse a grupos sociales. Un grupo es un marco social que incluye a individuos (Jiménez 1997). Se define como un conjunto de hombres y mujeres con características semejantes de cualquier índole: analogías económicas, jurídicas, políticas, etc. En los grupos también podemos distinguir diferentes clases. De esta manera aquella sociedad quedaría estructurada de la forma que muestra la tabla de la página siguiente. Nuestro planteamiento teórico entraña no pocas dificultades cuando se trata de llevarlo a la práctica, pues es muy difícil sistematizar este tipo de información para cada texto; por lo que nos debatimos entre la utilidad que podrían llegar a

264 Poderosos

MERCEDES ABAD MERINO

Nobleza

Alta Media Baja

Clero

Alto Medio

Altos funcionarios Comerciantes ricos Labradores ricos No poderosos

Bajo clero Profesionales Artesanos Campesinos Marginados

tener estas anotaciones y la enorme dificultad de establecer esas tipologías generales. En la actualidad sólo incluimos en nuestros documentos una detallada regesta donde se intenta recoger la información de la manera más completa posible, de tal manera que se le facilite la tarea al investigador poco familiarizado con la zona o la época, pero seguimos estudiando la manera de que el contexto sociohistórico forme también parte de los documentos de una manera rigurosa. La compilación de material expuesta en un dominio web específico (www.um.es/ cordimur) que estamos llevando a cabo pretende desarrollar este proyecto, con la esperanza de contribuir a ese proceso general mencionado en el presente estudio. Tenemos la fortuna de contar con textos históricos abundantes y de gran calidad que nos permite acometer estas empresas. La riqueza documental custodiada en estos archivos municipales, provinciales y nacionales hace posible su estudio desde las más diversas perspectivas, pero desde una metodología como la que proponemos los documentos pueden mostrarnos realidades sociolingüísticas que ampliarán nuestro conocimiento de la Historia de la Lengua y del pasado en general. El estudio de nuestro patrimonio documental se enriquece desde una perspectiva multidisciplinar, por lo que profundizando en el enfoque histórico podremos llegar a unos resultados renovados que, esperamos, abran nuevas perspectivas de investigación.

USO DE CORPUS DOCUMENTAL EN SOCIOLINGÜÍSTICA HISTÓRICA

265

Bibliografía ABAD MERINO, Mercedes (1994): El cambio de lengua en Orihuela. Estudio sociolingüístico-histórico del siglo XVII. Murcia: Servicio de Publicaciones Universidad de Murcia. — (1996a): “Notarios y curas en los libros de Huérfanas a casar y Cautivos a redimir”, en: Anuario de estudios filológicos 19, 7-26. — (1996b): “Propuesta metodológica para el análisis sociolingüístico de textos históricos”, en: Díez de Revenga, Pilar/Jiménez Cano, José Mª (eds.): Estudios de sociolingüística. Sincronía y diacronía. Murcia: Diego Marín editor, 9-24 — (1999): “La ejecución de la política lingüística de la Corona de Castilla durante el siglo XVI o no hablar algaravía so pena de çien açotes”, en: Díez de Revenga, Pilar/Jiménez Cano, José Mª (eds.): Estudios de sociolingüística. Sincronía y diacronía II. Murcia: Diego Marín editor, 9-34 CALDERÓN CAMPOS, Miguel (2002): “Fórmulas de tratamiento en las cartas del Conde de Tendilla (1504-1506), en: Echenique Elizondo, Mª Teresa/Sánchez Méndez, Juan (eds.): Actas del V Congreso Internacional de Historia de la Lengua Española. Madrid: Gredos, 477-488. CARRERA DE LA RED, Micaela/HERRÁN SANTIAGO, Andrea (2006): “Apuntes sobre la elaboración de un corpus electrónico de documentos del español de América”, en: Villayandre Llamazares, Milka (ed.): Actas del XXXV Simposio Internacional de la Sociedad Española de Lingüística. Madrid: Arco Libros, 263-287. CONDE SILVESTRE, Juan Camilo (2007): Sociolingüística Histórica. Madrid: Gredos, 2007. DAVIES, Mark, Corpus del español, (1 septiembre 2008) DÍEZ DE REVENGA TORRES, Pilar (1985): “Análisis de las lexías complejas en documentos medievales murcianos”, en: Estudios de Lingüística 3, 86-194. — (1994): “Lengua y notarios en la Castilla del siglo XIII”, en: Anuario de Estudios Filológicos 17, 89-100 GIMENO MENÉNDEZ, Francisco (1983): “Hacia una sociolingüística histórica”, en: Estudios de Lingüística 1, 181-226. — (1995): Sociolingüística histórica (Siglos X-XIII). Madrid: Visor. JIMÉNEZ ALCÁZAR, Juan Fº (1997): Un concejo de Castilla en la frontera de Granada. Lorca 1460-1521. Granada: Editorial Universidad de Granada. LABOV, William (1972): Sociolinguistic patterns. Philadelphia: University of Pennsylvania Press [Modelos sociolingüísticos. Madrid: Cátedra, 1983]. LÓPEZ MORALES, Humberto (2006): “Sociolingüística Histórica”, en: De Bustos Tovar, José J./Girón Alconchel, José L. (eds.): Actas del VI Congreso Internacional de Historia de la Lengua Española, III. Madrid: Arco/Libros, 2.385-2.402. MAS I MIRALLES, Antoni (1994): La substitució lingüística del catalá. (La administració eclesiástica d’Elx en l’edat moderna). Alicante: Diputació d’Alacant. MONTOYA ABAD, Brauli (1986): Variació i desplaçament de llengües a Elda i Oriola durant l’Edat Moderna. Alicante: Diputación Provincial.

266

MERCEDES ABAD MERINO

MORENO FERNÁNDEZ, Francisco (2005): Historia social de las lenguas de España. Barcelona: Ariel. NEVALAINEN, Tartu/RAUMOLIN-BRUNBERG, Helena (1994): “Sociolinguistics and language history; The Helsinki corpus of early English correspondence”, en: Hermes Journal of Linguistics 13, 135-143. — (eds.) (1996): Sociolinguistics and language history. Studies based on the corpus of early English correspondence. Amsterdam: Rodopi. ROMAINE, Suzanne (1982): Socio-historical linguistics. Its status and methodology. Cambridge: Cambridge University Press. RUIZ IBÁÑEZ, José J./VINCENT, Bernard (2007): Los siglos XVI-XVII. Política y sociedad. Madrid: Síntesis. SCHNEIDER, Edgar (2002): “Investigating variation and Change in Written Documents”, en: Chambers, J. K./Trudgill, Peter/Schilling-Estes, Natalie (eds.): The handbook of language variation and change. Oxford: Blackwell, 67-96. SCHNEIDER, Edgar/MONTGOMERY, Michael B. (2001): “On the trail of early nonstandard grammar: An electronic corpus of southern U.S. antebellum overseers’ letters”, en: American Speech 76, 388-410. SORIA MESA, Enrique (2000): El cambio inmóvil: transformaciones y permanencias en una élite de poder (Córdoba, ss. XVI-XIX). Córdoba: Ediciones de la Posada. TERRADO PABLO, Javier (1991): La lengua de Teruel a fines de la Edad Media. Teruel: Instituto de Estudios Turolenses- Excma. Diputación de Teruel. VÀRVARO, Alberto (1984): “Sociolinguistica e lingüística storica”, en: La parola nel tempo. Lingua, società e storia. Bolonia: Il Mulino, 105-117.

V

LA BIBLIA COMO CORPUS

VENTAJAS E INCONVENIENTES DEL USO D E B I B L I A M E D I E VA L ( U N C O R P U S PA R A L E L O Y ALINEADO DE TEXTOS BÍBLICOS) PA R A L A I N V E S T I G AC I Ó N E N L I N G Ü Í S T I C A H I S T Ó R I C A D E L E S PA Ñ O L ANDRÉS ENRIQUE-ARIAS Universitat de les Illes Balears

1. Introducción1 Los romanceamientos bíblicos medievales en castellano constituyen un vasto corpus textual de indudable interés para la investigación de la historia del español (Enrique-Arias 2008b). Se trata de un corpus de considerables dimensiones, con versiones que abarcan desde los orígenes de las manifestaciones escritas en prosa castellana en los comienzos del siglo XIII hasta el final de la Edad Media; son, al mismo tiempo, textos que contienen una considerable variedad de géneros y modalidades discursivas. Las traducciones bíblicas tienen además una característica peculiar: son los únicos textos para los que tenemos versiones del mismo contenido compuestas en todos los períodos de la historia del español, con la ventaja añadida de la existencia del original hebreo o latino para ayudar en la localización e interpretación de estructuras lingüísticas. Las versiones bíblicas son, en definitiva, un material particularmente adecuado para observar la evolución de la lengua a partir de la comparación de versiones del mismo texto producidas en diferentes períodos de la historia del español. Con el objetivo de facilitar el acceso a las versiones bíblicas medievales en castellano y obtener datos útiles y fiables para la investigación de la historia de esa lengua el equipo dirigido por Andrés Enrique-Arias ha desarrollado el corpus Biblia medieval (www.bibliamedieval.es), el primer corpus paralelo y alineado del español medieval de acceso libre en la red2. En Biblia medieval es posible 1

Este trabajo se ha desarrollado en el marco de los proyectos de investigación HUM200405036/FILO, HUM2007-62259/FILO y HA2006-0078, cofinanciados con fondos FEDER. 2 El equpo investigador de Biblia medieval está además compuesto por Mark Davies (diseño de la base de datos e interficie web), Antonio Bernat, Aitor García, Cristina Matute, Enrique Pato y Laura Camargo, así como un extenso número de colaboradores (se puede consultar la nómina completa de participantes en el sitio web del proyecto www.bibliamedieval.es).

270

ANDRÉS ENRIQUE-ARIAS

consultar en paralelo transcripciones paleográficas de la práctica totalidad de las versiones bíblicas medievales en castellano y acceder además a imágenes digitales de los manuscritos originales (para una descripción detallada de los contenidos del corpus y de la interficie para las consultas ver Enrique-Arias y Davies, en prensa, o la página del proyecto www.bibliamedieval.es)3. No obstante, todo el que se propone emplear equivalentes de traducción en investigación lingüística debe tener presente que hay una serie de problemas intrínsecos a este tipo de datos. Uno de ellos es que la lengua bíblica engloba registros fuertemente condicionados por convenciones textuales, a lo que hay que añadir el hecho de que, a través del proceso de traducción, es esperable que se produzca interferencia de la lengua del modelo subyacente. El objetivo principal de las páginas que siguen es ofrecer una visión crítica de las características del corpus Biblia medieval para su uso como fuente de datos en el estudio de la variación y el cambio lingüístico del español en perspectiva diacrónica.

2. Corpus paralelos e historia de la lengua Un corpus paralelo es una colección de textos con el mismo contenido subyacente organizados de manera que sea posible identificar fácilmente las correspondencias entre las estructuras equivalentes en las diferentes versiones que conforman el corpus. Este tipo de colecciones de textos constituyen un recurso metodológico que ha tenido numerosas aplicaciones en la investigación lingüística y filológica a lo largo de la historia. La comparación de versiones del mismo texto es una herramienta esencial en crítica textual, como ilustra ya tempranamente el Exaplo compilado por Orígenes en el siglo III para el establecimiento textual del Antiguo Testamento a partir de la comparación de seis versiones para-

3

La nómina completa de los textos junto a la abreviatura que empleo en adelante para referirme a ellos es la siguiente: primeros romanceamientos (Salterio bilingüe prealfonsí, Fazienda de ultramar ); biblia prealfonsí (Escorial I.i.8 [=E8], Escorial I.i.6 [=E6]); partes bíblicas de General estoria de Alfonso X; romanceamientos del siglo XV (Escorial I.i.3 [=E3], Escorial I.i.4 [=E4], Escorial I.i.5 [=E5], Escorial I.i.7 [=E7], Escorial I.ii.19 [=E19], Madrid, Nacional 10.288 [=BNM], Biblioteca de Ajuda 52-xii-1 [=Ajuda], Biblia de Alba, Évora cxxiv/1-2 [=Évora], Academia de la Historia ms. 87 [=Ac87], Libro de Job de Pero López de Ayala y Libro de Esther, Salamanca, Biblioteca Universitaria). Los códices propiamente bíblicos aparecen completos (con exclusión de glosas y comentarios). En textos como Fazienda y General estoria se han incluido solamente aquellas partes que siguen la Biblia con la suficiente literalidad como para permitir la alineación de versículos y capítulos con las demás versiones.

VENTAJAS E INCONVENIENTES DEL USO DE BIBLIA MEDIEVAL

271

lelas. Los corpus de equivalentes de traducción han sido empleados asimismo desde los inicios de la filología para interpretar lenguas antiguas, como en el caso bien conocido del desciframiento de la escritura jeroglífica egipcia mediante la Piedra de Roseta. En las décadas recientes, con el desarrollo de los medios informáticos, el uso de corpus paralelos está siendo aplicado a nuevos ámbitos en investigación lingüística. La comparación de textos traducidos a un gran número de lenguas es hoy día una herramienta de gran utilidad en tipología lingüística (Cysouw y Wälchli 2007). Otra área científica en la que el uso de corpus paralelos está alcanzando un gran desarrollo es en el estudio de la traducción, especialmente en el diseño de herramientas informáticas de traducción automática. El estudio de la variación y el cambio lingüísticos en perspectiva diacrónica es, sin duda, uno de los campos en los que el empleo de textos paralelos tiene una aplicación más inmediata. La comparación de versiones del mismo texto compuestas en momentos históricos sucesivos es una valiosa herramienta metodológica pues permite apreciar con particular claridad la evolución de la lengua en todos sus niveles de análisis. Por ello no es de extrañar que en los manuales de lingüística histórica se aproveche el valor pedagógico de la comparación de versiones bíblicas de diferentes épocas para ilustrar el cambio lingüístico (cf. Hock 1991: 2-3, Campbell 1999: 7, Fradejas 2000: 15-16). No obstante, si consideramos el conjunto de la investigación que se hace en lingüística histórica del español, está claro que el uso de textos paralelos es una metodología poco empleada. La razón es bien simple; hasta la disponibilidad del corpus Biblia medieval no existía un corpus paralelo de acceso libre en la red. El empleo de textos paralelos respondía a iniciativas individuales para el estudio de fenómenos concretos mediante corpus de uso personal4. Tampoco se ha dado en nuestro ámbito un debate científico sobre la utilidad de los corpus paralelos; sólo muy recientemente han aparecido estudios que han puesto de manifiesto la utilidad de emplear textos que, por haber tenido gran difusión a lo largo de la historia, han pervivido en versiones de diferentes épocas, como es el caso de Ab urbe condita (Stein 2005) o la Biblia (Kaiser 2005). El proyecto Biblia medieval se planteó como objetivo desde sus inicios desarrollar una herramienta informática de libre acceso en la red que permitiera aplicar la metodología de los corpus paralelos al estudio de la variación y el cambio lingüístico en el español medieval. A la hora de diseñar este corpus se ha tratado

4 Por ejemplo, Blake (2005) compara las soluciones gráficas empleadas para representar nombres propios en tratados bilingües castellano-árabes para reconstruir aspectos de la fonética del castellano medieval. Siguiendo el mismo principio metodológico, Dodi (2004) reconstruye la pronunciación del hebreo medieval analizando las grafías empleadas para representar nombres propios en la Biblia E3.

272

ANDRÉS ENRIQUE-ARIAS

de cubrir el máximo de expectativas de los lingüistas que se acercan al mismo desde diferentes perspectivas – dialectología, paleografía, estudio de las grafías, fonética y fonología, morfología, sintaxis y léxico. Por ello se ha considerado conveniente ofrecer tres niveles de acceso al usuario: facsímil, transcripción paleográfica y versión con puntuación y ortografía normalizada (para explicaciones de propuestas semejantes véanse también los trabajos de Arias, de Carrera de la Red y Gutiérrez Maté, y de Sánchez-Prieto Borja et al. en este volumen). En su versión actual el corpus permite consultar en paralelo transcripciones paleográficas de prácticamente todos los romanceamientos bíblicos medievales en castellano que se han conservado con posibilidad de acceder a imágenes digitales de los originales correspondientes. En fases sucesivas está previsto incorporar además una versión con ortografía y puntuación normalizada que, al menos parcialmente, incluirá lematización y etiquetado gramatical. Asimismo, se está estudiando la posibilidad de que en el futuro las diferentes versiones del corpus, que en este momento están alineadas de acuerdo con la división estándar en versículos de la Biblia Hebrea, tengan un nivel más estrecho de alineación (por ejemplo, a nivel de oración o incluso de sintagma).

3. Análisis crítico En las páginas que siguen analizo las propiedades de un corpus paralelo como Biblia medieval atendiendo a los parámetros de diversidad, análisis, perspectiva, calidad, representatividad y comparabilidad en comparación con los dos grandes corpus históricos del español de acceso libre en la red, el CORDE (www.rae.es) y el Corpus del español (www.corpusdelespanol.org)5.

3.1. DIVERSIDAD Sea cual sea el criterio de selección de los textos de un corpus histórico está claro que siempre será deseable que los datos tengan un nivel de diversidad suficiente como para permitir el estudio de la variación lingüística en, al menos, tres niveles: a) variación estilística, con representación de diferentes géneros y registros; b) variación dialectal que permita detectar el área geográfica donde se originan los cambios y sus vías de propagación y c) variación cronológica, es decir, el

5

Para una descripción y análisis crítico de estos dos corpus véase el trabajo de Davies en este volumen.

VENTAJAS E INCONVENIENTES DEL USO DE BIBLIA MEDIEVAL

273

corpus debe abarcar un período lo suficientemente amplio como para poder analizar la evolución histórica de las estructuras lingüísticas que contiene. En lo que respecta a la representación de géneros textuales, es evidente que los grandes corpus convencionales que incluyen textos de todo tipo, como el CORDE (23 millones de palabras en su parte medieval) o el Corpus del español (18 millones de registros para el mismo periodo) ofrecen mucha mayor variedad que el corpus Biblia medieval, que es mucho menor (apenas cinco millones de palabras) y solamente incluye material bíblico. Con todo, Biblia medieval contiene una considerable diversidad de géneros, estilos y registros, pues engloba textos narrativos (Jueces, Samuel, Reyes, etc.), legislativos (pasajes de Levítico y Deuteronomio), líricos (Cantar de los cantares, Salmos, etc.), sapienciales (Proverbios, Sabiduría, etc.) y proféticos (Isaías, Jeremías, Ezequiel, etc.). El estudio de la variación estilística en los textos medievales es una tarea no exenta de riesgos. Para poder hacer un análisis con las debidas garantías sería necesario comparar obras de diferentes géneros compuestas por autores del mismo lugar de procedencia en fechas no muy distantes; en caso contrario corremos el riesgo de que las diferencias atribuibles a registro en realidad lo sean a otras razones, como diversidad de tradiciones escriturarias, procedencia dialectal diversa, o diferencias en la fecha de composición de los textos. Una ventaja del corpus Biblia medieval es que, en términos generales, cada biblia romanceada agrupa libros de diferentes géneros que son fruto de una misma labor romanceadora. De este modo, podemos analizar la variación estilística de manera más controlada, analizando cómo un mismo traductor o compilador selecciona diferentes opciones lingüísticas dependiendo del género de cada texto6. Consideremos, por ejemplo, la variación en la distribución de artículo+posesivo (la mi casa) frente a posesivo solo (mi casa), un fenómeno que parece obedecer a una combinación de factores que incluyen dimensiones estilísticas (género textual, registro) y estructurales (propiedades sintácticas, semánticas y categoriales del poseedor y la entidad poseída). En una investigación aparte sobre las traducciones de eius e illius en los romanceamientos bíblicos medievales (Enrique-Arias 2008c) llevé a cabo una comparación de la distribución de artículo+posesivo (frente a posesivo sin determinar) en diferentes géneros textuales en dos traducciones bíblicas hechas a partir del latín en el siglo XIII. Los resultados aparecen resumidos en la Tabla 1. Los datos vienen a confirmar la observación, ya clásica, de Lapesa (2000 [1971]: 422) de que artículo+posesivo suele escasear en pasajes “impersonalmente narrativos, pero aumenta en frecuencia y hasta predomina a veces en los 6

Para una aplicación de Biblia medieval al análisis de la variación estilística véase el trabajo de Vincis en este volumen.

274

ANDRÉS ENRIQUE-ARIAS

TABLA 1 Porcentaje de la su casa según estilo (adaptado de Enrique-Arias 2008c)

E6-E8 (ca. 1250) GE (ca. 1280)

Lírico

Profético

Sapiencial

Narrativo

65,9% (29/44)

39,2% (40/102)

35,7% (15/42)

22,1% (21/95)

84% (21/25)

77,6% (59/76)

66% (8/12)

26,8% (15/56)

fragmentos de carácter poético, retórico o donde hay proximidad afectiva del narrador”. Es llamativo que la distribución de esta estructura sea idéntica en los dos romanceamientos del XIII, con una gradación de menor a mayor, por este orden, en los textos de género narrativo, sapiencial, profético y lírico. Respecto a la diversidad dialectal, ni el corpus bíblico ni los grandes corpus como el CORDE o el Corpus del español son apropiados para el estudio de la variación diatópica, pues para muchos de los textos que contienen nos es desconocida la exacta procedencia dialectal; estos corpus incluyen además textos conservados en testimonios tardíos en los que puede haberse dado mezcla de dialectos como resultado de las intermediación de los copistas en la transmisión textual. Los textos del CODEA (ver Sánchez-Prieto et al, en este volumen) son los realmente apropiados para el estudio de la variación dialectal en perspectiva histórica pues, en su mayoría, proceden de testimonios originales con fecha y lugar de procedencia conocidos. Con todo, cabe señalar que la comparación de los textos bíblicos también tiene interés para estudiar la variación dialectal. Por ejemplo, sabemos que la versión contenida en E8 tiene una fuerte impronta aragonesa y que las versiones de E19 y E7 contienen leonesismos. Estas diferentes procedencias geográficas quedan reflejadas en las expresiones que aparecen en los diferentes romanceamientos para referirse a una misma realidad: por ejemplo, en Levítico 11:29, las versiones de E3 y Alba emplean la forma castellana comadreja para referirse a la mustela nivalis mientras que E8 utiliza la forma oriental mosteliella y E19 el occidentalismo doneciella. El estudio de la variación dialectal en el corpus Biblia medieval y más en concreto la determinación del origen geográfico de los diferentes testimonios que han transmitido textos bíblicos es una de las líneas de investigación de los participantes en el proyecto (véase Matute en prensa, Enrique Arias y Matute en prensa). Por último, en lo que respecta a la variación histórica, cabe señalar que la Biblia es el texto para el que tenemos más versiones traducidas a lo largo de la historia del español, con textos compuestos al filo del siglo XIII y con continuación histórica hasta hoy. No obstante, no todas las épocas están igualmente representadas por la sencilla razón de que la actividad de traducción bíblica a la len-

VENTAJAS E INCONVENIENTES DEL USO DE BIBLIA MEDIEVAL

275

gua vulgar fue, en ocasiones, apoyada desde las instancias de poder y, otras veces, prohibida. Por ejemplo, los romanceamientos bíblicos medievales se distribuyen de manera desigual, concentrados en el siglo XIII para las traducciones hechas desde el latín y en la primera mitad del siglo XV para las del hebreo. La distribución desigual de los textos es, en todo caso, un problema que afecta a todos los corpus históricos, pues la disponibilidad de los materiales no es la que quiere el investigador, sino que está condicionada por la disponibilidad de textos para cada época. Por ejemplo, tanto en el CORDE, como en el Corpus del español, hay comparativamente menos textos del XIV que del XIII o del XV por la sencilla razón de que hay menos material conservado de esa época.

3.2. ANÁLISIS El corpus utilizado para el estudio de un fenómeno dado tendrá que estar diseñado de tal manera que sea posible apreciar de manera óptima los contextos que condicionan su aparición. Como ya se ha mencionado, para poder satisfacer las expectativas de todos los que se aproximan al texto lo ideal es ofrecer varios niveles de acceso. En el momento actual en el que los textos de Biblia medieval están presentados con unos criterios uniformes de transcripción paleográfica y existe la posibilidad de consulta de los facsímiles de los documentos transcritos, el corpus está especialmente indicado para el estudio de los fenómenos que operan al nivel fonético-fonológico ya que el conocer las opciones gráficas de los originales es crucial para determinar el sistema fonológico que subyace a los textos (véase, por ejemplo, el trabajo de Ueda en prensa sobre las grafías empleadas en el Génesis de la Biblia de Alba). Por el contrario, los dos grandes corpus de uso común, el CORDE y el Corpus del español, no pueden ser aprovechados a este nivel, pues los textos no están transcritos con criterio uniforme ni es posible la consulta del facsímil. Por otro lado, el formato actual de presentación de textos en Biblia medieval (transcripción paleográfica) dista de ser el idóneo para el estudio de otros niveles de análisis; el mantenimiento de la notable variedad de usos gráficos propia de la lengua medieval entorpece las búsquedas automáticas en el interfaz de consulta del corpus. El Corpus de español es sin duda la herramienta más versátil para el estudio de un amplio número de fenómenos léxicos y morfosintácticos gracias a su lematización y etiquetado de categorías gramaticales (ver Davies, en este volumen), si bien para los textos medievales del corpus la codificación léxica y gramatical en la base de datos dista de ser perfecta. Como ya se ha mencionado, está previsto mejorar la versatilidad del corpus Biblia medieval mediante la adición de una versión con ortografía y puntuación normalizadas y la introducción, al menos parcial, de lematización e información gramatical.

276

ANDRÉS ENRIQUE-ARIAS

3.3. PERSPECTIVA La arquitectura de un corpus condiciona en gran medida la perspectiva de análisis de los datos. Por ejemplo, cuando tenemos un corpus de texto plano sin lematizar, como es el caso del CORDE, prácticamente la única opción es establecer concordancias a partir de las cuales se puedan hacer sencillos análisis de coocurrencias y extraer datos de frecuencia. En el caso del Corpus del español la arquitectura del corpus y la interficie de consulta permiten además hacer búsquedas complejas con las que se puede observar relaciones más sutiles entre diferentes elementos (categorías gramaticales, marcas morfológicas, léxico relacionado). Tanto si se trata de textos lematizados, como si no, la metodología de la lingüística a base de corpus gravita hacia la búsqueda y observación de marcadores explícitos considerando un número limitado de opciones. La metodología de los corpus paralelos de equivalentes de traducción es mucho más abierta, pues permite analizar cualquier forma de expresar un contenido de la lengua fuente. Como se tiene acceso al texto subyacente y se conoce su significado, es posible buscar de manera selectiva aquellos pasajes en los cuales la estructura estudiada tiene más posibilidades de aparecer. Por ejemplo, si nos proponemos estudiar las formas de expresar preguntas retóricas en un corpus convencional nos encontramos con el problema de que no hay una forma fácil de rastrearlas automáticamente, ya que se expresan de múltiples maneras y no siempre con un marcador explícito: a veces se emplean marcadores como ¿cierto...? ¿por ventura...? ¿si...? pero también se pueden expresar con la inversión del orden sujeto verbo, o incluso sin marca alguna. En un corpus paralelo el acceso a las fuentes es de gran ayuda en la localización de ocurrencias del fenómeno estudiado: un rastreo de la partícula interrogativa haˇ- en la versión hebrea o numquid en la latina nos permite localizar automáticamente un gran número de casos de preguntas retóricas y examinar cómo están expresadas en las versiones castellanas. La perspectiva abierta del corpus paralelo permite estudiar fenómenos que apenas son localizables en un corpus convencional. Supongamos, por ejemplo, que queremos analizar las expresiones que traducen el marcador del discurso hebreo hinneh (latín ‘ecce’, inglés ‘behold’, castellano ‘he aquí’), un elemento empleado frecuentemente en la Biblia para introducir discurso directo. El corpus paralelo permite localizar en el original hebreo o latino las apariciones del marcador correspondiente y consultar los equivalentes en las versiones castellanas. O también se puede operar desde el castellano; por ejemplo, una vez constatamos que en E8 ecce se traduce de manera sistemática por evás, el corpus permite hacer una búsqueda de todos los versículos que contienen la palabra evás en esta versión y comparar con las expresiones equivalentes en otras versiones. Como se

VENTAJAS E INCONVENIENTES DEL USO DE BIBLIA MEDIEVAL

277

puede apreciar en las traducciones del pasaje de Deuteronomio 31:16 que se reproduce a continuación, el corpus permite observar el amplio número de expresiones que los traductores medievales empleaban para expresar el contenido y la función de este marcador7: Deuteronomio 31:16 [Vulgata] Dixitque Dominus ad Moysen: “ecce tu dormies cum patribus tuis...” [Fazienda] E dixo a Moisén: “e tú izrás con tos parientes...” [E8] E dixo Dios a Moisén: “evás que tú dormirás con tus padres...” [E3 / Ajuda] E dixo Dios a Muisén: “cata que tú yacerás con tus parientes...” [E4] E dixo el Señor a Moisén: “hete que dormirás con tus padres...” [E7] E dixo el Señor a Muisén: “ya tú vas a yazer con tus parientes...” [E19] E dixo Dios a Muisén: “aquí tú yacerás con tus parientes...” [Alba] Dixo el Señor a Moisén: “sepas que así como tú yoguieres con tus parientes...”

En definitiva, la metodología del análisis de textos paralelos puede sacar a la luz nuevos datos y plantear cuestiones que apenas han sido estudiadas a partir de las fuentes convencionales.

3.4. CALIDAD La calidad de los datos extraíbles de un corpus de traducciones bíblicas puede evaluarse desde distintos puntos de vista. Una traducción puede ser inexacta, extraña o errónea y ello evidentemente afecta a la calidad del corpus. Asimismo, como en cualquier corpus de texto transcrito manualmente, existe la posibilidad de que se hayan deslizado errores de transcripción. Un tercer factor que afecta a la calidad de un corpus es la procedencia de los textos: las obras conservadas en copias tardías con intermediación de copistas pueden tener desdibujados los rasgos lingüísticos del original y ser, por lo tanto, material poco adecuado para el análisis lingüístico. El problema de la existencia de traducciones erróneas no es privativo de los corpus paralelos; cualquier corpus de textos medievales incluye por fuerza muchos textos que son traducciones de originales árabes, latinos y otras lenguas. En cualquier caso, un corpus de traducciones bíblicas tiene una ventaja evidente sobre los corpus convencionales: la existencia de errores es más fácilmente

7

En la presentación de los ejemplos se ha regularizado la ortografía y la puntuación siguiendo la propuesta de Sánchez-Prieto Borja (1998).

278

ANDRÉS ENRIQUE-ARIAS

detectable mediante la consulta del texto subyacente y de las versiones paralelas, algo imposible en otros textos antiguos en que no hay un texto subyacente que consultar. Por ejemplo, en un corpus paralelo resulta inmediatamente evidente que la lectura estruirá en la versión de Isaías 10:19 en E4 es un error de copia por escrevirá pues Ac87, Alba, E3 y BNM presentan la lectura correcta (cf. Biblia Hebrea yiktəbe¯m, Vulgata scribet ‘escribirá’). En cualquier caso, a la hora de extraer datos de frecuencia, que es el proceder más común en lingüística histórica a base de corpus, la calidad global del corpus no resultará muy afectada por la existencia de errores aislados que se encuentren desperdigados en un texto. Más relevante será la existencia de expresiones que, debido a la influenca del texto subyacente, aparecen en la versión castellana con una frecuencia que no es la natural. Hay que tener en cuenta que en un corpus de equivalentes de traducción siempre habrá cierto grado de distorsión motivada por la influencia del texto subyacente; en lo que respecta a determinadas estructuras la distorsión puede ser muy acusada y en consecuencia el corpus paralelo será inservible para el estudio de los fenómenos en cuestión. Un tema interesante de investigación que servirá para conocer mejor la fiabilidad del corpus es determinar diferentes grados de distorsión para diferentes fenómenos en cada una de las traducciones (para una discusión más detallada sobre los problemas que plantea el empleo de equivalentes de traducción en investigación lingüística véase el apartado sobre “representatividad” más abajo). En lo que respecta a la posibilidad de la existencia de errores de transcripción, el hecho de que Biblia medieval permita la consulta del facsímil de los originales habilita al investigador para comprobar que el texto se ha transcrito correctamente. Si bien es prácticamente imposible compilar un corpus libre de errores, el poner a disposición del investigador las imágenes de los originales servirá para disipar dudas ante la presencia de lecturas bajo sospecha de ser erróneas. Por último, cabe destacar la calidad filológica de algunos de los ejemplares que han transmitido textos bíblicos. Varios romanceamientos se conservan en testimonios originales o apógrafos de sus autores (E6, GE1, GE4, Alba) y en lo que respecta a los romanceamientos de comienzos del XV, en su gran mayoría parece haber una distancia cronológica relativamente corta entre la fecha supuesta o conocida de composición y la fecha de copia del testimonio conservado.

3.5. REPRESENTATIVIDAD Sin duda la reserva más inmediata que suscita el uso de versiones bíblicas como fuente para estudiar la historia de la lengua es hasta qué punto estamos ante tex-

VENTAJAS E INCONVENIENTES DEL USO DE BIBLIA MEDIEVAL

279

tos que reflejan los sistemas lingüísticos vigentes en los diferentes momentos históricos en que fueron compuestos. Al tratarse de traducciones de base semítica o latina, se pueden dar interferencias de la lengua del original dando lugar a estructuras que se apartan del español no traducido. Además cabe la posibilidad de que, por tratarse de textos sagrados, empleen un lenguaje marcado estilísticamente (por ejemplo, con un arcaísmo deliberado). En el peor de los casos todo ello resultaría en una lengua muy artificiosa con poco valor como fuente de datos para el estudio de la evolución del castellano general. No es, por otro lado, tarea fácil saber con exactitud hasta qué punto la lengua bíblica medieval se desvía de los usos normales castellanos de la época, pues no existe hasta la fecha una descripción sistemática y completa de los rasgos que caracterizan la lengua de las traducciones bíblicas en castellano antiguo (Enrique-Arias 2008a). Una caracterización cabal de la lengua bíblica no debería detenerse solamente a analizar los fenómenos que son atribuibles a influencias del texto subyacente. Sería necesario seleccionar un corpus amplio con representación de diferentes modalidades textuales, hacer un análisis cualitativo y cuantitativo de un amplio número de fenómenos lingüísticos que engloben diferentes niveles de análisis y establecer una comparación sistemática con datos semejantes obtenidos de textos no bíblicos. Sólo entonces se podrá determinar hasta qué medida y en qué aspectos la lengua bíblica se desvía de la de otras tipologías textuales. Lo cierto es que, a diferencia de muchos de los textos más antiguos en castellano, la mayor parte de la Biblia está escrita en prosa, con gran cantidad de pasajes escritos con naturalidad en estilo directo. Es evidente, además, que los traductores tenían una competencia nativa del castellano y supeditaban la atracción por la lengua modelo a la necesidad de producir un texto entendible que siguiera las leyes gramaticales de la lengua de la época. En términos generales, los traductores hicieron un esfuerzo por adaptarse al castellano de uso general evitando los giros hebraizantes más violentos y, en algunos casos, como en la Biblia de Alba, trataron además de adaptarse a los gustos estéticos en boga en el momento (Enrique-Arias 2004, 2006). Otra cuestión importante que cabe considerar a la hora de describir la lengua bíblica y su posible desviación de otros registros es el hecho de que las traducciones de la Biblia son un elemento importante en la creación del registro escrito en castellano; en las manifestaciones escritas más tempranas no es fácil distinguir el registro religioso de lo que es simplemente el estándar escrito de la época. La razón es que el registro religioso es prestigioso y puede fácilmente pasar a otros registro escritos y de ahí a la variedad culta de la lengua general (es un hecho bien conocido que las traducciones bíblicas han jugado un papel importante en el desarrollo del estándar de las lenguas europeas modernas). Cabe, por

280

ANDRÉS ENRIQUE-ARIAS

lo tanto, preguntarse hasta qué punto las características del texto subyacente latino o hebreo han podido influir en la formación del español como lo conocemos hoy. Dicho de otro modo, una cuestión que en principio afecta a la descripción de la lengua bíblica puede convertirse en algo que en realidad afecta a la formación de la lengua culta en general. En cualquier caso, el problema de la representatividad no es sólo una cuestión que afecta al uso de los las traducciones de la Biblia para el estudio histórico del español. Es cierto que, en términos generales, los textos bíblicos tienen un estatus periférico en la tipología textual de las lenguas (para una clasificación de tipos de textos véase, por ejemplo, Biber 1995). Hoy día no consideraríamos que las traducciones bíblicas en una lengua constituyen un corpus representativo de la lengua en cuestión. Pero también es cierto que cualquier análisis lingüístico se basa en ejemplos concretos obtenidos de textos concretos (texto aquí incluye interacciones orales) lo que siempre nos deja con la duda de si los ejemplos son representativos de la lengua en conjunto o solamente de las tipologías textuales en que se insertan. En el estudio histórico el problema es más acuciante, pues la cantidad y variedad de textos está limitada a los registros que se plasman en un soporte escrito y dentro de ellos al subconjunto de los que han sobrevivido los avatares de la historia. El uso de un corpus paralelo de textos bíblicos hace que el investigador tenga siempre presente el hecho de que la lingüística diacrónica es, al fin y al cabo, un trabajo de análisis de tipología textual, algo que a menudo se olvida cuando se trabaja con un corpus convencional. En cualquier caso, no debemos olvidar que un corpus paralelo como Biblia medieval no pretende ser en sí mismo un corpus representativo del castellano medieval, sino que ha sido concebido como un complemento a otras fuentes de datos: las conclusiones que se deriven de su análisis tienen que ser contrastadas con datos de textos de otras tipologías textuales.

3.6. COMPARABILIDAD El investigador que se dispone a reunir datos para estudiar la evolución diacrónica de una estructura lingüística obligatoriamente necesita empezar por responder a la siguiente pregunta: ¿cómo se expresaba el enunciado x en la lengua de los siglos A, B, C, etc.? Una limitación de los corpus convencionales, por muy amplios que sean y bien diseñados que estén, es que en ellos no es fácil encontrar ocurrencias del mismo enunciado en textos producidos en diferentes periodos históricos. Por el contrario, un corpus paralelo tiene la ventaja de que permite comparar de manera inmediata ocurrencias de ejemplos lingüísticos concretos con un alto grado de equivalencia semántica, sintáctica y pragmática.

VENTAJAS E INCONVENIENTES DEL USO DE BIBLIA MEDIEVAL

281

No obstante, el investigador que se dispone a emplear un corpus paralelo tiene que tener en cuenta la imposibilidad de encontrar textos con un contenido completamente idéntico (De Vries 2007; Enrique Arias 2008b). Para empezar, algunos textos son traducción del latín y otros del hebreo lo cual hace que las versiones resultantes puedan diferir en algunos pasajes. También pueden darse diferencias atribuibles al estilo personal de los traductores: unos tenderán a seguir el original de manera más servil, otros preferirán hacer adaptaciones más literarias, e incluso hay casos en los que los romanceadores no siguen el original, sino que introducen alguna interpretación exegética. Otro aspecto que hay que tener en cuenta es que las diferentes versiones pueden tener en origen una función diferente, lo que influye en aspectos del texto resultante: la Fazienda no es propiamente una biblia sino un itinerario de Tierra Santa, mientras que las versiones alfonsíes para la General estoria tienen una intención historiográfica. Tales diferencias pueden tener un efecto significativo dependiendo del fenómeno que se quiera estudiar, por lo que no se puede hablar de comparabilidad total en un corpus de traducciones bíblicas. En definitiva, siempre será prudente tener presentes las cuestiones que afectan a la comparabilidad de las diferentes versiones a la hora de seleccionar los textos de un corpus paralelo para una investigación lingüística Con todo, un corpus paralelo como Biblia medieval siempre reunirá textos con un nivel de comparabilidad mucho mayor que los de los corpus convencionales, pues los factores que acabo de exponer afectan a la equivalencia de las diferentes versiones de manera muy parcial.

4. Conclusión El corpus Biblia medieval es, por sus peculiares características, un complemento útil y valioso a los grandes corpus históricos del español. Se trata del primer gran corpus de acceso libre en la red compuesto de textos transcritos con un criterio uniforme y que permite posibilidad de consulta de imágenes digitales de los originales. Pero, sin duda, la característica más excepcional es su organización como corpus paralelo con posibilidad de consulta del texto subyacente para localizar e interpretar las estructuras estudiadas. Todo ello abre grandes posibilidades para la observación de fenómenos de variación y cambio lingüístico en perspectiva diacrónica. Como todo documento histórico, las versiones bíblicas adolecen de los inconvenientes que acompañan a la labor de reconstruir sistemas lingüísticos a partir de textos. A la hora de analizar datos procedentes de un corpus paralelo de traducciones bíblicas hay que tener en consideración toda una serie de posibles fac-

282

ANDRÉS ENRIQUE-ARIAS

tores de distorsión, especialmente la influencia del texto subyacente o la presencia de rasgos marcados estilísticamente. En cualquier caso, las traducciones bíblicas medievales no son en su conjunto una fuente de datos de peor calidad que los materiales pertenecientes a otras tipologías textuales, especialmente si tenemos en cuenta que una gran parte de los textos medievales acusan intensas influencias foráneas o pertenecen a registros marcados estilísticamente. Para aprovechar al máximo el valor de las versiones bíblicas es necesario que el investigador esté dispuesto a informarse sobre las características filológicas de cada texto y a entender los fundamentos de la traducción bíblica: la lengua fuente, la intención de los autores, el estilo de la traducción y las consecuencias que todo ello puede tener para el resultado final. Una ventaja importante del uso de un corpus paralelo en el estudio histórico del español es que, precisamente por los riesgos y cautelas que entraña, el investigador tiene que estar bien concienciado de los problemas que se derivan del empleo de traducciones para obtener datos lingüísticos, algo que raramente se hace cuando se analizan textos traducidos en corpus convencionales. Es de esperar que la disponibilidad de esta nueva herramienta facilitará el uso de textos bíblicos en los estudios de historia de la lengua y permitirá enriquecer desde una perspectiva teórica la comprensión de los fenómenos de cambio y variación del español en perspectiva diacrónica.

Referencias BIBER, Douglas (1995): Dimensions of register variation. A cross-linguistic comparison. Cambridge: Cambridge University Press. BLAKE, Robert (2005): “The pronunciation of h- and f- in bilingual Spanish/Arab treaties from the thirteenth century”, en: Wright, Roger/Ricketts, Peter (eds.): Studies on IberoRomance linguistics dedicated to Ralph Penny. Newark: Juan de la Cuesta, 75-83. CAMPBELL, Lyle (1999): Historical Linguistics. An introduction. Cambridge: MIT Press. CYSOUW, Michael/WÄLCHLI, Bernhard (eds.) (2007): Parallel Texts: Using translational equivalents in linguistic typology, número especial de Sprachtypologie und Universalienforschung 60 (2). DE VRIES, Lourens (2007): “Some remarks on the use of Bible translations as parallel texts in linguistic research”, en: Cysouw, Michael/Wälchli, Bernhard (eds.): Parallel Texts: Using translational equivalents in linguistic typology, número especial de Sprachtypologie und Universalienforschung 60 (2), 55-64. DODI, Amos (2004): “Transcriptions of Hebrew proper nouns in a fifteenth-century Spanish bible (Ms. Escorial I.j.3)”, en: Bulletin of Hispanic Studies 81, 427-452. ENRIQUE-ARIAS, Andrés (2004): “Texto subyacente hebreo e influencia latinizante en la traducción de la Biblia de Alba de Moisés Arragel”, en: Alsina, Victoria et al. (eds.):

VENTAJAS E INCONVENIENTES DEL USO DE BIBLIA MEDIEVAL

283

Traducción y estandarización. La incidencia de la traducción en la historia de los lenguajes especializados. Madrid/Frankfurt: Iberoamericana/Vervuert, 99-111. — (2006): “Sobre el parentesco entre la Biblia de Alba y la Biblia de la Real Academia de la Historia ms. 87”, en: Romance Philology 59, 21-43. — (2008a): “Apuntes para una caracterización de la morfosintaxis de los textos bíblicos medievales en castellano”, en: Kabatek, Johannes (ed.): Sintaxis histórica del español y cambio lingüístico: Nuevas perspectivas desde las Tradiciones Discursivas. Madrid/Frankfurt: Iberoamericana/Vervuert, 109-125. — (2008b): “Biblias romanceadas e historia de la lengua”, en: Company, Concepción/Moreno de Alba, José (eds.): Actas del VII Congreso Internacional de Historia de la Lengua Española. Madrid: Arco Libros, 1781-1794. — (2008c): “Las traducciones de eius e illius en las biblias romanceadas. Nuevas perspectivas para el estudio de la expresión de la posesión en español medieval”, en: Döhla, Hans-Jörg/Montero Muñoz, Raquel/Báez de Aguilar González, Francisco (eds.): Lenguas en diálogo: el iberorromance y su diversidad lingüística y literaria. Ensayos en homenaje a Georg Bossong. Madrid/Frankfurt: Iberoamericana/Vervuert, 125-141. ENRIQUE-ARIAS, Andrés/DAVIES, Mark (en prensa): “Research on historical pragmatics with Biblia medieval (an aligned parallel corpus of medieval Spanish)”, en: Pusch, Claus D. (ed.): Romance Corpus Linguistics III: Corpora and Pragmatics. Tübingen: Gunter Narr. ENRIQUE-ARIAS, Andrés/MATUTE, Cristina (en prensa): “El estudio morfosintáctico de la lengua de la Biblia de Alba: un acercamiento a la variación discursiva y dialectal del español del siglo XV”, en: Actes du XXV Congrès International de Linguistique et de Philologie Romanes. Innsbruck (Austria), Septiembre 2007. FRADEJAS RUEDA, José M. (2000): Fonología histórica del español. Madrid: Visor. HOCK, Hans Heinrich (1991): Principles of Historical Linguistics. Berlin: Mouton de Gruyter. KAISER, Georg A. (2005): “Bibelübersetzungen als Grundlage für empirische Sprachwandeluntersuchungen”, en: Pusch, Claus D./Kabatek, Johannes/Raible, Wolfgang (eds.): Romance Corpus Linguistics II. Corpora and Diachronic Linguistics. Tübingen: Gunter Narr, 71-83. MATUTE, Cristina (en prensa): “Patterns of Pronominal Variation in the General Estoria of Alfonso X”, en: Proceedings of the 18th International Conference on Historical Linguistics, Montréal, 2-9 August 2007, Amsterdam/Philadelphia: John Benjamins. STEIN, Peter (2005): “Die Übersetzungen von Titus Livius’ Ab Urbe condita in die romanischen Sprachen”, en: Pusch, Claus D./Kabatek, Johannes/Raible, Wolfgang (eds.): Romance Corpus Linguistics II. Corpora and Diachronic Linguistics. Tübingen: Gunter Narr, 57-70. UEDA, Hiroto (en prensa): “Vocalic graphemes in a medieval Spanish biblical text -A corpus analysis of “i, j, y” and “u, v, b” in Genesis, Biblia de Alba”, en: Corpus and variation in linguistic description and language education. Amsterdam/Philadelphia: John Benjamins.

D E S C R I B I R T E X T O S A PA R T I R D E E S T R U C T U R A S D E I L AC I Ó N O R AC I O N A L : U N C O R P U S D E R O M A N C E A M I E N TO S B Í B L I C O S M E D I E VA L E S VALENTINA VINCIS Universität Tübingen

La presente contribución1 se propone analizar una serie de textos bíblicos romanceados, examinando las estructuras de ilación oracional que se encuentran en ellos. De esta forma se intenta conjugar el enfoque teórico de las tradiciones discursivas con la metodología de la lingüística de corpus. La primera sección presenta la composición del corpus y las peculiaridades de los textos que lo integran. La segunda se encarga de explicar los aspectos teóricos y metodológicos involucrados, en particular la teoría de las tradiciones discursivas y los criterios de selección de los elementos relevantes para el análisis. Más consideraciones sobre los factores de variación textual se exponen a partir de una muestra concreta de texto anotado, presentada en la tercera sección. El cuarto apartado propone una primera evaluación de conjunto de los datos, mientras que el quinto profundiza en el análisis de una parte del corpus, sugiriendo al mismo tiempo ulteriores posibilidades de investigación.

1. Corpus El material lingüístico examinado proviene del Corpus digitalizado de textos bíblicos en español antiguo, formado por todos los romanceamientos bíblicos castellanos medievales conservados hasta nuestros días. La edición en forma digital de dicho corpus (transcripción paleográfica, facsímiles de los originales, transcripción normalizada por ortografía y puntuación) es el objetivo del proyecto de investigación homónimo, dirigido por Andrés Enrique-Arias en la Universitat de les Illes Baleares2.

1

Cofinanciada por el programa DAAD-Acciones Integradas Hispano-Alemanas. El corpus, de consulta libre, reside en la página web http://www.bibliamedieval.es. Para más informaciones sobre el proyecto v. Enrique-Arias (2008 y también el capítulo en este volumen). 2

286

VALENTINA VINCIS

Para el presente análisis se han elegido muestras textuales relativamente extensas, pertenecientes a tipologías netamente distintas: un texto lírico (Cantar de los cantares, completo), uno profético (los capítulos 1-11 de Isaías) y otro de tipo histórico-narrativo (de Números, los capítulos 16-17 y 20-25). De cada uno de los textos se han analizado todas las versiones medievales disponibles, formando un corpus paralelo de más de cien mil palabras. El cuadro siguiente describe de forma sumaria las características principales de los manuscritos examinados3: fecha supuesta de composición, fecha de copia, número aproximado de palabras y lengua fuente (el hebreo del Texto Masorético o el latín de la Vulgata).

Fecha composición

Fecha copia

Extensión del texto (palabras)

Fuente

Nm

Is

Ct

2663

–

–

Faz

ca. 1200

ca. 1230

hebreo

E8

ca. 1250

ca. 1400

latín 4979

–

–

E6

ca. 1250

ca. 1250

latín

–

5622

2381

GE1

1270-1280

1272-1275

latín

7009

–

–

GE3

1270-1280

ca. 1300

latín

–

7300

2600

Aj

1400-1430

1420-1430

hebreo

5230

–

–

E3

1400-1430

1425-1450

hebreo

5179

5332

2152

E4

1400-1430

1400-1430

hebreo

5266

5758

2137

E5

1400-1430

1420-1445

hebreo

–

5866

2354

Evo

1400-1430

1429

hebreo

–

–

2395

E7

1400-1430

1400-1430

hebreo

5299

–

–

E19

1400-1430

ca. 1420

hebreo

5433

–

–

BNM

1400-1430

1400-1450

hebreo

–

5470

2176

Alb

1422-1430

1422-1430

hebreo

5967

5747

2640

Ac87

1400-1430

1450-1475

hebreo

–

5654

–

3

Para las abreviaciones, v. infra el corpus bibliográfico.

DESCRIBIR TEXTOS A PARTIR DE ESTRUCTURAS DE ILACIÓN ORACIONAL

287

Cabe aquí señalar el carácter peculiar de Faz (Fazienda de ultramar) y GE1/GE3 (General Estoria): en el primer caso no se trata de una traducción completa del texto bíblico, sino de fragmentos sueltos, lo que habrá que tener en cuenta a la hora de evaluar los datos cuantitativos. En GE, en cambio, hay más material que en los demás textos, pues la prosa bíblica está entrecortada por largos comentarios, digresiones y compilaciones provenientes de otras fuentes. Se ha intentado obviar este problema excluyendo del análisis los pasajes no pertinentes, pero para no desnaturalizar el texto se ha evitado un corte excesivo del mismo, que sigue siendo considerablemente más largo que las versiones paralelas correspondientes. Entre los manuscritos analizados, además, hay parejas que son copia de la misma traducción: Aj y E3 para Números, E4 y E5 para Isaías, las dos parejas E5-Evo y E4-BNM para el Cantar; por eso, en la mayoría de los casos, el análisis aquí presentado se limita a una de las dos versiones.

2. Enfoque teórico y metodológico El método de análisis es el desarrollado dentro del grupo de investigación Tradiciones discursivas de lenguas románicas y análisis pluridimensional de corpus diacrónicos, en marcha desde 2005 en la Universidad de Tübingen (Alemania), bajo la dirección de Johannes Kabatek. El objetivo de este proyecto es realizar un acercamiento empírico al paradigma teórico de las tradiciones discursivas, a partir de la lingüística de corpus4. El concepto de tradiciones discursivas (TD), propuesto como desdoblamiento de lo que Eugenio Coseriu definió como nivel histórico de la lengua, implica consecuencias de relieve en varios ámbitos, en particular para los estudios diacrónicos5. En este campo resulta imprescindible superar cierta visión monolítica de la evolución lingüística, introduciendo una nueva aproximación a la historia de la lengua, que tenga en cuenta el desarrollo de las distintas TD, así como sus relaciones e influencias recíprocas. Para la gramática histórica esto significa,

4 Se trata del proyecto B14 del área de investigación especializada SFB 441 (Estructuras de datos lingüísticos), financiada por la Deutsche Forschungsgemeinschaft; más detalles se pueden encontrar en Kabatek (2005a), así como en la página web http://www.sfb441.uni-tuebingen.de/b14. 5 Para el concepto de TD, v. Oesterreicher (1997) y Koch (1997). Sobre sus implicaciones para la lingüística histórica, v. Aschenberg (2002) y Wilhelm (2003). Kabatek (2005b) ofrece una síntesis de los aspectos más relevantes de la cuestión en lengua española. Para un ejemplo de aplicación concreta a un problema de la historia del español véase Stolova (este volumen).

288

VALENTINA VINCIS

ante todo, establecer cómo se pueden caracterizar las TD desde una perspectiva textual. A este problema se le han dado varias posibles respuestas (cf. Kabatek 2005a: 164ss.); la solución adoptada en el presente trabajo consiste en buscar un compromiso entre exhaustividad y economía, limitando el análisis a los elementos que se consideran “sintomáticos” para las TD. En este sentido ha resultado provechoso, entre otros, el estudio de la ilación oracional6: un fenómeno que involucra aspectos sintácticos y semánticos relevantes para cualquier texto, y cuya extensión reducida permite, sin embargo, limitar el esfuerzo de anotación frente a otras propuestas, como la del análisis multidimensional, aplicado recientemente a textos castellanos modernos (Biber et al. 2006). Concretamente, la primera y más importante fase de trabajo ha sido la anotación del corpus. Para empezar se han dividido los textos en unidades dotadas de valor oracional, anotando al mismo tiempo, en cada caso, el núcleo de la oración. El criterio decisivo ha sido, en la mayoría de los casos, la presencia de un verbo conjugado como núcleo oracional, pero también se han anotado con esta función otros elementos: participios, gerundios, infinitivos (donde no formaran parte de una perífrasis verbal) y, sobre todo en el Cantar de los cantares, predicados nominales elípticos de cópula (v. sección 4)7. La anotación de los elementos de ilación oracional se ha llevado a cabo siguiendo un modelo bidimensional, basado en criterios sintácticos y semánticos8. En la dimensión sintáctica, partiendo del polo de la mera agregación y moviéndose hacia un grado de integración creciente, se han distinguido coordinación (III), subordinación (IV), construcciones de participio y de gerundio (V), y estructuras de infinitivo introducido por preposiciones o grupos preposiciona-

6

Como muestra de los trabajos previos v. Kabatek/Obrist/Vincis (en prensa) y Vincis (2008). 7 No siempre los límites de las unidades oracionales coinciden en todos los códices: lo que una versión traduce con una relación transfrástica puede expresarse en otra a nivel intraoracional (bastante frecuente es, p.ej., encontrar un adjetivo o un complemento en correspondencia de una oración de relativo). En estos casos se ha anotado la presencia de material lingüístico, aunque no dotado de valor oracional, para indicar que el elemento no ha sido eliminado del texto, sino que se realiza a nivel suboracional. 8 El doble eje de clasificación, así como parte de las categorías empleadas, provienen de Raible (1992) y (2001), que se ocupa de ilación oracional (y suboracional) en términos tipológico-universales, ofreciendo un panorama de los recursos disponibles en lenguas tipológicamente muy distantes, y tratando también aspectos diacrónicos y mediales. Al trabajar en una perspectiva y con objetivos muy distintos de los de Raible, hemos modificado y adaptado el modelo teórico general según las necesidades del trabajo empírico, aunque conservando algunas de las ideas básicas.

DESCRIBIR TEXTOS A PARTIR DE ESTRUCTURAS DE ILACIÓN ORACIONAL

289

les (VI). En la dimensión semántica, las relaciones de más relieve que han sido anotadas son: simple adición (1), condición (3), tiempo (5), causa (6), modo y consecuencia (7), finalidad (8) y concesión (9). Como casos particulares en el sistema de anotación bidimensional se han considerado los conectores que introducen oraciones relativas (anotados como IVr) y completivas (IVc), inclusive las de sujeto y objeto9: estos elementos no se han anotado bajo el eje semántico, sino únicamente según su sintaxis –al igual que gerundios y participios, caracterizados precisamente por la vaguedad de la relación semántica expresada. A continuación damos un ejemplo concreto de anotación (presentando una unidad oracional en cada línea, los conectores en negrita, el núcleo de la oración subrayado); se trata del versículo 8:7 del Cantar de los cantares, en las versiones de BNM y de GE3: 8:7 Muchas aguas el amor amatar non podrian, nin [III,1] la auenida de los rios non la rebatarian, avn que [IV,9] diese el varon quanto [IVr] auer en su casa tiene por el amor quasy en menosprez e en poca valia lo ternian.

(BNM)

8:7 Muchas aguas non pudieron amatar la caridat, nin [III,1] la cobrirán nin [III,1] quebrantarán ríos. Si [IV,3] diere omne todo quanto [IVr] oviere en su casa por la bienquerencia, (GE3) como por nada lo terná.

3. Corpus paralelos: dos tipos de variación No hace falta, en este lugar, subrayar las ventajas brindadas en general por los corpus paralelos, que permiten reducir (y aislar más fácilmente) los factores de variación, al ofrecer diferentes versiones de un mismo contenido subyacente. Lo que nos interesa destacar es, en cambio, la existencia de dos tipos básicos de variación, relacionados con la propia naturaleza de los corpus paralelos. Con este

9

La anotación de relativas y completivas como IVr y IVc no implica necesariamente inclusión de las mismas entre las subordinadas (de hecho, muchas completivas no presentan verbo conjugado, sino infinitivo). Y es que nuestro interés, a diferencia del de Raible, no reside tanto en organizar las clases de oraciones presentes en los textos según un continuum sintáctico-semántico perfectamente coherente, sino en primer lugar en definir las clases mismas, distinguiéndolas entre sí, para luego poder comparar los textos anotados.

290

VALENTINA VINCIS

fin, vamos a comentar una representación gráfica del texto anotado, distribuida por comodidad en dos tablas: se trata de un pasaje de Números (22:22-35), analizado aquí en seis versiones. La dimensión horizontal de los gráficos reproduce la secuencia lineal del texto anotado: las etiquetas en la parte inferior indican el punto de inicio de cada versículo. Las tablas están divididas en tiras horizontales, cada una de las cuales corresponde a una categoría relevante para la anotación: arriba se encuentran las propiedades semánticas de los conectores, en la parte central las sintácticas y, en la tira más baja, los núcleos oracionales (entre los cuales, para facilitar la lectura, no se distinguen los diferentes tipos). Tratándose de la representación paralela de seis textos, ha sido además necesario marcar los elementos anotados según su manuscrito de pertenencia: en el interior de las tiras horizontales, la posición vertical de los símbolos y su color señalan a qué versión pertenece cada uno de ellos (v. leyenda).

TABLA 1 Anotación paralela de Nm 22:22-29 según seis manuscritos

En términos intuitivos se puede decir que donde una tira horizontal (p.ej. III, coordinación) está ocupada por una serie vertical de seis elementos, significa que todas las versiones coinciden en la misma solución expresiva. Es el caso de la primera unidad oracional representada en la Tabla 1 (Nm 22:22), que todas las versiones traducen con la misma estructura (coordinación aditiva y verbo conjugado):

DESCRIBIR TEXTOS A PARTIR DE ESTRUCTURAS DE ILACIÓN ORACIONAL

291

TABLA 2 Anotación paralela de Nm 22:30-35 según seis manuscritos

22:22 & [III,1] ençendiose la yra de dios 22:22 E [III,1] encendiose la yra del sennor 22:22 & [III,1] pesole al señor dios

(E3) (E4) (Alb)

Por el contrario, un punto aislado dentro de una tira indica que sólo una de las versiones ha optado por el elemento correspondiente. Un ejemplo puede ser el comienzo del v. 22:23, donde sólo la Biblia de Alba añade un conector de tipo IV,5 (subordinación temporal) a la solución común de todas las versiones, que coinciden en presentar coordinación aditiva y verbo conjugado: 22:23 E [III,1] vido el asna el angel de dios 22:23 E [III,1] vio el asna el angel del sennor 22:23 & [III,1] asy commo [IV,5] la asna vjo el angel de dios

(E3) (E4) (Alb)

Las Tablas 1 y 2 muestran claramente que la estructura de conexión básica de Nm 22:22-35 es la coordinación aditiva, pero dejan patente también que dicha estructura no se da con la misma frecuencia a lo largo de todo el texto: en los vv. 28-30 y 32-35 se registran menos ocurrencias que en los demás. Para explicar esta variación hay que recurrir al texto mismo. El pasaje en cuestión narra el episodio de la burra de Balaam: el sabio Balaam, llamado por el rey de Moab a maldecir el pueblo de Israel, ensilla su burra y se pone en marcha, a pesar de la contrariedad de Yahveh. Éste envía entonces su ángel a estorbar el camino de Balaam hacia Moab: por tres veces el

292

VALENTINA VINCIS

ángel, con su espada en la mano, aparece en medio de la calle y, sin embargo, queda invisible para Balaam. Quien sí puede verlo es la burra, que por tres veces se desvía del camino, recibiendo como consecuencia varios golpes de su dueño. Pegada por tercera vez, la burra abre la boca y le explica a Balaam lo que está pasando; entonces los ojos de Balaam se abren y, postrado en el suelo, el sabio le pide perdón al ángel. En el texto se puede observar una alternancia entre secciones narrativas y diálogos (marcada en los gráficos con líneas sangradas verticales): la primera parte cuenta las apariciones del ángel (vv. 22-27); siguen el diálogo entre la burra y Balaam (vv. 28-30), el cuento de la manifestación del ángel al sabio (v. 31) y, finalmente, el diálogo entre éste y el ángel (vv. 32-35), que presenta en parte un carácter narrativo. De las tablas 1 y 2 resulta claro que la mayor o menor frecuencia de elementos de coordinación aditiva tiene que ver con la alternancia entre narración y diálogo: de hecho, casi todas las oraciones principales de los pasajes narrativos empiezan con et o sus equivalentes, lo que no se da en los diálogos. Como muestran los gráficos, este tipo de variación vale, en principio, para todos los romanceamientos, independientemente de la época de composición o de la lengua fuente: es un fenómeno relacionado con las tradiciones discursivas de referencia, que funcionan como moldes textuales para las traducciones bíblicas. Se podría hablar de variación “horizontal”, determinada por las TD modelo que se suceden linealmente a lo largo del texto. Observando las tablas, ya no de izquierda a derecha, sino de arriba a abajo, se puede individualizar otro tipo de variación, que podríamos definir “vertical” y que se debe a la divergencia entre las soluciones expresivas que diferentes códices adoptan para la misma unidad oracional. Es el fenómeno que acabamos de comentar para la Biblia de Alba en el v. 22:23. Resumiendo, se puede afirmar que los corpus paralelos, por su misma naturaleza, presentan variación en un doble sentido: una variación horizontal, transversal respecto a los textos, relacionada con las tradiciones discursivas, y una vertical, entre versión y versión, determinada por eventuales diferencias en el texto fuente y por las elecciones de los propios traductores (a su vez relacionadas con variables diacrónicas, diatópicas y diastráticas). Observar en qué consisten concretamente los casos de divergencia tanto horizontal, como vertical, e investigar sus posibles causas, es el objetivo central de las secciones a continuación.

4. Evaluación estadística de conjunto Una vez llevada a cabo la anotación, hemos procedido a evaluar los datos obtenidos. Al menos tres han sido los objetivos de esta evaluación de conjunto:

DESCRIBIR TEXTOS A PARTIR DE ESTRUCTURAS DE ILACIÓN ORACIONAL

293

1) averiguar si hay cierta homogeneidad al interior de un mismo texto o, en otros términos, si la cantidad de texto examinada resulta bastante extensa como para garantizar cierta fiabilidad estadística en relación a los fenómenos analizados; 2) individuar las (macro-)diferencias entre los tres grupos de traducciones, en tanto que pertenecientes a distintos géneros textuales (prosa narrativa, prosa profética y texto lírico); 3) comprobar si las diferencias detectadas entre los tres grupos de textos en su conjunto son sistemáticamente más marcadas que las variaciones internas a cada grupo10. Para resolver la primera cuestión, hemos aplicado el criterio de fiabilidad de las dos mitades: cada texto se ha dividido en dos mitades discontinuas de extensión equivalente (versículos pares e impares) y en cada mitad se han calculado las ocurrencias sobre 1000 palabras de cada una de las categorías anotadas. Los resultados se pueden ver en las Tablas 3 y 4, donde a cada versión le corresponden dos columnas, relativas a los versículos pares y a los impares. Cada tabla, además, reproduce en la parte izquierda las traducciones de Números, al centro las de Isaías y a la derecha las del Cantar. TABLA 3 Tipología de núcleos oracionales en Nm, Is, Ct (valores por 1.000 palabras)

10 Este punto puede parecer obvio a primera vista, pero no se puede dar por sentado, siendo una premisa necesaria para hacer viable, en un futuro, el camino inverso al presente, es decir, del análisis sintomático del texto hacia la determinación de su(s) posible(s) TD de pertenencia (cf. Kabatek 2005a: 172).

294

VALENTINA VINCIS

Aunque no se alcance la perfecta identidad, cada pareja de versículos paresimpares muestra valores bastante parecidos tanto para los núcleos oracionales, como para los tipos de conexión: eso indica que las muestras textuales analizadas presentan un tamaño relativamente adecuado desde el punto de vista estadístico para los fenómenos que vamos analizando. El número total de núcleos oracionales por 1.000 palabras (Tabla 3), más elevado en Números y Cantar, indica que las oraciones de Isaías son las más largas, con un promedio de 7,16 palabras frente a 5,95 (Nm) y 6,76 (Ct). Entre los tipos de núcleo oracional predominan, en cada texto, los verbos conjugados, mientras que las formas no conjugadas juegan un papel más bien marginal. En el Cantar destaca además la presencia de predicados nominales sin cópula, importante en todas las versiones menos la Biblia de Alba. Se trata de un calco sintáctico del hebreo, donde de hecho no existe cópula: muy frecuente en el Cantar, esta estructura se reproduce fielmente en todos los romanceamientos (incluso los que traducen de la Vulgata), con la sola excepción de Alb, que añade la cópula de forma casi sistemática (cf. Enrique-Arias 2004: 107 y 2006: 253): 5:13 Sus quixadas commo paruas delas espeçias 5:13 Sus mexiellas atales cuemo eras de especias 5:13 Las sus mexillas son segund las matas de las olientes espeçias

(E3) (E6) (Alb)

TABLA 4 Tipos de ilación oracional en Nm, Is, Ct (valores por 1.000 palabras)

Con referencia al número total de conectores supraoracionales (Tabla 4), los tres subcorpus se diferencian de forma bastante clara entre sí, con un promedio

DESCRIBIR TEXTOS A PARTIR DE ESTRUCTURAS DE ILACIÓN ORACIONAL

295

de 144,3 (ocurrencias sobre 1.000 palabras) en Números, 117,7 en Isaías y 75,4 en el Cantar. En cuanto al tipo de enlace, la coordinación aditiva es el caso más frecuente, cubriendo tanto en las versiones de Números como de Isaías un promedio del 58,7% del total de los conectores, y en el Cantar el 42,9%. El segundo tipo de ilación oracional más frecuente es, en todos los casos analizados, el nexo relativo; sigue una larga lista de otras técnicas de conexión (agrupadas en la Tabla 4 bajo la etiqueta “otros”), cuyo análisis en detalle es imposible abordar en el marco del presente trabajo. De las tres cuestiones planteadas al principio de este apartado, se ha resuelto hasta aquí sólo la primera, relativa a la fiabilidad estadística de las muestras textuales consideradas. Sigue abierto el problema de la caracterización de cada género frente a los demás y el de la homogeneidad entre las traducciones de un mismo texto. La Tabla 5 presenta una posible aproximación a estos temas, a través de una elaboración estadística de los datos ya presentados en las Tablas 3 y 4. Para dar cuenta de la composición media de cada subcorpus, así como de la variación interna que se registra entre las traducciones que lo componen, hemos calculado los valores medios en cada categoría evaluada (núcleos oracionales y técnicas de ilación) y la desviación estándar asociada a dichos valores. En la Tabla 5, encima y debajo de los promedios, se han marcado los extremos correspondientes a la desviación estándar: cuanto más alejados se encuentren estos dos puntos, tanto mayor será la variación del valor en cuestión entre los textos del subcorpus examinado. TABLA 5 Composición media de los subcorpus y desviación estándar (por 1.000 palabras)

Como muestra la Tabla 5, cada subcorpus queda caracterizado a través de sus valores medios; hay que observar, sin embargo, que en varios casos los prome-

296

VALENTINA VINCIS

dios relativos a los tres grupos de textos son relativamente cercanos. En cuanto a la variación interna, se observan por lo general valores bastante pequeños, sobre todo en Isaías, que presenta un grado de estabilidad mayor (desviación estándar más reducida) frente a Números y Cantar. La cercanía de los valores medios, junto a la (aun reducida) variación interna, hace que se registren varios casos de superposición entre los valores de los distintos grupos de textos: en este sentido, es ciertamente posible caracterizar cada subcorpus a través de su composición media, pero no siempre las diferencias entre textos pertenecientes a grupos distintos son mayores que las internas a un mismo grupo11.

5. Divergencias entre versiones paralelas El análisis de las técnicas de ilación no permite sólo caracterizar los grupos de textos en su conjunto, sino que abre todo un abanico de posibilidades para el estudio en detalle de cada versión. En este último apartado queremos presentar una pequeña muestra de lo que se puede hacer a partir de la anotación de los textos, limitándonos por cuestiones de espacio al subcorpus de Números. Para explicar la variación entre versiones paralelas hay que tener en cuenta, en primer lugar, cuál es el texto concreto subyacente a cada una de ellas. La influencia del texto fuente en las traducciones de Números se puede observar, p.ej., en la expresión de las relaciones finales. A nivel supraoracional, la finalidad se realiza esencialmente a través de dos estructuras: subordinación con subjuntivo (IV,8: que, por que, para que) y construcciones de infinitivo (VI,8: para, por, a). En la Tabla 6 se puede observar la presencia de ambas clases de conectores en nuestros textos12: las traducciones

11 Una evaluación estadística más pormenorizada de los datos ha demostrado que todas las versiones de Isaías y del Cantar, así como la mayoría de las de Números, presentan una afinidad claramente superior entre sí que con textos pertenecientes a otros subcorpus. Los casos problemáticos son básicamente los de E8 y GE1, las traducciones de Números provenientes de la Vulgata: por su composición media, estos textos presentan más afinidad con las versiones latinas de Isaías (Alb, E6) que con sus propios equivalentes más hebraizantes (E3 y E4 de Números). Lo que, una vez más, viene a confirmar la importancia del modelo de la lengua fuente para las tradiciones discursivas de los romanceamientos bíblicos –o para el tipo de análisis que de ellas se propone en este trabajo. 12 Se trata de una presencia globalmente estable, teniendo en cuenta la supresión de buena parte del texto en Faz, así como la tendencia de la Vulgata (reflejada en GE1 y E8) a interpretar en sentido final unas relaciones que quedan implícitas en el texto hebreo. Cf. p.ej. el v. 16:21 en la versión de E3 (representativa en este caso de todas las demás) y E8: “apartaduos

DESCRIBIR TEXTOS A PARTIR DE ESTRUCTURAS DE ILACIÓN ORACIONAL

297

directas de la Vulgata (E8, GE1) se distinguen de las demás por su preferencia de la primera solución frente a la segunda. TABLA 6 Conectores que expresan finalidad en Números (valores por 1.000 palabras)

Donde el contexto gramatical permita la construcción con infinitivo, el principal obstáculo para su adopción en E8 y GE1 parece ser la presencia en la Vulgata de ut (o ne) y subjuntivo: entre los 16 casos de competencia directa, 13 de los cuales corresponden a dicha estructura latina, se dan apenas 3 casos de infinitivo en GE1 y ninguno en E8, mientras que las demás versiones optan rotundamente por el infinitivo13. La dependencia del modelo latino es evidente en los siguientes pasajes, que en el Texto Masorético repiten la misma frase, con variación léxica en el verbo de la principal: 23:11 para [VI,8] maldezir amis enemigos te tome 23:11 Por que [IV,8] maldixiesses amis enemigos te clame 23:11 ut malediceres inimicis vocavi te

(E4) (E8) (Vulgata)

24:10 a [VI,8] maldezir mis enemjgos te llame 24:10 Pora [VI,8] maldezir mis enemigos te clame 24:10 ad maledicendum inimicis meis vocavi te

(E4) (E8) (Vulgata)

de medio deste conçejo & afynar los he en vn punto” (E3); “apartat vos deste allegamiento muy malo por que lo destruya agora” (E8). 13 Los tres casos de subordinación pertenecen todos a la Biblia de Alba la cual, aun basándose en el texto hebreo, retoma varias lecciones de la Vulgata (cf. entre otros Enrique-Arias 2004).

298

VALENTINA VINCIS

El influjo de la sintaxis latina subyacente14 se observa también en otros aspectos: las versiones latinas (y en parte Alb) destacan p.ej. por una marcada presencia de subordinadas temporales15 que, en su mayoría, se sitúan a comienzo de versículo, según el modelo de cum(que) en la Vulgata. De esta forma, junto a la estructura de enlace textual más difundida (simple coordinación aditiva: et [oración 1] et [oración 2]), los romanceamientos latinos presentan también otro tipo más integrador: (et) cuando [oración 1], [oración 2]. La supresión del elemento coordinante en el segundo miembro (y en ocasiones también en el primero) contribuye a explicar la reducida presencia de coordinación aditiva (III,1) respecto a las versiones hebreas (cf. Tabla 4): 20:8 […] & [III,1] sacaredes aellos aguas dela penna & [III,1] abeuraras ala conpanna & asus bestias

(E7)

20:8 […] et [III,1] quando [IV,5] sacaredes agua dela piedra beura todel pueblo et sus bestias:

(E8)

No se piense, sin embargo, que las divergencias entre traducciones paralelas se limitan a los fenómenos atribuibles al texto subyacente. En nuestro caso, la variación entre las versiones de Números va más allá del texto fuente, como se puede apreciar examinando las oraciones de relativo. Ya en la sección anterior se ha podido observar, aunque de paso, cierta desigualdad entre las versiones de Números en cuanto a la presencia de las relativas (Tabla 4). De hecho, es posible individuar dos grupos de textos: E3, E4, E7 y Faz presentan alrededor de 15 ocurrencias por mil palabras, mientras las restantes versiones oscilan entre 23 y 25 casos. La Tabla 7 presenta un examen más detallado de estos elementos. En primer lugar, hay que señalar la existencia de un grupo de relativas realizadas como tales en todas las versiones (“base común” en la Tabla 7); se trata del grupo más extendido en cada versión, con 10-12 casos sobre mil palabras (las discrepancias en GE1 y Faz se deben en gran parte, como de costumbre, a la diferente extensión de la base textual).

14

Cf. Requena Marco (1988: 515): “No es sorprendente que las traducciones bíblicas castellanas medievales hechas sobre el latín se dejen influir por el modelo no sólo en cuanto al léxico, sino en la sintaxis misma”. 15 Los valores medios por mil palabras van de 1,3 a 2,5 en las biblias hebreas, con la excepción de Alb (3,7), mientras que las biblias latinas presentan 8,2 (E8) y 5,7 (GE1) ocurrencias.

DESCRIBIR TEXTOS A PARTIR DE ESTRUCTURAS DE ILACIÓN ORACIONAL

299

TABLA 7 Clasificación de las oraciones de relativo en Números (valores por 1.000 palabras)

Entre los restantes casos, destacan por lo menos tres series de nexos relativos que contribuyen a explicar las divergencias entre ambos grupos de romanceamientos. La primera serie constituye en realidad texto añadido, o sea que no tiene correspondiente en las demás versiones; este grupo presenta extensión considerable sobre todo en GE1. La segunda serie está formada por oraciones de relativo que amplifican, precisándolo, lo que otras versiones expresan a través de un simple elemento nominal. Particularmente frecuentes son estos casos en Alb, GE1 y E8; véase el siguiente pasaje, donde Alb y GE1 amplifican con una relativa el sustantivo “señores” de E3 (en otras versiones, “ydolos” o “moradores”)16: 21:28 que [IV,6] fuego salio de hesbon & [III*,1] llama dela çibdat de çihon quemo la villa de moab señores delas alturas de arrnon

(E3)

21:28 ca [III,6] fuego sallo de hesbon llama de la çibdat de çihon que [IVr] ardio la plana de moab & los que [IVr] habitauan enlas altas cuestas de arnon

(Alb)

21:28 ffuego salio de Esebon & [III*,1] llama del castiello de Seon. & [III,1] gasto a arnon el delos de Moab & alos que [IVr] morauan enlas altezas de arnon.

(GE1)

16

La anotación [III*,1] indica coordinación aditiva en presencia de elipsis verbal.

300

VALENTINA VINCIS

Las relativas de la tercera serie, finalmente, introducen o explican la primera aparición de nombres propios de personajes o elementos geográficos, desempeñando en ocasiones un papel parecido al de una glosa; esta función se encuentra sobre todo en E19, pero también en GE1 y Alb: 21:28 que [IV,6] fuego saljo de aquel logar que [IVr] llaman esbon flama saljo dela çibdad de çihon quemo la çibdad de moab alos sennores delas alturas de arnon (E19)

Es verdad que, en algunos casos, la amplificación del texto a través de las relativas corresponde al uso de la Vulgata; Enrique-Arias (2006: 249) señala p.ej. el caso del participio activo hebreo, traducido en la Biblia de Alba no con sufijos nominalizadores (como en las versiones más hebraizantes), sino con cláusulas relativas. Sin embargo, no se puede afirmar que se trate de un fenómeno debido exclusivamente a la influencia del modelo latino, como demuestra también la relevancia que alcanza en E19, cuya fuente es hebrea. En el versículo que acabamos de comentar, p.ej, Jerónimo no amplifica el nombre común “habitatores”, ni introduce la indicación geográfica “Seon” por medio de relativas: 21:28 ignis egressus est de Esebon flamma de oppido Seon et devoravit Ar Moabitarum et habitatores excelsorum Arnon

(Vulgata)

Concluyendo, se puede afirmar que la mayor frecuencia de uso de nexos relativos en las cuatro versiones examinadas –dejando a un lado el texto añadido en GE– responde en general a la exigencia de precisar y aclarar el texto bíblico. Se trate de nombres de personajes y lugares desconocidos o de términos potencialmente poco claros para un público de lengua y cultura románica, los traductores optan por una construcción de relativo, que añade palabras pero no contenido al texto original, intentando expresar de manera inequívoca las relaciones implicadas.

6. Conclusiones Partiendo del objetivo de describir y caracterizar sobre un corpus concreto las tradiciones discursivas, este trabajo ha mostrado algunas de las posibilidades brindadas por el análisis de las técnicas de ilación oracional. El material lingüístico examinado, por su naturaleza de corpus paralelo, presenta dos tipologías de variación, que hemos denominado “horizontal” y “vertical”, relacionadas de distinta manera con fuente(s) textual(es), tradiciones discursivas y otros factores de variabilidad lingüística.

DESCRIBIR TEXTOS A PARTIR DE ESTRUCTURAS DE ILACIÓN ORACIONAL

301

La caracterización empírica de las tradiciones discursivas se ha limitado en este trabajo al nivel macroscópico de los géneros textuales. Asimismo, la descripción de la variación interna de los subcorpus no ha ido más allá de observaciones aisladas sobre unos tipos de ilación oracional –eso sí, los más relevantes desde el punto de vista estadístico. A este respecto sería deseable por lo tanto investigar el papel de las tradiciones discursivas a nivel microtextual, así como sistematizar la caracterización de la divergencia entre textos paralelos. Las potencialidades del método de investigación aquí presentado están todavía lejos de ser exploradas en su totalidad. Por un lado, se pueden profundizar ciertos aspectos filológicos, como la variación léxica al interior de una misma clase de ilación. Por otro lado, es posible realizar más aplicaciones estadísticas, determinando p.ej. el porcentaje de afinidad sintáctica entre distintas versiones de un mismo texto17. También resultaría interesante ampliar el corpus en sentido diacrónico, e incluir más fenómenos lingüísticos en el análisis. Seguir con este tipo de investigación, ampliándola en cada una de las direcciones indicadas, es lo que nos proponemos hacer en los trabajos que han de venir.

Abreviaturas y códices utilizados Ac87 Aj Alb BNM E19 E3 E4 E5 E6 E7 E8 Evo Faz GE1 GE3

17

Real Academia de la Historia ms. 87 Biblioteca de Ajuda 52-xii-1 Biblia de Alba, Madrid, Palacio de Liria Madrid, Nacional 10.288 Escorial I.ii.19 Escorial I.i.3 Escorial I.i.4 Escorial I.i.5 Escorial I.i.6 Escorial I.i.7 Escorial I.i.8 Évora, Biblioteca Pública cxxiv/1-2 Fazienda de Ultramar, Salamanca, Universidad 1997 General Estoria, Madrid, Nacional 816 General Estoria, Évora, Biblioteca Pública cxxv/2-3

Se trataría de un análisis paralelo al que Enrique-Arias (2007) propone para evaluar la afinidad léxica, parámetro que aporta datos valiosos para aclarar fuentes y parentescos de traducciones paralelas.

302

VALENTINA VINCIS

Bibliografía ASCHENBERG, Heidi (2002): “Historische Textsortenlinguistik. Beobachtungen und Gedanken”, en: Drescher, Martina (ed.): Textsorten im romanischen Sprachvergleich. Tübingen: Stauffenburg, 153-170. BIBER, Douglas/DAVIES, Mark/JONES, James K./TRACY-Ventura, Nicole (2006): “Spoken and written register variation in Spanish: A multi-dimensional analysis”, en: Corpora 1, 1, 1-37. ENRIQUE-ARIAS, Andrés (2004): “Texto subyacente hebreo e influencia latinizante en la traducción de la Biblia de Alba de Moisés Arragel”, en: Alsina, Victòria et al. (eds.): El papel de la traducción en la historia de la estandarización de los lenguajes especializados. Madrid/Frankfurt: Iberoamericana/Vervuert, 99-111. — (2006): “Sobre el parentesco entre la Biblia de Alba y la Biblia de la Real Academia de la Historia ms. 87”, en: Romance Philology 59, 21-43. — (2007): “Diferentes modelos de traducción en las versiones castellanas del libro de Isaías: un estudio cuantitativo”, en: Trotter, David (ed.): Actes du XXIV Congrès International de Linguistique et de Philologie Romanes. Aberystwyth, Gales, 2004, I. Tübingen: Niemeyer, 339-349. — (2008): “Biblias romanceadas e historia de la lengua”, en: Company Company, Concepción/Moreno de Alba, José G. (eds.): Actas del VII Congreso Internacional de Historia de la Lengua Española, II. Madrid: Arco, 1781-1794. KABATEK, Johannes (2005a): “Tradiciones discursivas y cambio lingüístico”, en: Lexis 29, 2, 151-177. — (2005b): “Las tradiciones discursivas del español medieval: historia de textos e historia de la lengua”, en: Iberoromania 62, 28-43. KABATEK, Johannes/OBRIST, Philipp/VINCIS, Valentina (en prensa): “Clause-linkage techniques as a symptom of discourse traditions: methodological issues and evidence from Romance languages”, en: Dorgeloh, Heidrun/Wanner, Anja (eds.): Syntactic Variation and Genres. Berlin/New York: Mouton De Gruyter. KOCH, Peter (1997): “Diskurstraditionen: zu ihrem sprachtheorethischen Status und ihrer Dynamik”, en: Frank, Barbara et al. (eds.): Gattungen mittelalterlicher Schriftlichkeit. Tübingen: Gunter Narr, 43-79. OESTERREICHER, Wulf (1997): “Zur Fundierung von Diskurstraditionen”, en: Frank, Barbara et al. (eds.): Gattungen mittelalterlicher Schriftlichkeit. Tübingen: Gunter Narr, 19-41. RAIBLE, Wolfgang (1992): Junktion. Eine Dimension der Sprache und ihre Realisierungsformen zwischen Aggregation und Integration. Heidelberg: Winter. — (2001): “Linking clauses”, en: Haspelmath, Martin et al. (eds.): Language Typology and Language Universals. An International Handbook, I. Berlin/New York: Mouton de Gruyter, 590-617. REQUENA MARCO, Miguel (1988): “Servilismo e irracionalidad: dos aspectos de una traducción bíblica del siglo XV”, en: Beltrán, Vicente (ed.): Actas del I Congreso de la Asociación Hispánica de Literatura Medieval. Santiago de Compostela: Universidad, 515-522.

DESCRIBIR TEXTOS A PARTIR DE ESTRUCTURAS DE ILACIÓN ORACIONAL

303

VINCIS, Valentina (2008): “Técnicas de junción y tradiciones discursivas medievales: el testimonio de los textos”, en: Company Company, Concepción/Moreno de Alba, José G. (eds.): Actas del VII Congreso Internacional de Historia de la Lengua Española, II. Madrid: Arco, 2201-2222. Vulgata = Biblia sacra iuxta latinam vulgatam versionem ad codicum fidem, iussu Pii PP. XI, cura et studio monachorum Abbatiae Pontificiae S. Hieronymi in Urbe Ordinis Sancti Benedicti edita, III. Roma (1936). WILHELM, Raymund (2003): “Von der Geschichte der Sprachen zur Geschichte der Diskurstraditionen. Für eine linguistisch fundierte Kommunikationsgeschichte”, en: Aschenberg, Heidi/Wilhelm, Raymund (eds.): Romanische Sprachgeschichte und Diskurstraditionen. Tübingen: Gunter Narr, 221-236.

N OTA S S O B R E L O S N E X O S C O N C E S I VO S EN LOS ROMANCEAMIENTOS BÍBLICOS M E D I E VA L E S 1 LOLA PONS RODRÍGUEZ Universidad de Sevilla

1. Presentación Habitualmente, los acercamientos a la sintaxis o a la morfosintaxis de los textos bíblicos se hacen con intención de caracterizar la propia lengua de la Biblia, con sus conocidos rasgos de interferencias con otros idiomas o rasgos estilísticos particulares. Pero, en cambio, pocas veces se desarrolla un acercamiento a la Biblia romanceada medieval como una fuente más de datos lingüísticos, como otro corpus del que extraer datos: hecho llamativo (dada la amplitud del corpus bíblico medieval y su representatividad en la configuración de un ideal lingüístico elaborado en la época) pero esperable, teniendo en cuenta el peso que el canon literario ha tenido en la constitución de los corpus que se manejan para los estudios de historia de la lengua. Así, en otro trabajo (cf. Pons 2006) indagué en las fuentes que se despojan para estudiar el siglo XV castellano, entre las que no figura ningún romanceamiento bíblico bajomedieval. Si, como hace años afirmó Sánchez-Prieto (2002: 212), “[l]os romanceamientos bíblicos constituyen un capítulo singular de la espiritualidad hispánica en la Edad Media”, podemos afirmar que lo fueron igualmente desde un punto de vista lingüístico. En este estudio se ofrecen algunas notas sobre el panorama que respecto a nexos concesivos muestran las Biblias medievales, con el objetivo de observar, en el conjunto de tradiciones discursivas que sabemos se concitan agrupadas dentro de la Biblia, si hay variaciones en la elección de determinados nexos; igualmente, a través de este análisis se desea profundizar en el proceso de relevo y sustitución de nexos concesivos que se da del XIII al XV a partir de las huellas que de ese hecho pueda haber en los textos bíblicos, ya que la convivencia dentro del corpus histórico de biblias romances de versiones tempranas de mediados del siglo XIII y versiones tardías del XV permite seguir la propia intrahistoria del 1

Este trabajo se ha desarrollado en el marco del proyecto de investigación HA2006-0078 del programa de Acciones Integradas Hispanoalemanas. Agradezco a Valentina Vincis y a Andrés Enrique-Arias sus interesantes aportaciones a la primera versión de este trabajo.

306

LOLA PONS RODRÍGUEZ

inventario de nexos suboracionales concesivos en nuestro idioma. El estudio tendrá tres prismas de observación: – Latín/castellano: observación de cómo se vuelcan determinados nexos concesivos de la Vulgata a los romanceamientos castellanos conservados en el códice Escorial I.i.6 y Escorial I.i.8 de ca. 1250 (en adelante E6 y E8 respectivamente). – Castellano: profundización en el repertorio de nexos concesivos usados en E6 y E8. – Castellano/castellano: examen de la variación lingüística en la expresión de la concesividad entre los códices escurialenses mencionados y la Biblia de Alba (1422-1430) de la Biblioteca del Palacio de Liria en Madrid, con el objeto de observar modificaciones debidas al cambio de gusto en la lengua del XV y alteraciones en el nivel de uso de algunos nexos.2 Los trabajos de Enrique-Arias y Vincis incluidos en este mismo volumen son una excelente muestra de la rentabilidad de este tipo de análisis y de las bases teóricas subyacentes.

2. La conformación de la expresión concesiva del latín al castellano La concesividad es un tipo de contenido nocional basado en la exposición contrapuesta de dos argumentos: uno de ellos supone una relación lógica que, sin embargo, es contrariada –no invalidada– por el otro. La expresión de la concesividad es, por propia naturaleza, contraargumentativa: mediante una estructura concesiva presentamos dos argumentos antiorientados enfatizando con una conjunción que hay un argumento débil cuya inferencia se anula, se atenúa o se rectifica. Una prueba de la proximidad entre la noción de concesión y otras como las de adversación, causalidad o condición está en el hecho de que las gramáticas no han tratado separadamente la concesión prácticamente hasta el XIX3. Una primera cues-

2 Para el siglo XV he analizado también datos de los códices de la Biblioteca del Escorial que detallo a continuación junto a la abreviatura que empleo en adelante para referirme a los mismos: Escorial I.i.3 (= E3), I.i.4 (= E4), I.i.7 (= E7), I.ii.19 (= E19). 3 En Cortés (1993: 47-60) se hace un repaso por el tratamiento que la tradición metalingüística ha dado a la concesión, comprobándose cómo habitualmente las conjunciones subordinantes que hoy consideramos expresiones claras de concesión eran incluidas entre las condicionales. Las concesivas están también estrechamente relacionadas con las estructuras adversativas porque en aquéllas se expresa un contraste entre dos argumentos que comparten una información implícita. Es la imbricación de las nociones de condicionalidad y concesivi-

NOTAS SOBRE LOS NEXOS CONCESIVOS

307

tión que toca al ámbito de la expresión de la concesividad en el primer romance castellano está vinculada con la idea, tantas veces discutida y ya parece que refutada, de la existencia de una sintaxis primitiva que progresivamente pasa a ser más compleja y elaborada. En latín, para la expresión de la concesividad se utilizaban diversas conjunciones, agrupables en líneas generales de la siguiente forma: – “Conjunciones de cuño y abolengo condicional” (Bassols 1956: 440) como si, etsi, etiamsi y tametsi, que se construían sobre todo con indicativo, aunque pudiera aparecer subjuntivo potencial e irreal en ellas. – Conjunciones derivadas del tema del relativo tales como quamquam o quamvis, ésta con subjuntivo y aquélla con indicativo, aunque desde el latín posclásico se registrasen en ambas ejemplos de transgresión a ese reparto modal. – Formas como licet (originariamente forma verbal, con uso desde época posclásica), cum, ut, quando; así como otras construcciones que en discurso podían adquirir sentido concesivo. Como sabemos (Dardel 1983: 75), el sistema conjuntivo subordinante del romance común no contaba con esas expresiones concesivas y cada una de las lenguas romances separadamente resolvió ese hecho. Es innegable que la expresión concesiva latina no se mantuvo en las lenguas romances: la simple comparación entre los medios de expresión concesivos latinos y romances produce, por una parte, impresión de vacío, porque ninguna conjunción latina se puede presentar como origen de las correspondientes romances, y, por otra, de ruptura, porque cada lengua creó sus propios recursos (Montero 1992a: 107).

Pese a ello, no parece sostenible considerar que en las primeras etapas de las lenguas romances no se manejara la noción de concesividad; son argumentos ontogenéticos de evolución lingüística los que han conducido a pensar que en las fases iniciales de las lenguas romances no se expresaba la concesividad (como refuerzo a esta idea, se alude a la tardía incorporación de la expresión concesiva en los procesos de adquisición lingüística4); idénticos argumentos se esgrimen para sostener la conocida “hipótesis de la parataxis”. dad lo que motiva que aparezcan con valor concesivo en los textos locuciones que pueden también funcionar como condicionales: no se trata ya de que haya contextos donde sea complicado delimitar ambas nociones, sino de locuciones conjuntivas que se pueden prestar a ambos usos. 4 Efectivamente, en el proceso de adquisición del lenguaje, la concesividad es uno de los tipos de oraciones que más tardíamente aparece en la secuencia de incorporación lingüística

308

LOLA PONS RODRÍGUEZ

En castellano no ha pervivido ninguno de los nexos concesivos latinos, una discontinuidad que también se constata en otras lenguas romances, aunque sí pudieron preservar sus esquemas de formación: por ejemplo, el esquema de etsi, etiamsi podría observarse en francés (même si, pourtant si y encore si) o italiano anche si y en el aun si castellano. Para explicar la ruptura con los nexos concesivos latinos y, al mismo tiempo, demostrar que en los primeros textos romances se operaba ya con la idea de concesión, se recurre al subjuntivo concesivo como preludio de la expresión concesiva conjuncional; esta idea no se puede desligar de las teorías con que se ha solido explicar la trayectoria formativa de la sintaxis castellana, pues supone defender “una primera etapa de articulación puramente paratáctica de la relación concesiva” (Rivarola 1976: 16). El valor concesivo del subjuntivo se obtendría del propio contexto y, en una segunda etapa, de la aparición de partículas reforzativas temporales o modales5. Ahora bien, esto ocurre en francés, italiano o catalán, pero no en castellano, ya que, como afirma Rivarola (1976: 17), el uso de maguer (que) quebró el paralelismo románico en torno al empleo de subjuntivo concesivo. Las construcciones concesivas no abundan en la primera documentación castellana: Cano (1999: 263) encuentra en el Libro de Alexandre menos de un 3% de concesivas sobre el total de subordinadas; en las obras de Berceo los porcentajes son aún más bajos. En estos textos, las concesivas se usan en menor proporción que otras adverbiales impropias, lo que es justificado por Cano (íd: 264-265) mediante el recurso a textos –históricos o no– que muestran parecidas preferencias en el empleo de unas subordinadas frente a otras. La conformación de la expresión concesiva en romance parece estar gestada, pues, desde los orígenes; ahora bien, durante la etapa medieval no faltaron cambios en el catálogo de recursos concesivos y en la selección modal de las conjunciones concesivas. Su entrada en el idioma está acompañada en la mayor parte de los casos de una restricción modal: comoquier con subjuntivo, aunque con subjuntivo... pero el proceso de gramaticalización por el que atravesaron los condujo a una aceptación de indicativo o subjuntivo sin restricción. Los modos se convirtieron así en el medio de expresión del carácter hipotético o no de la concesiva, con lo que el paradigma conjuncional pudo simplificarse, eliminada ya cual-

(incluso niños de 7 a 10 años aún presentan problemas de comprensión y producción de esta clase de oraciones, cf. Serra et al., 2000: 426). 5 Este proceso parece haberse dado comúnmente en los instrumentos de subordinación, tal y como afirma Narbona (1989: 70): “la necesidad de hacerse con instrumentos más específicos, al tiempo que da mayor fuerza y vigor expresivo, lleva constantemente a servirse de expresiones “de refuerzo”, pero la frecuencia de su uso acaba por gramaticalizarlas, es decir, provoca su debilitamiento”.

NOTAS SOBRE LOS NEXOS CONCESIVOS

309

quier tendencia a que el carácter contrafáctico de la construcción viniese ya expresado por la propia conjunción6. Montero (1992a: 111) encuentra en castellano medieval hasta veintisiete nexos concesivos; este repertorio se simplificó luego en español clásico, época en que sólo tres se añadieron nuevos tras la época medieval. Nuestros nexos concesivos, en suma, fueron gestados casi íntegramente en la Edad Media. En segundo lugar, se observan en esa treintena aproximada de nexos concesivos acusadas preferencias por la elección de unos nexos u otros. La ruptura con la lengua latina, de la que (...) no había heredado ni una sola conjunción, parecía exigir un uso indiscriminado de todas las posibilidades que le ofreciese la lengua a este nivel para expresar la concesión. Sólo el tiempo y el uso reduciría la discriminación y la multiplicidad inicial en la medida en que una o más conjunciones se impondrían como las más apropiadas para el fin buscado. Parece, sin embargo, suceder todo lo contrario (Montero 1992a: 112).

3. Traducciones castellanas del etiamsi latino: el testimonio de las biblias Las versiones bíblicas más tempranas pueden ayudarnos a corroborar esta idea de que hay una concesividad modal y también nexual. Hemos escogido a ETIAMSI como conjunción7 concesiva latina cuya versión romance en el corpus queremos rastrear. No es esta la conjunción concesiva más frecuente; por las calas efectuadas, parece que es CUM la más repetida, pero, como veremos, no se traduce de la misma forma ese CUM que nuestro ETIAMSI y, para una primera aproximación a la cuestión, es un término que no tiene tanta posibilidad de variación en sus significados como CUM. Hay en total 22 casos de ETIAMSI empleados en la Vulgata según la versión de la Biblia Sacra Vulgata Stuttgartensia consultada (Weber et ál. 2005), repartidos en los siguientes libros:

6

En español actual, el uso de los modos en las oraciones concesivas no está restringido. Empleamos indicativo o subjuntivo tras un nexo concesivo en función, en líneas generales, de la expectativa de cumplimiento del hecho que se presenta. 7 Aun admitiendo que pudo no estar completamente gramaticalizada, ya que hubo SI ETIAM y también interpolaciones entre ETIAM y SI, como en los ejemplos que aporta Martín Puente (2002: 127).

310

LOLA PONS RODRÍGUEZ

Libro

Nº de ocurrencias

Deuteronomio

1

Ruth

2

Reyes

1

Nehemías

1

Judit

1

Esther

3

Macabeos

1

Job

6

Proverbios

1

Eclesiastés

2

Sabiduría

1

Ezequiel

1

Para analizar cómo los significados concesivos de ETIAMSI han sido llevados a una versión bíblica castellana se ha confrontado esta veintena de casos con su traducción en los códices escurialenses E6/E8, escogidos por representar un testimonio cronológico temprano, posiblemente prealfonsí pero datable en el siglo XIII8. Del careo entre la fuente y su traslado al castellano, se pueden extraer las siguientes conclusiones de interés para los modos de construcción de la sintaxis en el castellano medieval: a) La noción de concesividad de la forma ETIAMSI originaria se ha preservado mayoritariamente como concesiva o concesiva-condicional; no hay ningún caso, dándose la coincidencia de textos entre Vulgata y E6/E8, en que se haya perdido

8

E6 se tradujo desde la Vulgata, al igual que E8, códice que “sería copia de un códice hermano de E6” (Sánchez-Prieto 2002: 213); los libros de uno y otro códices parecen complementarse, ya que “E6 va de Proverbios al principio de Apocalipsis; E8, desde Levítico 7 hasta Salmos 70:6”. Cito a partir de las transcripciones del corpus Biblia medieval (Enrique-Arias 2008a, en línea en www.bibliamedieval.es). Vid. sobre este corpus y las posibilidades de estudio morfosintáctico a partir de los textos bíblicos Enrique-Arias (2008b).

NOTAS SOBRE LOS NEXOS CONCESIVOS

311

ese valor suboracional. Esto es, el mantenimiento de un significado contraargumentativo (sea mediante la concesividad o, como veremos, sobre todo a través de nociones concesivo-condicionales), muestra que no hubo, pese a la pérdida en el romance de todas las conjunciones concesivas latinas, ninguna laguna en la expresión, aunque sí se diera una situación de tabula rasa entre las dos lenguas. Tenemos una muestra en los corpus bíblicos del hecho de que existe la noción de concesividad, que existe una traducción para ETIAMSI y que esa traducción, como veremos ahora, no es “primitiva” en el XIII. b) En la traducción de ETIAMSI se emplean nexos con sentido condicional o concesivo condicional. De los 22 ejemplos que arriba reseñamos, la traducción castellana en E6/E8 empleará estas equivalencias: GRÁFICO 1 Versión E6/E8 de ETIAMSI en la Vulgata

Vemos de los resultados que el valor que prima en la traducción de ETIAMSI es el de la condicionalidad concesiva con aun si o en alguna ocasión con si desnudo: (1) etiam si filii tui peccaverunt ei et dimisit eos in manu iniquitatis suae (Job 8: 4) → aun si tus fijos pe|ccaron escuentra el & metio los enla mano de | su peccado (E8) (2) quando responderat dux ille viro Dei et dixerat etiam si Dominus fecerit cataractas in caelo numquid fieri poterit quod loqueris et dixit ei videbis oculis tuis et

312

LOLA PONS RODRÍGUEZ

inde non comedes (Reyes 2, 7:19) → quando aquel capdiello Recudio al honbre de | dios que si las karactaras del cielo abrie|se dios non podrie ser lo que el dizie. El aui|a dicho veras lo tu con tus oios & non con|bras del (E8)

Ello es lógico si atendemos a la propia constitución formal de la locución: se relaciona con otros nexos subordinantes que incluyen también SI, como ETSI, TAMETSI o TAMENETSI. Pero no se trata de un mero contagio formal, el traductor utiliza la forma del castellano que mejor parece volcar la propia semasia del término latino, que incluye a un ETIAM con valor focalizador inclusivo. Menor es el uso de aunque, aun o maguer: (3) qui etiam si habuero quippiam iustum non respondebo sed meum iudicem deprecabor (Job 9: 15) → avn que tenga | drecho nol Respondre mas Roga le que sea mi | Juez (E8). (4) atque inde surrexit ut spicas ex more colligeret praecepit autem Booz pueris suis dicens etiam si vobiscum metere voluerit ne prohibeatis eam (Ruth 2: 15) → & leuantosse acoger las espigas co|mo sollie/ mando booz asus hombres & dixo | les/ avn con nos si quisiere segar/ non ge|lo vededes (E8). (5) et si revertamini ad me et custodiatis mandata mea et faciatis ea etiam si abducti fueritis ad extrema caeli inde congregabo vos et inducam in locum quem elegi ut habitaret nomen meum ibi (Nehemias 1: 9) → & si vos tornaredes ami go|ardando los mis mandamientos & faziendo | los & avn si fueredes leuados cabo el | cielo dailla vos aillegare & vos trayre | al logar que vos escugi poral mi nonbre (E8).

No debe extrañar la aparición de conjunciones temporales, como quando, ya que la expresión subordinada de tiempo, unida a un valor prospectivo, se presta a la expresión de un valor condicional: (6) et ubi messuerint sequere mandavi enim pueris meis ut nemo tibi molestus sit sed etiam si sitieris vade ad sarcinulas et bibe aquas de quibus et pueri bibunt (Ruth 2: 9) → do | segaren ve empues eillos/ car yo mande | amios hombres que non te fiziessen pesar quando | set ouieres/ ve do tienen su sarçano & beui | dela agua que beuen mios hombres (E8).

En cuanto a car ( [b] de RIPA debía haber sido algo ya muy arraigado en el habla de la comunidad. FORMA ripa ripam riba

FRECUENCIA

AÑO DEL PRIMER EJEMPLO

104

905+

92

1057+

4

945+

Otro caso interesante es el pronombre personal de primera persona yo < EGO que sólo aparece cuatro veces en el corpus de manera reformada frente a la preponderancia de la forma tradicional EGO. El documento #851 ilustra una vez más el peso de la tradición y el dilema del escriba que no puede más que repetir la forma tradicional ego al lado de la forma oral yo de manera totalmente redundante: “ego yo horo Micaelliz…”

MOCA: ANÁLISIS DE CORPUS EN LÍNEA

335

Lo que se ve entonces en estos textos son formas tradicionales y reformadas según unas normas escritas que admiten mucha flexibilidad, tal como nos lo ha explicado Emiliano (2005). A veces se prefiere la ortografía reformada y otras veces la latina, pero no se sigue una ortografía fonética hasta el siglo XII (y aun así, algunos escribanos no cambian su preferencia por la ortografía reformada). Ya que la mayor parte de estos documentos se leían en voz alta (y entiéndase en romance) al realizar algún acto legal y oficial, debe ser productivo buscar el mismo tipo de rarezas entre las colocaciones sintácticas. A continuación, pasamos a las diferentes realizaciones del pronombre átono personal me y su entorno sintáctico.

5. Aplicación de MOCA a la sintaxis En los textos de Sahagún la realización del pronombre átono de la primera persona singular en función complemento sigue, en su mayor parte, la morfología latina mediante el empleo de las siguientes variantes dativas y acusativas: michi (60%), mici (18%), mihi (14%) y me (8%). La forma me más bien se da en este corpus como parte de la colocación enfática después de la preposición ad/a/at (165 ejemplos), lo que viene siendo en la lengua castellana [a] mí. Según el cálculo-z y el cálculo de información mutua, las colocaciones más frecuentes con a mí son: a me facta[m/um] manu/signo; quantum ad me pertinet y a me fuerunt4. Sin embargo, la forma me también aparece en determinados casos en el corpus (53) en función de clítico de complemento de manera que forma parte íntegra del sintagma verbal tanto en posición enclítica, como proclítica. Como ya se ha visto en los casos de innovación léxica que tipifican carrerra o río, no se entrevé una progresión estrictamente cronológica entre las formas michi, mihi, mici y me. Lo más probable es que todas estas formas tradicionales representen en la lengua oral la forma me [me], la única forma que luego aparecerá en función de complemento de objeto una vez que se introducen las reformas ortográficas en el siglo XII. A continuación pasamos a considerar otras cuestiones sintácticas de los pronombres átonos. Rini (1990, 1992, 1995) ha postulado un proceso de gramaticalización de los pronombres de complemento, cuya culminación se da en su paso a verdaderos clíticos y basa su postulado en tres criterios sintácticos interrelacionados: (1) la existencia o la falta de interpolación (es decir, el fenómeno de la interposición de pala-

4

El ejemplo ad me illud dedit (‘a mí [me] lo dio’: #811, 1084) es de interés por la combinación del complemento directo y el indirecto.

336

ROBERT BLAKE/GINA LEE

bras entre el pronombre y el verbo); (2) la fijación del orden dentro del sintagma verbal, o sea, la proclisis frente a la enclisis y (3) la reduplicación o la presencia tanto del clítico, como de la correspondiente frase enfática (por ej. Me lo dio a mí.). Rini (1990: 361) considera que la preferencia por la reduplicación señala el final del proceso de gramaticalización de los clíticos, que no se hace la norma hasta el siglo XVII según sus estudios (1990: 367). Si bien la reduplicación no ocurre en nuestros documentos antiguos, sí se encuentran casos de interpolación y ciertas marcadas preferencias por la posición proclítica o enclítica. Con base en estos dos criterios de Rini, ofrecemos a continuación las frecuencias que nos manifiesta el corpus de MOCA en la Tabla 1. TABLA 1 Frecuencias de uso del pronombre átono primera persona singular en el corpus de MOCA según la interpolación, la posición y el entorno sintáctico pron. átono

interpolación

cláusula principal proclisis/enclisis

cláusula subord. proclisis/enclisis

cifra total

23

39

185

106

20

373

MICI

7

16

51

29

7

110

MIHI

10

13

39

16

9

87

1

10

9

31

2

53

41

78

284

182

38

623

MICHI

ME todas formas:

Tradicionalmente se ha dicho que el orden enclítico o proclítico del pronombre átono se debe a factores fonéticos o prosódicos: al comienzo de una cláusula matriz (sin presencia de otras expresiones antepuestas o inmediatamente pospuestas a las conjunciones) se favorece la enclisis (o sea, ); en los otros entornos lingüísticos, especialmente en las oraciones subordinadas, se da la proclisis (). A esta observación se le ha llamado la ley Tobler-Mussafia, una aplicación específica al romance de la ley más general de Wackernagel (Wanner 1991), que postula que un elemento clítico no puede encabezar un enunciado por su debilidad prosódica. Frente a la explicación fonética de la ley Tobler-Mussafia, otro grupo de lingüistas generativistas como Rivero (1986) considera que la colocación primero surge en el español antiguo como un sintagma independiente del complejo verbal y luego, a través de los siglos, se transmuta en un elemento cabeza o morfema dependiente incorporado al sintagma verbal con

MOCA: ANÁLISIS DE CORPUS EN LÍNEA

337

mucho menos flexibilidad en cuanto al orden de palabras. Apuntan estos investigadores al fenómeno de la interpolación para probar el estatus del pronombre átono como sintagma independiente en el español antiguo. El corpus de Sahagún (véase la Tabla 1) ofrece poca evidencia para apoyar estas dos propuestas. La interpolación apenas si se manifiesta y, aun así, los ejemplos que sí se tienen constituyen casos con adverbios tan comunes y corrientes como satis (‘suficientemente, muy’), bene (‘bien, muy’) o semper (‘siempre’). El adverbio satis se interpola una sola vez en los 28 ejemplos entre los pronombres átonos (e.g., nobis, michi, tibi, etc.) y el verbo complacuit. Contrariamente al caso de satis, el adverbio bene siempre se interpola entre michi y complacuit (20/20) como si ya se hubiera incorporado a la estructura del verbo como una especie de frase hecha (también se encuentra un ejemplo interpolado con facere: … que michi bene faciat, #1062, 1100). Lema y Rivero (1989) señalan que la separación del pronombre del verbo por medio de la negación es la motivación principal para analizar los pronombres medievales como frases o morfemas independientes5. Sin embargo, hay un sólo ejemplo de interpolación de non entre tibi y el verbo fecerint (#752, 1077) en todo el corpus. Con respecto a los otros ejemplos de interpolación, los casos son escasos (7) y se trata, en su mayoría, de ejemplos situados en cláusulas subordinadas: • Obtinuit et michi per carta ab omni integritate concessit ita… (#309, 980) • … quam michi deus dederat etiam… (#328, 985) • … que michi inporcione sororis mee enderquine ceciderunt ad omni integritate… (#498, 1046) • … quam michi dominus dedit … (#527, 1049) • … quam michi dominus concessit (#572, 1055) • … ut de singulis domibus michi hoc anno ilos solidos reddatis…(#858, 1090) • … quod michi uos datis …(#1155, 1107)

En cuanto a la fijación de la posición de los clíticos (es decir, posición proclítica o enclítica), Fischer (2002, 2003) ha investigado el desarrollo histórico de los pronombres átonos en el catalán por medio de un estudio de un corpus de 7.000 oraciones escritas entre los siglos XIII al XX. Los datos la llevan a rechazar tanto las explicaciones fonéticas de la ley Tobler-Mussafia, como la idea de que los pronombres átonos fueran sintagmas independientes en el español antiguo. Se encuentra en catalán antiguo tanto la enclisis, como la proclisis en las cláusu-

5

En el modelo de parámetros, la negación formaba una barrera para el movimiento de una cabeza pero no para una frase (Kayne 1989).

338

ROBERT BLAKE/GINA LEE

las matrices y subordinadas. La investigadora postula también que los datos observados en la lengua antigua se relacionan con la posibilidad de que el verbo suba (e.g., verb raising) frente a la prohibición de que suba, siendo ésta la correspondiente norma actual en la lengua moderna. O sea, ofrece una explicación totalmente sintáctica al desarrollo de los pronombres átonos. Fischer, pese a la elegancia descriptiva de su modelo, observa que la enclisis (el resultado de la subida del verbo) no es obligatoria en el catalán antiguo sino sólo una posibilidad lingüística. A través de los siglos se pierde esta posibilidad de que el verbo pueda subir, dejándole a la lengua la proclisis como la única norma de uso. Fischer busca una explicación puramente sintáctica a estos cambios encontrados en los patrones de uso. En este corpus de Sahagún sin lugar a dudas predomina la enclisis en las cláusulas matrices y la proclisis en las subordinadas (véase la Tabla 1), como se ilustra en el siguiente ejemplo: uel filii uestri pro seruicio bono que michi fecistis et dedistis michi xxxa solidos de argento ut de isto die faciatis. (#684, 1069)

No obstante, con el verbo DARE, un verbo transitivo por excelencia, no se ve preferencia alguna en las cláusulas subordinadas: 12 ejemplos se encuentran en cláusulas subordinadas y otros 12 casos aparecen en cláusulas matrices, como se ilustra en el siguiente caso donde michi aparece en posición enclítica a pesar de hallarse en una cláusula subordinada: id est uilla ueicella et uilla ueiga iuxta cinisarios que dedit michi ille comes monnio adefonso medietate de sua ratione (#515, 1048)

En cláusulas matrices la enclisis es la clara norma (36 de 37 casos). Nieuwenhuijsen (1998), Rini (1995) y Barry (1987) han intentado explicar esta distribución de los pronombres basándose en factores discursivos: la enclisis se reserva para relatar cosas en el primer plano, o sea, ‘foregrounding’, una función que corresponde sobre todo a la cláusula matriz y la proclisis se usa para describir el segundo plano, o sea, ‘backgrounding’, lo cual suele ocurrir más en la cláusula subordinada. Los datos sugieren unas tendencias de uso pero estas tendencias evidencian mucha flexibilidad y no llegan a convertirse en reglas obligatorias: o sea, por lo general, se usa la enclisis en las cláusulas matrices y la proclisis en las subordinadas. Los textos de Sahagún, que representan actos legales donde se solía dirigirse en voz alta a los participantes (Emiliano 2005), no corroboran el predominio de la interpolación; es decir, los pronombres átonos no parecen formar un

339

MOCA: ANÁLISIS DE CORPUS EN LÍNEA

sintagma con una absoluta independencia sintáctica dentro del sintagma verbal, a pesar de que muestran cierta flexibilidad mayor de la que gozan en la lengua actual. Los patrones encontrados gracias a las funciones de búsqueda de MOCA más bien sugieren que los pronombres átonos están en vías de incorporación al complejo verbal desde una época muy temprana: la interpolación no es frecuente; la posición manifiesta unas tendencias muy marcadas y la reduplicación aún no entra en juego. Estas preferencias de uso cambiarían a través del tiempo. Un cotejo de los datos del Corpus del español de Davies (2008) expuesto en la Tabla 2 revela que la proclisis no se establecerá como la norma hasta el siglo XVI, sin que nunca se elimine la enclisis del todo. TABLA 2 Frecuencias de proclisis/enclisis según el Corpus del español de Davies Posición de me

s. XIII

s. XIV

s. XV

s. XVI

s. XVII

s. XVIII

Proclisis

3.202

3.336

8.259

55.007

68.643

23.354

Enclisis

1.488

989

2.334

2.232

3.234

604

Una consulta en el corpus de Davies (2008) pondrá en evidencia que el sintagma ya no aparecerá sin la reduplicación clítica en el siglo XVI, un siglo anterior a la propuesta de Rini (1995).

6. Conclusiones Hoy en día en la lingüística moderna se suele hablar de tendencias sociolingüísticas, pragmáticas, discursivas y estilísticas en vez de reglas o leyes. Es decir, las normas de uso en una determinada comunidad de habla, lo que se viene estudiando en un corpus a través de las frecuencias de las colocaciones, ofrece una metodología legítima para fijar el concepto de la gramática de una lengua. Desde luego, los patrones de uso siguen cambiando con el transcurso del tiempo, como se ha visto en el caso de la enclisis y la proclisis de los clíticos. Los datos de estos textos latinizantes de Sahagún de entre los siglos IX al XII, lejos de ser inútiles a causa de su ortografía híbrida, forman parte de un continuo de uso en el marco diacrónico. Afortunadamente, el análisis de corpus que nos ha facilitado MOCA permite seguir algunos cambios de patrones léxicos y sintácticos en el marco histórico, incluso cuando se presenten serios problemas de inter-

340

ROBERT BLAKE/GINA LEE

pretación por la escritura logográfica de todo texto producido antes del siglo XII. Por medio de este método intentamos extender los beneficios del análisis de corpus a estos textos que datan de la época de los orígenes de la lengua española con la esperanza de sacar una visión coherente del desarrollo de la lengua por medio de la asociación de estas observaciones a las de un corpus histórico totalmente romanceado como el de Davies (2008), el cual cuenta ya con unos textos plenamente romanceados en su ortografía a partir del siglo XIII. Bibliografía BARRY, Anita (1987): “Clitic Pronoun Position in Thirteenth-Century Spanish”, en: Hispanic Review 55, 213-20. BLAKE, Robert J./LEE, Gina (2008): “Placuit miti vomo animo: Curiosidades ortográficas de un notario leonés del IX”, en: Company, Concepción/Moreno de Alba, José (eds.): Actas del VII Congreso Internacional de Historia de la Lengua Española. Madrid: Arco, 239-244. DAVIES, Mark (2005): “The advantage of using relational databases for large corpora: speed, advanced queries, and unlimited annotation”, en: International Journal of Corpus Linguistics 10, 301-28. — (2008): Corpus del español. (enero 2008). EMILIANO, Antonio (2005): “Representational models vs. operational models of literacy in Latin-Romance legal documents”, en: Wright, Roger/Ricketts, Peter (eds.): Studies on Ibero-Romance Linguistics dedicated to Ralph Penny. Newark, DE: Juan de la Cuesta, 17-58. FISCHER, Susan (2002): The Catalan Clitic System: A diachronic perspective on its syntax and phonology. Berlin/New York: Mouton de Gruyter. — (2003): “Rethinking the Tobler-Musafia Law: Data from Old Catalan”, en: Diachronica 20, 2, 259-288. HERRERO DE LA FUENTE, Marta (1988): Colección Diplomática del Monasterio de Sahagún (857-1230), dirigida por José María Fernández Catón. León: Centro de Estudios e Investigación San Isidoro (Archivo Histórico Diocesano-Caja de Ahorros y Monte de Piedad de León). KAYNE, Richard (1989): “Null subjects and clitic climbing”, en: Jaeggli, Osvaldo/Safir, Kenneth (eds.): The Null Subject Parameter. Dordrecht: Kluwer, 239-261. LEMA, José/RIVERO, María Luisa (1989): “Long head movement: ECP vs. HMC”, en: Cahiers Linguistiques d’Ottawa 18, 61-78. NIEUWENHUIJSEN, Dorine (1998): Cambios en la colocación de los pronombres átonos en la historia del español. Tesis doctoral. Universidad de Groningen. (enero 2008). PENNY, Ralph (2003): “Ambigüedad grafemática”, en: Perdiguero Villarreal, Hermógenes (ed.): Lengua Romance en textos latinos de la Edad Media: sobre los orígenes del castellano escrito. Burgos: Universidad de Burgos, 221-228.

MOCA: ANÁLISIS DE CORPUS EN LÍNEA

341

REPPEN, Randi/Fitzmaurice, Susan/Biber, Douglas (eds.) (2002): Using corpora to explore linguistic variation. Amsterdam: John Benjamins. RINI, Joel (1992): Motives for Linguistic Change in the Formation of the Spanish Object Pronouns. Newark, DE: Juan de la Cuesta. — (1995): “The Evolution of the Nature and Position of the Spanish Clitic Pronoun”, en: La corónica 24, 173-95. — (1995): “More on Pronominal Phenomena: A Rejoinder to Dieter Wanner’s Review of Joel Rini’s “Motives for Linguistic Change in the Formation of the Spanish Object Pronouns”, en: Hispanic Review 63, 2, 255-256. RIVERO, María Luisa (1986): “Parameters in the typology of clitics in Romance and Old Spanish”, en: Language 62, 774-807. WANNER, Dieter (1991): “The Tobler-Mussafia Law in Old Spanish”, en: Campos, Hector/Martínez-Gil, Fernando (eds.): Current Studies in Spanish Linguistics. Washington, D.C.: Georgetown University Press, 313-78. WRIGHT, Roger (1992): “La metalingüística del siglo XII español (y la Chronica Adefonsi Imperatoris)”, en: Ariza, Manuel et al. (eds.): Actas del II Congreso Internacional de Historia de la Lengua Española 2. Madrid: Pabellón de España, 879-86. — (2002): A Sociophilological Study of Late Latin. Turnhout, Belgium: Brepols.

LAS ESTRUCTURAS TIPO METER MIEDO E N D I AC RO N Í A : M Á S D E TA L L E S S O B R E L A E VO L U C I Ó N H I S TÓ R I C A D E L A S C O L O C AC I O N E S C AU S AT I VA S JOSEP ALBA-SALAS College of the Holy Cross

1. Introducción Este estudio diacrónico examina ciertas estructuras formadas (en el español coloquial moderno) con el verbo meter más sustantivos predicativos que denotan estados sicológicos, p. ej., meterle miedo, meterle celos o meterle envidia a alguien. Varios estudios teóricos sincrónicos han analizado dichas estructuras como colocaciones, es decir, como casos de coocurrencia léxica restringida a caballo entre el léxico y la sintaxis (Alonso Ramos 2004: 33-67). Más específicamente, las estructuras tipo meter miedo se han incluido dentro de una constelación más amplia de colocaciones causativas del tipo verbo+sustantivo de estado en posición de objeto directo, p. ej., dar miedo, causar alegría, despertar temores, infundir tristeza o provocar celos (a alguien) (Alba-Salas 2004, Alonso Ramos 2004: 110-113). Semánticamente, estas colocaciones se caracterizan por el hecho de que contienen una predicación causativa aplicada a una predicación posesiva parafraseable con el verbo tener más el sustantivo de estado correspondiente (cf. Gross 1981). Por ejemplo, la colocación Miguel le da miedo a Eva, que podemos parafrasear informalmente como ‘Miguel hace que Eva tenga miedo’, tendría la estructura proposicional que se muestra en (1). (1) Miguel causa x [x = Eva tiene miedo]

Partiendo de los datos del Corpus del español, el presente estudio traza la evolución histórica de las colocaciones tipo meter miedo desde el siglo XIII al año 2000. Entre otros resultados, el análisis revela que en estados anteriores de la lengua meter competía con poner en estas colocaciones, que esta competición aparentemente conllevó un proceso de difusión léxica, y que el español moderno ha resuelto dicha rivalidad histórica mediante la especialización de meter y poner para contextos colocacionales diferentes. Estos resultados confirman ciertas tendencias de cambio histórico documentadas por Alba-Salas (2007) en otras colocaciones causativas.

344

JOSEP ALBA-SALAS

2. Estudios diacrónicos previos Al igual que otras colocaciones, las colocaciones causativas con sustantivo de estado han recibido escasísima atención tanto en la filología tradicional (Menéndez Pidal 1964, 1968, Corominas y Pascual 1980), como en estudios diacrónicos generales del español (García 1981, Lapesa 1981, Resnick 1981, Cano Aguilar 1992, Lathrop 1996, Medina López 1999, López García 2000, Penny 2000, 2002, Tuten 2003; cf. Keniston 1937). Tampoco han atraído la atención de los escasos estudios diacrónicos sobre colocaciones de los que disponemos en español (Dubsky´ 1965, Blanco 1995) y otras lenguas románicas (La Fauci 1979 para el italiano medieval, Marcello-Nizia 1996 para el francés antiguo y De Marco 1995 para varias lenguas románicas; cf. Iglesias-Rábade 2001 y el volumen editado por Brinton y Akimoto en 1999 para el inglés antiguo y medio). Las únicas excepciones son Dubsky´ (1962), Chaurand (1983) y Alba-Salas (2007). Dubsky´ (1962), un estudio pionero sobre las colocaciones del español antiguo, se centra casi exclusivamente en otro tipo de colocaciones: las formadas con sustantivos de acción, como por ejemplo hacer un viaje o dar un paseo (véase Alba-Salas 2004, entre otros, para un resumen de las diferencias respecto a las colocaciones causativas con sustantivo de estado). Sin embargo, Dubsky´ nota de pasada que algunas estructuras con sustantivos de estado que hoy utilizan dar (p. ej., dar tristeza) podían formarse también con hacer en el español antiguo (fazer tristeza), estableciendo así que ciertas combinaciones verbonominales que hoy analizamos como colocaciones pueden cambiar durante la historia de una lengua. Al igual que Dubsky´, Chaurand (1983) también documenta un cambio diacrónico similar en el francés: mientras que la lengua (estándar) moderna utiliza sólo faire ‘hacer’ en las colocaciones causativas tipo dar miedo, el francés antiguo (como el español medieval) también permitía el uso de doner ‘dar’. Partiendo de estos estudios, Alba-Salas (2007) utiliza uno de los corpus electrónicos más completos del español (el Corpus del español de Mark Davies) para analizar la rivalidad histórica entre dar y hacer en dieciocho colocaciones tipo dar miedo desde el siglo XIII al año 2000. Para complementar estos datos, AlbaSalas también examina brevemente los precursores de estas colocaciones en el latín clásico, que ya utilizaba dare y facere en ambos contextos (aunque con una preferencia aparente por ‘hacer’). El estudio muestra que, a pesar de que en el español medieval dar y hacer parecían usarse con una frecuencia similar, en el siglo XVI se produce un cambio espectacular a una mayoría de casos con dar. Como se muestra en la Tabla 1 (reproducida de Alba-Salas 2007: 224), la victoria de dar sobre hacer en el XVI fue fulminante1. 1

La cronología de esta tabla, como la de las otras tablas incluidas en el presente estudio, se basa en la fecha de copia del manuscrito (lo que en inglés se conoce como Specific Produc-

345

LAS ESTRUCTURAS TIPO METER MIEDO EN DIACRONÍA

TABLA 1 Uso relativo de dar y hacer en 16 colocaciones tipo dar miedo (siglos XIII-XX) XIII

XIV

XV

DAR (%)

70

55,5

47,5

HACER (%)

30

44,5

Total de casos (dar + hacer)

10

DAR HACER

por millón

XVI

XIX

XX

Total

XVII

XVIII

92

96

94

99

52,5

8

4

6

1

9

186

740

644

117

645

821

3.172

1,01

1,77

10,45

37,72

48,56

10,72

31,27

40,34

29,7

0,43

1,42

11,39

3,39

1,96

0,68

0,24

100

93,5 6,5

2,02

El espectacular vuelco del XVI se observa tanto en los resultados generales, como con cada uno de los sustantivos estudiados. En efecto, como podemos ver en la Tabla 2 (basada en Alba-Salas 2007: 225-226), más de la mitad de las colocaciones tipo dar/hacer miedo estudiadas pasan a una mayoría sistemática de dar en el XVI. Alba-Salas (2007) sugiere que, vista en un contexto histórico e interlingüístico más amplio, la victoria de dar sobre hacer en las colocaciones españolas podría concebirse como el resultado de una simplificación radical de las propiedades colocacionales de los sustantivos de estado no sólo respecto al latín clásico, sino también en relación a otras lenguas románicas modernas, que muestran una distribución complementaria restringida léxicamente, es decir, el uso de ‘dar’ con ciertos sustantivos y de ‘hacer’ con otros, con unos cuantos dobletes en algunas lenguas. Según Alba-Salas (2007), la rápida resolución de la rivalidad entre dar y hacer en el XVI podría deberse a dos tipos de factores. Por una parte tendríamos factores internos relacionados con la semántica léxica de dar y hacer. Como señalan varios estudios teóricos, la semántica léxica de dar y otros verbos inherentemente ditransitivos puede descomponerse en una predicación causativa (‘X hace que Y…’)

tion Date o SPDT), no en la fecha en que presumiblemente se compuso la obra original (la Original Production Date o OPDT). La versión utilizada del Corpus del español data los textos medievales en función de su fecha de composición. Para obtener la correspondiente fecha de copia se solicitó al creador del Corpus del español la lista completa de los manuscritos incluidos en el corpus y se contrastaron los datos correspondientes con la información que aparece en la Bibliography of Old Spanish Texts (Faulhaber et al. 1984) y PhiloBiblon (para más detalles, véase Alba-Salas 2007).

346

JOSEP ALBA-SALAS

TABLA 2 Ocurrencias por millón de dar y hacer en 16 colocaciones tipo dar miedo (siglos XIII-XX) XVI

XVII

2,47

2

1,65

hacer

0,12

0,06

ANGUSTIA dar

0,12

0,11

ALEGRÍA dar

hacer

XIII

XIV

XV

0,43

1,06

XX

Total

0,49

0,79

1,1 0,02

0,08

0,1

0,1

0,15

0,1 0,01

0,12

0,17

0,78

0,39

0,39

hacer CONGOJA dar

0,12

hacer

0,12

DOLOR dar

4,23

4,39

2,75

7,52

0,22

0,08

1,06

4,39

0,14

ENVIDIA dar

1,39

HORROR dar

0,86

0,19

0,39

2,95

1,26

0,05

0,08

0,1

0,41

0,88

0,69

1,86 0,7

1,07

1,61

0,29

0,08

1,25 0,02

0,22

2,28

0,68

0,11

0,55

0,1

LÁSTIMA dar

0,94

2,43

1,66

hacer

1,39

1,1

0,39

0,35

2,34

0,01

0,12

hacer

hacer

XIX

0,14

ASCO dar

hacer

XVIII

1,51

0,29

0,77 0,11

4,84

3,64

2,38 0,43

347

LAS ESTRUCTURAS TIPO METER MIEDO EN DIACRONÍA

TABLA 2 (Cont.) XIII

MIEDO dar hacer

XIV

XV

XVI

XVII

XVIII

XIX

XX

Total

0,35

0,12

0,33

2,9

0,39

7,38

12,38

4,52

1,06

0,28

0,16

0,19

0,2

0,17

0,24

0,1

0,15

0,14

PAVOR dar 0,35

hacer

23,83

hacer

0,12

0,11

RABIA dar

3,8

5,33

7,71

0,23

1,72

hacer

0,47

0,61

TERROR dar

0,12

0,11

hacer

0,12

0,58

0,39

1,03

3,49

1,06

1

0,35

0,35

0,11

0,28 0,35

1,17

0,98 0,01

3,45

0,78

0,24

0,1

0,92 0,15

0,78

0,1

0,15

0,39

0,25 0,01

0,35

VERGÜENZA dar

10,5 0,03

0,06

TEMOR dar

hacer

23,54

0,16

hacer

0,14 0,03

1,88

hacer

0,2

0,23

PENA dar

TRISTEZA dar

0,23

0,06

1,33

0,54

0,84

0,77 0,06

0,94

0,68

4,59

6,44

2,49 0,12

348

JOSEP ALBA-SALAS

aplicada a una predicación posesiva (‘Y tiene…’), como se mostraba en (1). Ello explica que, por ejemplo, podamos parafrasear darle miedo a alguien como ‘hacer que alguien tenga miedo’, de la misma manera que podemos parafrasear darle un libro a alguien como ‘hacer que alguien tenga un libro’. Así pues, la semántica léxica de dar (el verbo ditransitivo prototípico) permite una relación más transparente entre las colocaciones causativas tipo darle miedo a alguien y las estructuras tipo tener miedo. Esta ventaja contribuyó a su victoria sobre hacer, un verbo que –a diferencia de dar– no requiere inherentemente un objeto indirecto. Por otro lado, tendríamos tres factores sociolingüísticos que coincidieron en el Siglo de Oro: un cambio de norma, una mayor codificación lingüística y una mezcla dialectal masiva o koineización (en el sentido propuesto por Penny 1987: 4-7 y 8-17, 2000: 40-41 y 48-50, Lapesa 1996: 58-60 y Tuten 2003: 90-93). Siguiendo a Penny y Tuten, Alba-Salas (2007) propone que la victoria de dar sobre hacer se vio favorecida por el gran cambio demográfico y la intensa mezcla dialectal que siguieron al traslado de la corte castellana de Toledo a Madrid en 1561. En la pre-koiné de Madrid se habrían puesto en contacto dos tipos de variedades. El primer tipo incluye las variedades que usaban tanto dar como hacer en las colocaciones causativas, continuando en diferentes grados una alternancia heredada del latín clásico que todavía persiste en otras lenguas románicas modernas. Entre estas ‘variedades mixtas’ habríamos encontrado la que se hablaba en los centros de poder de la antigua capital, Toledo. El segundo tipo incluye aquellas variedades que sólo mostraban dar en las colocaciones causativas con sustantivo de estado. Estas variedades constituirían una innovación originaria del norte de Castilla la Vieja que habría llegado a Madrid con el gran número de inmigrantes de esa zona que se asentaron en la nueva capital en la segunda mitad del XVI. Las colocaciones que sólo utilizaban dar habrían sido favorecidas por el prestigio de los hablantes que introdujeron esta innovación (en virtud de su identidad como castellanos viejos) y, sobre todo, por varios procesos de nivelación y simplificación asociados con la koineización, no sólo porque dar habría sido el colocativo más frecuente en el habla, sino también porque el uso de un único verbo resultaba más simple que la alternancia léxica entre dar y hacer. La victoria de dar en la koiné de Madrid habría empezado a través de la acomodación por parte de los adultos en las interacciones directas y luego habría continuado con la sobregeneralización por parte de los niños que aprendían el español como lengua materna (véase Tuten 2003: 52-63). En unos pocos años, las colocaciones que utilizaban sólo dar se habrían extendido por todo Madrid, desplazando el uso mezclado toledano y estableciéndose como la nueva norma. A este cambio tan rápido habría contribuido también la mayor codificación lingüística que caracterizó el Siglo de Oro, un proceso asociado no sólo con el nacimiento de una nueva conciencia nacional, sino también con la necesidad por parte de editores y copistas de imponer criterios

LAS ESTRUCTURAS TIPO METER MIEDO EN DIACRONÍA

349

cada vez más estandarizados para la ortografía y el uso a raíz de la invención y posterior generalización de la imprenta (para más detalles, véase Alba-Salas 2007; véase también Lapesa 1981, Eberenz 1991, Harris-Northall 1996, Wright 1999, Pountain 2001: 123 y Girón Alconchel 2004).

2. Las colocaciones tipo meter miedo en diacronía 2.1. LAS COLOCACIONES ESTUDIADAS El presente estudio se centra en otro subconjunto de colocaciones causativas cuya evolución histórica no se había estudiado todavía: aquéllas que en el español coloquial moderno se forman con meter, p. ej., meterle miedo/celos/lástima a alguien. Al igual que las estructuras con dar y hacer, las colocaciones tipo meter miedo resultan particularmente interesantes porque en etapas anteriores de la lengua también podían formarse con poner, como se ilustra en los siguientes ejemplos tomados del Corpus del español: (2) a. e metiendo les miedo por que se ouiessen a foyr e a partir… (Estoria de España I, Alfonso X, compuesto y copiado s. XIII) b. Que tanto pauor metrie en los que dellos fincassen en tierra de sus enemigos. que del sueno dela foia que lieua el uiento se espantassen & foyssen… (General estoria I, Alfonso X, compuesto s. XIII, copiado ca. 1272) (3) a. Dios es el que los baxos pone en grant altura, abaxa los sobervios e les pone tristura (Libro rimado de Palacio, Pedro López de Ayala, compuesto s. XIV, copiado 1425-1450) b. E sy ellos fuesen themerosos & de flacos coraçones pornjan miedo & flaqueza entodos los otros la qual cosa podria ser muy peligrosa al Reyno (Castigos e documentos de Sancho IV, Madrid Nacional ms. 6559, compuesto s. XIII, copiado 1390-1480)

Partiendo de los datos del Corpus del español y siguiendo a Alba-Salas (2007), el presente estudio presenta un análisis cuantitativo de la rivalidad entre meter y poner en doce colocaciones tipo meter miedo desde el siglo XIII al año 2000. Las colocaciones estudiadas incluyen doce sustantivos que designan estados sicológicos negativos: celos, dolor, envidia, horror, lástima, miedo, pavor, prisa, temor, terror, tristeza y vergüenza2. Para garantizar que el análisis fuese lo

2

Estos sustantivos constituyen un subconjunto de los dieciocho que se analizaron en Alba-Salas (2007).

350

JOSEP ALBA-SALAS

más exhaustivo posible, se utilizaron todas las modalidades de búsqueda permitidas por el Corpus del español (búsquedas simples, por lema, con comodín y con listas creadas por el usuario, entre otras), utilizando como punto de partida tanto los doce sustantivos mencionados, como los dos verbos estudiados. El análisis incluyó no sólo las formas modernas de cada verbo y sustantivo, sino también sus variantes históricas y –en el caso de los nombres– los diminutivos, aumentativos y formas de plural correspondientes (véase Alba-Salas 2007 para más detalles)3.

2.2. RESULTADOS Como se muestra en la Tabla 3, en los ocho siglos del corpus encontramos un total de 793 ocurrencias de las doce colocaciones estudiadas. Sorprendentemente, de este total de casos, el 84,7% son con poner y sólo el 15,3% con meter. Tal vez más llamativo resulta el hecho de que no hay uno, sino dos cambios claros en la frecuencia relativa de meter y poner. El primer cambio ocurre entre los siglos XIII y XIV, y el segundo, entre el XIX y el XX. Como podemos ver en la Tabla 3, en el siglo XIII meter acapara el 94,1% de casos, frente a sólo un 5,9% de casos con poner. En contraste, en el XIV la ecuación se invierte y poner supera claramente a meter, con un 66,7% de casos. La victoria de poner sobre meter en el XIV obedece no sólo al marcado descenso de casos con meter en este siglo, sino también al aumento significativo de ocurrencias con poner respecto al XIII. La predominancia de poner sobre meter aumenta en los siglos siguientes, llega a su punto culminante en el XVII (con un 97,1% de casos) y se prolonga hasta el XIX, cuando todavía supera el 60% de ocurrencias. En el siglo XX volvemos otra vez a una mayoría de casos con meter (por encima del 85%). Esta segunda inversión no obedece a un aumento de ocurrencias con meter (de hecho, los casos con meter descienden ligeramente respecto al XIX). El cambio se debe más bien a la drástica reducción de casos con poner en el XX, cuando pasa de 1,9 ocurrencias por millón a tan sólo 0,1. La Tabla 3 también presenta información sobre la distribución de poner y meter en tres tipos diferentes de textos del siglo XX: literarios, orales, y misceláneos (véanse las tres columnas de la derecha que preceden inmediatamente a la columna de ‘Total’). Como podemos ver, mientras que las tres únicas ocurren3 Cabe señalar que la versión del Corpus del español empleada es la que se actualizó en el año 2003, no la actualizada en el 2007. Dada la naturaleza de los cambios en la versión del 2007, y dada la variedad de métodos de búsqueda empleados en el presente estudio, el uso de esa versión anterior no afecta a los resultados que se presentan a continuación.

34

TOTAL meter + poner (ocurrencias)

15

3,6

0,3

por millón

10

2

ocurrencias

66,7

1,8

4,6

por millón

5,9

33,3

94,1

%

5

32

%

poner

meter

ocurrencias

XIV

XIII

114

11,6

86,8

99

1,8

13,2

15

XV

401

21,1

94,8

380

1,2

5,2

21

XVI

103

7,8

97,1

100

0,2

2,9

3

XVII

39

3,6

94,9

37

0,2

5,1

2

XVIII

64

1,9

60,9

39

1,2

39,1

25

XIX

21

0,1

14,3

3

0,9

85,7

18

XX

6

0,4

50

3

0,4

50

3

Lit

15

2,2

100

15

Oral

TABLA 3 Uso relativo de meter y poner en doce colocaciones tipo meter/poner miedo (siglos XIII-XX) Misc

793

6,7

84,7

672

1,2

15,3

121

Total

LAS ESTRUCTURAS TIPO METER MIEDO EN DIACRONÍA

351

352

JOSEP ALBA-SALAS

cias de poner en el XX pertenecen a textos literarios, la gran mayoría de casos con meter ocurren en textos orales. La Tabla 4 clasifica las ocurrencias de meter y poner en las doce colocaciones estudiadas según se trate de construcciones ditransitivas (donde el argumento al que se causa el estado sicológico designado por el sustantivo de estado se realiza sintácticamente como un objeto indirecto, p. ej., meterle/ponerle miedo a alguien) o bien de otras construcciones (incluyendo no sólo aquéllas en que dicho argumento no está expreso, sino también construcciones locativas donde el argumento es un circunstancial de lugar, p. ej. meter/poner miedo en alguien). Como podemos ver, en cada uno de los ocho siglos estudiados meter aparece mayoritariamente en construcciones ditransitivas. Poner aparece mayoritariamente en estructuras ditransitivas hasta el XIX, pero en el XX el 67% de casos pertenecen a estructuras locativas o sin complemento. Pasemos ahora a los resultados individuales, es decir, a la distribución de poner y meter con cada uno de los doce sustantivos estudiados. Los resultados normalizados (en ocurrencias por millón) aparecen en la Tabla 5. Como podemos ver, sólo cinco sustantivos (miedo, pavor, prisa, temor y tristeza) aparecen documentados con ambos verbos en los ocho siglos estudiados. Poner está documentado con todos los sustantivos, pero en la mayoría de casos parece tener un uso marginal, ya que sólo hay un número respetable de ocurrencias con miedo, pavor, temor y terror. En el siglo XX poner aparece sólo con miedo y tristeza, y con una frecuencia bajísima. Por otra parte, en los ocho siglos estudiados meter aparece con miedo, pavor, prisa, temor y tristeza, aunque la inmensa mayoría de casos son con miedo. En el XX meter aparece sólo con prisa y miedo. Esto es así a pesar de que los hablantes del español moderno aceptan este verbo con otros de los sustantivos estudiados, aunque en diferentes grados4. Estas discrepancias nos recuerdan que, a pesar de sus ventajas, incluso los corpus más completos tienen sus limitaciones, pues no siempre reflejan todo el abanico de posibilidades que encontramos en las intuiciones de los hablantes. En todo caso, es importante señalar que los datos individuales de la Tabla 5 confirman los patrones generales discutidos anteriormente, esto es, el cambio a una mayoría de casos con poner a partir del XIV y la vuelta a una mayoría de casos con meter para el XX. La diferencia es que, a nivel individual, el resurgimiento de meter se documenta ya en el XIX con prisa y miedo. Como vimos en la Tabla 3, en el XIX poner todavía aventaja a meter en cuanto al total de casos y ocurrencias por millón. La Tabla 5 muestra que esta ventaja no proviene del

4

Según las intuiciones de los hablantes consultados, al pertenecer a un registro oral coloquial, meter no suele combinarse con sustantivos de un registro más formal, como por ejemplo pavor. La mayoría de estos informantes consideran meter dolor marginal, aunque posible.

poner (%)

meter (%)

50

40

60

50

ditransitivas

otras (locativas o sin complemento)

20

43,8

80

56,3

otras (locativas o sin complemento)

ditransitivas

XIV

XIII

41,4

58,6

20

80

XV

29,2

70,8

23,8

76,2

XVI

25

75

100

XVII

18,9

81,1

100

XVIII

33,3

66,7

16

84

XIX

67

33

5,6

94,4

XX

30,4

69,6

23,1

76,9

TOTAL

TABLA 4 Uso relativo de meter y poner en las doce colocaciones estudiadas según se trate de construcciones ditransitivas u otras construcciones (siglos XIII-XX)

LAS ESTRUCTURAS TIPO METER MIEDO EN DIACRONÍA

353

354

JOSEP ALBA-SALAS

hecho de que en el XIX poner sea más frecuente con los (tres) sustantivos con los que todavía alterna con meter (de hecho, meter suele ser más frecuente con esos sustantivos). La ventaja se debe más bien a que en el XIX poner ocurre con el doble de sustantivos que meter (seis frente a sólo tres). TABLA 5 Ocurrencias por millón de dar y hacer en 16 colocaciones tipo dar miedo (siglos XIII-XX) XIII

XIV

XV

meter CELOS poner

XVI

XVII

XVIII

XIX

XX

0,06

meter DOLOR poner

0,47

meter ENVIDIA poner meter HORROR poner

0,12

meter LÁSTIMA poner

Total

0,01

0,56

0,08

0,22

0,16

0,56

0,86

1,11

0,16

0,19

0,49

0,05

0,18

0,15

0,09

0,24

0,32

0,22

meter MIEDO poner

4,06

1,77

1,64

1,06

0,16

0,19

0,93

0,79

1,05

0,14

2,84

4,35

4,61

2,9

1,36

0,78

0,1

1,98

meter PAVOR poner

0,14

0,12

0,06

1,88

3,17

0,16

0,1

0,2 0,24

meter PRISA poner meter TEMOR poner

0,03

0,23 0,14 0,14

2,35

0,8 0,1

0,07

0,06

0,16

0,05

0,06

0,06

0,08

0,05

0,04

9

2,51

0,39

2,3

0,68

355

LAS ESTRUCTURAS TIPO METER MIEDO EN DIACRONÍA

TABLA 5 (Cont.) XIII

XIV

meter TERROR poner meter TRISTEZA poner

XVI

XVII

XVIII

1,06

0,89

0,78

0,68

XIX

XX

Total

0,42

0,29

0,02 0,35

0,7

0,78

0,35

0,47

0,11

4,63

1,77

1,76

1,17

0,24

0,19

1,22

0,88

1,21

0,29

3,55

11,63

21,11

7,85

3,61

1,91

0,15

6,7

meter VERGÜENZA poner meter Total poner

XV

0,08

0,1

0,05

0,05

0,25

0,07

2.3. DISCUSIÓN Los datos individuales de la Tabla 5 sugieren que tanto el uso de meter y poner con cada uno de los sustantivos estudiados, como la evolución histórica de la rivalidad entre ambos verbos conllevó un proceso de difusión léxica similar al documentado no sólo en otras colocaciones causativas con dar y hacer (AlbaSalas 2007), sino también en ciertos cambios gramaticales del español del Siglo de Oro, como, por ejemplo, la pérdida del sonido de la /h/ inicial (Penny 2000: 70-71) o la generalización de la –y en la primera persona del singular en voy, soy, estoy, etc. (Gago-Jover 1997, Wanner 2006; cf. Wang 1969). El caso de meter es de especial interés. Mientras que hasta el siglo XIX este verbo se documenta casi exclusivamente con miedo, pavor y temor (un grupo semánticamente homogéneo) y sólo tiene algunas ocurrencias con tristeza, a partir de dicho siglo meter aparece también con un quinto sustantivo (prisa). Este patrón sugiere una extensión (relativamente tardía) de meter a sustantivos de estado fuera del núcleo semántico con el que estaba originalmente asociado. Los dos grandes cambios en la frecuencia relativa de poner y meter documentados en las colocaciones tipo meter miedo (esto es, la victoria inicial de poner en el XIV y el regreso a una mayoría de casos con meter para el XX) no parecen obedecer a variaciones en el uso general de ambos verbos. La Tabla 6 muestra las ocurrencias normalizadas de meter y poner en todos sus contextos de

356

JOSEP ALBA-SALAS

uso (incluyendo no sólo colocaciones, sino también usos ordinarios como, por ejemplo, poner/meter un libro en una caja) en el Corpus del español. Como podemos ver, en cada uno de los ocho siglos estudiados poner supera ampliamente a meter. Claramente, la distribución general de poner y meter no explica los cambios en el uso relativo de estos dos verbos en las colocaciones causativas. TABLA 6 Ocurrencias por millón de meter y poner en todos sus contextos de uso (siglos XIII-XX) XIII

METER

585,5

PONER

1.332,1

XIV

579,9

XV

154,7

XVI

231

XVII

142,1

1.388,6 1.793,7 1.663,6 1.228,5

XVIII

103,9

XIX

XX

136,4

151,1

945,8 1.017,3

708,6

El hecho de que la victoria inicial de poner sobre meter en el XIV ocurra dos siglos antes que el triunfo de dar sobre hacer (véase la sección 2) revela que ese triunfo inicial de poner no puede atribuirse a los mismos factores sociolingüísticos que presumiblemente explican la pérdida de hacer con sustantivos de estado a finales del XVI (esto es, la koineización y el cambio de norma que acompañaron al traslado de la corte castellana a Madrid y la mayor codificación lingüística asociada tanto con la unificación de Castilla, como con la generalización de la imprenta). Por desgracia, en el caso de las colocaciones tipo meter/poner miedo, no resulta factible analizar el posible uso diferencial de cada verbo dependiendo de aspectos tales como el tipo de texto en que aparecen, su autor o su origen geográfico. De hecho, en la mayoría de siglos estudiados el bajo número de ocurrencias documentadas nos impide establecer patrones fiables sobre estas y otras variables sociolingüísticas. Esta limitación afecta particularmente al español antiguo, no sólo por el reducido número de fuentes disponibles, sino también por la falta de acuerdo entre los expertos sobre el origen dialectal de la mayoría de textos de dicho periodo (para más información, véase Wanner 1999: 197, Penny 2000: 199-200, Pountain 2001: 58, Enguita Utrilla 2004: 579 y Morala 2004: 555, entre otros)5.

5

Como señala Andrés Enrique-Arias (comunicación personal), esta limitación hace particularmente relevante la aparición de corpus tales como el CODEA y la red CHARTA (véase Sánchez-Prieto Borja et al. y Carrera de la Red y Gutiérrez Maté en este volumen). Estos corpus, que se componen de documentos originales con fecha y origen geográfico claramente establecido, nos permitirán indudablemente un estudio más sistemático de la variación dialectal del español medieval y del Siglo de Oro.

LAS ESTRUCTURAS TIPO METER MIEDO EN DIACRONÍA

357

Sean cuales fueren las razones para la victoria inicial de poner sobre meter en el XIV, lo que está claro es que la rivalidad histórica entre ambos verbos en las colocaciones tipo meter miedo se ha resuelto definitivamente en el siglo XX con la victoria de meter. Como vimos en la Tabla 3, en el XX meter aparece con mucha más frecuencia en los textos orales que en los escritos. Estos datos del corpus encajan con la observación de que en el español actual meter corresponde a un registro coloquial, sobre todo de la lengua oral. De hecho, los pocos ejemplos escritos que encontramos en el corpus en el siglo XX son diálogos que intentan imitar el habla coloquial, como se ilustra en (4). (4) El Moñigo le dijo al pasar a su lado: –Me metiste menos miedo que otros días, Sara. La hermana perdía los estribos, furiosa: –¡Calla, cerdo! Un día... un día te voy a partir… (El camino, Miguel Delibes, 1950).

Los datos del corpus muestran que, a diferencia de meter, poner ha desaparecido de la mayoría de dialectos del español moderno. Esta conclusión es consistente con el hecho de que los tres únicos casos con poner documentados en el siglo XX pertenecen exclusivamente al lenguaje literario de autores argentinos y paraguayos, reflejando al parecer un uso dialectal marcadamente estilístico. Como vemos en (5), de estos tres únicos ejemplos con poner, dos pertenecen a estructuras locativas (p. ej., poner miedo en el corazón) y sólo uno (el más antiguo) pertenece a una construcción con objeto indirecto (poner miedo y espanto a los que mira). En contraste, como vimos en la Tabla 4, la mayoría de ocurrencias con meter documentadas en el XX pertenecen a estructuras ditransitivas. Este contraste sugiere que, incluso en aquellas variedades dialectales y estilísticas en las que todavía se mantiene, poner –a diferencia de meter– prácticamente ha perdido su capacidad de aparecer en el contexto sintáctico prototípico para las colocaciones causativas con sustantivos de estado (cf. §2). (5) a. […] siempre mira al revés, como si fuese bizco, y esto lo hace él de maligno y por poner miedo y espanto a los que mira. (Novios de antaño, María Elena Walsh, 1930-1940) b. […] pide para bailar una polka partidaria, que es la polka de la muerte, porque pone miedo en el corazón de lo músico y afila el cuchillo de lo contrario... (Cuentos, microcuentos y anticuentos, Mario Halley Mora, 1971) c. […] yo amaba mi superficial y vacía existencia con toda la fuerza de la pasión, la alegría y la tristeza que alguna vez habían puesto en mí y que la vida se había ocupado de amedrentar, torcer […] (Week-end, Pancho Oddone, 1993)

Tomados en su conjunto, los resultados del presente estudio podrían explicarse si asumimos, a modo de hipótesis, que en el siglo XIV poner se impuso a meter

358

JOSEP ALBA-SALAS

en la norma escrita emergente, relegando a meter al habla coloquial. Según esta hipótesis, el triunfo de poner fue sólo temporal, ya que con el tiempo este verbo también terminó siendo arrinconado a ciertas variedades literarias del español latinoamericano. Tras el triunfo de dar sobre hacer en el XVI, poner quedó en competencia directa con dar como colocativo causativo ‘neutro’ (esto es, no marcado diastráticamente). Siguiendo con esta hipótesis, poner habría estado en clara desventaja respecto a dar porque mostraba una asociación menos robusta con las colocaciones causativas con sustantivos de estado. Este supuesto es consistente con los datos que se muestran en la Tabla 7. Como podemos ver, ya desde el XV dar se convierte en el verbo más frecuente en las colocaciones causativas. En el XVI , tras su victoria sobre hacer, dar suma más del doble de ocurrencias por millón que poner, su rival inmediato. De hecho, a partir de ese siglo dar acapara más de la mitad de casos documentados con todos los verbos que aparecen en estas colocaciones, incluyendo no sólo hacer y poner (los otros dos colocativos ‘neutros’), sino también otros colocativos marcados estilísticamente, bien por estar asociados con el habla coloquial (meter), bien por pertenecer a registros más formales, sobre todo escritos (causar, inspirar, infundir y producir). El triunfo de dar sobre poner en el XVI habría sido fruto de los mismos factores internos y sociolingüísticos que, según Alba-Salas (2007), explicarían la victoria de dar sobre hacer en el XVI (véase sección 2). La única diferencia es que, en contraste con hacer, poner no parece haberse extinguido por completo, sino que parece conservarse (marginalmente) en ciertas variedades del español latinoamericano marcadamente literarias. En todo caso, poner (como meter) ha sufrido el destino típico que ciertos modelos sociolingüísticos modernos postulan en la resolución de la rivalidad histórica entre formas semántica y funcionalmente equivalentes, esto es, la reubicación de la forma o formas perdedoras a variedades diatópicas y/o diastráticas no-estándar. Para terminar, es necesario subrayar un paralelismo importante entre la rivalidad histórica entre meter y poner, por un lado y la de dar y hacer, por otro. Como señala Alba-Salas (2007), el español ha resuelto la rivalidad entre dar y hacer mediante la especialización de dar para las colocaciones causativas con sustantivos de estado (es decir, para las colocaciones tipo dar miedo) y la especialización de hacer para las estructuras causativas ‘tradicionales’ con infinitivo, es decir, casos como hacer reír a alguien. Al parecer, la resolución de la competencia entre meter y poner también conllevó un proceso de especialización funcional basado no sólo en la semántica léxica del verbo colocativo, sino también en la categoría gramatical de su complemento. Para entender este proceso, es necesario explorar brevemente otro contexto colocativo en que meter y poner también competían en el español antiguo, esto es, en las estructuras donde el sustantivo de estado aparece en un sintagma preposicional, generalmente encabezado

meter

producir

hacer

4,6

1,8

1,4

1,8

11

0,2

0,5

0,2

1,2

2

2,8

0,9

1

infundir

0,3

0,1

20,4

0,2

poner

11,6

13,4

6,5

56,1

XVII

inspirar

3,5

57,1

15,5

XVI

7,8

0,3

2,1

1,4

XV

21,1

causar

dar

XIV

XIII

0,2

2,5

0,7

5,4

3,8

3,6

18,2

14

XVIII

1,2

2,5

0,2

7,7

14,2

1,9

13,4

28,4

XIX

0,9

3,8

0,7

1,3

0,2

3,8

26,8

XX

0,4

5,5

1,3

3,3

0,6

8

41

Lit

2,2

4,4

0,3

2,2

36,9

Oral

1,5

0,4

0,7

0,1

1,2

2,5

Misc

1,2

1,6

1,9

2,6

3,6

6,7

11

31,6

Total

TABLA 7 Ocurrencias por millón de los ocho verbos más frecuentes en colocaciones causativas con los doce sustantivos estudiados (siglos XIII-XX)

LAS ESTRUCTURAS TIPO METER MIEDO EN DIACRONÍA

359

360

JOSEP ALBA-SALAS

por en, p. ej., meter en miedo o poner en miedo (a alguien) (cf. Dubsky´ 1962, 1965). Este uso se ilustra en (6) y (7). (6) O amor falso & desleal cruel … aquel dia que yo te conoçi de viera ser mj muerte ca tu me posiste en tribulança & en tristor & yo so fijo del rrey tribulante… (Cuento de Tristán de Leonís, Anónimo, Roma Vaticana 6428, compuesto s. XIII, copiado 1390-1410) (7) Ay mar en grant coita me metiste / & en grant miedo & bien puede ome creer que… (El emperador Otas de Roma, Anónimo, Escorial Monasterio h-I-13, compuesto y copiado s. XIV)

Atendiendo a los datos del corpus digital Perseus, estas colocaciones verbo+sintagma preposicional probablemente se heredaron del latín clásico, donde encontramos ya ejemplos como in invidia esse ‘tener envidia’ (literalmente ‘estar en envidia’), in invidiam adducere ‘dar envidia’ (lit. ‘llevar a la envidia’) o venire in invidiam ‘coger envidia’ (lit. ‘venir a la envidia’). En el español antiguo, estas colocaciones preposicionales con sustantivos de estado parecen haber sido muy numerosas, y tal vez plenamente productivas. La Tabla 8 muestra las ocurrencias por millón de meter y poner en un subconjunto de estas colocaciones, esto es, las formadas con los doce sustantivos estudiados en el presente trabajo. TABLA 8 Ocurrencias por millón de meter y poner en colocaciones preposicionales con los doce sustantivos estudiados, p. ej., meter/poner en miedo (siglos XIII-XX)

METER EN PONER EN

XX

Total

XIII

XIV

XV

XVI

XVII

XVIII

XIX

0,58

2,13

1,53

0,17

0,24

0,1

0,05

4,78

1,06

2,7

1,89

0,94

0,97

0,39

7,96

Como podemos ver, al igual que las colocaciones tipo meter/poner miedo, las colocaciones tipo meter/poner en miedo también muestran un predominio inicial de meter en el XIII y una victoria posterior de poner en el español antiguo. La diferencia es que en las colocaciones tipo meter/poner en miedo, poner se impone a meter en el XV, es decir, un siglo después que en las colocaciones sin preposición. A diferencia de las colocaciones tipo meter miedo, las doce colocaciones preposicionales incluidas en la Tabla 8 se han extinguido en el siglo XX. La desaparición de estas colocaciones se debe a que los sintagmas preposicionales predicativos formados con los doce sustantivos de estado estudiados se han perdido.

LAS ESTRUCTURAS TIPO METER MIEDO EN DIACRONÍA

361

Sin embargo, el español contemporáneo ha conservado otros sintagmas preposicionales predicativos, como por ejemplo en peligro, en libertad, en un aprieto o a la venta (cf. Bustos Plaza 2006). Lo importante es que estos sintagmas preposicionales todavía pueden combinarse con poner (poner en peligro/en libertad/a la venta), típicamente en alternancia con estar (estar en peligro/en libertad/a la venta), pero no con meter (*meter en peligro/en libertad/a la venta). Esta asimetría es fruto de la especialización de meter para ciertos predicados nominales en posición de objeto directo (es decir, para las colocaciones tipo meter miedo del habla coloquial), y la especialización paralela de poner para predicados adjetivales, incluyendo no sólo las colocaciones con sintagmas preposicionales tipo poner en peligro, sino también estructuras no-colocacionales con adjetivos, como poner(se) nervioso/contento/colorado. Tomados en su conjunto, el presente estudio sobre meter y poner y el estudio anterior sobre dar y hacer (Alba-Salas 2007) sugieren que la evolución histórica de las colocaciones puede conllevar procesos de cambio histórico similares a los documentados tradicionalmente en la morfosintaxis y la fonología, como pueden ser la difusión léxica, la especialización funcional y la simplificación y nivelación. Las investigaciones futuras deberían establecer si dichos procesos se limitan únicamente a las colocaciones causativas, o si se trata de un fenómeno más amplio tanto en el español como en otras lenguas.

Bibliografía ALBA-SALAS, Josep (2004): “Fare light verb constructions and Italian causatives: Understanding the differences”, en: Italian Journal of Linguistics/Rivista di Linguistica 16, 183-223. ALBA-SALAS, Josep (2007): “On the life and death of a collocation: A corpus-based diachronic study of dar miedo/hacer miedo-type structures in Spanish”, en: Diachronica 24, 207-252. ALONSO RAMOS, Margarita (2004): Las construcciones con verbo de apoyo. Madrid: Visor Libros. BLANCO, Marta (1995): “Acerca de algunas lexías complejas del español medieval”, en: Moenia 1, 411-420. BRINTON, Laurel J./AKIMOTO, Minoji (eds.) (1999): Collocational and idiomatic aspects of composite predicates in the history of English. Amsterdam/Philadelphia: John Benjamins. BUSTOS PLAZA, Alberto (2006): “Combinaciones atributivas del tipo poner en movimiento y diccionario”, en: Alonso Ramos, Margarita (ed.): Diccionarios y fraseología (= Anexos de Revista de Lexicografía 3). A Coruña: Universidade da Coruña, 89-100. CANO AGUILAR, Rafael (21992): El español a través de los tiempos. Madrid: Arco Libros.

362

JOSEP ALBA-SALAS

CHAURAND, Jacques (1983): “Les verbes supports en ancien français: ‘donner’ dans les oeuvres de Chrétien de Troyes”, en: Lingvisticae Investigationes 7, 11-47. COROMINAS, Joan/PASCUAL, José (1980-1991): Diccionario crítico etimológico castellano e hispánico. Madrid: Gredos. Corpus del español. Mark Davies. www.corpusdelespanol.org [versión actualizada en 2003] (junio-octubre 2007). DE MARCO, Barbara (1995): “Verbal locutions: Their function in Medieval miracle tales”, en: Romance Philology 48, 416-441. DUBSKY´, Josef (1962): “Las formas descompuestas en el español antiguo”, en: Revista de Filología Española 46, 31-48. — (1965): “Intercambio de componentes en las formas descompuestas españolas”, en: Bulletin Hispanique 67, 109-125. DWORKIN, Steven N. (2004): “La transición léxica en el español bajomedieval”, en: Cano, Rafael (ed.): Historia de la lengua española. Madrid: Ariel, 643-656. EBERENZ, Rolf (1991): “Castellano antiguo y español moderno: reflexiones sobre la periodización en la historia de la lengua”, en: Revista de Filología Española 71, 79-106. FAULHABER, Charles B./GÓMEZ MORENO, Ángel/MACKENZIE, John/Nitti, John J./DUTTON, Brian (eds.) ( 31984): Bibliography of Old Spanish texts. Madison: Hispanic Seminary of Medieval Studies. GAGO-JOVER, Francisco (1997): “Nuevos datos sobre el origen de soy, doy, voy, estoy”, en: La corónica 25, 75-90. GARCÍA DE DIEGO, Vicente (1981): Gramática histórica española, 3ª ed. Madrid: Gredos. GIRÓN ALCONCHEL, José Luis (2004): “Cambios gramaticales en los Siglos de Oro”, en Cano, Rafael (ed.): Historia de la lengua española. Madrid: Ariel, 859-893. GROSS, Maurice (1981): “Les bases empiriques de la notion de prédicat sémantique”, en : Langages 63, 7-52. HARRIS-NORTHALL, Ray (1996): “Printed books and linguistic standardization in Spain: The 1503 Gran Conquista de Ultramar”, en: Romance Philology 50, 123-146. IGLESIAS-RÁBADE, Luis (2001): “Composite predicates in Middle English with the verbs nimen and taken”, en: Studia Neophilologica 73, 143-163. KENISTON, Hayward (1937): The syntax of Castilian prose: The sixteenth century. Chicago: University of Chicago Press. LA FAUCI, Nunzio (1979): Costruzioni con verbo operatore in testi italiani antichi. Esplorazioni sintattiche. Pisa: Giardini. LAPESA, Rafael ( 91981): Historia de la lengua española. Madrid: Gredos. — (1996): Crisis históricas y crisis de la lengua española. Madrid: Real Academia de la Historia. LATHROP, Tom (31996): The evolution of Spanish. Newark: Juan de la Cuesta. LÓPEZ GARCÍA, Ángel (2000): Cómo surgió el español: Introducción a la sintaxis histórica del español antiguo. Madrid: Gredos. MARCELLO-NIZIA, Christiane (1996): “Les verbes supports en diachronie: Le cas du français”, en: Langages 30, 91-98.

LAS ESTRUCTURAS TIPO METER MIEDO EN DIACRONÍA

363

MEDINA LÓPEZ, Javier (1999): Historia de la lengua española I: Español medieval. Madrid: Arco Libros. MENÉNDEZ PIDAL, Ramón ( 61964): El idioma español en sus primeros tiempos. Madrid: Espasa-Calpe. — (61968): Orígenes del español: Estado lingüístico de la península ibérica hasta el siglo XI. Madrid: Espasa-Calpe. PENNY, Ralph (1987): Patterns of language change in Spain. Londres: Westfield College. — (2000): Variation and change in Spanish. Cambridge: Cambridge University Press. — (22002): A history of the Spanish language. Cambridge: Cambridge University Press. Perseus Digital Library Project, http://www.perseus.tufts.edu. Edición de Gregory R. Crane, Tufts University (octubre 2007). PhiloBiblon, http://sunsite.berkeley.edu/PhiloBiblon/phhm.html (octubre de 2007). POUNTAIN, Christopher J. (2001): A history of the Spanish language through texts. New York: Routledge. RESNICK, Melvyn C. (1981): Introducción a la historia de la lengua española. Washington, D.C.: Georgetown University Press. TUTEN, Donald M. (2003): Koineization in Medieval Spanish. New York: Mouton de Gruyter. WANG, William S. Y. (1969): “Competing changes as cause of residue”, en: Language 45, 9-25. WANNER, Dieter (2006): “An analogical solution to Span. soy, doy, voy, estoy”, en: Probus 18, 235-277. WRIGHT, Roger (1999): “Periodization and how to avoid it”, en: Blake, Robert J./Ranson, Diana L./Wright, Roger (eds.): Essays in Hispanic linguistics dedicated to Paul M. Lloyd. Newark, DE: Juan de la Cuesta, 25-41.

EL RASTREO DEL DESARROLLO DE ALGUNOS PRONOMBRES PERSONALES E N E S PA Ñ O L : ( I M ) P O S I B I L I D A D E S D E L O S C O R P U S D I AC RÓ N I C O S D I G I TA L E S DORIEN NIEUWENHUIJSEN Universiteit Utrecht

1. Introducción El desarrollo del paradigma pronominal y los cambios en las formas de tratamiento son un tema frecuentemente estudiado a partir de finales del siglo XIX. Hasta hace relativamente poco los estudios se basaban en ejemplos relevantes sacados de textos literarios, cuya búsqueda y recopilación implicaban un trabajo largo y monótono. Así, por ejemplo, Gessner, que ya en 1893 publica un extenso estudio sobre los pronombres personales en español, se basa en un corpus de unos 60 textos literarios, desde el Cantar de Mio Cid hasta unas obras de Fernán Caballero pasando por la Celestina y las Generaciones y Semblanzas de Pérez de Guzmán. Por otra parte, Pla Cárceles (1923), al estudiar la evolución de la forma de tratamiento vuestra merced, muestra un gran despliegue de datos, citando una variedad de formas, muchas de ellas transformaciones populares de la forma original, como voaçé, vuesansted, vuesarçé o vusted, para citar sólo algunas. Otro trabajo sobre los pronombres personales que merece ser mencionado aquí por la abundancia de los ejemplos y el rigor del análisis es el de Lapesa (1970), en el que da una visión de conjunto de las diferentes formas de tratamiento que han surgido o han caído en desuso a lo largo de la historia del español. No obstante los méritos de todos estos trabajos, es indudable que con un corpus digital diacrónico el estudio del desarrollo de cierto fenómeno o forma lingüística puede ser mucho más sistemático y fácil, tanto más si la forma bajo estudio es poco frecuente. Esto lo trataremos de demostrar al discutir ciertos aspectos de la evolución de los pronombres connusco y convusco en la sección 2. Por otra parte, el uso de un corpus digital también conlleva diversos problemas, por ejemplo si se quieren cotejar diferentes manuscritos o si se quieren buscar formas ligadas a otras. En la sección 3.1. discutiremos la aparición de la forma compuesta vosotros frente a vos, así como la presencia de con vos frente a conbusco en diferentes manuscritos de un mismo texto. Asimismo, tomando como ejemplo el cambio de la forma átona vos a os, mostraremos en la sección

366

DORIEN NIEUWENHUIJSEN

3.2. qué tipo de problemas se pueden presentar si la forma buscada no es una palabra independiente o si no se puede distinguir entre categorías gramaticales.

2. Posibilidades del uso de un corpus diacrónico digital 2.1. LOS PRONOMBRES CONNUSCO Y CONVUSCO: UN ANÁLISIS CUANTITATIVO En el español antiguo existían formas sintéticas del pronombre personal con la preposición con para las seis personas gramaticales: conmigo, contigo, consigo (para la 3ª p. singular y plural), connusco y convusco. A lo largo de los siglos, no obstante, se perdieron las formas connusco y convusco, que fueron sustituidas por las formas analíticas con nosotros, con vosotros y con vos (singular) en el español americano. Aparte de que, por lo general, los sintagmas preposicionales de con+pronombre no tendrán una frecuencia de uso muy alta, las formas de la 1ª y 2ª p. sólo aparecerán en diálogos, puesto que se refieren al hablante (1ª p.) y su interlocutor (2ª p.). Dichas condiciones dificultan considerablemente su rastreo en textos antiguos. No es de extrañar, por ello, que las formas connusco y convusco, siempre recibieran relativamente poca atención. Gessner (1893: 8-9) las trata con cierto detalle, pero estudios posteriores se limitan a señalar la existencia y pérdida de las formas sintéticas (García de Diego 1970: 221; Hanssen 1945: §170) o únicamente discuten la evolución fonética de las mismas (Alvar y Pottier 1983: 124-125; Menéndez Pidal 1976: 250 y 1982: 251). Si bien la situación cambia en la última década del siglo XX con artículos de Líbano Zumalacárregui (1988), García (1989, 1991, 1994 y 1997) y Rini (1990a, 1990b, 1992: 34-83 y 1992-93), sus conclusiones, por lo general, tampoco están basadas en un corpus extenso de ejemplos. García presta mucha atención a la recopilación de un corpus fidedigno, pero según ella (1989: 116) los textos que muestran alternación de las formas analíticas y sintéticas son escasos. Rini (1990b: 60, nota 7) sostiene que en el español antiguo sólo se registraban connusco y convusco, o sea las formas con u, mientras que las formas con o, nosco y vosco, así como connosco y convosco, según él, eran formas hipotéticas no comprobadas en los textos1. Rini (1990b) atribuye la pérdida de las formas connusco y convusco al hecho de que, después del cambio fonético de la vocal o de connosco y convosco a u, lo que resultó en connusco y convusco, estas formas 1 Rini (1990b: 60, nota 7) sistemáticamente marca las formas nosco y vosco con un asterisco. Afirma que “The authorities all concur that the forms attested in Old Spanish are connusco, convusco, not *nosco, *vosco, *connosco, *convosco”, y cita a Menéndez Pidal, entre otros.

EL RASTREO DEL DESARROLLO DE ALGUNOS PRONOMBRES PERSONALES

367

ya no se reconocieran como pronombres personales pertenecientes a la 1ª y la 2ª p. plural, tal como era el caso con las otras formas del mismo paradigma, conmigo, contigo y consigo, cuyas raíces –mi–, –ti– y –si– estaban relacionadas claramente con los pronombres tónicos correspondientes mí, ti y sí. La relación de –nus– y –vus– con nos y vos era mucho menos obvia. Al usar un corpus diacrónico digital, se tiene acceso a un máximo de textos que puedan mostrar alternación entre las formas sintéticas y analíticas, remediando así el problema de la escasez de textos señalado por García (1989: 116). Al mismo tiempo, es posible comprobar la (no)existencia de las variantes fonéticas en o mencionadas por Rini (1990b: 60, nota 7). Por ello, aprovechamos para tal fin el corpus diacrónico en línea de la Real Academia Española, CORDE. En los Gráficos 1 y 2 se presentan los resultados de una primera búsqueda en CORDE de connusco y convusco y sus variantes ortográficas. GRÁFICO 1 Connusco, connosco y sus variantes ortográficas en textos de CORDE connusco con nusco: conusco: connosco con nosco: conosco: 1150

1200

1250

1300

1350

1400

1450

1500

1550

1600

1650

connusco: 264 casos, 84 documentos; 1ª atestación 1140 con nusco: 23 casos, 9 documentos; 1ª atestación 1217 conusco: 110 casos, 41 documentos; 1ª atestación 1180 connosco: 16 casos, 15 documentos; 1ª atestación 1233 con nosco: 1 caso, 1 documento; 1240-1250 conosco: 10 casos, 5 documentos; 1ª atestación 1184

Las formas nosco y vosco no se registran en CORDE como formas sueltas, sino sólo en combinación con la preposición con, si bien son sumamente raros al representar el 1% de todas las formas sintéticas registradas; en la 1ª p. se trata de 1 caso sobre un total de 424 casos, en la 2ª p. son 7 casos sobre un total de 713 casos. Además, las formas con o, connosco y convosco, también aparecen en los textos, aunque tampoco son frecuentes, ni en la 1ª p. ni en la 2ª p. En el caso de la 1ª p. constituyen el 6% de todas las formas sintéticas de la 1ª p. y ocurren en el 14% de todos los documentos con formas sintéticas (27 casos con o frente a 397 casos con u; 21 documentos con formas con o frente a 134 documentos con for-

368

DORIEN NIEUWENHUIJSEN

GRÁFICO 2 Convusco, convosco y sus variantes ortográficas en textos de CORDE convusco con vusco conuusco con uusco conbusco con busco combusco convosco con vosco conuosco con uosco

1150

1200

1250

1300

1350

1400

1450

1500

1550

1600

1650

convusco: 155 casos, 63 documentos; 1ª atestación 1180 con vusco: 42 casos, 16 documentos; 1ª atestación 1272 conuusco: 206 casos, 42 documentos; 1ª atestación 1236 con uusco: 49 casos, 16 documentos; 1ª atestación 1140 conbusco: 172 caso, 34 documento; 1ª atestación 1200 con busco: 24 casos, 8 documentos; 1ª atestación 1275 combusco: 18 casos, 11 documentos; 1ª atestación 1254 convosco: 20 casos, 16 documentos; 1ª atestación 1236 con vosco: 1 caso, 1 documento; 1276 conuosco: 20 casos, 15 documentos; 1ª atestación 1218 con uosco: 6 casos, 6 documentos; 1ª atestación 1218

mas con u), en el caso de la 2ª p. representan el 7% de todas las formas sintéticas de la 2ª p. y ocurren en el 17% de todos los documentos con formas sintéticas (47 casos con o frente a 666 casos con u; 38 documentos con formas con o frente a 190 documentos con formas con u)2. Es interesante observar, además, que dichas formas con o sólo existían durante un período relativamente corto y no son las formas más antiguas, a pesar de que las formas sintéticas se originaron en formas latinas que también llevaban la vocal o, nobiscum, vobiscum > noscum, voscum > connusco, convusco (Menéndez Pidal 1982: 251). Por otra parte, los Gráficos 1 y 2 también muestran que connusco y convusco, que en el fondo son formas pleonásticas en las que en

2 No hay que descartar la posibilidad de que la escasa presencia de las formas sintéticas con o se deba a diferencias dialectales y que los textos de CORDE en los que aparecen las formas sintéticas justamente pertenezcan a zonas dialectales que prefieran las formas con u. Señalamos aquí, de paso, que es difícil estudiar variantes dalectales con CORDE.

EL RASTREO DEL DESARROLLO DE ALGUNOS PRONOMBRES PERSONALES

369

algún momento se volvió a introducir la preposición con delante del pronombre, ya en los primeros documentos escritos se consideraban lexemas inseparables (cf. Alvar y Pottier 1983: 125). La baja frecuencia de las formas en las que la preposición y el pronombre aparecen sueltos es prueba de ello (en la 1ª p. en 24 casos sobre un total de 424, o sea el 6%; en la 2ª p. 122 casos sobre un total de 713, o sea el 17%)3. TABLA 1 Frecuencias de las formas connusco, con nos y con nosotros en textos de CORDE del siglo XII al siglo XVI y de CHEM del siglo XVI fecha

texto

connusco

con nos

con nosotros

s. XII

Cid

100% (1)

0% (0)

0% (0)

s. XIII

Fazienda

29% (2)

71% (5)

0% (0)

s. XIV

Cuento de Tristán Crónica de 1344 Pedro I Calila

100% (2) 100% (2) 100% (1) 78% (7)

0% (0) 0% (0) 0% (0) 11% (1)

0% (0) 0% (0) 0% (0) 11% (1)

s. XIV

total

86% (12)

7% (1)

7% (1)

s. XV

Biblia Escorial Merlín Biblia ladinada Corbacho Istoria Celestina

35% (11) 36% (4) 55% (50) 0% (0) 74% (11) 0% (0)

65% (20) 46% (5) 22% (20) 0% (0) 13% (2) 0% (0)

0% (0) 18% (2) 23% (21) 100% (1) 13% (2) 100% (4)

s. XV

total

50% (76)

31% (47)

19% (30)

s. XVI

Tristán Crónica popular Primaleón DLNE

17% (1) 100% (7) 0% (0) 0% (0)

33% (2) 0% (0) 0% (0) 0% (0)

50% (3) 0% (0) 100% (5) 0% (0)

s. XVI

total

44,5% (8)

11% (2)

44,5% (8)

3 Somos conscientes del hecho de que la separación gráfica de la preposición y el pronombre no sea un criterio muy fiable, puesto que no podemos estar seguros de que el editor haya reproducido las formas tal como aparecían en el manuscrito original o que haya separado o juntado la preposición y el pronombre por propia iniciativa.

370

DORIEN NIEUWENHUIJSEN

TABLA 2 Frecuencias de las formas convusco, con vos y con vosotros en textos de CORDE del siglo XII al siglo XVI y de CHEM del siglo XVI fecha

texto

convusco

con vos

con vosotros

s. XII

Cid

100% (7)

0% (0)

0% (0)

s. XIII

Fazienda

75% (6)

25% (2)

0% (0)

s. XIV

Cuento de Tristán Crónica de 1344 Pedro I Calila

90% (27) 92% (12) 52% (11) 89% (8)

10% (3) 8% (1) 48% (10) 0% (0)

0% (0) 0% (0) 0% (0) 11% (1)

s. XIV

total

80% (58)

19% (14)

1% (1)

s. XV

Biblia Escorial Merlín Biblia ladinada Corbacho Istoria Celestina

34% (14) 25% (18) 28% (35) 25% (2) 38% (17) 0% (0)

66% (27) 72% (52) 24% (31) 75% (6) 51% (23) 0% (0)

0% (0) 3% (2) 48% (61) 0% (0) 11% (5) 100% (1)

s. XV

total

29% (86)

47% (139)

24% (69)

s. XVI

Tristán Crónica popular Primaleón DLNE

3% (1) 100% (14) 0% (0) 0% (0)

90% (37) 0% (0) 94% (122) 100% (8)

7% (3) 0% (0) 6% (8) 0% (0)

s. XVI

total

8% (15)

86% (167)

6% (11)

Para estudiar más en detalle la frecuencia de uso de las formas sintéticas frente a las analíticas hemos recopilado de CORDE para el siglo XII al siglo XVI y del Corpus Histórico del Español de México (CHEM) para el siglo XVI todas las formas sintéticas de la 1ª p. y 2ª p., así como las formas analíticas con pronombre simple y compuesto. La selección de los textos se ha hecho a base de dos criterios: – El texto tenía que mostrar alternancia de las formas mencionadas en, por lo menos, una de las dos personas. – El texto tenía que contener un número relativamente alto de (uno de) los pronombres mencionados.

EL RASTREO DEL DESARROLLO DE ALGUNOS PRONOMBRES PERSONALES

371

GRÁFICO 3 Porcentajes totales de connusco y convusco y sus variantes ortográficas en textos de CORDE del siglo XII al siglo XVI y de CHEM del siglo XVI

En las Tablas 1 y 2 se presentan los resultados de la recopilación. Los números totales en las distintas columnas incluyen todas las variantes ortográficas recogidas en los Gráficos 1 y 2. Para la datación de los textos hemos seguido las fechas que se indican en CORDE, salvo en el caso de Fazienda y Calila. En CORDE se suele dar la fecha de la composición del texto, sin tomar en cuenta que la versión reproducida puede datar de una época posterior. Si la fecha de la composición del original y la de la versión reproducida no coinciden, es posible que ésta no presente el estado de lengua del texto original sino más bien de la época en la que fue copiada. En el caso de Fazienda se trata de un texto del siglo XII, pero el manuscrito conservado y reproducido en CORDE data del siglo XIII, siglo en el que, por lo tanto, hemos clasificado este texto. Asimismo, en el caso de Calila existen dos manuscritos (véase la sección 3.1.), de los que CORDE reproduce el más antiguo, de fines del siglo XIV, si bien el corpus lo fecha en 1251. Como se puede ver, los porcentajes de las tres formas buscadas difieren bastante según el texto, tanto en la 1ª p. como en la 2ª p., no sólo en siglos diferentes, sino también dentro de un mismo siglo. El Gráfico 3 muestra los porcentajes totales a través de los siglos para ambas personas. Para los siglos XII y XIII sólo contamos con un texto para cada siglo, de manera que no podemos sacar conclusiones muy fiables al respecto. Es posible, por lo tanto, que la clara disminucion de las formas sintéticas en el siglo XIII, sobre todo en la 1ª p., se deba a la particularidad del texto en cuestion. De hecho, de los 5 casos de con nos en Fazienda en 3 casos parece tratarse de una frase hecha (Dios con nos). Lo mismo se observa en la 2ª p., donde uno de los 2 casos de con vos

372

DORIEN NIEUWENHUIJSEN

reza Dios con vos. A partir del siglo XIV se observa una disminución continua en el uso de las formas sintéticas, si bien dicha disminución es mucho más marcada en la 2ª p. que en la 1ª p. En este sentido, por lo tanto, la 2ª p. es la forma innovadora, en tanto que la 1ª p. sigue, probablemente por analogía4.

2.2. LOS PRONOMBRES CONNUSCO Y CONVUSCO: UN ANÁLISIS CUALITITATIVO No cabe duda de que el análisis cuantitativo es esencial para la investigación diacrónica, en la medida en que, de esta manera, se pueden señalar tendencias y desarrollos a lo largo de un período más grande. No obstante, es de igual importancia el análisis cualitativo, dado que sólo a través de la discusión de ejemplos concretos se puede demostrar cómo funciona cierta forma o construcción en su contexto. En este sentido CORDE también constituye un recurso útil. Según García (1991) las formas sintéticas originalmente se usaban en contextos donde era relevante subrayar la relación de solidaridad o intimidad entre los distintos participantes (cf. también De Jonge y Nieuwenhuijsen 2009). Para someter a prueba esta hipótesis CORDE nos permite seleccionar uno de los textos del análisis cuantitativo de la sección 2.1. y recoger del mismo todos los ejemplos de convusco y de con vos con sus contextos más o menos amplios. Lo haremos para la Crónica de 1344, un texto que registra 12 formas sintéticas y 1 forma analítica de la 2ª p. Presentamos aquí abajo primero los ejemplos de la forma sintética: (1) mj amjgo muchas graçias por quanta buena conpañja de vos he Resçibido perdonadme que yo dexar vos qujero Ca asaz he morado conbusco. (CORDE, Crónica de 1344) (2) Et el Rey mando dar su fija Et dixole oyd don yllan non creades que vos do vuestra fija por que siempre more conbusco /. (CORDE, Crónica de 1344) (3) Et dixome en commo fuera preso en venjendo para casar conbusco segund quelo posiera con vuestra tia la Reyna de leon (CORDE, Crónica de 1344) (4) Ca vos qujero librar desta prision Con tanto que me fagades omenaJe & çierto juramento que me tomedes por muger tanto que fueredes en vuestra honrra Et yo sacar vos he de aquj luego & yr me he conbusco & sy esto non fazedes morredes enesta prision /. (CORDE, Crónica de 1344)

4

El que la 2ª p. sea la forma innovadora y la 1ª p. la que sigue por analogía, se observa también en la propagación de los pronombres compuestos nosotros y vosotros (cf. De Jonge y Nieuwenhuijsen 2009).

EL RASTREO DEL DESARROLLO DE ALGUNOS PRONOMBRES PERSONALES

373

(5)

fare que vos besen las manos & tomen por señora & yo so bien çierto queles plazera conbusco muy bien & desque sopieren quanto por mj auedes fecho. (CORDE, Crónica de 1344)

(6)

Casare conbusco & lleuar vos he a castilla & fazer vos he señora de toda la tierra /. (CORDE, Crónica de 1344)

(7)

Et vos venjd vos luego conello & yo partyr lo he conbusco muy bien Et Ruego vos commo hermano que vos plega delo fazer asi. (CORDE, Crónica de 1344)

(8)

Ca yo vos atendere & venga conbusco viara & galbe que son mucho mjs amjgos (CORDE, Crónica de 1344)

(9)

Et fizo muy mal don nuño sallido por non venjr conbusco (CORDE, Crónica de 1344)

(10) Ca en vuestra ayuda venjmos Et queremos esta vez conbusco beujr /o moryr (CORDE, Crónica de 1344) (11) Ca conbusco fare el fijo que alos otros vengara /. (CORDE, Crónica de 1344) (12) la primera quando fuestes medrosos & cometistes conbusco la batalla seyendo vos muchos ademas & nos pocos & vos vençistes & fuystes /. (CORDE, Crónica de 1344)

Los verbos que acompañan a conbusco son morar (2 veces), casar (2 veces), irse, plazer, partir, venir (2 veces), vivir, hacer (el hijo) y cometer batalla. De los verbos citados, en 11 casos las actividades que designan implican una relación de solidaridad o intimidad entre las personas involucradas. Sólo en el caso de cometer batalla (ejemplo 12) se trata justamente de una relación de enemistad. Por otra parte, en el único ejemplo de con vos la relación entre las personas involucradas es hostil, reflejada por el verbo guerrear: (13) Et menester auja fijo ardimjento qujen con vos qujsiese guerrear (CORDE, Crónica de 1344)

En la Crónica de 1344 no aparecen formas analíticas de la 1ª p. sino sólo 2 casos de las formas sintéticas: (14) & mj hermano enbio por nos por vna fiesta de santo juan & enel axarafe de seujlla toparon connusco xpistianos que me mataron a mj marido & a mjs siete fijos que ya eran Caualleros (CORDE, Crónica de 1344)

374

DORIEN NIEUWENHUIJSEN

(15) Et el conde le dixo(le) callate non fagas asi /. mas ten nos poridad & vete conusco & dar te he en medio de /. Castilla vna çibdat por tu heredat por todo sienpre (CORDE, Crónica de 1344)

También en estos dos ejemplos de connusco el contexto sugiere una relación de intimidad o solidaridad entre las personas designadas por la forma sintética. En (14) connusco comprende a la mujer que habla, su marido y sus siete hijos, o sea que se trata de familiares, que se encontraron con unos cristianos que mataron a todos los varones. Asimismo, en (15) se trata de un conde y una infanta que están huyendo y que han sido descubiertos por una persona a quien tratan de convencer que no los denuncie. Los dos fugitivos, por lo tanto, tienen un fin común y entre ellos hay una clara relación de solidaridad. En cambio, en el siguiente ejemplo (16) de con nos, de un texto del siglo XV, o sea cuando el uso de la forma sintética ya iba decayendo, no salta a la vista una relación de intimidad o solidaridad: (16) Estonces fueron a la dueña e a los otros e dixeron así: –Señores, el Rey, nuestro señor, se mete en nuestro poder e quiere fazer todo lo que nós mandaremos cerca deste fecho. E si vos lo otorgáis así e querés pasar por lo que nós ordenaremos, havremos plazer. E la dueña e los otros dixeron: –Mucho nos plaze, ca no ha el Rey más que nos faga sino entrar con nos en juizio de su corte. (CORDE, Merlín)

La dueña y las otras personas, referidos en el texto por los otros, no parecen constituir un grupo sólido, puesto que dos veces se les nombra explícitamente por separado ((a) la dueña e (a) los otros). No habrá, por lo tanto, una relación íntima o solidaria entre ellos.

3. Problemas del uso de un corpus diacrónico digital 3.1. LA CONSULTA DE DISTINTOS MANUSCRITOS Para analizar el desarrollo de cierta forma puede ser sumamente útil el cotejo de distintos manuscritos de un mismo texto que datan de épocas diferentes. Sin embargo, este tipo de análisis es difícil de hacer con los corpus diacrónicos digitales que actualmente están disponibles, lo que ilustraremos con dos ejemplos de dos textos diferentes. El libro de Calila e Digna (Keller y White Linker 1967) se conserva en dos manuscritos, uno de finales del siglo XIV (manuscrito A) y otro de finales del

EL RASTREO DEL DESARROLLO DE ALGUNOS PRONOMBRES PERSONALES

375

siglo XV (manuscrito B). En el manuscrito A encontramos el ejemplo (17) de la forma tónica vos. El pronombre simple aparece dos veces, una vez en función de sujeto, otra vez como término de la preposición a. (17) ... e dixoles: “Vos sodes mis hermanos e mis amygos para demandar el tuerto que yo rresçibi; pues ayudadme e guysad commo aya derecho, ca bien podria acaesçer a vos lo que a mi acaesçio”. (Calila A, p. 108, l. 1631-1633)

Dicho ejemplo se registra también en CORDE, donde se fecha el texto en 1251. No obstante, en el manuscrito B se lee: (18) ..., e dixoles: “Vos otros sodes mis hermanos e amigos para caluniar el tuerto que yo rreçeby; pues ayudatme e guisat commo yo aya derecho, ca puede ser que vos acaezca a vosotros lo que acaeçio a my.” (Calila B, p. 108, l. 18921896)

La comparación del ejemplo en los dos manuscritos muestra que los 2 casos de vos tónico plural en A han sido sustituidos en B por el pronombre tónico vosotros. Dicha modernización corrobora la cronología general del uso del pronombre vos frente a vosotros (cf. De Jonge y Nieuwenhuijsen 2009), con la propagación del pronombre compuesto en –otros en el siglo XV y la consiguiente decaída de la forma simple. El ejemplo de Calila, por lo tanto, sólo muestra su gran valor lingüístico al contrastarlo con la versión del manuscrito B, versión que no se puede consultar, que se sepa, a través de un corpus digital. Un ejemplo parecido proviene del Libro del cavallero Zifar, de cuyo texto Wagner (1929) reproduce tres versiones diferentes: el manuscrito M, de principios del siglo XIV, el manuscrito P, del siglo XV, y la edición impresa S, de 1512. El cotejo de las tres versiones permite comprobar el avance de las formas connusco y convusco a expensas de las formas con nos(otros) y con vos(otros). En el manuscrito M, el más antiguo y en P, el intermedio, encontramos: (19) ..., quierola yo casar conbusco e darvos he muy grant auer. (Zifar M y P, p. 26, r. 1)

Dicho ejemplo se reproduce dos veces en el Corpus del español, puesto que este corpus diacrónico digital comprende tanto el manuscrito M, como P del Libro del cavallero Zifar, ambos con fecha del siglo XIV. En cambio, la versión impresa S registra: (20) ..., quierola casar con vos e darvos grant auer. (Zifar S, p. 26, nota 1)

376

DORIEN NIEUWENHUIJSEN

ejemplo que encontramos en CORDE, fechado ahí entre 1300-1305, a pesar de que, en realidad, proviene de la versión impresa de 1512. Los ejemplos (19) y (20) muestran, a través de distintas versiones de un mismo texto, el avance de la forma analítica con vos en el siglo XVI, a expensas de la forma sintética conbusco que se había usado en los dos siglos anteriores, de acuerdo con los datos cuantitativos presentados en la sección 2.1. Además, el cotejo de las tres versiones por lo que se refiere a las formas sintéticas muestra que todas las formas sintéticas de M aparecen en S como formas analíticas con pronombre simple o compuesto, salvo en 4 casos donde se omiten del todo en S. Esta modernización ya se ve, en parte, en el manuscrito intermedio P, que presenta tanto formas sintéticas, como analíticas. Gráficamente podemos ilustrar dicho avance de las formas analíticas de la siguiente manera: GRÁFICO 4 Correlación del uso de connusco/convusco y con nos(otros)/con vos(otros) en 3 versiones del Libro del cavallero Zifar

Huelga decir que dicho cotejo es imposible de hacer con los corpus diacrónicos digitales actualmente disponibles.

3.2. EL ORIGEN DEL PRONOMBRE ÁTONO OS Otro problema con el uso de un corpus diacrónico digital que queremos señalar aquí es el relacionado con la busqueda de formas ligadas, no independientes. Originalmente no había diferencia de forma entre el pronombre tónico y el pronombre átono de la 2ª p. de cortesía. En ambos casos correspondía a la forma vos, que podía tener una referencia tanto singular, como plural. No obstante, a lo

EL RASTREO DEL DESARROLLO DE ALGUNOS PRONOMBRES PERSONALES

377

largo de la historia del español vos átono perdió su consonante inicial convirtiéndose en os, forma que hoy en día sigue vigente en el español peninsular como forma átona de la 2ª p. plural vosotros5. En estudios anteriores (Gessner 1893: 3; Menéndez Pidal 1976: 250) se sostiene que los primeros casos de la forma abreviada se registran en textos del siglo XII. Se producen en contextos fonéticos parecidos, en posición enclítica donde el acento cae en la sílaba inmediatamente anterior al pronombre. Además, el pronombre muchas veces tiene una referencia reflexiva (García et al. 1990). No obstante, para encontrar estos casos en un corpus diacrónico digital nos encontramos con serios problemas, puesto que no se busca un pronombre suelto, como es el caso con connusco/convusco frente a con nos(otros)/con vos(otros), sino una forma enclítica a otra palabra. Esta palabra suele ser un infinitivo o una forma del imperativo, pero también puede ser, por ejemplo, la negación no o el pronombre yo, como muestran los siguientes ejemplos: (21) El rey por su merced sueltas me vos ha por levaros a Valencia… (CORDE, Cid) (22) “Idos e tornad contral tercer dia... (CORDE, Fazienda) (23) “Dexadvos de servir al Criador e nos * enfeuzedes * en el... (CORDE, Fazienda) (24) yos prometo que oy en este dia uos uengue... (CORDE, Estoria II)

En CORDE se pueden usar comodines para ampliar la búsqueda. Así, teóricamente se podría introducir el pronombre os precedido por un asterisco (*os), para que el sistema busque todos los casos de os enclítico. Sin embargo, los comodines no sirven con búsquedas que desarrollen más de 500 ejemplos (cf. el Manual de consulta de CORDE, 8.1)6, lo cual sería el caso con *os, incluso si limitamos el período de búsqueda a un solo siglo. La única manera, que sepamos, en la que se puede solucionar dicho problema es la búsqueda relativamente laboriosa de todas las posibles combinaciones de *Cos y *Vos, en la que C representa cualquier consonante y V cualquier vocal en que puede terminar una palabra en español.

5 A pesar de que originalmente os era la forma átona que correspondía al pronombre tónico vos, aquél ya no pertenece hoy en día al paradigma del voseo americano. En cambio, el vos americano despliega un paradigma mixto, con formas tónicas del paradigma de vos y formas átonas del paradigma de tú (cf. Fontanella de Weinberg 1992; De Jonge y Nieuwenhuijsen 2009). 6 Se accede al Manual de consulta de CORDE por el enlace de ‘Ayuda’.

378

DORIEN NIEUWENHUIJSEN

El Corpus del español sí acepta *os como término de búsqueda, pero no salen infinitivos e imperativos con el pronombre enclítico, sino sustantivos en plural y formas verbales de la 1ª p. plural, entre otros. Lo mismo ocurre con *ros (principalmente sustantivos en plural) y *dos (principalmente sustantivos y adjetivos en plural). La búsqueda por categoría gramatical [VR*+] (vINF+CL (hablarle)), por otra parte, una de las buenas posibilidades que ofrece el Corpus del español, genera todo tipo de combinaciones de infinitivos con pronombre enclítico pero, curiosamente, no registra ninguna combinación con el pronombre os. Asimismo, para los casos de vos, se presenta el problema adicional de que los corpus recogen tanto los casos de vos tónico, como de vos átono, mientras que para rastrear la pérdida de la consonante inicial del pronombre sólo estamos interesados en las formas átonas de vos, dado que sólo en ellas se dio el cambio fonético. Ni CORDE ni el Corpus del español permiten buscar por pronombre tónico y átono. La Tabla 3, por lo tanto, es el resultado de la búsqueda en CORDE descrita anteriormente. En el Gráfico 5 se presentan los datos de la forma átona os también de manera gráfica. TABLA 3 Frecuencias de las formas átonas vos y os en textos de CORDE del siglo XII al siglo XVI y de CHEM del siglo XVI fecha

7

texto

vos

os

s. XII

Cid

99% (217)

1% (3)

s. XIII

Fazienda

97% (126)

3% (4)

s. XIV

Crónica de 1344 Pedro I Calila

100% (394) 100% (153) 100% (64)

0% (0) 0% (0) 0% (0)

s. XV

Corbacho Celestina

97% (70) 2% (1)

3% (2) 98% (60)

s. XVI

Tristán Crónica popular DLNE

51% (381) 99% (380) 0% (0)

49% (360) 1% (1)7 100% (97)

Este único caso de os, curiosamente, es un caso proclítico. Los primeros ejemplos de os en el siglo XII justamente surgieron en posición enclítica.

EL RASTREO DEL DESARROLLO DE ALGUNOS PRONOMBRES PERSONALES

379

GRÁFICO 5 Frecuencia de la forma átona os en textos de CORDE del s. XII al s. XVI y de CHEM del s. XVI

Los datos muestran claramente la propagación rápida de la forma átona os a finales del siglo XV. En ese siglo, el primer texto analizado, Corbacho, registra sólo 2 casos de os, en tanto que en la Celestina se usa casi exclusivamente la forma abreviada. En el siglo XVI parece haber cierta vacilación en el uso de os; en Tristán el uso de ambas formas átonas es apróximadamente igual, la Crónica popular muestra un solo caso de os, mientras que os es la única forma átona que se registra en DLNE. Por otra parte, el panorama que se desprende de la Tabla 3 por lo que se refiere a los siglos XV y XVI concuerda con los datos que hemos presentado en las Tablas 1 y 2. Respecto del uso de la forma os la Celestina resulta ser un texto moderno. Dicha modernidad también se observa en su uso de las formas analíticas con nos(otros) y con vos(otros) a expensas de las formas sintéticas connusco y convusco. En cambio, la Crónica popular se muestra conservadora tanto en el uso exclusivo de las formas sintéticas como en el uso casi exclusivo del pronombre átono vos.

4. Conclusión No cabe duda de que la disponibilidad de los corpus diacrónicos digitales ha cambiado irreversible y definitivamente el estudio diacrónico de la lengua española. Con los recursos que actualmente están al alcance de cualquier investigador se pueden rastrear el surgimiento y desarrollo de infinitas formas lingüísticas de manera sistemática mediante un análisis cuantitativo, como hemos tratado de demostrar en función del desarrollo de las formas sintéticas connusco y convusco.

380

DORIEN NIEUWENHUIJSEN

Además, los corpus digitales también permiten llevar a cabo un análisis cualitativo minucioso, puesto que presentan todas las formas buscadas en un contexto relativamente amplio. Para ilustrar esto ha servido el mismo desarrollo de las formas sintéticas. Sin embargo, a pesar de estas grandes ventajas para el historiador de la lengua, éste se ve enfrentado también con limitaciones. En el caso específico de CORDE, al discutir la propagación y pérdida de las formas sintéticas connusco y convusco, hemos señalamos que no hemos seguido para todos los textos la datación de CORDE, puesto que el corpus sólo da la fecha de la composición del texto original, sin tomar en cuenta que la versión reproducida puede datar de una época posterior. Se concede cada vez más importancia a esta distinción en lingüística histórica, para evitar que se saquen conclusiones a base de una cronología de textos errónea. Predominan en CORDE los textos literarios, por lo cual las conclusiones sacadas en el presente trabajo en principio sólo son válidas para este género y no necesariamente describen el comportamiento lingüístico general de una época. Asimismo, a raíz de la existencia de variantes con o y u de las formas sintéticas hemos señalado brevemente que es difícil estudiar variantes dialectales a través de CORDE8. Otra limitación de los corpus diacrónicos digitales actualmente disponibles está relacionada con la no disponibilidad de distintas versiones de un mismo texto. Hemos intentado demostrar esto en función de la propagación de la forma compuesta vosotros a expensas de la forma simple vos y la propagación de las formas analíticas con nos y con vos a expensas de las formas sintéticas connusco y convusco. Además, hemos discutido un problema relacionado con la forma lingüística (ligada o no) o categoría gramatical específica (pronombre tónico o átono) que se quiere buscar. Para ello hemos aducido el caso de la pérdida de la consonante inicial del pronombre átono vos y el consiguiente éxito de la forma abreviada os. No obstante, a pesar de dichas limitaciones, creemos que las ventajas de los corpus diacrónicos digitales son más que las desventajas y que hoy en día son una herramienta indispensable para todo historiador de la lengua.

8

Véase la Introducción a la Sintaxis histórica de la lengua española de Company Company (2006: XXII-XXVII), donde se hace especial hincapié en la importancia del uso de un corpus genérica y diatópicamente diverso y cronológicamente amplio.

EL RASTREO DEL DESARROLLO DE ALGUNOS PRONOMBRES PERSONALES

381

Bibliografía ALVAR, Manuel/Pottier, Bernard (1983): Morfología histórica del español. Madrid: Gredos. COMPANY COMPANY, Concepción (ed.) (2006): Sintaxis histórica de la lengua española. Primera parte: La frase verbal. México, D.F.: Universidad Nacional Autónoma de México/Fondo de Cultura Económica. FONTANELLA DE WEINBERG, María Beatriz (1992): “Fusión de paradigmas, variación y cambio lingüístico. El caso del voseo”, en: Vaquero, María/Morales, Amparo (eds.): Homenaje a Humberto López Morales. Madrid: Arco/Libros, 185-194. GARCÍA, Érica, C. (1989): “La historia se repite con sigo”, en: Neumeister, Sebastian (ed.): Actas del IX congreso de la asociación internacional de hispanistas. Vol. I. Frankfurt: Vervuert, 113-124. — (1991): “Variación sincrónica y equivalencia diacrónica: el caso de -usco”, en: Cahiers de linguistique hispanique médiévale 16, 5-51. — (1994): “Una casilla vacía en el paradigma pronominal del voseo: convusco”, en: Lüdtke, Jens (ed.): El español de América en el siglo XVI. Frankfurt: Vervuert, 13-38. — (1997): “Convusco: a casualty of analogy, or of differential ‘(un)fitness’?” en: Linguistics 35, 57-87. GARCÍA, Érica/DE JONGE, Robert/NIEUWENHUIJSEN, Dorine/LECHNER, C. (1990): “(V)os(otros): ¿dos y el mismo cambio?”, en: Nueva Revista de Filología Hispánica 38, 1, 63-132. GARCÍA DE DIEGO, Vicente (1970): Gramática histórica española. Madrid: Gredos. GESSNER, Emil (1893): “Das spanische Personal-pronomen”, en: Zeitschrift für romanische Philologie 17, 1-54. HANSSEN, Federico (1945): Gramática histórica de la lengua castellana. Buenos Aires: El Ateneo. DE JONGE, Robert/NIEUWENHUIJSEN, Dorien (2009): “Formación del paradigma pronominal y formas de tratamiento”, en: Company Company, Concepción (ed.): Sintaxis histórica de la lengua española. Segunda parte: La frase nominal. Cap. 15. México, D.F.: Universidad Nacional Autónoma de México/Fondo de Cultura Económica, 1593-1671. LAPESA, Rafael (1970): “Personas gramaticales y tratamientos en español”, en: Revista de la universidad de Madrid (Homenaje a R. Menéndez Pidal, IV) 19, 141-167. LÍBANO ZUMALACÁRREGUI, Ángeles (1988): “De las formas medievales connusco, convusco a las modernas con nosotros, con vosotros”, en: Ariza, M. /Salvador, A. /Viudas, A. (eds.): Actas del I congreso internacional de la historia de la lengua española (Cáceres, 30 de marzo - 4 de abril de 1987). Madrid: Arco/Libros, 501-508. MENÉNDEZ PIDAL, Ramón (1976): Cantar de Mio Cid. Texto, gramática y vocabulario. Vol. I. Madrid: Espasa Calpe. — (1982): Manual de gramática histórica española. Madrid: Espasa Calpe. PLA CÁRCELES, José (1923): “La evolución del tratamiento ‘vuestra-merced’”, en: Revista de filología española 10, 245-280.

382

DORIEN NIEUWENHUIJSEN

RINI, Joel (1990a): “On the chronology of Spanish conmigo, contigo, consigo and the interaction of phonological, syntactic, and morphological processes”, en: Hispanic Review 58, 503-512. — (1990b): “Excessive analogical change as an impetus for lexical loss: Old Spanish connusco, convusco”, en: Romanische Forschungen 102, 58-64. — (1992): Motives for linguistic change in the formation of the Spanish object pronouns. Newark, DE: Juan de la Cuesta. — (1992-93): “On the form connosco in the Estoria de Espanna II and the implications of an overlooked scribal error”, en: La Corónica 21, 2, 66-85.

Corpus a) Fuentes digitales CORDE Real Academia Española: Corpus diacrónico del español. http://www.rae.es (fecha de la consulta septiembre de 2007 y febrero de 2008). Textos consultados a través de CORDE: • Cid Poema de Mio Cid (c1140). Montaner, A. (ed.) (1993). Barcelona: Crítica. • Fazienda La fazienda de Ultra Mar (c1200 según CORDE; la versión reproducida data de principios del siglo XIII). Lazar, M. (ed.) (1965). Salamanca: Universidad de Salamanca. • Calila Calila e Dimna (1251 según CORDE; la versión reproducida data de finales del siglo XIV). Cacho Blecua, J. M./Lacarra, M. J. (eds.) (1993). Madrid: Castalia. • Estoria II Estoria de España, II (1270-1284). Kasten, L. A./Nitti, J. J. (eds.) (1995). Madison: Hispanic Seminary of Medieval Studies. • Cuento de Tristán Cuento de don Tristán de Leonís (c1313-c1410). Corfis, I. A. (ed.) (1995). Madison: Hispanic Seminary of Medieval Studies. • Crónica de 1344 Crónica de 1344 (1344). Da Cruz, J. P. (ed.) (1992). Madison: Hispanic Seminary of Medieval Studies.

EL RASTREO DEL DESARROLLO DE ALGUNOS PRONOMBRES PERSONALES

383

• Pedro I Crónica del rey don Pedro (c1400). Orduna, G. (ed.) (1994). Buenos Aires: SECRIT. • Biblia Escorial Biblia Escorial (c1400). Hauptmann, O. H. (ed.) (1953). Philadelphia: University of Pennsylvania Press. • Merlín El baladro del sabio Merlín con sus profecías (c1400-1498). Hernández González, I. (ed.) (1999). Salamanca: CILUS. • Biblia ladinada Biblia ladinada (c1400). Lazar, M. (ed.) (1995). Madison: Hispanic Seminary of Medieval Studies. • Corbacho Arcipreste de Talavera (Corbacho) (1438). Ciceri, M. (ed.) (1990). Madrid: EspasaCalpe. • Istoria Istoria de las bienandanzas e fortunas (1471-1476). Marín Sánchez, A. M. (ed.) (2000). Madrid: Corde. • Celestina La Celestina. Tragicomedia de Calisto y Melibea (1499-1502). Lobera, F. J./Serés, G./Díaz-Mas, P./Mota, C./Ruiz Arzálluz, I./Rico, F. (eds.) (2000). Barcelona: Crítica. • Tristán Tristán de Leonís (1501). Cuesta Torre, M. L. (ed.) (1999). Madrid: Centro de Estudios Cervantinos. • Crónica popular Crónica popular del Cid (1512). García Toledano, J. (ed.) (1992). Madison: Hispanic Seminary of Medieval Studies. • Primaleón Primaleón (1512). Marín Pina, M.ª C. (ed.) (1998). Alcalá de Henares: Centro de Estudios Cervantinos. CHEM Universidad Nacional Autónoma de México/Instituto de Ingeniería: Corpus histórico del español de México. http://www.iling.unam.mx/chem/ (fecha de la consulta: septiembre de 2007).

384

DORIEN NIEUWENHUIJSEN

Textos consultados a través de CHEM: • DLNE Documentos lingüísticos de la Nueva España. Altiplano central (siglos XVI-XIX). Company Company, C. (ed.) (1994). México, D.F.: Universidad Nacional Autónoma de México.

Corpus del español DAVIES, Mark (2002-): Corpus del español. http://www.corpusdelespanol.org/ (fecha de la consulta: septiembre de 2007 y febrero de 2008).

b) Fuentes impresas • Calila El libro de Calila e Digna (manuscrito A: finales del siglo XIV; manuscrito B: finales del siglo XV). Keller, J. E./White Linker, R. (eds.) (1967). Madrid: Consejo Superior de Investigaciones Científicas. • Zifar El libro del cavallero Zifar (manuscrito M: principios del siglo XIV; manuscrito P: siglo XV; edición impresa S: 1512). Wagner, Ch. Ph. (ed.) (1929). Ann Arbor: University of Michigan Press.

L O S C O R P U S D I AC RÓ N I C O S A L S E R V I C I O DEL ESTUDIO DE LOS ARCAÍSMOS GRAMATICALES N ATA LYA I . S TO L OVA Colgate University

1. Introducción El tema central del presente artículo es el empleo de los corpus diacrónicos en formato electrónico, más específicamente el Corpus del español y el Corpus diacrónico del español (CORDE), en el estudio de los arcaísmos gramaticales. El Diccionario de lingüística define el arcaísmo como “una forma léxica o una construcción sintáctica que pertenece, en una sincronía dada, a un sistema desaparecido o en vías de desaparición” (Debois et al. 1992: 56). Los arcaísmos se observan en el idioma con poca frecuencia. Por consiguiente, los estudios que hacen constancia de estas construcciones tienden a ofrecer un número reducido de ejemplos sueltos. De ahí la disyuntiva: las gramáticas históricas que se enfocan en las tendencias generales afirman que el fenómeno X dejó de existir a partir del momento Y, mientras los estudios que se dedican al uso de un autor, una región o un grupo social alegan que el mismo fenómeno todavía forma parte del repertorio lingüístico. Uno de los arcaísmos gramaticales del español es el fenómeno morfosintáctico conocido como la intransitividad escindida. En el español antiguo este fenómeno consistía en la existencia de dos auxiliares perfectivos (ser y haber) usados con los verbos intransitivos, (1 a-b): (1a) ¿En qué roídos andas? ¿en qué eres caído? (Gonzalo de Berceo, Los milagros de Nuestra Señora, milagro XV “La boda y la Virgen”) (1b) fata la cintura el espada llegado ha (El cantar de mio Cid, v. 2424)

Con el paso del tiempo el uso del auxiliar ser iba paulatinamente disminuyendo. Las gramáticas diacrónicas afirman de una manera unánime que el proceso de sustitución del verbo ser por el verbo haber en los pasados compuestos iba cobrando fuerza en el castellano antiguo y se consumó en la lengua clásica (o sea, a lo largo de los siglos XVI y XVII)1. Así, por ejemplo, en el apartado “El par-

1

Tradicionalmente tal sustitución fue vista como una nivelación analógica realizada dentro del sistema lingüístico del castellano, pero los recientes avances de sociolingüística han

386

NATALYA I. STOLOVA

ticipio con los verbos auxiliaries” del Cantar de mio Cid: texto, gramática y vocabulario Ramón Menéndez Pidal afirma: “hasta el siglo XVI alternan ser y aver, en el siglo XVII el uso de ser decrece hasta olvidarse” (Menéndez Pidal 1954: I: 359). Ralph Penny escribe en la Gramática histórica del español: “ser continúa utilizándose como auxiliar en las formas perfectas de los intransitivos hasta el siglo XVI, si bien es cierto que expresiones como es llegado ‘él ha llegado’ son ya poco usuales en el XVII y desaparecen mediado ese siglo” (Penny 1993: 159). En el capitulo “El Siglo de Oro: cambios lingüísticos” de su gramática histórica Rafael Lapesa hace la siguiente generalización: “Valdés respeta aún el uso antiguo: ‘Pues los moços son idos a comer y nos han dexado solos…’; pero escribe también han ido. Fray Luis de León emplea casi exclusivamente ha venido, que domina desde la segunda mitad del siglo XVI” (Lapesa 1991: 400). No obstante, existen evidencias de que la desaparición del auxiliar perfectivo ser no fue absoluta. Así, en los ejemplos (2) y (3) vemos las formas era venido y era llegado que pertenencen a los textos producidos en los siglos XIX y XX, respectivamente: (2) Hizo pues demostración de volverse por donde era venido; pero a la media noche revolvió sobre el pueblo (…) (Manuel José Quintana, Vidas de los españoles célebres, 1814) (3) Pero –advirtiendo que aún no era llegado su momento (…) (Martín Santos, Tiempo de silencio, 1961)

Rebecca Posner observa que “in ‘unreal conditional clauses’, BE (ser) auxiliary forms were attested during the 1970s in the speech of elderly illiterate Spanish speakers in Colombia (si mayo fuera sido invierno)”. (Posner 1996: 16) John Lipski afirma que el español de Paraguay todavía acepta frases como “Si él fuera venido ayer” (Lipski 1994: 312). También cabe mencionar que algunos dialectos hispánicos (e.g., el aragonés) todavía emplean ser como auxiliar de algunos verbos de movimiento (Alvar 1953: 293, Yllera 1980: 234, Tuttle 1986: 264, n.61, Posner 1996: 14, Kinder 2004: 116). Los casos como éstos corresponden a un conflicto que Christopher J. Pountain describe en su estudio titulado A history of the Spanish language through texts en términos de un rompecabezas con partes que no encajan: “it sometimes turns out that the jigsaw piece does not exactly correspond to the picture on the box –that is to say, the primary data is sometimes at odds with the overall formal

permitido apuntar hacia unos factores de carácter externo. Sobre el papel del contacto dialectal durante la Edad Media en la pérdida del auxiliar perfectivo ser, véase Penny (2000: 48-51).

EL ESTUDIO DE LOS ARCAÍSMOS GRAMATICALES

387

historical account, which can then sometimes be seen to be idealized”. (2001: 12) En el presente ensayo ilustramos el potencial que el empleo de los corpus diacrónicos posee para remediar tales desajustes entre los resúmenes históricos idealizados y los datos textuales.

2. Estudios previos Contamos con dos categorías de estudios que han tratado el tema de la sobrevivencia del auxiliar perfectivo ser en en español postclásico. El primer grupo consta de dos investigaciones magistrales: el artículo de Georges Cirot de 1907 sobre los arcaísmos en la obra de Juan de Mariana (15351624) y de sus contemporáneos y el artículo de Joseph Benzing de 1937 sobre la historia del auxiliar ser en los tempos compuestos. Cronológicamente el estudio de Cirot se centra en el español clásico y el de Benzing abarca cinco siglos (del XIII al XVII). No obstante, más allá de su enfoque premoderno, ambos hacen constancia de casos con ser posteriores al siglo XVII. Los ejemplos presentados por Cirot son las ocho2 frases siguientes (4 a-h): (4) a. Eran ya pasados los últimos y más rigurosos meses del invierno de 1343 (Modesto Lafuente, Historia general de España, t. III, 1850-1867) b. Cuando eran ya pasados diez años (M. Berlanga, Bulletin Hispanique, t. V, 1903) c. Era llegado… el momento de emprender (Modesto Lafuente, Historia general de España, t. I, 1850-1867) d. Llegado era ya el mes de julio (Modesto Lafuente, Historia general de España, t. X, 1850-1867) e. Era llegado el caso de que… (Modesto Lafuente, Historia general de España, t. I, 1850-1867) f. Es llegada la hora de rezar más que de leer (Vicente Blasco Ibáñez, La Catedral, 1903) g. Cuando despertó era bien entrada la tarde (Vicente Blasco Ibáñez, La Barraca, 1898) h. Era ya muerto en 1618 (José Godoy Alcántara, Historia de los falsos cronicones, 1868)

2 Cirot añade un ejemplo más (“Ahora era casado, las atenciones de la casa resultaban mayores”, Vicente Blasco Ibánez, Cañas y barro, 1902), pero aclara que no se trata de una combinación «ser + participio» ya que ‘casado’ en este caso se interpreta más bien como un sustantivo (Cirot 1907: 904).

388

NATALYA I. STOLOVA

Benzing, además de citar los ejemplos presentados por Cirot, añade los cinco casos siguientes (5 a-e): (5) a. Por ser ya pasada la hora de comer (Vicente Blasco Ibáñez, La Barraca, 1898) b. Cuando enterraron a su padre aún no era nacido (Ramón de Valle-Inclán, Jardín umbrío, 1903-1914) c. Era llegado el momento supremo (Ramón de Valle-Inclán (1866-1936), Obra completa, t. V) d. Era ya muy entrada la mañana (Ramón de Valle-Inclán (1866-1936), Obra completa, t. VII) e. Aún no es nacido y ya estornuda (Hernán de Núñez, ed. Refranes y proverbios, 1804)

El segundo grupo de estudios incluye una serie de investigaciones de dialectología que notan la supervivencia del auxiliar perfectivo ser en ciertas variedades diatópicas, diastráticas y diafásicas del español3. Tales observaciones, sin embargo, son sumamente breves y ofrecen sólo casos sueltos. Así, por ejemplo, en el estudio “El español en Canarias” Diego Catalán escribe, refiriéndose a un trabajo elaborado por una estudiante suya: “Estudiando la cuestión, M. T. Sálada, Trab., 1963, cita los ejemplos: ‘soy nacida en Pedro Alvarez y bautizada aquí’, ‘soy cristianada en Santo Domingo’, ‘soy nacida y criada más arriba’ (según encuestas en Tegueste, Pedro Álvarez y Las Mercedes)” (Catalán 1964: 279). Manuel Álvarez Nazario, tras citar el recién mencionado trabajo de Catalán, añade: “También es el uso popular y familiar en Puerto Rico, urbano y rural, y partucularmente entre personas de mediana y mayor edad, pueden oírse expresiones paralelas: ‘Soy nacido en Añasco, pero criado (alternando con me crié) en Mayagüez” (Álvarez Nazario 1972: 91). Basándose en una comunicación privada de don Y. Pino Saavedra, Rodolfo Oroz escribe sobre el español de Chile: “En toda la Prov(incia) de Valdivia se usan popularmente giros como Fulano es muerto por ‘Fulano se murió’” (Oroz 1966: 384). Haciendo referencia a la frase “No, señor, pa qué mentir; si yo me llamaría así, no se lo juera dicho” de la obra

3 También incluimos bajo esta categoría los datos encontrados en las gramáticas sincrónicas, como, por ejemplo, el apartado de la Gramática de la lengua castellana de Andrés Bello (1847) que contiene la siguiente observación: “Los adjetivos de forma participal, que nacen de verbos intransitivos, como nacido, nacida; muerto, muerta; ido, ida; venido, venida; vuelto, vuelta; llegado, llegada; rara vez se juntan con ser si no es en frases anticuadas, que sólo se permiten a los poetas, como son idos, por han o se han ido; Es vuelto a casa, por ha vuelto; bien que restan algunas no sólo permitidas en prosa, sino elegantes: Llegada es la hora, la ocasión; El tiempo es llegado” (Bello 1970: 357).

EL ESTUDIO DE LOS ARCAÍSMOS GRAMATICALES

389

titulada Rayos catódicos y fuegos fatuos (1911) del ecuatoriano José Antonio Campos, Humberto Toscano Mateus afirma: “En el texto costeño se halla usado el verbo ser auxiliar de tiempo compuesto de voz activa, en vez de haber. (…) Este uso es completamente inaudito en la lengua general” (Toscano Mateus 1953: 287). Germán de Granda hace la siguiente afirmación: En el español paraguayo se utiliza con frecuencia ser como auxiliar con los verbos nacer, morir, casar, fallecer, dejar, normalmente en tiempos de indicativo, en áreas rurales y en los estratos bajos y medio-bajos urbanos, pero, además, he detectado en hablantes rurales ancianos algunos casos (…) de fuera con otros participios verbales (hacer, venir, volver, llegar): si el fuera venido ayer, le hubiera visto” (de Granda 1988: 47).

De todos los trabajos de dialectología que hemos consultado, el que ofrece la mayor cantidad de ejemplos es el de José Joaquín Montes Giraldo en Estudios sobre el español de Colombia (1985: 277-278). Se trara de ocho frasese, cuatro de las cuales (6 a-d) provienen de la base de datos para el Atlas Lingüístico Etnográfico de Colombia, tres (6 e-g) vienen de una novela costumbrista colombiana y una frase (6 h) de una intrevista televisiva: (6) a. Si mayo fuera sido invierno b. Unos tres granos me juera hecho hoy (agosto de 1974, Nóvita (Chocó), individuo iletrado de unos 65 años) c. Que se fuera puesto a joder allá afuera… (febrero 1975, Buenaventura, individuo de 70 años nativo de la zona de Yurumanguí) d. Si no fuera sido por Guadalupe… (marzo de 1976, Orocué, individuo de 72 años) e. Tar ve si a mí me juera caío un palo, mi Pacha se juera muerto de doló f. Si me juera hecho argo si había muerto g. Don Jorge tar ve juera hecho lo mesmo (Miguel A. Caicedo, La palizada, 1952) h. Si Emiliano fuera perdido por nocaut (…) yo fuera quedao más conforme (25 de junio de 1976, Tabaquito Sáenz, venezolano, preparador del boxeador colombiano Pambelé – Antonio Cervantes)

3. Objetivos del presente estudio Por lo que hemos visto en el apartado anterior, las investigaciones de las que disponemos indican que la desaparición del auxiliar perfectivo ser en el siglo XVII no fue absoluta. Desafortunademante, el carácter fragmentario y disperso de los

390

NATALYA I. STOLOVA

datos que ofrecen estos trabajos no nos permite tener acceso a una perspectiva global sobre el tema. Opinamos que el motivo principal de la naturaleza fragmentaria de los datos es la ausencia en el pasado de los corpus en formato electrónico. El análisis que ofrecemos proporciona un cuadro más detallado y más unificador de los restos de la intransitividad escindida en el español posterior al siglo XVII para poner de relieve el potencial que los corpus históricos en formato electrónico creados gracias al progreso informático reciente poseen para la reconciliación de la disyuntiva entre las gramáticas históricas idealizadas y los datos lingüísticos. Ilustramos que los corpus con etiquetado gramatical y léxico y los corpus sin tal etiquetado se complementan mutuamente a la hora de amplificar la base empírica de la investigación. Tomando como ejemplo el uso arcaico del auxiliar perfectivo ser en el español postclásico, mostramos que los corpus electrónicos apuntan hacia una serie de tradiciones discursivas que fosilizan las construcciones que comúnmente se califican como obsoletas.

4. Recopilación de datos: los corpus diacrónicos El avance lingüístico que hace posible la realización de nuestra tarea es la creación de los corpus electrónicos que permiten realizar búsquedas de miles de ocurrencias de palabras o frases en los textos que pertenecen a las diferentes épocas de la historia del español. Nos referimos a dos bases de datos diacrónicas: el Corpus del español diseñado por el catedrático Mark Davies (www.corpusdelespanol.org) y el Corpus diacrónico del español (CORDE) creado bajo la iniciativa de la Real Academia Española (www.rae.es). Ambas bases de datos son muy abundantes: el Corpus del español contiene 100.000.000 palabras del español del siglo XIII hasta el siglo XX y el CORDE recoge un conjunto de 250.000.000 de palabras desde los inicios del idioma hasta el año 1975. Los dos corpus reúnen una amplia gama de registros, por ejemplo, textos jurídicos, académicos, etc. Además, el Corpus del español está provisto del etiquetado gramatical y del etiquetado léxico lo que lo convierte en una herramienta sumamente valiosa a la hora de realizar estudios de morfosintaxis4.

4 Además de permitir pesquisas según partes del discurso y lemas, la interfaz del Corpus del español hace posible usar tales criterios de búsqueda como palabras exactas o frases, comodines, etiquetas, colocaciones, frecuencia de distribución, listas propias del usuario, etc. Para una descipción más detallada de las múltiples opciones de consulta posibles en el Corpus del español, véase Davies (2004, 2005a y 2005b).

391

EL ESTUDIO DE LOS ARCAÍSMOS GRAMATICALES

Tomando en cuenta el hecho de que el grupo de verbos más numeroso que mantuvo la habilidad de usar ser como auxiliar es el grupo conocido como ‘los verbos de movimiento’, hemos recogido una serie de ejemplos postclásicos en los cuales dichos verbos se conjugan con el auxiliar ser. Nuesto primer paso consistió en la búsqueda en el Corpus del español de todas las combinaciones del verbo ser seguido o precedido por un verbo de movimiento en forma de participio desde el año 1700 hasta el presente5. Ya que la lengua moderna retiene hasta hoy la posibilidad de intercalar palabras entre el auxiliar y el verbo principal (e. g., “siendo ya entrado”, “llegado el tiempo es”), también realizamos una búsqueda de las combinaciones de tres palabras en las cuales estos dos verbos quedaban separados por un lexema y de las combinaciones de cuatro palabras en las cuales estos dos verbos se separaban por dos lexemas. De esta manera la pesquisa inicial en el Corpus del español se basó en 144 búsquedas que produjeron 300 construcciones. Como el segundo paso realizamos la eliminación de los casos que no indicaban el pasado compuesto (e. g., “un ser bajado de los cielos”) o casos correspondientes a las citas de los textos premodernos. Como resultado, encontramos 181 construcción posterior al siglo XVII en las cuales el verbo intransitivo se conjugaba en el pasado compuesto con el auxiliar ser. Su distribucción cronológica se resume en la siguiente Tabla. TABLA 1 Corpus del español: pasados compuestos con ser Siglo XVIII

Siglo XIX

Siglo XX

Total

37

132

12

181

El tercer paso de la recopilación de datos consistió en la búsqueda de todas las combinaciones pertinentes producidas por el Corpus del español en la base de datos del CORDE. Esta pesquisa se basó en 53 combinaciones diferentes (e. g., “ido es”, “era ya entrado”, “llegado el tiempo es”, “era venido”, etc.) produciendo 362 resultados. Tras eliminar los casos irrelevantes dimos con el total de 238 pasados compuestos con ser cuya distribucción cronolóca presentamos en la Tabla 2. 5 La lista de los verbos léxicos es la siguiente: allegar, arribar, ascender, avenir, bajar, caer, caminar, correr, descender, desviar, entrar, escapar, exir, huir, ir(se), llegar, partir, pasar, salir, subir, tornar, uviar, venir y volver. Hemos considerado oportuno incluir los lexemas que cayeron en desuso en las etapas anteriores de la lengua (e. g., exir) para no omitir inadvertidamente alguna forma arcaica.

392

NATALYA I. STOLOVA

TABLA 2 CORDE: pasados compuestos con ser Siglo XVIII

Siglo XIX

Siglo XX

Total

27

141

70

238

El cotejo de la 181 construcción producida por el Corpus del español con los 238 resultados producidos por el CORDE reveló 47 casos que los 419 ejemplos provenientes de las dos bases de datos tenían en común. TABLA 3 Corpus del español y CORDE: construcciones en común Siglo XVIII

Siglo XIX

Siglo XX

Total

4

40

3

47

Como paso final combinamos los datos de los dos corpus en cuestión eliminando los casos repetidos; ello dio como resultado un total de 372 ejemplos de verbos intransitivos conjugados en el pasado compuesto con el auxiliar ser. TABLA 4 Corpus del español y CORDE: datos combinados Siglo XVIII

Siglo XIX

Siglo XX

Total

60

233

79

372

Los verbos intransitivos de movimiento que encontramos acompañados por el auxiliar ser son bajar, correr, entrar, ir, llegar, partir, pasar, salir, subir, tornar y venir.

5. Herramientas teóricas de análisis El número relativamente alto de ejemplos presenta el siguiente reto: ¿cómo se pueden analizar los centenares de casos que nos proporcionaron los corpus electrónicos? Opinamos que la herramienta teórica que nos permite crear una visión coherente de los datos, identificando los patrones recurrentes manifestados por estos 372 ejemplos, es el paradigma de las tradiciones discursivas.

EL ESTUDIO DE LOS ARCAÍSMOS GRAMATICALES

393

Esta corriente teórica se originó en Alemania teniendo como base los estudios de Eugenio Coseriu (1981), Brigitte Schlieben-Lange (1983), Peter Koch (1997) y Wulf Oesterreicher (1997) y se inscribe dentro del modelo pragmático-discursivo. Según explica uno de los principales exponentes de dicho paradigma, Johannes Kabatek, “entendemos por Tradición discursiva (TD) la repetición de un texto o de una forma textual o de una manera particular de escribir o hablar que adquiere valor de signo propio” (Kabatek 2005b: 159). El concepto de la tradición discursiva pertenece antes que nada a la diacronía: Se trata de moldes histórico-normativos, socialmente establecidos que se respetan en la producción del discurso. A través de estas categorías cada discurso, y de ahí cada texto histórico, no sólo forma parte de una lengua determinada (o de varias lenguas) sino que se sitúa dentro de una filiación intertextual, constituida por una serie de elementos repetitivos, tanto en el plano de los ‘entornos’ (constelaciones situcionales, mediales o institucionales) como en el plano de las formas detectables en la superficie del texto mismo (p. ej. pasajes textuales concretos, carácter formulario, construcción, lengua) (Jacob/Kabatek 2001: viii).

Las principales metas de este paradigma son evaluar la naturaleza de las tradiciones textuales en las cuales se generan las innovaciones, estudiar el proceso de difusión de estas innovaciones y examinar la naturaleza de las tradiciones en las que se conservan fenómenos lingüísticos ya abandonados en otras: (…) una innovación se da, en general, en un texto que pertenece a una TD. A partir de ahí la innovación puede generalizarse en esa tradición, pero aún no es general en la lengua: hace falta la adopción de la innovación en otras tradiciones. Y tal como una innovación se puede localizar, teóricamente, en un texto y en una TD concreta, el proceso contrario, o sea la pérdida de elementos en una lengua, tampoco es general y repentino en toda la lengua sino que comienza en algunas TD hasta tal vez alcanzar a todas. Sin embargo, frecuentemente los elementos se encuentran fosilizados durante mucho tiempo en algunas TD antes de su desaparición total (Kabatek 2005b: 173).

El modelo en cuestión otorga especial importancia al carácter amplio de los corpus diacrónicos, subrayando la necesidad de trabajar con los corpus multidimensionales, o sea los corpus que incluyan textos pertenecientes a diferentes tradiciones (Kabatek 2005b: 173). Lógicamente, como se trata de un acercamiento enfocado en la evolución lingüística, un gran número de investigaciones realizadas dentro del paradigma de las tradiciones discursivas se dedica a las etapas premodernas: véanse, por ejemplo, Jacob/Kavatek (2001) y Kabatek (2005a) sobre el español medieval, Oesterreicher/Stoll/Wesch (1998) y Oesterreicher (2000) sobre el español de los siglos XVI y XVII, así como Kabatek (2008) sobre

394

NATALYA I. STOLOVA

el español medieval y áureo. No obstante, como ilustran tales estudios como Girón Alconchel (2000), Becker (62006), y Ciapuscio et al. (2006), dicho paradigma es igualmente apto para tratar los datos postclásicos. El enfoque en los corpus diacrónicos amplios, el interés por los moldes lingüísticos fosilizados y la aptitud para acomodar los datos de cualquier período cronológico permiten que el paradigma de las tradiciones discursivas sea altamente provechoso para el tratamiento del tema que nos ocupa (para una discusión de este marco teórico ver también Vincis, en este volumen).

6. Análisis de los datos En el análisis de los 372 ejemplos producidos por los corpus hemos identificado seis tipos de tradiciones discursivas que manifiestan la propensión a mantener el uso arcaico del auxiliar perfectivo ser: (1) tradición discursiva religiosa, (2) tradición discursiva de vigencia cultural, (3) tradición discursiva jurídica, (4) tradición discursiva descriptiva, (5) tradición discursiva historiográfica y (6) tradición discursiva política.

6.1. TRADICIÓN DISCURSIVA RELIGIOSA Una de las tradiciones discursivas que fosiliza el uso del auxiliar ser en los pasados compuestos es la tradición discursiva religiosa. Por ejemplo, en el caso (7a) observamos la conjugación “es llegado” en un sermón en español clásico, mientras en el ejemplo (7b) la misma forma se da en un texto moderno del siglo XX: (7) a. Ahora que es llegado el tiempo de pasión, por el Padre difinido, él se descubre y de su voluntad se viene acercando al lugar del sacrificio. (Fray Alonso de Cabrera, De las consideraciones sobre todos los evangelios de la Cuaresma, ca. 1598) b. Ya es llegado el momento dichoso; ya va a ofrecerse el tremendo sacrificio: ya el Hijo de Dios baja del ciel al altar sacrosanto: (...) (Vicente Molina, Misal completo en castellano, 1943)

6 El estudio de Becker (2006) que trata el tema de la supervivencia del futuro de subjuntivo en español moderno es particularmente relevante, ya que varias tradiciones discursivas que todavía retienen esta forma verbal (e. g., la jurídica, la religiosa) resultan ser, como verémos en la siguiente sección, las que también preservan el uso arcáico del auxiliar perfectivo ser.

EL ESTUDIO DE LOS ARCAÍSMOS GRAMATICALES

395

6.2. TRADICIÓN DISCURSIVA DE VIGENCIA CULTURAL Encontramos una serie de ejemplos que reflejan la vigencia cultural de los moldes literarios del pasado. Por ejemplo, en (8a) la combinación “eras ido” pertenece a la pluma del gran poeta áureo San Juan de la Cruz, mientras en (8b) la misma construcción aparece en un poema del siglo XIX mediante la reproducción intertextual del verso “Salí tras ti clamando y eras ido”: (8) a. ¿Adónde te escondiste, / Amado, y me dejaste con gemido? / Como el ciervo huiste, habiéndome herido. / Salí tras ti clamando y eras ido (San Juan de la Cruz (1542-1591), “Cántico espiritual”). b. Breve sueño dormiste: / ¡Cuán léjos ¡ay de mí! te ha amanecido! …/ ¡La vida transpusisite! … / Hermanito querido; / Salí tras tí clamando… y eras ido! (Nicomedes Pastor Díaz Corbelle (1811-1863), “En la muerte de un hermano niño”).

El topos literario ubi sunt que se remonta a las letras latinas goza de una vigencia cultural similar. En el ejemplo (9a) la conjugación “es ida” ilustra el uso clásico del auxiliar ser dentro del contexto de lamentación por la pérdida de la gloria pasada, mientras (9b) mantiene el mismo auxiliar dentro del dicho contexto en un texto moderno: (9) a. “Señor mío Floriseo, ¿dónde estáis?, (...) ¿Dónde es ida la fortaleça de vuestra persona, que ponía remedio a la flaqueza de muchos e a mí hazía llena de favor e alegría?” (Fernando Bernal, Floriseo, 1516). b. “Pobre champaña, infortunado burdeos; dónde son idos vuestros días de gloria y ventura, como hubiera dicho Fígaro” (Juan Montalvo, Las catilinarias, 1880-1882).

6.3. TRADICIÓN DISCURSIVA JURÍDICA El lenguaje jurídico ofrece ejemplos del uso arcáico del auxiliar perfectivo ser, sobre todo dentro de la secuencia “era llegado el caso”, según ilustran los casos (10 a-b): (10) a. La Corte Suprema consideró, que el simple alejamiento del juez titular mientras dure el estado de sitio decretado por el Ejecutivo, está comprendido en los casos de suplencia previstos por el art. 211 de la Ley de Organización Judicial, sin que dé lugar al nombramiento del interino, autorizado por el inciso 21 del art. 89 de la Constitución para los casos únicos de renuncia o muerte; declaró, en la vía disciplinaria, que no era llegado el caso de nom-

396

NATALYA I. STOLOVA

brarse, Juez de Partido interino. (“Resoluciones disciplinarias” Revista de derecho y jurisprudencia (Bolivia), 20 de enero de 1927). b. Preciso es repetir que el Fiscal General no demandó reconvencionalmente la rescisión del monopolio de fósforos, para el evente de que la Corte Suprema declarase justificada la demanda de la Compañía, y no era llegado el caso de examinar si ésta incurrió realmente en las contravenciones y faltas (...) (Revista de derecho y jurisprudencia (Bolivia), 20 de enero de 1927).

6.4. TRADICIÓN DISCURSIVA DESCRIPTIVA Otra secuencia de palabras con valor formulaico es la combinación ser+ participio+nombre de mes o temporada. Las expresiones que siguen este patrón tienden a tener la función desciptiva: pintan el trasfondo para los principales acontecimientos de la narración. El ejemplo (11a) ilustra tal uso en un texto del Siglo de Oro, mientras (11b) ofrece un caso moderno: (11) a. Pues como hobiese ya mas de treinta dias que estaban detenidos en aquel golfo, é fuese ya entrado el mes de Mayo, en el cual tiempo en estas nuestras partes comienzan los grandes calores del estío, y comenzase en aquellas partes á hacer muy áspero invierno, viendo el capitan Magallaes que su navegacion se dilataba mas de lo que él quisiera, puso tasa en los mantenimientos (...) (Maximiliano Transilvano, Relación escrita por Maximiliano Transilvano de cómo y por quién y en qué tiempo fueron descubiertas las Islas Molucas, 1522). b. Había pasado el verano y era llegado septiembre. Los días conservaban aún el calor del verano, pero las noches ya eran largas y frescas. Serían las nueve, y aún no había en la tertulia de la condesa sino las personas más allegadas y de mayor confianza, cuando entró Eloísa. (Fernán Caballero, La gaviota, 1849).

6.5. TRADICIÓN DISCURSIVA HISTORIOGRÁFICA Mientras en la tradición discursiva descriptiva la forma verbal con el auxiliar ser se usa para marcar el ambiente dentro del cual se desarrolla el evento principal, en la tradición discursiva historiográfica el verbo conjugado codifica la acción misma7. Los casos (12 a-c) ofrecen los ejemplos pertenecientes a los siglos XIV, XVI y XIX, respectivamente:

7

Este contraste tiene cierto paralelo con la distinción propuesta por Harald Weinreich entre el mundo comentado y el mundo narrado (Weinreich 1974).

EL ESTUDIO DE LOS ARCAÍSMOS GRAMATICALES

397

(12) a. E dela tregua delos arrayazes non dixeron nada al rrey de granada ca sabian que sy gelo dixesen que se partiria por esto la abenenia & estando todas las gentes en cordoua & los fechos en este estado supieron commo el rrey don alfonso era llegado a seujlla. (Fernán Sánchez de Valladolid, Crónica de Alfonso X, siglo XIV) b. Visto pues que se tardaba Hernando de Grijalba, y que era llegado a México don Antonio de Mendoza por virrey, según los de San Miguel le dijeran, acordó dejar allí en Santa Cruz a Francisco de Ulloa por capitán de aquella gente (...) (Francisco Lópes de Gómara, Historia de la conquista de México, 1538) c. El capitan les respondió que habia poco tiempo que era llegado á la isla, que no conocia ni sabia quien era ó no servidor del Rey, (…) (Martín Fernández de Navarrete, Viajes al Maluco de Fray García de Loaísa y Álvaro de Saavedra, 1837)

6.6. TRADICIÓN DISCURSIVA POLÍTICA Dentro del discurso político abundan los ejemplos en los cuales la conjugación con ser se emplea para convencer al público del carácter inminente del cambio. En muchas ocasiones se trata del contexto de imperativo dentro del cual el hablante instiga a que los oyentes apoyen su causa. En el caso (13a) observamos el uso que pertenece a la época durante la cual el auxiliar ser se usaba con bastante frecuencia, mientras en el ejemplo (13b) el arcaísmo gramatical “era llegado” forma parte de un texto moderno: (13) a. Ya, señores, es llegada la hora en que se conosce si es uno lo que decís, y es otro lo que queréis; porque si queréis el bien general, ya se os da, y si pretendéis vuestro interese particular, no se os ha de consentir; (...) (Fray Antonio de Guevara (1474-1546), Libro primero de las epístolas familiares). b. Y claro está, como en todos los partidos, en el seno del Consejo Nacional de la Alianza Republicana las opiniones eran divergentes; había quienes participaban de la opinión de que era llegado el momento de romper amigablemente la coalición y formar un Gobierno de concentración republicana; (…) (Manuel Azaña, Discursos parlamentarios de 1931, 1931).

7. Conclusiones El afirmar que el uso del auxiliar perfectivo ser despareció en los siglos XVI y XVII es válido cuando se habla de las tendencias generales, pero no le hace justicia a la riqueza de los datos textuales. Aunque el uso del auxiliar perfectivo ser

398

NATALYA I. STOLOVA

en el español postclásico es escaso, la sobrevivencia del fenómeno se observa en una serie de tradiciones discursivas que fosilizan el uso ya abandonado en la gran mayoría de la producción lingüística. Los corpus históricos en formato electrónico son imprescindibles para poder identificar dichas tradiciones con el propósito de remediar el desajuste entre las observaciones idealizadas de las gramáticas históricas y los datos reales. La disponibilidad de estos corpus es precisamente lo que nos desata las manos en la difícil tarea de la recopilación del material empírico relacionado con los arcaísmos gramaticales.

Referencias ALVAR, Manuel (1953): El dialecto aragonés. Madrid: Editorial Gredos. ÁLVAREZ NAZARIO, Manuel (1972): La herencia lingüística de Canarias en Puerto Rico. Estudio histórico-dialectal. San Juan: Instituto de Cultura Puertoriqueña. BECKER, Martin (2006): “¿Un lujo del sistema? Aspectos semánticos y pragmáticos del futuro de subjuntivo”. Estudio presentado en “Freiburger Arbeitstagung zur Romanistischen Korpuslinguistik III”. Albert-Ludwigs Universidad de Friburgo de Brisgovia. Septiembre 2006. BELLO, Andrés (1970): Gramática de la lengua castellana. Buenos Aires: Editorial Sopena Argentina. BENZING, Joseph (1931): “Zur Geschichte von ser als Hilfszeitwort bei den intransitiven Verben im Spanischen”, en: Zeitschrift für romanische Philologie 51, 385-460. CATALÁN, Diego (1964): “El español en Canarias”, en: Presente y futuro de la lengua española. Actas de la Asamblea de Filología del I Congreso de Instituciones Hispánicas. Vol. 1. Madrid: OFINES, 239-280. CIAPUSCIO, Guiomar et al. (eds.) (2006): Sincronía y diacronía de tradiciones discursivas en Latinoamérica. Madrid/Frankfurt: Iberoamericana/Vervuert. CIROT, Georges (1907): “Quelques remarques sur les archaïsmes de Mariana et la langue des prosateurs de son temps”, en: Romanische Forschungen 23, 2, 883-904. COSERIU, Eugenio (1981): Introducción a la lingüística. Madrid: Editorial Gredos. DAVIES, Mark (2004): El uso del Corpus del español y otros corpus en la investigación de la variación actual y los cambios históricos. Tokio: Centro de Estudios Hispánicos. Universidad de Sofía. — (2005a): “Advanced research on syntactic and semantic change with the Corpus del español”, en: Pusch, Claus D./Kabatek, Johannes/Raible, Wolfgang (eds.): Romanistische Korpuslinguistik II: Korpora und diachrone Sprachwissenschaft. Tübingen: Gunter Narr, 203-214. — (2005b): “The advantage of using relational databases for large corpora. Speed, advanced queries, and unlimited annotation”, en: International Journal of Corpus Linguistics 10, 3, 307-334. — (2007): El Corpus del español. http://www.corpusdelespanol.org

EL ESTUDIO DE LOS ARCAÍSMOS GRAMATICALES

399

DEBOIS, Jean et al. (1992): Diccionario de lingüística. Madrid: Alianza Editorial. GIRÓN ALCONCHEL, José Luis 2000: “Análisis del discurso y cambio lingüístico (sobre la historia de cantara indicativo)”, en: de Bustos Tovar, José Jesús et al. (eds.): Lengua, discurso, texto. I Simposio Internacional de Análisis de discurso. Vol. 1. Madrid: Universidad Complutense de Madrid/Visor Libros, 309-322. GRANDA, Germán de (1988): “Notas sobre retenciones sintácticas en el español de Paraguay”, en: Lexis 12, 1, 43-65. JACOB, Daniel/KABATEK, Johannes (eds.) (2001): Lengua medieval y tradiciones discursivas en la Península Ibérica. Descripción gramatical – pragmática histórica – metodología. Madrid/Frankfurt: Iberoamericana/Vervuert. KABATEK, Johannes (2005a): “Las tradiciones discursivas del español medieval: historia de textos e historia de la lengua”, en: Iberoromania 62, 28-44. — (2005b): “Tradiciones discursivas y cambio lingüístico”, en: Lexis 29, 2, 151-177. — (ed.) (2008): Sintaxis histórica del español y cambio lingüístico: nuevas perspectivas desde las Tradiciones Discursivas. Madrid/Frankfurt: Iberoamericana/Vervuert. KINDER, John J. (2004): “Auxiliary verbs, dictionaries and the late evolution of the Italian language”, en: Australian Review of Applied Linguistics, Supplement 1, 115-132. KOCH, Peter (1997): “Diskurstraditionen: zu ihrem sprachtheoretischen Status und ihrer Dynamik”, en: Frank, Barbara/Haye, Thomas/Tophinke, Doris (eds.): Gattungen mittelalterlicher Schriftlichkeit. Tübingen: Gunter Narr, 43-79. LAPESA, Rafael (91991): Historia de la lengua española. Madrid: Gredos. LIPSKI, John (1994): Latin American Spanish. London/ New York: Longman. MENÉNDEZ PIDAL, Ramón (1954): Cantar de mio Cid: texto, gramática y vocabulario. Vol. 1. Madrid: Espasa-Calpe. MONTES GIRALDO, José Joaquín (1985): “Un arcaísmo gramatical en Colombia: la construcción del pretérito compuesto de subjuntivo con ser”, en: Montes Giraldo, José Joaquín: Estudios sobre el español de Colombia. Bogotá: Instituto Caro y Cuervo, 277-278. OESTERREICHER, Wulf (1997): “Zur Fundierung von Diskurstraditionen”, en: Frank, Barbara/Haye, Thomas/Tophinke, Doris (eds.): Gattungen mittelalterlicher Schriftlichkeit. Tübingen: Gunter Narr, 19-42. — (2000): “Aspectos teóricos y metodológicos del análisis del discurso desde una perspectiva histórica: el coloquio de Cajamarca 1532”, en: de Bustos Tovar, José Jesús et al. (eds.): Lengua, discurso, texto. I Simposio Internacional de Análisis de Discurso. Vol. 1. Madrid: Universidad Complutense de Madrid/Visor Libros, 309-322. OESTERREICHER, Wulf/STOLL, Eva/WESCH, Andreas (eds.) (1998): Competencia escrita, tradiciones discursivas y variedades lingüísticas. Aspectos del español europeo y americano en los siglos XVI y XVII. Tübingen: Gunter Narr. OROZ, Rodolfo (1966): La lengua castellana en Chile. Santiago: Universidad de Chile/Facultad de Filosofía y Educación. PENNY, Ralph. (1993). Gramática histórica del español. Edición española a cargo de José Ignacio Pérez Pascual. Barcelona: Editorial Ariel. — (2000): Variation and change in Spanish. Cambridge: Cambridge UP.

400

NATALYA I. STOLOVA

POSNER, Rebecca (1996): The Romance languages. Cambridge: Cambridge UP. POUNTAIN, Christopher J. (2001): A history of the Spanish language through texts. London/New York: Routledge. REAL ACADEMIA ESPAÑOLA (2007): Banco de datos (CORDE) [en línea]. Corpus diacrónico del español. . SCHLIEBEN-LANGE, Brigitte (1983): Traditionen des Sprechens. Elemente einer pragmatischen Sprachgeschichtsschreibung. Stuttgart: Kohlhammer. TOSCANO MATEUS, Humberto (1953): El español en el Ecuador. Madrid: Consejo Superior de Investigaciones Científicas. TUTTLE, Edward F. (1986): “The spread of ESSE as universal auxiliary in Central ItaloRomance”, en Medioevo Romanzo 11, 229-287. WEINRICH, Harald (1974): Estructura y función de los tiempos en el lenguaje. Madrid: Editorial Gredos. YLLERA, Alicia (1980): Sintaxis histórica del verbo español: las perífrasis medievales. Zaragoza: Universidad de Zaragoza/Facultad de Filología Francesa.

N OTA S AC L A R ATO R I A S S O B R E L A H I S TO R I A D E L I N D E F I N I D O ALGUIEN: U N A A P L I C AC I Ó N D I R E C TA D E L U S O D E C O R P U S D I AC RÓ N I C O S 1 E N R I QU E PATO Université de Montréal

1. Introducción La historia del pronombre indefinido alguien sigue siendo un aspecto no concluido en la gramática del español. Tanto las descripciones clásicas, como las más recientes, todavía no han resuelto del todo el problema de su etimología, ni de sus primeras manifestaciones (cf., por ejemplo, Hanssen 1913, Menéndez Pidal 1942, Malkiel 1948, Montgomery 1965, Corominas y Pascual 1980-1991, Penny 1993, Elvira 1999, etc.). Es mi intención, por ello, presentar estas breves notas y aportar un poco de luz nueva sobre la historia de este pronombre. En concreto, me centraré en los siguientes aspectos: 1) de dónde procede la forma alguien (< aliquem) y cuáles han sido las etimologías propuestas, 2) cuándo aparece documentado por primera vez en la historia de la lengua española, 3) bajo qué formas (algi/alguien/ alguién) y 4) que relación ha mantenido con los pronombres indefinidos del gallego (alguén) y del portugués (alguiém/alquem). Para ello, haré uso de dos de los corpus que mayor éxito tienen hoy en día en el estudio de la historia de la lengua: el Corpus del español, de Mark Davies, y el CODEA (Documentos españoles anteriores a 1700, corpus incluido en el CORDE), de Pedro Sánchez-Prieto. En efecto, ambos corpus diacrónicos han sido ya empleados en otras investigaciones de carácter histórico sobre el sistema verbal (uso del condicional), los participios en -udo o las estructuras posesivas (cf. Pato y Felíu Arquiola 2005, Pato 2006, etc.) y han mostrado su gran productividad y eficacia a la hora de documentar los fenómenos en estudio. Además, y para completar la búsque-

1 Mi agradecimiento a Inés Fernández-Ordóñez (Universidad Autónoma de Madrid/Real Academia Española), así como a los miembros del comité científico del presente volumen, por las sugerencias y aclaraciones que hicieron al manuscrito preliminar. Este trabajo se ha desarrollado en el marco del proyecto HUM2007-62259/FILO cofinanciado con fondos FEDER y fondos FQRSC, del Ministero de Educación de Quebec.

402

ENRIQUE PATO

da de ejemplos, hemos recurrido también al corpus Biblia medieval (cf. EnriqueArias 2008). No cabe duda, por lo tanto, de que con la ayuda de los nuevos corpus lingüísticos de carácter histórico se puede completar gran parte de la descripción y explicación de ciertos fenómenos del español que todavía quedan pendientes de estudio, así como la revisión de muchos otros que parecían ya zanjados.

2. Sobre el origen y el significado de alguien El pronombre indefinido existencial no universal alguien es una creación compartida, al castellano y al portugués (alguiém), frente a las demás lenguas románicas y su significado básico es el de ‘persona cualquiera no determinada; alguna persona’. Desde antiguo, ha estado en competencia con el pronombre alguno (cf. la Tabla 1 infra), pero si éste se emplea para indicar número, magnitud o grado ni pequeño ni grande (Alguno que otro siempre viene despistado); alguien, por el contrario, hace referencia a persona o personas existentes, sin indicación de género ni de número (Si a alguien {alguno/alguna} le interesa, la casa está en venta). Esto es, alguien tiene valor de [+indeterminación] y alguno de [+presentado]: alguien/ alguno se acerca (Martínez 1989: 89). Por tanto, alguien designa una persona indeterminada, de manera más vaga que alguno2, pues especificado en género, puede referir a [±persona], mientras que alguien sólo puede referir a [+persona]. Esta diferencia es fundamental y alguien, en ese sentido, aunque no especificado para el género, es más preciso porque siempre refiere a personas. Como nadie, es pronombre en todos los contextos, se comporta como sustantivo sin variación de género ni de número (masculino singular). Por otro lado, no da lugar a construcciones partitivas (Lo hizo *alguien/alguno de los alumnos) (Sánchez López 1999) y no se combina ni con el artículo ni con otro determinante. Si bien la etimología de alguno no ha presentado problemas (ALIQUIS UNUS > alguno), la etimología de alguien ha sido motivo de debate. Ya Nebrija en su Dictionarium hispano-latinum (1495) señalaba el empleo de “alguien por alguno. LAT. aliquis”, y Cabrera (1837) había propuesto la forma aliquem (alguién > alguien < algo)3. Si bien el étimo es el mismo, los trabajos más antiguos dan la forma en nominativo (ALIQUIS): Aldrete (1674: 51r), Covarrubias

2

Como ha sido estudiado en investigación tipológica, el numeral uno es fuente extendida para la creación de indefinidos: ognuno, veruno, qualcuno (en italiano), quelqu’un (en francés), alguno (en español), algum (en portugués), etc. (cf. Haspelmath 1997: 183, Elvira 1999). Para el significado de los pronombres, véase al respecto las definiciones que da el DRAE. 3 Para una revisión más detallada de la situación castellana y portuguesa véase Malkiel (1948).

SOBRE LA HISTORIA DEL INDEFINIDO ALGUIEN

403

(1673: I, 32v), el Diccionario de Autoridades (1726: I, 206), Mayans y Sicar (1737: I, 147) o el Diccionario de la Real Academia Española (DRAE 1770). Los más modernos ofrecen la forma en acusativo (ALIQUEM): Cabrera (1837: II, 36), Diez (1853: 11), Monlau (1941: 1, 293), Förster (1880: 307), Körting (1891: 396), Padilla (1905: 70), Gorra (1898: 114-15), Cejador y Frauca (1910: II, 54), Zauner (1908: 75), García de Diego (1909: 100), Alemany Bolufer (1911: 90), DRAE (1884), Gili y Gaya (1945: 67), Malkiel (1948) y Penny (1993: 149). El debate se centra en explicar el acento y la diptongación de alguien, pues la etimología de ÁLIQUEM ha sido defendida por Cuervo (1886-1893: I, 339), Meyer-Lübke (1890-1902: II, 130), Menéndez Pidal (1904: 87 y 152), Hanssen (1913: 86) y García de Diego (1914: 125), entre otros4. Es de creerse, según esta postura, que la acentuación de algo y nadie influyera en alterar la de aquél, ya que antiguamente se podía acentuar alguién, al igual que sucede hoy en día en portugués (alguém) o en gallego (alguén). Parece razonable concluir, pues, que alguien viene de ALIQUEM como quien de QUEM5. Hay, en resumen, dos explicaciones: una analógica, que es la mayoritaria y aceptada hoy día, según la cual alguién es variante creada sobre alguno a partir de la influencia de quien, acentuado en origen alguién y desplazado el acento a alguien por influencia de algo. La otra sería pensar que el diptongo de alguién procede directamente de una base ALIQUEM con diptongación. Esta falta de base fija para el étimo ha estado vinculada directamente con lo tardío de la aparición del indefinido en castellano, que, según Corominas y Pascual (1980-1991: I, 163), se documenta por primera vez en el siglo XV, ca. 1438. No obstante, y según las calas realizadas en los corpus diacrónicos, tal y como veremos a continuación, se puede adelantar en casi dos siglos las primeras manifestaciones del indefinido alguien.

3. Sobre la evolución de alguien en la historia del español En la Tabla 1 aparece recogida la evolución, en número total de apariciones, de los pronombres algun(o), quien y alguien en la historia de la lengua española, siglos XIII-XX (343.698 casos en total). Los corpus base para su confección han

4

ÁLIQUEM hubiera dado la forma algue, cf. nota 10. Es decir, el castellano forjó un nuevo indefinido sobre la base de algo y el modelo de terminación propuesto por el relativo interrogativo quien, con valor personal (cf. Elvira 1999). Como veremos, la forma alguién todavía puede escucharse en el castellano de Galicia (García 1985: 121). En el portugués de Brasil y, de forma coloquial, se emplea la forma alquem (Alquem tem o telefone da embaixada?). 5

404

ENRIQUE PATO

sido el Corpus del español (Davies 2001-2005) y el CODEA (Sánchez-Prieto 1999-2001). TABLA 1 Evolución de algun(o), quien y alguien en la historia de la lengua (XIII-XX)

1. algun(o) 2. quien 3. alguien

XIII

XIV

XV

XVI

XVII

XVIII

XIX

XX

Totales

16524

5189

23433

41576

20465

30638

31937

28866

198628

5535

2398

6735

34218

37463

12091

27802

13956

140198

3

4

6

126

130

31

804

3768

4872

En primer lugar, y en comparación con la evolución del indefinido algun(o), resulta notorio comprobar que el número de casos registrados para la forma alguien en los siglos XIII y XIV es bien escaso. Sin embargo, no hay que perder de vista que, salvo en el trabajo de Malkiel (1948), no se había ofrecido dato alguno al respecto: el Corpus del español y el CODEA permiten, una vez más, documentar formas que, en apariencia, resultaban inexistentes. Por otro lado, este bajo número de ejemplos no debe invalidar la existencia más antigua del indefinido alguien, pues algo similar sucede con otros pronombres como alguantos o alguandre, que, sin embargo, se suelen ofrecer como formas “generales” del siglo XIII; y en realidad, prácticamente sólo se pueden documentar en los Milagros de Nuesta Señora de Berceo (Fueron alguantos dellos de invidia tannidos, Fueron de mal venino los malos corrompidos) o en el Cantar de Mio Cid (Estando en la cruz vertud fezist muy grant Longinos era çiego que nuquas vio alguandre) y en un número también muy escaso6. TABLA 2 Porcentaje de aparición de algun(o) vs. alguien (siglos XIII-XX)

1. algun(o) 2. alguien

6

Totales

XIII

XIV

XV

XVI

XVII

XVIII

XIX

XX

8.4%

2.7%

11.9%

20.2%

10.4%

15.5%

16.1%

14.7%

100%

–

–

0.1%

2.6%

2.7%

0.6%

16.5%

77.4%

100%

Se registran también en las Glosas Emilianenses 73 [alquandas beces] y en las Glosas Silenses 126 [alquantre] y 236 [algodre]. En total no pasan de 10 los ejemplos en toda la Edad Media.

SOBRE LA HISTORIA DEL INDEFINIDO ALGUIEN

405

Si bien a lo largo de los siglos el pronombre alguno gana en porcentaje a alguien, ya que puede tener referencia no-personal, lo interesante que nos muestra la Tabla 2 mediante los porcentajes, es comprobar cómo alguien va ganando terreno conforme pasa el tiempo y ya en los textos del siglo XX obtiene un 77,4% (vs. 14,7% de alguno). Por otro lado, la primera expansión que experimenta alguien en los siglos XVI-XVII, puede estar relacionada directamente con la eliminación de otras palabras que indicaban ‘impersonalidad’ como cosa, hombre, etc. Por otro lado, la Tabla 1 nos permite ver la evolución del relativo quien y apreciar la influencia de éste en la aparición y creación de alguien, sobre todo en los Siglos de Oro, cuando su documentación es muy numerosa. Nebrija, en la Gramática castellana (1492), había escrito que “algun o alguno, alguna tiene para el genero neutro algo. & para los ombres & mugeres sola mente los antiguos dezian alguien por alguno & alguna: como quien”, tal y como se aprecia en los siguientes ejemplos: (1) a. como responder car ella uidia a lancerot como estaua escuchando aquello que ellos dizian et en esto dixo lancerot/ buen cauallero la donzella fallo quen la defendra con derecho de uos et de otro que lo suyo le quiera tomar contra su uoluntad [Cuento de Tristán de Leonís, Anónimo (Vaticano ms. 6428)]. b. ell otro que lançare aquella suerte que conuiene a aquella casa & fallare una tabla sola tomarla ha pues non ha quien la deffienda [Libro de ajedrez, dados y tablas, Alfonso X (ca. 1283)].

Este pronombre fue calificado como ‘pronombre relativo’ en el Diccionario de Autoridades (I. 206), y de ‘pronombre relativo indefinido’ en las ediciones del DRAE de 1770 y 1791. Tal y como apunta Brucart (1999: 503), alguien ha podido y puede sustituir a quien, ya que el pronombre relativo inespecífico “actúa como variable lógica de carácter existencial”: Hablaré con quien/alguien que me pueda informar del asunto. Como quedó señalado supra, Corominas y Pascual (1954, 1980-1991) documentan por primera vez el pronombre indefinidio alguien en el siglo XV (en Juan de Mena y el Cancionero de Baena). No obstante, una revisión de la bibliografía precedente, y una búsqueda en profundidad en los corpus diacrónicos de que disponemos hace ver que la documentación de alguien se puede y se debe adelantar en varios siglos. En efecto, ya con anterioridad Malkiel (1948: 388-389) había ofrecido algunos ejemplos del pronombre indefinido, obtenidos en los documentos leoneses editados por Staaff (1907) (cf. 2a y b) de mediados del siglo XIII, así como otros casos en documentos jurídicos de principios del siglo XIV, como el Fuero de Salamanca (cf. 2c) y la Carta-puebla de Guadalajara (cf. 2d), y literarios, como el Cuento del Emperador Otas de Roma (cf. 2e-g):

406

ENRIQUE PATO

(2) a. e se dalguien venjer de nosttra generacion ou de estranja contra este nostro feycho ou contra eeste scripto queseir venir ou demandar, sea maldicto [Doc. San Esteban de Nogales (1247), Staaff (1907, n° 88)]. b. se alguien venier del mio linage e del stranio que esta carta quiera contradecir, sea maldicto [Doc. San Pedro de Eslonza (1260), Staaff (1907, n° 80)]. c. Todo omne que ganado pedier alguien et al estremo lo fuer coge, peche.c. moravedis qui lo ala dier e qui lo tomar [Fuero de Salamanca (?1300), Castro y Onís (1916: 146)]. d. si alguien por aventura quisiere menospreciar aquesto que nos creemos… [Carta-puebla de Guadalajara (1337), Muñoz y Romero (1847: 511) (CORDE)]. e. tomastes uos a escarnir demj / & dixo en su corasçon / que como quier que alguyen pesase / que ella lo conpraria cara mente [Cuento del enperador Otas de Roma, Anónimo (mediados siglo XIV)].7 f. Alguyen fue que troxo aquel cochillo que esto fiço por mal demj [Cuento del enperador Otas de Roma, Anónimo (mediados siglo XIV)]. g. fermosa quien vos fiço pesar ca me semeja que alguyen vos meno mal [Cuento del enperador Otas de Roma, Anónimo (mediados siglo XIV)].

Por nuestra parte, hemos podido confirmar con otros casos la aparición del pronombre alguien en textos jurídicos de finales del siglo XIII, los Documentos castellanos de Alfonso X (cf. 3a-b), la Colección Diplomática del Monasterio de Carrizo (cf. 3c) y la Crónica de veinte reyes (cf. 3d)8: (3) a. De qui non obedece carta del rey. Si el rey alguna cosa mandar por su carta e alguien non obedescier la carta o non uiniere al dia que pusiere non mostrando escusacion derecha de todas las despesas a aquel que gano la carta contra el e otro tanto a el rey [Documentos castellanos de Alfonso X, León (Carta real, 1253)]. b. De qui prendar a otri. Qui prendare a otro alguien si non fuere su depdor connosçudo o fiador si primeramientre non lo mostrare al merino del rey o a los alcaldes o a los que deuen fazer el derecho o la justicia en la tierra, entreguen la prenda duplada al querelloso [Documentos castellanos de Alfonso X, León (Carta real, 1253)]. 7 Seguimos la edición crítica del manuscrito del Escorial h.I.13 (48r-99v) preparada por J. O’Neill (Madison 1999) e incluida en Davies (2001-2005), y no la edición utilizada por Malkiel (1948). 8 Los documentos ‘castellanos’ de Alfonso X tienen sus destinatarios en el reino de León, así como la gran mayoría de los documentos del Monasterio de Carrizo (Orden del Císter). La Crónica de veinte reyes, rama textual de la versión crítica de la Estoria de España, es de 1283. Es evidente, no obstante, que no debe atribuirse a una obra rasgos del códice (cf. FernándezOrdóñez 2006).

SOBRE LA HISTORIA DEL INDEFINIDO ALGUIEN

407

c. Si alguien de nos o de nostros fiios o de nostra progenia o destranna contra esta concambia o contra este fecho quiziesce contrariar, sea maldito de Dios & descomungado & peche a lotra parte .c. morauedis [Colección Diplomática del Monasterio de Carrizo (Carta de cambio) (CORDE)]. d. de toledo a solazarsse & por veer ssi vernja alguien de escontra castilla que le contasse algunas nueuas [Crónica de veinte reyes (Escorial Y.1.12, 1325?)].

La importancia de no hacer una Historia de la lengua española únicamente con fuentes literarias y dar cabida a la documentación de carácter jurídico ha sido defendida por unos autores (cf. Cano Aguilar 2004) y criticada por otros (Lapesa 1982). Sea como fuere, lo cierto es que los fondos de los archivos nacionales son una fuente inagotable para la documentación y el estudio de formas medievales. En concreto, en el CODEA (Sánchez-Prieto 1999-2001) podemos encontrar otros casos del pronombre indefinido alguien en cinco cartas de venta, fechadas en 1301 (cf. 4a-d) y 1334 (cf. 4e): (4) a. yo el dicho Domingo Andrés, con todo quanto algo oy día é e avré d’aquí adelante, mueble e raíz, ganado e por ganar, que si alguien vos lo demandare o vos lo contrallare todo o parte d’ello, por qualquier razón que pueda seer, a vós, el dicho arcidiano o a quien vuestros bienes heredare, que yo, el dicho Domingo Andrés o quien mis bienes heredare, redremos e sanemos en todo tiempo [AHN, Clero, Ávila, carp. 24, nº 16 (9 de mayo de 1301), Carta de venta de Domingo Andrés. Domingo Domínguez (escriví)]. b. Vendedor, e fiador e sanador de todo este algo sobredicho yo el dicho Domingo Pascual con todo quanto oy día é e avré d’aquí adelante, mueble e raíz, ganado e por ganar, que si alguien vos demandare o vos contrallare todo este algo que dicho es o parte d’ello por qualquier razón que pueda seer… [AHN, Clero, Ávila, carp. 25, nº 2 (12 de junio de 1301), Carta de venta de Domingo Pascual. Domingo Dominguez (escriví)]. c. yo la dicha doña Joana con todo quanto algo oy día é e avré d’aquí adelante, mueble e raíz, ganado e por ganar, que si alguien vos demandare o vos contrallare esto algo todo sobredicho o parte d’ello por qualquier razón que pueda seer [AHN, Clero, Ávila, carp. 24, nº 19 (9 de mayo de 1301), Carta de venta de doña Juana. Domingo Domínguez (escriví)]. d. todos tres en uno e cadaúno por sí con todos quantos algos oy día avemos e avremos d’aquí adelante, muebles e raízes, ganados e por ganar, que si alguien vos demandare o vos contrallare esto algo e este heredamiento sobredicho todo o parte d’ello por qualquier razón que pueda seer [AHN, Clero, Ávila, carp. 24, nº 18 (9 de mayo de 1301), Carta de venta de doña Menga Andrés. Domingo Domínguez (escriví)]. e. si d’alguien esti mio fecho quisier quebrantar o corromper, así yo como otri quienquier, for barón o muller, que sea de mía progenia o d’estraña, sea mal-

408

ENRIQUE PATO

dito de Dios e de mí e con Judas perdido enno infierno [AHN, Clero, Oviedo, carp. 1580, nº 12 (24 de septiembre de 1334), Carta de venta (Monasterio de Belmonte). Diego García (escriví)].

Como podemos ver por los ejemplos presentados hasta ahora, dos hechos llaman la atención en la documentación primitiva del pronombre indefinido. En primer lugar, la ubicación geográfica, que lo avala más bien como rasgo propio del área leonesa: documentos de Ávila y Oviedo (cf. Malkiel 1948). Después, los contextos sintácticos de aparición, pues resulta interesante notar que alguien, en las escrituras públicas, se registra principalmente en oraciones condicionales del tipo “si alguien vos demandare...”; esto es, en contextos de irrealidad donde el pronombre presenta su valor indefinido e inespecífico, no-existente. No parece, por lo tanto, haber ejemplos hasta época más tardía en que alguien pueda tener una lectura indefinida pero específica (Alguien vino y dejó esta carta para ti). Continuando la evolución y documentación del pronombre indefinido, si bien en el siglo XV no resulta tampoco abundante (véase la Tabla 1), lo podemos encontrar plenamente desarrollado en el Cancionero de Baena (cf. 5 a-c) o en los textos de Cristóbal Colón (cf. 5 d-f): (5) a. Algujen perdera. vna cana sy oyere. Pressentar esto que deue llamar arte fyna e palançiana [Cancionero de Baena, Juan Alfonso de Baena (comp. ?1426). Este dezir fyzo el dicho Alfonso Aluarez de Villasandino]. b. sy algujen por tal rrazon de mj non fue plazentero mande a su despensero que me qujte la rraçion [Cancionero de Baena, Juan Alfonso de Baena (comp. ?1426). Este dezjr fizo & ordeno el dicho Fernand Sanches Calavera]. c. por viçio algujen leuanta boliçio que pocas feridas toma tal va por letras a rroma que torna ssyn benefiçio [Cancionero de Baena, Juan Alfonso de Baena (comp. ?1426). Este dezjr fizo & ordeno el dicho Gomez Perez Patiño]. d. replicando los autos de la mesma posesión del año pasado, de la cual no obstante nuevamente tomava, llamando si alguien lo contradeçía, y nombré esta isla la Galana, ella es muy llana y llena de árboles odoríferos [Textos y documentos completos, Cristobal Colón (?1499)]. e. dize que no se deve alguien de maravillar, porque como en las noches estava al reparo barloventeando, por miedo de topar algunas islas o baxos [Textos y documentos completos, Cristobal Colón (?1499)]. f. y me guardan mis privilegios y mercedes y, si alguien me los quebrantan, Sus Altezas me los acrescientan con aventaja, como se vido en lo de Juan Aguado, y me mandan hazer mucha honra [Textos y documentos completos, Cristobal Colón (?1499)].

Durante el siglo XVI (véase de nuevo la Tabla 1) comienza la generalización del pronombre (cf. 6a-b), proceso que se mantiene en el XVII, gracias sobre todo a las obras de teatro (cf. 6c-g):

SOBRE LA HISTORIA DEL INDEFINIDO ALGUIEN

409

(6) a. Señora, yo siento rumor en vuestra casa. LOÇANA. ¡Ay, amarga! ¿Si vino alguien por los tejados y lo mata mi criado? [La lozana andaluza, Francisco Delicado (1510)]. b. Yo estaba en la cama, como nací del vientre de mi madre; no creí que alguien me viera [Guzmán de Alfarache, Mateo Alemán (1581)]. c. si al traidor hallamos, ¡voto al soto, que se ha de hacer un hecho que a alguien pese! [El verdadero amante, Lope de Vega (1598)]. d. Señor cura, eche cata por ahí si hay alguien que vaya a Madrid, o a Toledo, para que me compre un verdugado redondo, y hecho y derecho [Don Quijote de la Mancha, Miguel de Cervantes (1605)]. e. CRESPO. Dime por tu vida, ¿hay alguien que no sepa que yo soy, si bien de limpio linaje, hombre llano? [El alcalde de Zalamea, Pedro Calderón de la Barca (1640)]. f. D. DIEGO. ¿Yo a Roma? ¿Por qué accidente? MOSQUITO. A absolveros. D. DIEGO. Bien, por Dios. ¿Maté yo alguien? MOSQUITO. No, que vos de todo estáis inocente [El lindo Don Diego, Agustín Moreto (1644)]. g. SÍSARA. Si a buscarme alguien viniere no digas que estoy aquí. JAEL. No. SÍSARA. Ya el sueño me entorpece [Amar su propia muerte, Juan de Espinosa Medrano (1660)].

3.1. LA FORMA ALGUI En cuanto a las otras formas del pronombre indefinido alguien, Montgomery (1962: 9-11 y 1965: 52) pudo registrar un caso de algui en la versión castellana de El Evangelio de San Mateo (ca. 1260, si bien otros autores, como Morreale o Sánchez-Prieto, proponen una fecha anterior, 1250, siendo ésta la más aceptada). Como es sabido, el pronombre algui procede directamente de qui (< alqui), y completa la serie de indefinidos medievales en -i, formas propias de Aragón, Navarra y La Rioja (cf. Menéndez Pidal 1942: 265, Hanssen 1913: 85)9, pero también del área leonesa: qui, nadi, otri, algui. Por ello, resulta del todo significativo esta documentación, ya que nos muestra la continuidad directa entre alguialguien:

9

La lengua literaria, apunta Hanssen (1913: 85), dejó de hacer uso de esta forma en el siglo XIV, pero el aragonés moderno la conserva. Menéndez Pidal (1942. 265), por su parte, señala que otri se usa todavía en Navarra y Álava. Una primera búsqueda en el Corpus del español muestra que en el siglo XIII la forma nadi aparece en el Cantar de Mio Cid, en la obra de Berceo o en el Libro de los Judizios (Madrid Nacional ms. 3065), y otri es de uso general en toda la producción alfonsí, desde la Estoria de España hasta las Siete Partidas.

410

ENRIQUE PATO

(7) Si uos algui diere a beuer en el mio nombre un uaso de agua, ca sodes christos, uerdat uos digo que non perdera so gualardon [El Evangelio de San Mateo (ca. 1250)].

Las formas castellanas en -ie (quien, nadie, otrie, alguien) sufrieron un proceso lento de generalización y ambas series coexistieron largo tiempo. De hecho, todavía es posible documentar la forma algi a finales del siglo XV, en los textos de Cristóbal Colón: (8) a. A mi veer sería su servicio que de algo de esto se descuidase con algi a quien doliese el mal tratamiento de ellas. Yo escriví a Sus Altezas, luego que aquí llegé, una carta bien larga, llena de neçesidades [Textos y documentos completos, Cristobal Colón (?1499)]. b. mandaré sacar una carta de justiçia y le enbiaré, porque creo que sea obra de misericordia a castigale, porque es tan disoluto de su lengua que algi le ha de castigar sin vara [Textos y documentos completos, Cristobal Colón (?1499)].

3.2. LA FORMA ALGUÉM Por lo que respecta a la evolución de la lengua portuguesa, la documentación del pronombre indefinido alguen~alg(u)em, moderno alguém, es posible en el Foro Real (ca 1280, cf. 9a-c) y en las versiones portuguesas de Barlaam e Josephat (cf. 9d) y la Crónica geral de Espanha de 1344 (cf. 9e-f), tal y como se recoge el corpus de Davies y Ferreira (2006)10: (9) a. Se o alcayde mandar asseentar alguen en sa demãda ou en boa de seu contendor pero que o contendor non quis responder assy como deuia ou se ascondeu por nõ fazer dereyto e aquel cuyo o mandarë asseentar se lho deffender per força ou se alçar [Foro Real, Alfonso X (?1280)]. b. Se alguen emprestou cauallo a alguu seu amigo pera leuar en lide e enaquella lide o matarë ou se perder, nõ seya teudo de o peytar e quë algua cousa recebeu emprestada de seu deuedor [Foro Real, Alfonso X (?1280)]. c. Se alguen acusar outro ante o alcayde ou ante o meyrÏho que lhy fez alguu furto e depoys sen mandado daquel a que se querellou fez algûa conpostura cû el, peyte as setenas a al rey [Foro Real, Alfonso X (?1280)]. 10

Otros ejemplos pueden verse en Malkiel (1948). Resulta interesante señalar que es posible documentar la forma algue: E sse pela uetujra uos algue a dita vy a enbargar... (cf. Martins 2001: 377), incluso en castellano antiguo, aunque de forma esporádica, en el Libro de los Judizios de las estrellas de Alfonso X el Sabio: Los entendudos sabios de Layrag en astronomia dellos. Yahie fijo de Abenmançor & Mahomat fijo de alge & Azaroni & los ques atorgan con ellos ponen las dos luminarias en la tercera o en la .ixa.

SOBRE LA HISTORIA DEL INDEFINIDO ALGUIEN

411

d. e era muj coitado e muj demudado. pensando em amorte mais quando hia ante seu padre mostrauase por muj allegre por tal que no soubesse opadre o que pensaua E deseiaua achar alguem que lhe em sinasse algûa boa pallaura e preguntaua mujtas vezes a aquel seu meestre de que uos fallamos se ssabia algûu homë que lhe desse coselho [Barlaam e Josephat (?1300)]. e. E Carmona jaz sobre ho allicenceo que se começa ëna porta e vay ataa a porta de Narbona. E de Carmona a Narbona ha myl mylhas. E, quando alguem sayr de Carmona pera Narbona, nûca sayra do licenceo se quiser. E a el darey eu o pendom, ca el o deve d’aver [Crónica geral de Espanha de 1344]. f. E a vos ajudarey como yrmãã a guardar todo vosso dereito, se vos alguem quiser tolher algûa cousa de vossas arras [Crónica geral de Espanha de 1344].

A diferencia del castellano, el portugués y el gallego también crearon un pronombre indefinido negativo: ninguém/ninguén (< NEQUE UNUS). Aunque Nebrija hace mención de dicho pronombre en el Dictionarium hispano-latinum (1495) “Ninguien palabra antigua. LAT. nemo. inis”, su documentación castellana no nos ha sido posible; y para el caso de la lengua portuguesa, resulta tardía (siglos XVI-XVII, en Davies y Ferreira 2006): (10) a. Serra que tal gado tem no na subirá ninguém. Serranas, no hajais guerra, que eu sam a flor desta serra [Poesía. Selección, Gil Vicente (1503)]. b. GERÓNIMA. Se fore desengraçada, enfadadiza, escoimada, vós lhe arreganhai os dentes a agachar-se-vos-há logo, porque com mimos ninguém de nosoutras quere bem [El amor médico, Tirso de Molina (versión portuguesa de 1616)].

3.3. LA FORMA ALGUIÉN Las formas alguém del portugués, alguén del gallego y alguién~dalguién del centro oeste de Asturias (cf. Malkiel 1948: 363-64, Zamora Vicente 1960: 175), se diferencian de la forma castellana por su acentuación aguda. Como hemos hecho referencia supra, parece que el desplazamiento acentual en Castilla se debió a la analogía con algo, nada y nadie11. Según Alvar y Pottier (1983: 143), alguién se deja por viejo o vulgar (cf. Correas) y es la forma que se usó hasta tiempo de Cervantes; sólo con la generación de Lope de Vega se volvió a la pro-

11 En contra de la evolución sincrónica por la cual las palabras que acaban por vocal son mayoritariamente paroxítonas (casa) y las acabadas en consonante oxítonas (canción). La generalización fonológica, no obstante y como señala Pensado (1999: 4441) debe ser completada con información morfológica.

412

ENRIQUE PATO

nunciación alguien. Este proceso debió de ser lento y regional, pues todavía era posible encontrar casos de la ‘antigua’ pronunciación a mediados del XVI, tal y como se recoge en los Refranes de la lengua castellana de Hernán Nuñez de Toledo (1555): “Habla poco y bien, tenerte han por alguién”12. De ahí que Malkiel (1948: 364) concluyera que, todavía en la primera mitad del siglo XVII, tanto una pronunciación como la otra podían escucharse parejas. Lo asombroso es que hoy en día es posible registrar la forma alguién en la prensa escrita hispanoamericana, desde México (cf. 11a) hasta Chile (cf. 11c), lo que muestra la ‘inestabilidad’ en la acentuación del indefinido, a pesar de que cada palabra lleva, por norma general, sólo un acento: (11) a. ¿Cómo puede alguna persona subir a esta tribuna y acusar a alguién de alianzas, si por años han causado daños al país? [Senador J. Ortega Martínez, Boletín de Prensa, México, D.F. (31/12/2001)]. b. Al subirse al podio todo era alegría “estamos muy contentas por haber retenido el título”, expresaron las ganadoras. El 8 de junio expondrá su invicto en otro torneo que realizará su institución. ¿Alguién quiere retarlas? [“¿Quién quiere retarlas?”, La Prensa, Honduras (07/03/2006)]. c. Estudio hecho con 150 gerentes de Santiago indicó que el 40% no contrataría a alguién que tuviese una patología mental, sin saber que las personas, con la terapia apropiada, llevan una vida sin problemas [La Tercera, Santiago de Chile (29/03/2004)]. d. la detective Brown hizo un llamado a la población para que si alguién tiene información que pueda conducir al o los responsables de este homicidio, llamen al teléfono de emergencia 911 [“A la cárcel quienes disparen al aire”, Prensa Hispana, Arizona (25/12/2006)].

No podemos estar seguros de que estas formas acentuadas respondan a una pronunciación auténtica de alguién (es decir, si son o no ejemplos aislados), ya que la información lingüística al respecto es escasa. No obstante, su existencia parece ser indicativa de la tendencia a la vacilación acentual en la historia del pronombre. Por otro lado, en gallego también se produce la misma tendencia, pues hoy en día la pronunciación de alguén (< quen) puede ser tónica o átona (cf. García 1985), hecho que, de nuevo, se puede apreciar de forma gráfica en la prensa escrita, si bien no se pueden extraer conclusiones directas sobre la pronunciación:

12

Cf. al respecto Bello y Cuervo (1954, nota 61) y Malkiel (1948).

SOBRE LA HISTORIA DEL INDEFINIDO ALGUIEN

413

(12) a. Monforte está quedando aillado. Se alguén quere conservar o goberno da cidade vai ter que volcarse neste asunto [La Voz de Galica, A Coruña (16/01/2007)]. b. En caso de non lograr maioria, pactaria con alguen para conseguir ou poder? [La Voz de Galica, A Coruña (23/05/2007)].

4. Consideraciones finales A lo largo de estas páginas hemos intentado, por un lado, recuperar ciertas referencias que habían sido olvidadas en los trabajos y manuales de historia del español y que resultan del todo indispensables a la hora de ofrecer una descripción completa sobre el pronombre indefinido alguien (vid. Malkiel 1948 y Montgomery 1965, entre otras) y ofrecer, por otro lado, y gracias a la ayuda de los corpus diacrónicos más recientes, nuevos datos que ayuden a resolver el problema de su documentación ‘tardía’. A este respecto, debemos subrayar que las primeras documentaciones del indefinido alguién no se remontan al siglo XV (ca. 1438), tal y como habían señalado Corominas y Pascual (1980-1991), sino al siglo XIII (1247, documento de San Esteban de Nogales, León); y que, bajo la autoridad de los ejemplos registrados, aparece bien documentado tanto en castellano como en portugués entre 1260-1280. Si bien los ejemplos más antiguos podrían tener una acentuación aguda, la documentación de la forma alguién (que perdura hasta nuestros días, cf. los casos registrados en la prensa escrita), no ha sido muy abundante en época medieval. Además, el avance de la forma alguien en la historia de la lengua ha sido gradual (cf. las Tablas 1 y 2), debido a la gran competencia que ha mantenido desde el principio con el indefinido alguno, hasta el punto de que todavía hoy regiones de Hispanoamérica apenas usan alguien13. La expansión castellana del pronombre se vio favorecida por la continuidad geográfica del gallego y del portugués (innovación anterior), así como del leonés; por lo tanto, creemos que se puede considerar como un “marcado occidentalismo” (Malkiel 1948: 364)14.

13

Como señala Kany (1945: 179) “en algunas regiones nunca se oye alguien en el habla popular”. En Chile, por ejemplo, se remplaza por alguno (Oroz 1960: 298) y lo ignoran algunas hablas como el papiamento o el español de Santo Domingo (Alvar y Pottier 1983: 143). 14 Mientras Corominas (1954: 124) rechaza esta hipótesis, ya que según este autor los pronombres no son susceptibles de préstamo, Alvar y Pottier (1983: 143) pensaron en un lusitanismo, favorecido por la boga de la poesía gallego-portuguesa.

414

ENRIQUE PATO

Bibliografía ALDRETE, Bernado de (1674): Del origen y principio de la lengua castellana, o Romance que oy se vsa en España. Madrid: Melchor Sánchez Editor. ALEMANY BOLUFER, José (1911): Estudio elemental de gramática histórica de la lengua castellana. Madrid: Tipografía de la Revista de Archivos, Bibliotecas y Museos. ALI, Manuel Said (1971): Gramática Histórica da Língua Portuguesa. Río de Janeiro: Edições Melhoramentos. ALVAR, Manuel/POTTIER, Bernard (1983): Morfología histórica del español. Madrid: Gredos. BELLO, Andrés (1954[1847]): Gramática de la lengua castellana destinada al uso de los americanos, con las notas de Rufino José Cuervo. Buenos Aires: Sopena. BRUCART, José María (1999): “Las estructuras del sintagma nominal: Las oraciones de relativo”, en: Bosque, Ignacio/Demonte, Violeta (dirs.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa, vol. 1, cap. 7, 395-522. CABRERA, Ramón (1837): Diccionario de etimologías de la lengua castellana. Madrid: Marcelino Calero. CANO AGUILAR, Rafael (coord.) (2004): Historia de la lengua española. Barcelona: Ariel. CASADO LOBATO, Concepción (1983): Colección diplomática del Monasterio de Carrizo. León: Centro de Estudios e Investigación “San Isidoro”. CASTRO, Américo/ONÍS, Federico de (1916): Fueros leoneses de Zamora, Salamanca, Ledesma y Alba de Tormes. Madrid: Centro de Estudios Históricos. CEJADOR Y FRAUCA, Julio (1910): Tesoro de la lengua castellana. Madrid: Perlado Paez Editor. COVARRUBIAS, Sebastián de (1673-1674): Tesoro de la lengua castellana o española. Madrid: Luis Suárez Editor. COROMINAS, Joan (1954): Diccionario Crítico Etimológico de la Lengua Castellana. Madrid: Gredos. COROMINAS, Joan/PASCUAL, José Antonio (1980-1991): Diccionario Crítico Etimológico Castellano e Hispánico. Madrid: Gredos. CUERVO, Rufino José (1886-1893): Diccionario de construcción y régimen de la lengua castellana. Paris: Roger et Chernoviz Editeurs. DAVIES, Mark (dir.) (2001-2005): Corpus del español. Provo: Brigham Young University. DAVIES, Mark/FERREIRA, Michael J. (2006): O Corpus do português. Provo: Brigham Young University. DIEZ, Frederich (1853): Etymologisches Wörterbuch der romanischen Sprachen. Bonn: Weber. ELVIRA, Javier (1999): “Sobre reconstrucción lingüística: Uso y abuso del asterisco en gramática histórica”, en: Boletín de la Real Academia Española 278, 425-443. ENRIQUE-ARIAS, Andrés (dir.) (2008): Biblia medieval. Universitat de les Illes Balears. En línea en . FERNÁNDEZ-ORDÓÑEZ, Inés (2006): “Transmisión manuscrita y transformación ‘discursiva’ de los textos”, en: Bustos Tovar, J. Jesús de/Girón Alconchel, J. Luis (eds.): Actas

SOBRE LA HISTORIA DEL INDEFINIDO ALGUIEN

415

del VI Congreso Internacional de Historia de la Lengua Española. Madrid: Arco/Libros, vol. III, 3033-3045. FERREIRO, Manuel (1995): Gramática Histórica Galega. I. Fonética e Morfosintaxe. Santiago de Compostela: Edicións Laiovento. FÖRSTER, Paul (1880): Spanische Sprachlehre. Berlin: Weidmannsche Buchhandlung. GARCÍA, Constantino (1985): Temas de lingüística galega. La Coruña: La Voz de Galicia. GARCÍA DE DIEGO, Vicente (1909): Elementos de gramática histórica gallega. Burgos: Hijos de S. Rodríguez Editores. — (1914): Elementos de gramática histórica castellana. Burgos: Monte Carmelo. GILI GAYA, Samuel (1945): Vox. Diccionario general ilustrado de la lengua española. Barcelona: Bibliograf. GORRA, Egidio (1898): Lingua e letteratura spagnuola delle origini. Milano: Hoepli. HANSSEN, Federico (1913): Gramática histórica de la lengua española. Paris: Les Marais. HASPELMATH, Martin (1997): Indefinite Pronouns. Oxford: Oxford University Press. KANY, Charles E. (1969): Sintaxis hispanoamericana. Madrid: Gredos. KÖRTING, Gustav (1891): Lateinisch-romanisches Wörterbuch. Paderborn: Schöningh. LAPESA, Rafael (1982): Historia de la lengua española. Madrid: Gredos. MALKIEL, Yakov (1948): Hispanic “algu(i)en” and Related Formations. A Study of the Stratification of the Romance Lexicon in the Iberian Peninsula. Berkeley/Los Angeles: University of California Press. MARTÍNEZ, José A. (1989): El Pronombre II. Numerales, Indefinidos y Relativos. Madrid: Arco/Libros. MARTINS, Ana M. (2001): Documentos Portugueses do Noroeste e da Região da Lisboa: Da producão primitiva ao século XVI. Lisboa: Imprensa Nacional/Casa da Moeda. MAYÁNS Y SISCAR, Gregorio (1737): Orígenes de la lengua castellana. Madrid: Juan de Zúñiga. MENÉNDEZ PIDAL, Ramón (1942): Manual de Gramática Histórica Española. Madrid: Espasa-Calpe. MEYER-LÜBKE, Wilhelm (1890-1902): Grammatik der romanischen Sprachen. Leipzig: Reisland. MONLAU, Pedro F. (1941): Diccionario etimológico de la lengua castellana. Buenos Aires: El Ateneo. MONTGOMERY, Thomas (1962): El Evangelio de San Mateo según el manuscrito escurialense I.I.6. Madrid: Anejos del Boletín de la Real Academia Española. — (1965): “A datum for the history of Castilian alguien and nadie”, en: Hispanic Review 33/1, 52-57. MUÑOZ Y ROMERO, Tomás (1847): Fueros Municiales y Cartas Pueblas de los Reinos de Castilla, León, Corona de Aragón y Navarra. Madrid: José María Alonso Editor. OROZ, Rodolfo (1960): La lengua castellana en Chile. Santiago: Universidad de Chile. PADILLA, Salvador (1905): Gramática historica de la lengua castellana. Madrid: Jubera. PATO, Enrique (2006): “Dos construcciones posesivas en la obra de Santillana”, en: Cazorla Vivas, María del Carmen et al. (coords.): Estudios de Historia de la Lengua e Historiografía Lingüística. Jaén: Universidad de Jaén, 365-378.

416

ENRIQUE PATO

— (2006): “La génesis histórica de la alternancia modal condicional simple (-ría) /imperfecto de subjuntivo (-se/-ra)”, en: Bustos Tovar, J. Jesús de/Girón Alconchel, J. Luis (eds.): Actas del VI Congreso Internacional de Historia de la Lengua Española. Madrid: Arco/Libros, vol. I, 977-987. PATO, Enrique⁄FELÍU ARQUIOLA, Elena (2005): “Alternancia de formas, nivelación e inferencia semántica: El caso de los participios en -udo del español medieval”, en: Revue de linguistique romane 69, 437-463. PENNY, Ralph (1993): Gramática histórica del español. Barcelona: Ariel. PENSADO RUIZ, Carmen (1999): “Morfología y fonología. Fenómenos morfofonológicos”, en: Bosque, Ignacio/Demonte, Violeta (dirs.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa, vol. 3, cap. 68, 4423-4504. REAL ACADEMIA ESPAÑOLA (1770): Diccionario de la lengua castellana. Madrid: Joachín Ibarra Editor. — (2000-2007): CORDE. Corpus Diacrónico del Español. Madrid: Real Academia Española (Banco de datos). — (1726-1739): Diccionario de Autoridades. Madrid: Imprenta de Francisco del Hierro/RAE. SÁNCHEZ LÓPEZ, Cristina (1999): “Los cuantificadores: Clases de cuantificadores y estructuras cuantificativas”, en: Bosque, Ignacio/Demonte, Violeta (dirs.): Gramática Descriptiva de la Lengua Española. Madrid: Espasa, vol. 1, cap. 16, 1025-1128. SÁNCHEZ-PRIETO, Pedro (coord.) (1999-2001): Corpus de Documentos Españoles Anteriores a 1700 (CODEA). Madrid: Universidad de Alcalá. STAAFF, Erik (1907): Étude sur l’ancien dialecte léonais d’après des chartes du XIIIe siècle. Uppsala: Almqvist & Wiksell. ZAMORA VICENTE, Alonso (1960): Dialectología española. Madrid: Gredos. ZAUNER, Adolf (1908): Altspanisches Elementarbuch. Heidelberg: Carl Winter.

ÚLTIMOS VOLÚMENES PUBLICADOS ORTIZ LÓPEZ, Luis A.; LACORTE, Manel (eds.): Contactos y contextos lingüístic spañol en los Estados Unidos y en contacto con otras lenguas, 2005, 356 p N: 84-8489-197-6. CASTILLO LLUCH, Mónica; KABATEK, Johannes (eds.): Las Lenguas de Espa tica lingüística, sociología del lenguaje e ideología desde la Transición ha ctualidad, 2006, 242 pp., ISBN: 84-8489-216-6. PONS RODRÍGUEZ, Lola (ed.): Historia de la Lengua y Crítica Textual, 2006, ISBN: 84-8489-263-8. FUENTES MORÁN, María Teresa; TORRES DEL REY, Jesús (eds.): Nuestras pa : entre el léxico y la traducción, 2006, 182 pp., ISBN: 84-8489-272-7. KABATEK, Johannes (ed.): Sintaxis histórica del español y cambio lingüíst vas perspectivas desde las Tradiciones Discursivas, 2008, 276 pp., ISBN: 9 8489-345-5. SINNER, Carsten; WESCH, Andreas (eds.): El castellano en las tierras de habla na, 2008, 362 pp., ISBN: 978-84-8489-348-6. PENAS IBÁÑEZ, María Azucena: Cambio semántico y competencia gramati 9, 538 pp., ISBN: 978-84-8489-352-3. CARRASCO GUTIÉRREZ, Angeles (ed.): Tiempos compuestos y formas verba plejas, 2008, 548 pp., ISBN: 978-84-8489-369-1. GARCÉS GÓMEZ, María Pilar: La organización del discurso: marcadores de ación y de reformulación, 2008, 170 pp., ISBN 978-84-8489-372-1. GARCÉS GÓMEZ, María Pilar (ed.): Diccionario histórico: nuevas perspecti üísticas, 2008, 298 pp., ISBN: 978-84-8489-412-4.

Iberoamericana Editorial Amor de Dios, 1 E-28014 Madrid

Vervuert Verlag Elisabethenstr. 3-9 D-60594 Frankfurt

visite nuestra página y haga su pedido en... www.ibero-americana.net / [email protected] ... y cuando venga a Madrid, no deje de visitar nuestra LIBRERIA IBEROAMERICANA en la calle Huertas, 40.