Microsoft Word - tesis-version-final-DONG.doc

Size: px

Start display at page:

Download "Microsoft Word - tesis-version-final-DONG.doc"

员瑛莘
6 years ago
Views:

1 Universidad Autónoma de Madrid Departamento de Lingüística General, Lenguas Modernas, Lógica y Filosofía de la Ciencia, Teoría de la Literatura y Literatura Comparada Laboratorio de Lingüística Informática Compilación de un corpus de habla espontánea de chino putonghua para su aplicación en la enseñanza como lengua segunda a hispanohablantes DONG Yang Tesis doctoral dirigida por el Dr. Antonio Moreno Sandoval 2011

2 Agradecimientos Agradecimientos En primer lugar, quisiera dar las gracias al director de esta tesis, Dr. Antonio Moreno Sandoval, especialmente por aceptarme para realizar esta tesis bajo su dirección. Además, quisiera agradecer la confianza y paciencia que él ha depositado en este trabajo, así como su constante estímulo, sus comentarios y consejos tan valiosos para mi tesis. Gracias a la beca concedida por la Agencia Española de Cooperación Internacional, he podido seguir mis estudios del Programa de Doctorado en la Facultad de Filosofía y Letras de la Universidad Autónoma de Madrid y dedicarme totalmente a la tesis. A la Dra. Taciana Fisac, coordinadora del Programa de Doctorado España y Latinoamérica Contemporáneas y catedrática del Centro de Estudios de Asia Oriental de la Universidad Autónoma de Madrid, quiero extenderle un sincero agradecimiento por su disponibilidad, generosidad y ayuda incondicional en todo momento. Fue ella quien organizó y promovió este Programa de Doctorado de la Universidad Autónoma de Madrid, con la colaboración de la Universidad de Lenguas Extranjeras de Beijing. Quisiera agradecer a los miembros del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid por la ayuda que me han ofrecido durante estos años de aprendizaje. Se trata de un soporte profesional muy importante. Muchas gracias por permitirme vivir una experiencia tan inovidable y bonita para mi formación. Muchas gracias al Dr. José María Guirao de la Universidad de Granada que, con su gran profesionalidad en el campo de la informática, siempre me ha prestado ayuda para resolver todos los problemas técnicos. Un agradecimiento especial al Sr. Wang Zhiwei, director de la Oficina de Asuntos Educativos de la Embajada de la República 2

3 Agradecimientos Popular China en España, por los ánimos y los datos relacionados con la enseñanza de chino en España que me ha facilitado. Tengo la suerte de haber conocido a la familia de Marisol Cerezo y de José Ramón. A esta familia le agradezco especialmente su amabilidad, amistad y ánimo durante mi estancia en España. Los considero como mi familia en España. Con ellos he compartido muchos momentos que siempre llevaré en mi corazón y gracias a los cuales nunca me he sentido sola en España. Estoy profundamente agradecida a todos los participantes del corpus y la Universidad de Estudios Internacionales de Beijing que es mi lugar de trabajo, por su comprensión, colaboración y apoyo a la enseñanza de idiomas. Han contribuido mucho a la elaboración de este corpus de habla espontánea de chino putonghua. Sin ellos, esta tesis no habría podido ver la luz. Finalmente, no me olvido de mis amigos, alumnos y familiares. Muchas gracias por todo. Os quiero a todos. Una mención especial va para mi marido An. Soy afortunada por contar siempre con su amor, comprensión y ánimo que me sirven como fortaleza firme para seguir adelante. 3

4 Índice general Índice general 1. Introducción Motivos del trabajo Objetivos de la investigación Estructura de la tesis PARTE PRIMERA Bases teóricas La Lingüística de Corpus Aspectos generales El corpus C-ORAL-ROM La Lingüística de Corpus en China El uso de corpus en la enseñanza de lenguas Las aplicaciones de corpus en la enseñanza de lenguas La experiencia del laboratorio LLI-UAM El chino putonghua Visión global Evolución del idioma chino Caracteres chinos Hanyu pinyin Dialectos Lengua oral y escrita Gramática Léxico La enseñanza de la lengua china como lengua extranjera en España PARTE SEGUNDA La aplicación Diseño del corpus Aspectos generales Elección de los participantes

5 Índice general 5.3 Tres tipos de grabación Comparación con el corpus CADCC Diseño final Metodología Grabación y digitalización Transcripción ortográfica Alineamiento Transcripción de pinyin Conversión XML Resumen Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas El uso de corpus en la enseñanza del léxico El uso de corpus en la enseñanza de la gramática El uso de corpus en la enseñanza de comprensión auditiva El uso de corpus en la enseñanza de fonemas Conclusión Bibliografía Apéndice A Apéndice B Apéndice C

6 Índice de tablas y figuras Índice de tablas y figuras Parte primera Tabla 2.1 Matriz del diseño de C-ORAL-ROM 32 Tabla 2.2 Tabla general del corpus multimedia C-ORAL-ROM 35 Figura 3.1 Aplicaciones de Corpus en la Enseñanza de 42 Lenguas Tabla 3.2 Contenidos gramaticales 49 Tabla 3.3 Nociones y funciones comunicativas 50 Tabla 3.4 Contenidos léxicos 51 Figura 3.5 Herramienta de búsqueda de C-ORAL-ROM 52 Tabla 4.1 Número de caracteres en diccionarios chinos 62 Tabla 4.2 Contabilidad de número de sílabas de la lengua oral 72 y la escrita Tabla 4.3 Contabilidad de número de morfemas de la lengua 72 oral y la escrita Tabla 4.4 Contabilidad de número de significados de la lengua 73 oral y la escrita Tabla 4.5 Contabilidad de palabras que llevan tres sufijos 73 habituales en dialectos, lengua oral y lengua escrita Tabla 4.6 Ejemplos de relaciones entre categorías y elementos 78 sintácticos Parte Segunda Tabla 5.1 Edad de los participantes de C-ORAL-CHINA 92 Tabla 5.2 Parámetros en el diseño del corpus 95 C-ORAL-CHINA Tabla 5.3 Datos básicos del corpus CADCC 97 Tabla 5.4 Distribución de tiempo/tema de cada pareja de 98 interlocutores Tabla 5.5 Velocidad caracteres / segundo del subcorpus 100 Formal en contexto público. Tabla 5.6 Velocidad caracteres / segundo del subcorpus 101 Informal Tabla 5.7 Velocidad caracteres / segundo del subcorpus de 102 6

7 Índice de tablas y figuras Medios de comunicación Figura 5.8 Ejemplo de transcripción en CADCC 103 Figura 5.9 Ejemplo de transcripción en C-ORAL-CHINA 104 Figura 5.10 Ejemplo de transcripción de pinyin (sin 105 segmentación de palabras) Figura 5.11Ejemplo de transcripción de pinyin (con 105 segmentación de palabras) Tabla 5.12 Convenciones de transcripción de signos 106 paralingüísticos de CADCC Figura 6.1 Modelo de permiso de grabación 109 Figura 6.2 Edición del sonido con Cool Edit 110 Figura 6.3 Programa de transcripción Transana 125 Figura 6.4 Alineamiento en Transana 126 Figura 6.5 Salida del alineamiento en transana 128 Figura 6.6 Ejemplo de salida a formato XML 130 Tabla 6.7 Convenciones de la transcripción 132 Figura 7.1 Ejemplo de C-ORAL-CHINA 137 Figura 7.2 Pantalla principal de la página web 138 Figura 7.3 Buscador de C-ORAL-CHINA 139 Figura 7.4 Ejemplos de la palabra buscada 感动 139 Figura 7.5 Ejemplos de la palabra buscada 激动 140 Figura 7.6 Ficheros de Transcripciones Figura 7.7 Contenido del fichero chin02 Figura 7.8 Informaciones resumidas de todos los ficheros de C-ORAL-CHINA Tabla 7.9 Ejemplos de la palabra buscada 采用 Figura 7.10 Ejemplos de la palabra buscada 采纳 144 Figura 7.11 Ejemplo de supermercado de C-ORAL-CHINA 174 Tabla 7.12 Datos básicos del subcorpus de pinyin 176 Tabla 7.13 Frecuencia de consonante inicial 177 Tabla 7.14 Frecuencia de vocal según el tono 179 Tabla 7.15 Frecuencia y porcentaje total de vocal 181 7

8 Introducción 1. Introducción 1.1 Motivos del trabajo Hoy en día nos encontramos inmersos en la llamada era de la informática. Diferentes ámbitos de la investigación lingüística están influidos por el gran impacto tecnológico y el peculiar tratamiento informático de nuestros días. La lingüística de corpus se cuenta entre ellos. El primer corpus moderno de inglés, legible por máquina, el Brown corpus (una compilación de inglés estadounidense de aproximadamente un millón de palabras), fue creado en los años sesenta del siglo pasado (McEnery et al., 2006). A partir de los años 80, el número y tamaño de los corpus y los estudios basados en ellos han crecido espectacularmente. La lingüística de corpus ha entrado desde entonces en un crecimiento progresivo. La explotación constante de los programas y softwares informáticos no sólo ha impulsado la construcción de corpus, sino que ha aumentado además la capacidad de tratamiento de éstos. La gran cantidad de corpus anotados han favorecido la investigación lingüística. Gracias a todo esto, se ha ido ganando paulatinamente en métodos de investigación más avanzados. En la actualidad, los corpus en soporte informático constituyen una herramienta de gran utilidad para el desarrollo de la lingüística. Según la necesidad concreta de los investigadores, la creación de corpus puede tener diversos fines, tales como la elaboración de diccionarios, el estudio de frecuencia de palabras en un determinado dominio comunicativo, la investigación de algunos fenómenos lingüísticos, la enseñanza de lenguas, etc. En suma, la lingüística de corpus se puede considerar como una metodología con gran rango de aplicación en muchas áreas y teorías de la lingüística (McEnery et al., 2006). 8

9 Introducción El Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (LLI-UAM) cuenta con muchos años de experiencia en la elaboración y aplicación de corpus. Algunos de sus recursos lingüísticos son: Corpus Oral de Referencia de la Lengua Española Contemporánea, Corpus de Referencia de la Lengua Española en la Argentina, Corpus de Referencia de la Lengua Española en Chile, Spanish Treebank Corpus, C-ORAL-ROM, Corpus de Habla Infantil Espontánea del Español, Corpus Árabe-Español, etc. Entre ellos, C-ORAL-ROM es un corpus multilingüe que se caracteriza por su espontaneidad: los textos se han grabado en su contexto real y sin guión preestablecido. En esta tesis, aprovechando la experiencia y la metodología del LLI-UAM, se estudia la compilación de un corpus de habla espontánea de chino putonghua para su aplicación en la enseñanza como segunda lengua a hispanohablantes. La lengua no sólo es una herramienta de comunicación, sino que también sirve como un puente que impulsa el conocimiento entre gentes de diferentes procedencias y referencias culturales. A medida que se consolidan las relaciones económicas, políticas, culturales y educativas entre China, España y América Latina, el interés por el aprendizaje del idioma chino está creciendo de manera acelerada en el mundo hispanohablante. No obstante, en comparación con otros países, todavía queda mucho por explorar en lo que a la enseñanza de la lengua china a los hispanohablantes se refiere. La combinación de corpus y enseñanza de lenguas se ha convertido en una metodología merecedora de una atención especial por lo mucho que puede aportar. Por citar sólo algunas de las muchas aplicaciones posibles en la polifacética enseñanza de lenguas, los corpus pueden usarse, por ejemplo, en la preparación de manuales, en el uso de DDL (Data driven Learning), en la evaluación del nivel del dominio de la lengua, la formación de profesores, el aprendizaje de una lengua para un uso específico, etc. En nuestro caso, creemos que un corpus de habla espontánea de chino putonghua elaborado desde la perspectiva 9

10 Introducción del aprendiz hispanohablante de chino podría ser un instrumento eficaz tanto para profesores como para alumnos. Por medio de las herramientas concretas en cada caso, todos los interesados pueden aprovechar los recursos del corpus para el estudio, según el nivel, la necesidad y el interés de cada uno. Dolores Font atribuye una importancia crucial a la investigación a partir del habla espontánea, [ ] porque es el modelo que nos proporciona el habla real y genuina, la lengua en su estado natural (Font, 2007: 318). Massimo Moneglia resalta su necesidad: It is important to achieve knowledge on spoken language for the purpose of the development of linguistic engineering, which, in the era of digital communication, must address the primary role played by spontaneous speech within natural communication (Cresti y Moneglia, 2005: 1). Un corpus de habla espontánea de chino puede constituir una fuente ideal de datos vivos en situaciones comunicativas de uso real, lo cual es muy útil para que los estudiantes puedan afrontar situaciones comunicativas cotidianas básicas en una eventual estancia en China. Puede servir como manual moderno y suplementario para el aprendizaje de idiomas, compensando las deficiencias de los materiales tradicionales. Puede además aportar conocimientos de la cultura de la lengua y proporcionar datos estadísticos necesarios, etc. 1.2 Objetivos de la investigación Los objetivos de este estudio se pueden resumir en 5 puntos diferenciados: 1. Recogida de muestras de chino putonghua espontáneo para la creación de un corpus con alrededor de 10 horas de grabación. 10

11 Introducción 2. Transcripción ortográfica de las muestras. 3. Alineamiento de la transcripción y el sonido de todo el corpus. 4. Confección de una página web para la consulta del corpus. 5. Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus. 1.3 Estructura de la tesis Con la finalidad de dar cumplimiento a los objetivos arriba mencionados, la tesis está organizada en dos partes: la parte teórica y la práctica. En la primera parte, se enuncia la teoría sobre la que se fundamenta la creación del corpus. En la segunda, se expone la compilación del corpus y se estudia su aplicación a la enseñanza. La primera parte consta de tres capítulos. En el segundo capítulo, bajo el primer apartado, se presenta una amplia revisión de la lingüística de corpus y se resumen las características generales de un corpus. El segundo se dedica a la presentación del corpus C-ORAL-ROM como modelo para el desarrollo de nuestro proyecto. En el último, se enumeran los corpus actuales en China y se resaltan las características entre uno y otro. El tercer capítulo trata del uso de corpus en la enseñanza de lenguas. Con el desarrollo de la lingüística de corpus, cada vez hay más estudios sobre su aplicación a la enseñanza. Aquí se resumen los antecedentes históricos a nivel mundial desde un punto de vista histórico y se presenta la experiencia del LLI-UAM que durante varios años ha estado dedicado a la explotación de los corpus elaborados. El cuarto capítulo se dedica al chino putonghua. Aparte de una visión global, se explican su origen, evolución, escritura, hanyu pinyin, léxico, lengua oral y escrita, gramática, etc. A continuación, se describe el desarrollo de la enseñanza de la lengua china como lengua extranjera en España, tomándolo como referencia de la situación de la enseñanza de chino a hispanohablantes. 11

12 Introducción Con el capítulo quinto comienza la parte de la tesis elaborada con vistas a su aplicación como material de enseñanza lingüística. Se trata, ante todo, del diseño del corpus. Al hacer la elección de los participantes, hay que tener en cuenta que China es un país con muchos dialectos y el objetivo de este corpus es el de servir de material de enseñanza. El corpus cuenta con grabaciones de monólogos y diálogos que responden a tres diferentes tipos de registro verbal: formal en contexto público, medios de comunicación e informal. Como hoy por hoy ya existen varios corpus de chino putonghua hechos por diferentes organismos, finalmente, se hace una comparación del nuestro con uno de referencia: el corpus CADCC. En el capítulo sexto se indica la metodología que abarca grabación, digitalización, transcripción, revisión, alineamiento, conversión a lenguaje computacional XML y transcripción de pinyin. Como hemos comentado antes, la construcción del corpus de habla espontánea de chino putonghua se basa en la metodología empleada para la elaboración de C-ORAL-ROM y aprovecha la experiencia y los recursos del LLI-UAM. A continuación, en el siguiente capítulo, se estudia cómo se aprovechan los recursos basados en un corpus para aplicarlos a la enseñanza de lenguas planteando propuestas didácticas propias. Se divide en cuatro subcapítulos: el uso de corpus en la enseñanza del léxico, de la gramática, de comprensión auditiva y el estudio de los fonemas en el corpus, basado en la transcripción de pinyin. Finalmente, se ofrece un capítulo conclusivo en donde, partiendo de las observaciones y las experiencias obtenidas en la realización del trabajo, se proponen una serie de tareas para la investigación en el futuro. Después de los capítulos, se registra la bibliografía en la que se listan los libros consultados y las páginas web visitadas. Para concluir este trabajo, se han incluido tres apéndices donde se ofrecen ejemplos de transcripción y diferentes tablas y figuras con datos estadísticos. 12

13 PARTE PRIMERA Bases teóricas 13

14 La Lingüística de Corpus 2. La Lingüística de Corpus La Lingüística de Corpus es una subdisciplina de la lingüística, descrita como the study of language on the basis of text corpora (Aijmer y Altenberg, 1991: 29). A lo largo de los últimos años, gracias a la creciente capacidad tecnológico-computacional, la Lingüística de Corpus ha logrado un gran progreso. Uno de los temas en disputa en la comunidad científica es si la Lingüística de Corpus es una metodología empírica de trabajo o más bien una rama independiente de la lingüística. Diferentes estudiosos de la cuestión han expresado sus propias opiniones. En esta tesis, no trataremos de profundizar en ese debate sino que vamos a analizar y comentar su aplicación porque, sea como sea, ninguna escuela científica puede negar su importancia y papel en la investigación lingüística. Para nuestros antepasados hubiese sido imposible imaginar cómo hoy día seríamos capaces de registrar y manipular recursos de centenares de millones de palabras. Según la necesidad, por medio de herramientas como analizadores sintácticos, etiquetadores morfológicos o programas de concordancias, los investigadores pueden desde hacer la anotación de un corpus determinado, hasta sacar datos estadísticos como la frecuencia o la probabilidad para hacer un análisis cuantitativo, pasando por describir las características de la lengua, aplicar esos mismos datos en la enseñanza de lenguas o verificar alguna hipótesis respecto a éstas, etc. En suma, su utilidad es muy amplia de áreas de la investigación lingüística. 2.1 Aspectos generales 14

15 La Lingüística de Corpus Definición de corpus La palabra corpus es de origen latino y significa cuerpo. Según el Diccionario de la Real Academia Española de la Lengua, se trata de todo conjunto lo más extenso y ordenado posible de datos o textos científicos, literarios, etc., que pueden servir de base a una investigación. En los años sesenta del siglo pasado, el primer corpus legible por máquina, The Brown corpus, fue compilado en los Estados Unidos, lo que significó el nacimiento de los corpus informatizados modernos. A partir de ese momento, el concepto corpus no ha parado de evolucionar, reclamando nuevos significados para sí en la lingüística moderna. Diversas definiciones tratan de dar cuenta de ello: A collection of sampled texts, written or spoken, in machine-readable form which may be annotated with various forms of linguistic information. A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language (McEnery et al.,2006: 4). Un corpus es un conjunto de textos de lenguaje natural e irrestricto, almacenados en un formato electrónico homogéneo, y seleccionados y ordenados, de acuerdo con criterios explícitos, para ser utilizados como modelo de un estado o nivel de lengua determinado, en estudios o aplicaciones relacionados en mayor o menor medida con el análisis lingüístico (Santalla del Río, 2005: 45-46). En sentido general, se puede entender que los corpus modernos se caracterizan por los siguientes rasgos fundamentales: Autenticidad de los datos: Los muestras recopiladas se recogen desde textos auténticos en situaciones reales, reflejando el uso de la lengua. 15

16 La Lingüística de Corpus Legible por máquina: Los textos se hallan disponibles en un formato electrónico. Se codifican, guardan y ordenan mediante la tecnología informática, facilitando así el análisis y el procesamiento de los datos. Anotación: Algunos estudiosos abogan por la anotación, opinando que cuenta con ventajas como la facilidad en la explotación y uso de los materiales, la diversidad en la función, la claridad en el análisis, etc. En contraste, los críticos creen que con la involucración subjetiva del investigador que anota, el material pierde objetividad y puede ser difícil garantizar la fiabilidad de la anotación. En la práctica, la anotación tiende a ser cada vez más exhaustiva. Para cada corpus concreto, dependiendo del objetivo, se puede buscar una manera apropiada de anotación Criterios en el diseño de corpus. A continuación, se mencionan ciertos criterios que se deben considerar durante el diseño de cualquier corpus. Objetivo: La creación de corpus puede servir tanto para uso personal como para la investigación lingüística. Hay desde luego muchos objetivos: redacción de diccionarios, contabilidad de frecuencia, análisis de algún fenómeno lingüístico, estudio de la lengua de algún escritor, enseñanza de lenguas, traducción automática, etc. El objetivo decide el ámbito y tamaño de la selección de muestras. Representatividad: Con este concepto se resalta que el corpus debe poseer la cualidad de mostrar fidedignamente, a través de sus contenidos, la realidad de la lengua en la gran comunidad de hablantes que la utilizan. Dicha representatividad se destaca con el fin de lograr la fiabilidad de la deducción sacada sobre la base del análisis del corpus. Sin embargo, es imposible llegar a una representatividad absoluta. Por lo general, se recomienda que los 16

17 La Lingüística de Corpus diseñadores traten de seleccionar muestras que puedan garantizar la variedad de la lengua de estudio para que las muestras limitadas puedan reflejar las características de los fenómenos lingüísticos de la lengua infinita lo mayor posible. Sobre todo, si se quiere construir un corpus general para hacer la descripción de alguna lengua en su conjunto, la representatividad constituye una condición imprescindible. Un corpus amplio, completo y equilibrado es ciertamente muy útil para la investigación y análisis. Los corpus famosos como The Brown Corpus y BNC son de este tipo. Equilibrio: Si un corpus se destina a estudiar las variedades de una lengua, hay que determinar con antelación las que estarán representadas y calcular su proporción en el corpus, de manera que nos permitan validar aquellas conclusiones extraídas. Por ejemplo, si se quiere elaborar un corpus de dialectos del chino, primero hay que analizar los dialectos principales de China, y luego decidir en qué porcentaje habrá de recoger las muestras de distintas zonas de China. Otro ejemplo es el corpus diacrónico CORDE (Corpus Diacrónico del Español). Abarca tres épocas fundamentales: la Edad Media, el Siglo de Oro y la época Contemporánea, además de una geografía hispanohablante muy amplia. Aquí el diseño previo de la estructura interna entre diferentes textos es crucial. Tamaño: Siempre ha sido cuestión discutida el tamaño de un corpus. No hay un estándar de cuántas palabras son adecuadas para un corpus concreto. Hay dos tendencias en la compilación de corpus (Flowerdew, 2002). De un lado, los corpus se tornan cada vez más grandes, dadas la manipulación y explotación informática de gran capacidad. De otro lado, se han compilado muchos corpus especializados que son más pequeños. Susan Hunston lo comenta en su libro Corpora in Applied Linguistics: [ ] the Bank of English is currently about 400 million. [ ] In the Bank of English corpus, for example, a search for the word point gives almost 143,000 hits. Few researchers can obtain useful information simply by looking at so many concordance lines. One solution is to use a smaller corpus, which will give less data. Another is to keep the large corpus, 17

18 La Lingüística de Corpus but to use software which will make a selection of data from the whole, [ ](Hunston, 2006: 25). En nuestra opinión, como hay tantos tipos de corpus y diferentes funciones, la extensión de un corpus debe depender de la finalidad para la que se cree. Obviamente, un corpus que recopila extensos textos con el fin de servir como muestra representativa de una lengua para reflejar su uso se distingue mucho de un corpus confeccionado para algún estudio específico. Lo más importante es que la extensión del corpus pueda satisfacer la necesidad del investigador. Hasta la fecha, la discusión de estos y otros aspectos sigue abierta. En cualquier caso, se trata siempre de criterios y factores estrechamente relacionados con la finalidad de un corpus determinado. En el capítulo 5 abordaremos de nuevo estos criterios que dirigen la elaboración de un corpus, junto a la práctica de nuestra compilación de C-ORAL-CHINA Evolución histórica de la idea de corpus La historia de los corpus que concierne al estudio de lenguas y a la búsqueda de palabras y frases en múltiples contextos puede remontarse al siglo XIII. Los eruditos medievales y su cohorte escolástica estudiaron la Biblia página por página y registraron manualmente en índices las palabras de cada línea (McCarthy y O Keeffe, 2010: 3). Gracias al progreso de la tecnología informática, la eficacia y el tamaño de la compilación de corpus han elevado mucho sus cotas, contribuyendo firmemente a un uso más amplio. Podemos dividir la historia de su desarrollo en dos épocas. La época con anterioridad a la aparición del ordenador es la de los corpus tradicionales (corpus on slips of paper). Los materiales se coleccionaban y organizaban manualmente. Como no tenían formato electrónico, los datos se registraban en papel. 18

19 La Lingüística de Corpus Por ejemplo, el diccionario de inglés del Dr. Samuel Johnson, publicado en 1755, fue el resultado de muchos años de trabajo. Se apuntaba en gran cantidad de papel el uso de las palabras inglesas durante el período desde 1560 hasta Otro ejemplo es The Oxford English Dictionary (OED) en la década de los 80 del siglo XIX. Sin esos más de tres millones de fichas que le sirvieron de base, este famoso diccionario no habría sido compilado. La experiencia demuestra que la recogida de datos es esencial para el trabajo de los estudiosos. Como Leech señala, la década de los 50 es la era de los estructuralistas estadounidenses, entre los cuales figuran Harris, Fries y Hill, etc (McCarthy y O Keeffe, 2010). Fueron ellos los precursores de los corpus, no sólo en el sentido de la recolección de datos de lengua usados en la vida real, sino también en la práctica de asignarles un puesto central del estudio lingüístico. Sin embargo, a finales de los años 50, la publicación de los libros del padre de la gramática transformacional y generativista, Noam Chomsky provocó un cambio radical de enfoque en los estudios lingüísticos, haciendo que la investigación de corpus fuera momentáneamente apartada y se viese muy afectada. Chomsky atribuye gran importancia a la intuición del hablante, según la opinión de que la introspección es un criterio suficiente para determinar la competencia y el empleo adecuado de una lengua. En otras palabras, la introspección permitiría determinar la gramaticalidad de un enunciado o resolver ambigüedades. Según él, el principal objetivo de la investigación lingüística es establecer un modelo de reconocimiento de la lengua que pueda reflejar la realidad psicológica y la competencia lingüística del hablante. Esencialmente, los corpus son recopilaciones de palabras, sujetas a errores y variaciones. Resulta inevitable que cualquier corpus sea incompleto y finito. No se puede coleccionar todo. La investigación basada en este modelo de empirismo se limitaría, pues, a explicar una parte de la competencia y no sería capaz de reflejar la infinita capacidad generativa de las lenguas naturales. Por todo esto, este lingüista postula que los corpus no pueden considerarse como una herramienta relevante para los lingüistas (Ding Xinshan, 2005). 19

20 La Lingüística de Corpus Durante los años 60 y 70, predominó el racionalismo basado en la intuición del lingüista. Siendo objeto de duras críticas, la Lingüística de Corpus experimentó una época difícil. Fue empujada al margen de la corriente lingüística dominante. Sólo unos pocos lingüistas continuaron con la recogida y la inducción de datos. Gracias a su trabajo, no sólo reformaron el método y las herramientas de compilación y tratamiento de recursos de corpus, sino que también ampliaron el campo de investigación basado en corpus. En 1959, Quirk planteó el proyecto SEU (Survey of English Usage), cuyo objetivo era hacer una descripción completa y adecuada de la gramática del inglés. Al principio, los datos también fueron copiados en fichas. Poco después, en 1961, el Brown Corpus, dirigido por N. Francis, H. Kucera, entre otros lingüistas y expertos informáticos, fue el primer corpus informatizado en el mundo. A partir de ese momento, nació la primera generación de corpus modernos, marcada por la presencia del ordenador. La primera generación de corpus informatizados contaba con las siguientes características: Formato electrónico: En comparación con los corpus tradicionales, este formato facilitaba a los usuarios el almacenamiento, la búsqueda, el procesamiento o el mutuo compartir de recursos. Representatividad de los datos: Los proyectos de elaboración de corpus pretendían recoger textos que representaran el estado de la lengua en ese momento. Se produjeron más corpus de textos escritos que orales. Tamaño: Como el ordenador podía almacenar grandes recursos, la velocidad de procesamiento y la magnitud de almacenamiento aumentaron mucho. Ciertos corpus llegaban a contar cerca del millón de palabras. Algunos ejemplos de esta primera generación de corpus son los siguientes: 20

21 La Lingüística de Corpus The Brown Corpus. Se compiló en la Universidad de Brown, con 500 muestras de 2000 palabras (1 millón de palabras) del inglés americano escrito. Lancaster-Oslo/Bergen Corpus (LOB). Se compiló en Lancaster, Oslo y Bergen en 1961, con 1 millón de palabras de inglés británico escrito. The London-Lund Corpus of Spoken English (LLC). Derivaba de dos proyectos. El primero fue The Survey of English Usage Corpus (SEU) de la University College London, lanzado en 1959 por Randolph Quirk. El segundo era The Survey of Spoken English (SSE), dirigido por Jan Svartvik en la Lund University en Este corpus despertó el interés de la investigación por el inglés hablado. The Lancaster/IBM Spoken English Corpus (SEC). Contenía palabras del inglés británico oral. Como su etiquetador abarcaba la anotación fonética y gramatical, se usaba en la investigación de síntesis de habla y reconocimiento fonético. En la década de los 80, los corpus eran capaces ya de mostrar muchas ventajas. Se utilizaban en el estudio del lenguaje como test de hipótesis lingüísticas, construcción de sistemas de procesamiento del lenguaje natural, etc. Dado su gran tamaño, sus diversas funciones, su gran capacidad de procesamiento y almacenamiento y facilidades de búsqueda, la investigación basada en corpus electrónicos cada vez fue llamando más la atención de los investigadores. Diversos lingüistas disputaban y argumentaban a favor del papel de los corpus en la investigación lingüística. Esta metodología basada en recursos de lengua natural volvió, así, a lograr el reconocimiento general. Los grandes corpus de esta nueva generación se caracterizan por: Rapidez: El desarrollo de internet y la velocidad de descarga hacen que los datos y resultados se puedan transferir de lingüista a lingüista de manera muy rápida. 21

22 La Lingüística de Corpus Tamaño: Con el desarrollo tecnológico y el progreso en la elaboración y empleo de programas específicos para la lingüística de corpus, cada vez aparecen corpus más grandes, sobrepasando los mil millones de palabras. Internacionalización: Empiezan a prestar atención a cada variante de la lengua. La creación de corpus de inglés se inició en Inglaterra y los Estados Unidos. A medida que el inglés se popularizaba en el mundo, los lingüistas se daban cuenta de que también eran importantes los corpus que pudieran representar el inglés como lengua segunda o lengua extranjera. Por ejemplo, el corpus The International Corpus of English (ICE) tenía por objeto la colección de recursos orales y escritos para hacer comparación del estudio de inglés en el mundo. 23 equipos de investigación a nivel mundial han participado en este proyecto. Cada equipo seguía un diseño común y un programa de anotación gramatical común 1. La aparición de corpus monitor dinámicos, actualizados continuamente: Por ejemplo, cada semana, el corpus COBUILD de Inglaterra, envía s a sus usuarios, mandándoles información sobre cambio dinámico de palabras y estructuras. Lenguas: En la fase inicial del desarrollo de la Lingüística de Corpus, los corpus en la lengua inglesa ocupaba la posición dominante. Poco a poco, empiezan a florecer corpus en diferentes lenguas y corpus multilingües. Procesamiento: La automatización del procesamiento de los textos de un corpus (asignación de categoría gramatical, desambiguación, extracción de concordancias, etc.) es cada vez más potente. Facilidad de acceso. Muchos recursos de corpus están disponibles en Internet. Como consecuencia, no hacen falta herramientas complicadas para acceder a ellos. Como ejemplos de corpus de esta segunda generación, destacamos: 1 The International Corpus of English [en línea]: < > [consulta: 13 de abril de 2011] 22

23 La Lingüística de Corpus Longman Corpus Network. Formado por tres corpus que son Longman/Lancaster English Language Corpus (LLELC), Longman Spoken Corpus (LSC) y Longman Corpus of Learners English (LCLE). Uno de los objetivos es la elaboración de diccionarios para los aprendices extranjeros del inglés. Consta de 50 millones de palabras. The British National Corpus (BNC). Contiene 100 millones de palabras del inglés británico contemporáneo escrito y hablado. The Bank of English (Proyecto COBUILD). Contiene 524 millones de palabras del inglés moderno escrito y oral. Corpus de Referencia del Español Actual (CREA). Contiene 160 millones de palabras de textos escritos y orales del español actual. Corpus Diacrónico del Español (CORDE). Abarca textos escritos del español desde la Edad Media hasta la época contemporánea, con 250 millones de palabras. Corpus for Spoken Romance Languages (C-ORAL-ROM). Se trata de un corpus oral multilingüe y general del habla de cuatro lenguas romances (francés, español, italiano y portugués) en sus diferentes registros. Global Language Monitor (GML). Se estableció como proyecto en Su principal objetivo es registrar, analizar y seguir la tendencia de desarrollo de las lenguas en el mundo, sobre todo, el desarrollo del inglés. El creador Paul Payack planteó el índice PQI (The Predictive Quantities Indicator) para seguir la frecuencia del vocabulario inglés en los medios de comunicación y predecir tendencias en su desarrollo, así como su cambio a corto plazo, etc Tipos de corpus Existe una gran variedad de tipos de corpus, que difieren entre sí conforme a múltiples aspectos. En este apartado, se enuncian algunos de los principales tipos de corpus según el propósito y los parámetros. Según la modalidad de la lengua, 23

24 La Lingüística de Corpus Corpus escritos: también llamados corpus textuales, son muestras de lengua escrita. Corpus orales: muestras de lengua hablada. Se pueden dividir en (Moreno y Urresti, 2005): Corpus de habla espontánea: transcripciones de producciones lingüísticas espontáneas. Base de datos acústicos: el núcleo de la investigación es la señal sonora, y se caracterizan por su carácter controlado. Corpus mixtos: combinación de muestras de lengua escrita y lengua hablada. Corpus multimodal: muestras lingüísticas en varios formatos multimedia (texto, sonido, imagen, etc.). Gracias a ellos, se puede leer la transcripción, escuchar la grabación y visualizar la imagen a la vez. Es un nuevo tipo de corpus. Según el número de lenguas, Corpus monolingües: muestras de una sola lengua. Se recopilan con el objetivo de dar a conocer una lengua o variedad lingüística. Corpus bilingües o multilingües: muestras de dos (bilingües) o más lenguas (multilingües). Son útiles para un aprendizaje constructivo a partir del conocimiento previo de la propia lengua, así como para la detección de falsos amigos. Se pueden dividir en: Corpus comparables: textos parecidos respecto a sus características y criterios de selección. Se pueden usar para la comparación de diferentes lenguas. C-ORAL-ROM pertenece a este tipo. 24

25 La Lingüística de Corpus Corpus paralelos: el mismo texto original traducido a una o más lenguas representadas en el corpus. Se pueden utilizar en la traducción automática o en entornos bilingües o multilingües como la ONU, la UE, la OTAN, etc. Según el procesamiento, Corpus puros: textos electrónicos guardados sin ninguna anotación. Corpus anotados: textos enriquecidos mediante la adición de información lingüística de algún tipo (ortográfica, fonética, fonológica, prosódica, semántica, discursiva o gramatical: morfosintáctica o sintáctica) (Santalla del Río, 2005). Corpus verticales: el resultado de disponer en forma de columna las palabras de un texto ordenadas según criterios alfabéticos o de frecuencia. Las palabras se tratan así aisladamente, sin contexto (Villayandre, [en línea]). Según la especificidad de los textos, Corpus generales: también llamados corpus de referencia; muestras que tratan de reflejar la lengua y sus variedades lingüísticas de la manera más exhaustiva y equilibrada posible. Corpus especializados: textos compilados para la descripción de uno o varios aspectos concretos de lengua. Según criterios de temporalidad, Corpus cronológicos: muestras de uno o más períodos concretos con el objeto de estudiar la lengua producida durante esa horquilla de tiempo. Corpus diacrónicos: muestras de diferentes etapas para el estudio de la evolución de la lengua durante un largo período. 25

26 La Lingüística de Corpus Corpus sincrónicos: muestras de una o más variedades lingüísticas en un momento histórico dado. Se pueden utilizar para hacer comparaciones entre variedades o dialectos de una lengua La aplicación de corpus Después de entrar en los años 80, el desarrollo de la Lingüística de Corpus se ha acelerado. Se han compilado muchos corpus nuevos. El alcance de su aplicación se amplía gradualmente: Redacción de libros de referencia: Como colecciones extensas de textos naturales, los corpus constituyen una fuente muy rica de materiales. Pueden suministrar gran cantidad de ejemplos y reflejar el uso más típico y nuclear de la lengua contemporánea. Muchos diccionarios o gramáticas se redactan sobre la base de corpus. Por ejemplo, después del establecimiento del corpus SEU, Quick y sus colegas confeccionaron A Grammar of Contemporary English y A Comprehensive Grammar of the English Language. Basándose en el proyecto COBUILD, se publicaron los siguientes libros: The Collins COBUILD English Language Dictionary, The Collins COBUILD English Grammar, The Collins COBUILD Student's Grammar, The Collins COBUILD Dictionary of Phrasal Verbs, Collins COBUILD English Guides, Collins COBUILD English Usage, etc. Investigación de la lengua: Con muestras auténticas y abundantes, los corpus repercuten muy positivamente en la investigación de la lengua. Su creación ha reformado la metodología de la investigación teórica de la lengua. Los corpus diacrónicos que abarcan una serie de etapas históricas son útiles para el estudio de la historia de la lengua. La función de herramientas como los programas de concordancias y el recuento de palabras pueden facilitar mucho la descripción de las lenguas y el análisis lingüístico (sintáctico, fonético, discursivo, gramatical, semántico ). Ayudan a la comparación entre variedades regionales o entre la lengua hablada y la escrita. Gracias a los corpus, las teorías lingüísticas disponen de ejemplos reales y datos cuantitativos. 26

27 La Lingüística de Corpus Lingüística Computacional: La Lingüística Computacional trata de la construcción de sistemas informáticos que procesen la estructura lingüística y cuyo objetivo sea la simulación parcial de la capacidad lingüística de los hablantes de una lengua (Moreno, 1998). Con los datos extraídos de los corpus, se ha impulsado el desarrollo de la Lingüística Computacional, aplicada a tareas como la traducción automática, la investigación de herramientas de procesamiento de corpus, el reconocimiento de habla, etc. Ambos son complementarios. Se puede lograr, sin lugar a dudas, una interacción fructífera. Con el desarrollo de corpus, nacieron una serie de herramientas automáticas de anotación como analizadores sintácticos, etiquetadores morfológicos, etc. Tienen capacidad de tratar grandes cantidades de muestras. A pesar de que el resultado no puede llegar a ser completamente correcto, son muy prácticas en la elaboración y la anotación de corpus. Efectivamente, antes la anotación se realizaba manualmente. Ahora, la combinación de procesamiento automático y corrección manual han acelerado en gran medida la velocidad de anotación. En este sentido, la tecnología de la Lingüística Computacional sirve como la base técnica de la creación y procesamiento de corpus. Por otra parte, los investigadores de la Lingüística Computacional pueden acceder fácilmente a corpus de lengua escrita y oral de gran tamaño, entre ellos se incluyen corpus anotados como Penn Treebank, Prague Dependency Tree Bank, PropBank, RST Bank, Time Bank, etc. Son recursos que muestran anotación de diferentes estratos como la sintáctica, la semántica, la retórica, etc. Su existencia hace que la investigación de la Lingüística Computacional pueda usar la metodología de aprendizaje automático supervisado (supervised machine learning) para tratar aquellos análisis automáticos tradicionalmente complicados como el análisis sintáctico o semántico (Feng Zhiwei, 2008). La traducción automática atañe a la tecnología de procesamiento de la lengua natural y de diferentes lenguas. Hay que reconocer que todavía faltan herramientas de análisis perfeccionadas para la traducción de una oración o un 27

28 La Lingüística de Corpus párrafo completo. Pero los traductores humanos pueden introducir la lengua original y corregir luego manualmente, lo cual ahorra mucho tiempo de la traducción. Los corpus monolingües pueden servir para la traducción automática indirectamente. Los corpus paralelos pueden servir para la traducción automática directamente. Siguiendo determinados criterios y requisitos, se están desarrollando muchos programas sobre la base de la investigación de corpus grandes. El informático de la USC, Franz Och, incluso llegó a decir Give me enough parallel data, and you can have a translation system for any two languages in a matter of hours (Mackin, [en línea]). Enseñanza de lenguas: Los corpus contienen gran cantidad de datos de lengua de uso real, que pueden usarse en la enseñanza de lenguas maternas y lenguas extranjeras. Aprovechándolos, se puede preparar el vocabulario según la frecuencia de palabras; se puede ayudar a los alumnos a entender el significado y uso de algunas palabras en la situación comunicativa real; se puede reducir la diferencia entre la lengua enseñada en clase y la lengua usada por los nativos; se puede evaluar el nivel de la lengua; se puede facilitar el estudio fuera de clase; se pueden analizar más eficazmente los errores. En el Capítulo 3, se explica con mayor detalle esta polivalente aplicación de corpus Ventajas de los corpus La creación de corpus, unida al desarrollo de herramientas informáticas, ha hecho realidad la posibilidad de un análisis efectivo de grandes colecciones de datos. Hasta hoy, los corpus siguen teniendo sus limitaciones. Es imposible conseguir la representatividad absoluta. En el caso de corpus de lengua oral, todavía cuesta mucho tiempo hacer las transcripciones. Aunque los corpus monitor tienen actualización continua, muchos corpus están acotados temporalmente. Las colecciones de muestras escritas u orales tienen fecha inicial y final. Para una época determinada, pueden ser representativos; sin embargo, más adelante, pueden resultar anacrónicos. Las herramientas no son totalmente automáticas y se pueden mejorar. Sin embargo, son muy obvias sus ventajas: 28

29 La Lingüística de Corpus Textos en formato electrónico. Las herramientas informáticas se pueden aplicar con gran rapidez en el procesamiento de operaciones tales como la búsqueda, la recuperación de información o el cálculo de frecuencias. Es evidente que ahorran mucho tiempo y mano de obra. El corpus permite la investigación de muestras reales y de datos estadísticos, lo cual ha elevado la fiabilidad y la autenticidad de los estudios lingüísticos. Reutilización de recursos. Un mismo corpus puede usarse para diferentes investigaciones y en diferentes disciplinas científicas. Además, los corpus tienen un carácter abierto: se pueden componer nuevos corpus aprovechando corpus existentes y añadir nuevos contenidos. Son un recurso necesario para la exploración de los aspectos cuantitativos del lenguaje. Contiene nuevos fenómenos lingüísticos. Podemos encontrar en un corpus ciertas palabras nuevas que los diccionarios no contemplan y construcciones sintácticas que no aparecen en las gramáticas. A modo de resumen, gracias al desarrollo tecnológico y la profundización de la investigación, los corpus son cada vez más completos y más imprescindibles. 2.2 El corpus C-ORAL-ROM Según Massimo Moneglia, el habla espontánea se puede definir como every oral performance which does not execute a previous (written or scripted) text (Cresti y Moneglia, 2005: 4). Según esto, los eventos de habla espontánea comprenden: Interacción multimodal cara a cara; Referencia intersubjetiva a un espacio deíctico; Programación mental simultánea con la ejecución vocal (sin guión); 29

30 La Lingüística de Corpus Comportamiento lingüístico contextualmente indeterminado (comportamiento impredecible) (Cresti y Moneglia, 2005). En comparación con corpus de lengua escrita, los corpus orales florecen más tarde que los corpus escritos. Debido a las dificultades de la transcripción, los corpus orales suelen ser mucho más pequeños en tamaño. En las últimas dos décadas, se han notado avances importantes en la recopilación y desarrollo de corpus orales, sobre todo en el idioma inglés. Algunos ejemplos son: The Cambridge and Nottingham Corpus of Discourse in English; The Limerick Corpus of Irish English; The Hong Kong Corpus of Spoken English; The Michigan Corpus of Academic Spoken English. No cabe duda de su importancia. Los corpus orales pueden proporcionar un recurso único para el análisis de discursos naturales, y el creciente interés en el desarrollo de corpus orales sirve como prueba del valor que ofrecen a la comunidad científica (Adolphs y Knight, 2010). En este apartado, nuestra intención es resaltar especialmente el corpus C-ORAL-ROM. En la elaboración de C-ORAL-CHINA, nos ha servido como referencia y seguimos muchas de sus convenciones en la transcripción. C-ORAL-ROM es un corpus oral multilingüe de lengua espontánea en las cuatro lenguas romance principales: francés, italiano, portugués y español. Se compone de 772 textos y aproximadamente 121 horas espontáneas de habla por parte de 1,427 hablantes. Cada lengua tiene alrededor de palabras (Cresti y Moneglia, 2005). Este proyecto fue financiado por la UE bajo el V Framework Programme (IST ) y el consorcio está formado por nueve socios, coordinados por la Universidad de Florencia. El principal objetivo del proyecto 30

31 La Lingüística de Corpus C-ORAL-ROM es to provide a comparable set of corpora of spontaneous spoken language of the main Romance languages (Cresti y Moneglia, 2005: 1). La característica más significativa de C-ORAL-ROM consiste en su espontaneidad: los textos se han grabado en su contexto real y sin guión alguno. Cada subcorpus cuenta con la misma distribución textual para asegurar la comparabilidad y la representatividad. El recurso se presenta en varios formatos: una transcripción ortográfica, una versión etiquetada en XML y el alineamiento de sonido y texto. Además, se proporcionan una anotación lingüística parcial de los textos y programas para manejar los recursos y los estudios cuantitativos. Massimo Moneglia (2005) explica las estrategias del diseño de C-ORAL-ROM del modo siguiente: Se divide en habla informal (50%) y habla formal (50%). En las dos partes, se adoptan distintos criterios de selección de muestras. Define la dimensión de muestras en términos de número de palabras. Asegura la representación suficiente del habla informal dialogal, que tiene mayor valor. Garantiza la representación de habla formal tanto en medios de comunicación como en contextos naturales (face to face). La Tabla nos muestra la matriz del diseño de C-ORAL-ROM. 2 Laboratorio de Lingüística Informática [en línea]: < [consulta: 16 de enero de 2011] 31

32 La Lingüística de Corpus Tabla 2.1 Matriz del diseño de C-ORAL-ROM Requisitos Italiano Francés Español Portugués Sección Contexto Dominio Palabras Palabras Palabras Palabras Palabras INFORMAL Familiar-privado Monólogo Diálogo-Conversación Público Monólogo Diálogo-Conversación FORMAL Contexto natural Medios de comunicación Teléfono TOTAL

33 La Lingüística de Corpus Según sus estrategias, la longitud del texto se determina en términos de cantidad de información (por ejemplo, número de palabras). Las diferentes estrategias adoptadas en la sección formal e informal son: En la sección informal: Textos cortos: al menos 64 textos de unas palabras cada uno. Hasta un 20% de esta parte puede estar constituida por textos de diferentes longitudes. Textos largos: de 8 a 10 textos de unas palabras cada uno. En la sección informal, la longitud del texto se define según las siguientes reglas: Para Formal en contexto natural: 2 ó 3 muestras para cada dominio de una media de palabras. Para Medios de comunicación: 2 ó 3 muestras por cada dominio. Una media de palabras. Sólo muestras breves para Partes meteorológicos y Noticias. Para Teléfono: longitud del texto no definida (preferentemente palabras de límite máximo, sin límite mínimo). El dominio de las llamadas a servicios telefónicos y/o interacciones humano-máquina debe contener palabras. Este campo no está representado en el corpus portugués. En cuanto a la calidad de grabación, cabe señalar que el proyecto C-ORAL-ROM está orientado a la recogida de datos para un corpus en un ambiente natural, a pesar del hecho de que esto provoca necesariamente una disminución de la calidad acústica del recurso. Aparte, C-ORAL-ROM ha explotado, en el marco de un nuevo trabajo multilingüe, la riqueza de contenidos que suponen los archivos recopilados durante años de investigación en lengua oral. 33

34 La Lingüística de Corpus Por eso, la calidad acústica y las condiciones de grabación de las fuentes son variables. En este aspecto nuestro corpus difiere, ya que C-ORAL-CHINA es un corpus eminentemente destinado a la enseñanza y exige una alta calidad acústica. En C-ORAL-ROM, los requisitos para el formato acústico y los aparatos de grabación son los siguientes: Formato: archivos.wav mono (Windows PCM), frecuencia de las muestras: 22050Hz, 16 bit. Proceso de grabación y almacenamiento para antiguas grabaciones analógicas: se convierten directamente en archivos wav (20.050Hz 16 bit) mediante una tarjeta de sonido estándar (Sound Blaster live o compatible) con un editor de sonido profesional, Cool Edit Proceso de grabación y almacenamiento para nuevas grabaciones: 1. Diálogos: grabación estéreo con DAT o minidisk (44.100Hz) con micrófonos unidireccionales, convertidos en archivos wav mono (Windows PCM, 22050Hz, 16 bit) por medio de un puerto SPDIF de una tarjeta de sonido estándar (Sound Blaster live o compatible) con un editor de sonido profesional. 2. Conversaciones con más de dos participantes: grabación mono con DAT o minidiskcon micrófono omni-direccional convertida en archivos wav mono mediante un puerto SPDIF de una tarjeta de sonido estándar (Sound Blaster live o compatible) con un editor de sonido profesional. Los archivos de habla de la base de datos acústica se definen en una escala de calidad (grabación, volumen, solapamiento de voz y ruido). La escala de calidad se extiende desde el nivel más alto de claridad de la señal de voz hasta los niveles más bajos de calidad acústica. 34

35 La Lingüística de Corpus 1. Grabaciones digitales con DAT o minidisk y micrófonos unidireccionales o grabaciones analógicas de alta calidad. 2. Grabaciones digitales con respuesta de micrófono más pobre o grabaciones analógicas con: Buena respuesta de micrófono Bajo ruido de fondo Bajo porcentaje de enunciados solapados Cálculo de la F0 posible en la mayoría de los archivos 3. Grabaciones analógicas de baja calidad con: Respuesta de micrófono pobre Ruido de fondo Porcentaje medio de enunciados solapados Cálculo de la F0 posible en muchas partes de los archivos La calidad se evalúa espectrográficamente. Las seciones en las que el análisis de la F0 no es significativo se excluyen del muestreo. La calidad acústica de cada grabación y los datos más relevantes sobre las condiciones de grabacióm se incluyen siempre en los metadatos de cada texto. Los archivos de habla y de transcripción están en correspondencia de uno a uno. A continuación se presenta la tabla general del corpus multimedia C-ORAL-ROM: archivos Palabras en GB Duración Enunciados.wav archivos.txt Francés 206 3, Italiano 204 5, Portugués 152 4, Español 210 4, Tabla 2.2 Tabla general del corpus multimedia C-ORAL-ROM (Cresti y Moneglia, 2005) 35

36 La Lingüística de Corpus Para cada sesión de grabación de habla espontánea, se proporcionan los siguientes archivos en las carpetas del corpus multimedia. 1. Archivos de habla: archivos.wav descomprimidos (Windows PCM: 22,050 hz; 16 bit). 2. Transcripciones en formato CHAT, enriquecidas con la anotación de rupturas prosódicas terminales y no terminales y la información sobre el alineamiento, en archivos TXT. 3. Archivos de alineamiento sonido-texto: archivos XML en formato WIN PITCH CORPUS. 4. DTD del formato de alineamiento WinPitchCorpus. 5. Transcripción de cada sesión en formato CHAT en archivos.txt (sin la información de alineamiento). 6. Transcripción de C-ORAL-ROM para cada sesión en archivos.xml. 7. DTD para el formato C-ORAL-ROM.XML. 8. Metadatos en formato CHAT. 9. Metadatos en formato IMDI. 10. Transcripción de C-ORAL-ROM de cada sesión con anotación de categorías y lemas para cada forma en archivos.txt. 11. Etiquetario adoptado en archivos.txt. 12. Listas de frecuencias de lemas y formas en archivos.txt. 13. Medidas de los valores lingüísticos grabados en cada texto: en los archivos Excel "measurements_language.xls". 14. Diagramas que presentan la tendencia observada en relación a los parámetros de variación textual estándar a lo largo de los nodos estructurales del corpus, en el archivo Excel Multilingual graphics.xls. 36

37 La Lingüística de Corpus 2.3. La Lingüística de Corpus en China El libro 语体文应用字汇 fue publicado por The Commercial Press en Al editarlo utilizando el método de contabilidad, el pedágogo Chen Heqin creó un corpus de la lengua escrita con el objetivo de calcular la frecuencia de caracteres chinos e instituir una tabla de caracteres básicos de chino. Esta experiencia fue considerada como el inicio de la investigación de corpus en China (Chen Heqin, 1928). A partir de los años 70, la Lingüística de Corpus en China ha estado en ascenso constante. Los primeros corpus informatizados son: Corpus de Obras Literarias en Chino Moderno (1979). Contiene de caracteres. Se compiló por la Universidad Wu Han. Corpus de Chino Moderno (1983). Contiene de caracteres. Se compiló por la Universidad de Aviación de Beijing. Corpus de Manuales de Chino de Escuela Secundaria (1983). Contiene caracteres. Se compiló en la Universidad Pedagógica de Beijing. Estos corpus se caracterizan por: 1. Como muchos fueron creados manualmente, se necesitaba mucha gente y costaba mucho tiempo. El tamaño todavía era pequeño. 2. Se estudiaban la frecuencia de palabras, la segmentación automática de palabras y la segmentación ambigua. 3. Establecimiento del estándar de la segmentación de palabras. Como es sabido, en la escritura, el idioma chino no tiene espacio entre palabra y palabra. En 1990, se elaboró un estándar nacional llamado GB como la base de la segmentación automática de lengua escrita de chino. 37

38 La Lingüística de Corpus A partir de los años 90, cada vez aparecen más corpus de gran tamaño. Ejemplos: Corpus de Diario del Pueblo. Colecciona todos los artículos e imágenes de este diario durante 48 años. Corpus Oral de Beijing Contemporáneo. En los años de 80, la Universidad de Lengua y Cultura de Beijing hizo la grabación del lenguaje hablado de 374 pequineses y la transcripción de caracteres 3. Corpus Estatal de Chino Moderno. Se inició en 1993 por el Comité Estatal de Lenguas. Los primeros datos abarcaban muestras de la lengua escrita desde 1919 hasta En total, son caracteres. Después, cada año se añaden del orden de caracteres. Corpus de Estudio de Gramática de Chino Moderno. Fue compilado en 1995 por la Universidad de Lengua y Cultura, con caracteres. Todo el corpus cuenta con segmentación de palabras y anotación de categorías. Corpus de Chino Moderno. Fue compilado en 1998 por la Universidad Qing Hua con caracteres. Su objetivo era estudiar la segmentación ambigua. Corpus LIVAC, Linguistic Variety in Chinese Communities. Se recoleccionó simultáneamente el chino que se usa en cinco zonas de habla china (parte continental, Hong Kong, Macao, Taiwan, Singapur) para hacer una descripción y análisis completo del uso de chino en diferentes lugares. Hasta junio de 1996, los caracteres sacados desde la prensa llegaron a Características: Cada vez el tamaño era mayor. 3 当代北京口语语料库说明 : [en línea]: < [consulta: 17 de abril de 2011] 38

39 La Lingüística de Corpus El procesamiento fue siendo cada vez más profundo: han aparecido diferentes métodos de segmentación de palabras, una serie de anotación automática de categorías, anotación de la estructura de locución que puede expresarse en P-Tree y D-Tree, sistema de análisis morfológico, sistema de análisis sintáctico, etc. Gran cobertura: incluye ciencias sociales y naturales. Método de la combinación del trabajo automático y revisión personal. Derecho intelectual: cada vez supone un elemento a tener más en cuenta. Tipología de corpus: abarcan casi todos los tipos de corpus. Por ejemplo, para el corpus bilingüe o multilingüe, aparecieron corpus de chino e inglés, corpus de japonés y chino, corpus de alemán y chino, corpus de chino, japonés e inglés, etc. Para el corpus de inglés, se compilaron corpus paralelos, corpus de inglés para uso especial, corpus de aprendices de inglés (lengua escrita y hablada), etc. La fundación de consorcios. Dos consorcio famosos son: Chinese Linguistic Data Consortium (ChineseLDC, 中文语言资源联盟, Chinese Corpus Consortium(CCC, 国际中文语言资源联盟, Tomamos el propósito de CCC 4 como ejemplo: Compilar e integrar recursos lingüísticos en chino ya existentes, y continuar creando nuevos recursos. Integrar las herramientas existentes para la creación, la transcripción y el análisis del habla espontánea en chino, mejorando su utilización, y crear nuevas herramientas. Crear especificaciones y normas para definir los estándares 4 Tomado de < > [consulta: 13 de marzo de 2011] 39

40 La Lingüística de Corpus de las tecnologías lingüísticas en chino. Promover el intercambio de recursos lingüísticos en chino. Se ve que su objetivo es compartir los recursos, promover la investigación conjunta y posibilitar intercambios. 40

41 El uso de corpus en la enseñanza de lenguas 3. El uso de corpus en la enseñanza de lenguas 3.1 Las aplicaciones de corpus en la enseñanza de lenguas En el apartado se resumen las aplicaciones de corpus en diferentes áreas entre ellas, en la enseñanza de lenguas, donde el uso de corpus y sus herramientas de análisis se han incrementado en las últimas dos décadas. Tanto profesores como alumnos pueden usarlos en clase y fuera de ella. En este apartado, se abordan las aplicaciones de corpus especialmente para la enseñanza de lengua segunda. El valor de los corpus en este campo ha ido reconociéndose cada vez más entre los estudiosos y profesores. Muchos investigadores han discutido sobre ello y han expuesto sus criterios al respecto. Sinclair (2004) propugna la enseñanza de lenguas basada en corpus (corpus-based language teaching) como una nueva revolución en la enseñanza de lenguas. Fligelstone (1993) describió tres propósitos del uso de corpus en la enseñanza: teaching about (the principles and theory behind the use of corpora), teaching to exploit (the practical, methodological aspects of corpus-based work), and exploiting to teach (using corpora to derive or drive teaching materials). Renouf (1997) añadió el cuarto teaching to establish resources ( 田 omado de Cheng, 2010: 319). McEnery (2009: 4) es de la opinión de que the use of language corpora in the classroom is slowly being tested and established as an indispensable tool. This is particularly true in the area of second language pedagogy, where multilingual and learner corpora are stimulating much in the way of innovation in the classroom. Aparte, se celebran conferencias internacionales como Teaching and Language Corpora (TaLC) para que los investigadores puedan intercambiar experiencias y profundizar en la investigación de las aplicaciones. 41

42 El uso de corpus en la enseñanza de lenguas Leech (1997) propuso tres enfoques de las aplicaciones de uso de corpus en la didáctica de lenguas: el uso directo, el uso indirecto (publicaciones, materiales, test, etc.) y el desarrollo de corpus orientados a la enseñanza (LSP corpora, L2 learner corpora, etc). La Figura 3.1 presenta la estructura de la investigación en función de estos tres enfoques. El uso de corpus en la enseñanza de lenguas Uso directo Uso indirecto el desarrollo de corpus teaching-oriented DDL Publicaciones,materiales, test, etc. LSP corpora, L2 learner corpora, etc. Figura 3.1 Aplicaciones de Corpus en la Enseñanza de Lenguas DDL El primer enfoque influye directamente en el proceso de la enseñanza. Johns y King (1991: 111) fueron pioneros en introducir el concepto DDL (Data-driven Learning) y lo definieron como Data-driven learning is the use in the classroom of computer generated concordances to get students to explore regularities of patterning in the target language, and the development of activities and exercises based on concordance output. Johns identificó tres etapas de carácter inductivo en el uso de corpus según el método DDL: observation (of concordanced evidence), classification (of salient features) and generalization (of rules). 42

43 El uso de corpus en la enseñanza de lenguas Tradicionalmente, la metodología en la enseñanza de lenguas se adecua al esquema Three Ps (presentation-practice-production). Bajo esta nueva metodología, sin embargo, los alumnos de segunda lengua cuentan con más autonomía. En efecto, según este nuevo modelo conocido como Three Is (illustration-interaction-induction) (Carter y McCarthy, 1995: 155), los alumnos pueden observar y analizar los ejemplos reales e inducir reglas lingüísticas mediante la consulta directa de gran cantidad de datos lingüísticos que ofrecen los corpus. Esta metodología alienta a los alumnos a estudiar a través del propio descubrir. Trata de despertar el interés por el estudio en los alumnos, procura formarles en la capacidad de resolver problemas y pretende mejorar la intuición de los alumnos El uso de corpus en la elaboración de manuales y diseño de programas de estudio Una característica incomparablemente ventajosa de los corpus estriba en la riqueza de sus recursos, llenos de realismo lingüístico. Braun (2005) afirmó que al describir una lengua basándose en los corpus se obtenían datos realistas, ricos, ilustrativos y actualizados que pueden utilizarse como un recurso para la creación de un material didáctico interesante. Gracias a esto, pueden favorecer de manera indirecta la enseñanza de lenguas, en aspectos tales como el desarrollo de materiales, el diseño de programas de estudio, la evaluación de nivel de lengua, etc. En el apartado 2.1, ya hemos dado el ejemplo del uso del corpus COBUILD para la redacción de diccionarios y gramáticas. La elaboración de manuales convenientes y el diseño de programas de estudio son dos elementos muy importantes para la enseñanza de lenguas. Sin embargo, en muchos casos, se toman la experiencia o la 43

44 El uso de corpus en la enseñanza de lenguas intuición de los autores como base. Como no se aplica el estándar de índices cuantitativos objetivos, a veces, no pueden garantizar que se adapten a la necesidad de la enseñanza y provocan, como consecuencia, una distancia distorsionadora entre aquello que se enseña en el extranjero y lo que usan los nativos en la vida real. Por ejemplo, en el estudio de actos de habla para expresar desacuerdo, Cheng y Warren (2005) han apuntado que los autores de manuales de inglés deberían incorporar más formas en sus materiales con el objetivo de reflejar mejor la realidad del uso de la lengua actual. Römer (2005) hizo una comparación de las funciones y los patrones contextuales de las formas progresivas del inglés entre el material que se emplea en los colegios alemanes en la enseñanza del inglés como lengua extranjera y el inglés usado en BNC (British National Corpus). Descubrió una distorsión entre ambos. Señaló que las formas gramaticales progresivas que se refieren a acciones o eventos repetidos, eran mucho más frecuentes en el inglés real que en el inglés de los libros de texto, en los que la función común de repetición estaba bastante abandonada y se centraba en eventos continuos. Los corpus pueden servir como base para los manuales o los programas de estudio en muchos aspectos como los listados de vocabulario, la identificación de estructuras gramaticales recurrentes, el orden de su aparición, etc. Se pueden utilizar los listados de frecuencia de palabras o las estructuras gramaticales derivadas del uso de corpus como punto de partida para la confección de los listados del vocabulario y los puntos gramaticales que se deben enseñar en cada nivel de un manual. Además, por medio del análisis de la distribución y la frecuencia, la herramienta de concordancias nos permite juzgar el nivel, más o menos elevado, de aprendizaje de una lengua que propone cada manual. 44

45 El uso de corpus en la enseñanza de lenguas El uso de corpus en exámenes de lenguas Los exámenes forman parte imprescindible de la enseñanza de lenguas. Cómo preparar un examen de buena calidad es un trabajo complicado. En 1996, Alderson propuso la potencialidad de la aplicación de corpus en diferentes etapas de exámenes de lenguas (Alderson, 1996). En los años siguientes, la investigación ha ido en ascenso. Hunston (2002) resumió que los corpus se podían usar en exámenes para los siguientes propósitos: como un repositorio de exámenes, desarrollar materiales de pruebas, optimizar procedimientos de pruebas, mejorar la calidad de la corrección de pruebas, validar pruebas, estandarizar pruebas. Dadas sus características, los corpus pueden tener un papel importante en los exámenes. Cabe destacar una serie de virtudes. En primer lugar, los corpus guardan gran cantidad de datos, lo cual posibilita no repetirse en la propuesta de textos. En segundo lugar, los datos de corpus son reales, vivos y convincentes, con lo que responden a aquella necesidad que subyace siempre, de una manera u otra, en aquél que se examina, a saber, ser competente en una situación comunicativa real. No hace falta que los profesores creen ejemplos. Los ejercicios diseñados con un corpus tienen autenticidad. Los profesores se encargan de analizar el nivel de dificultad y seleccionar muestras convenientes según su experiencia de enseñanza y su conocimiento sobre el corpus. En tercer lugar, los corpus anotados y los corpus de aprendices, pueden ayudar a los evaluadores a conocer informaciones importantes, como aquellos aspectos lingüísticos que un aprendiz encuentre especialmente farragosos, su distribución en los exámenes anteriores, etc. Por último, el listado de 45

46 El uso de corpus en la enseñanza de lenguas frecuencias puede ayudar a decidir qué léxico y estructuras van a aparecer en el examen. Además de todo lo dicho, cabe añadir que se está estudiando su uso en nuevos ámbitos como los sistemas de evaluación automáticos. Sin embargo, los corpus tienen sus limitaciones. Cada corpus se compila por diferentes motivos. Al seleccionarlos, hay que evaluar bien si las muestras son representativas y convenientes El uso de corpus de aprendices de lengua segunda en la enseñanza de lenguas Uno de los desarrollos recientes es el uso de corpus de aprendices de lengua segunda. El primero fue el Longman Learners corpus. Poco a poco se fueron construyendo más corpus de este tipo. La aparición del corpus International Corpus of Learner English (ICLE) a principios de los 90 simbolizaba el comienzo de los grandes corpus de aprendices (Granger et al., 2002). En la creación de este tipo de corpus, primero hay que considerar las características de los alumnos que abarcan parámetros como la lengua materna, edad, dominio de otras lenguas extranjeras, ambiente de estudio, etc. Además, como los corpus pueden ser guardados a largo plazo, si las condiciones lo permiten, se puede seguir el estudio de los aprendices para poder describir y analizar todo el proceso de desarrollo de la interlingua. Con este tipo de corpus, se suelen hacer comparaciones lingüísticas entre los alumnos de L2 y los hablantes nativos, entre los aprendices de diferentes países, entre los alumnos de distintos niveles, entre el idioma popular y el idioma para algún uso especializado, entre la lengua escrita y la lengua hablada de los aprendices, etc. Granger (2002) estaba convencida de que este tipo de comparación y análisis podía suministrar recursos e informaciones muy valiosas para la enseñanza de lenguas. 46

47 El uso de corpus en la enseñanza de lenguas Entre sus exitosas aplicaciones se cuenta la posibilidad de ayudar a detectar las peculiaridades debidas a las interferencias de la lengua materna, sintetizar tipos de errores comunes cometidos por los alumnos de distintos niveles, así como a dirigir la práctica de la enseñanza y mejorar su calidad. 3.2 La experiencia del laboratorio LLI-UAM Las ventajas y desventajas de corpus de habla espontánea en la enseñanza de lenguas En la Introducción, se ha indicado que el laboratorio LLI-UAM ha compilado varios corpus orales para diferentes aplicaciones. Entre ellos, hay corpus de diferentes idiomas, corpus de hablantes nativos y no nativos, corpus de lenguaje infantil, etc. Este laboratorio lleva años investigando, practicando y promoviendo la adaptación de corpus de habla espontánea a la enseñanza de lenguas extranjeras. Conforme a su experiencia, ha logrado sintetizar y poner en claro las ventajas y desventajas del uso de corpus en la enseñanza. Ningún corpus puede ser completamente representativo de una lengua y contener todas las situaciones comunicativas o todas estructuras de la lengua. Debido a la diferencia del tamaño de unos corpus y otros, a veces las informaciones suministradas por algunos corpus están desordenadas, por lo que es imprescindible un filtro. Además, pueden incluir errores de expresión y gramática, palabras ofensivas, o convenciones de transcripción difíciles de entender, etc. Sobre todo, cuando se trata de un corpus de habla espontánea, las disfluencias, las incorrecciones propias de la oralidad como abreviaciones, cambios de acento particulares, elipsis de palabras... dificultan mucho su aplicación a la enseñanza. Para evitar todo esto, los expertos del LLI-UAM ponen énfasis en un empleo pedagógico del corpus para su uso en la enseñanza. Es decir, 47

48 El uso de corpus en la enseñanza de lenguas al presentar a los alumnos el uso real de la lengua, también hace falta advertirles acerca de las incorrecciones propias del habla descuidada. Siempre se recomienda que el profesor pre-edite el corpus manualmente y se familiarice con el corpus (principios de diseño, gramática, contenido conmunicativo y léxico, etc.) y las herramientas, de manera que luego pueda enriquecer el uso del corpus con sus explicaciones (Campillos et al., 2010). No obstante, las ventajas son múltiples. La principal es la autenticidad: los corpus ofrecen materiales auténticos procedentes del uso actual de la lengua y no del conocimiento intuitivo de un hablante peculiar o de la norma académica. Además, la lengua aparece integrada en el contexto discursivo, por lo que, en el caso de la lengua oral, los alumnos pueden entender mejor algunas formas de expresión de la dicha lengua oral y su fraseología, sus peculiaridades estilísticas (vacilaciones, reformulaciones, elipsis), textuales (aperturas y cierres conversacionales) o pragmáticas (marcadores discursivos, marcas de cortesía), así como las características principales de la lengua hablada (Campillos et al. [en línea]). A los alumnos que por diferentes motivos no pueden ir al país nativo, les faltan medios para enfrentarse a situaciones comunicativas reales. En este caso, un corpus de habla espontánea contribuye a mostrarles las interacciones reales entre hablantes nativos en situaciones lingüísticas auténticas Adaptación de C-ORAL-ROM a la enseñanza de ELE Dado su carácter oral, la adaptación de C-ORAL-ROM a la enseñanza de ELE tiene un objetivo concreto: su uso en el desarrollo de la comprensión auditiva. La metodología que ha adoptado abarca los siguientes procedimientos. 48

49 El uso de corpus en la enseñanza de lenguas 1. Selección de muestras. Se ha tratado de que la información aportada por este corpus fuera adecuada para la didáctica de ELE. La metodología se concreta en el apartado Planteamiento de un marco teórico sobre una gramática pedagógica. Se inició con la elección de contenidos gramaticales, categorías léxicas y exponentes funcionales. La tabla 3.2, 3.3, y 3.4 nos presentan respectivamente el contenido. 1. Artículo 2. Sustantivo 3. Adjetivo 4. Determinantes y pronombres demostrativos 5. Determinantes y pronombres posesivos 6. Determinantes y pronombres indefinidos 7. Determinantes y pronombres numerales 8. Determinantes y pronombres interrogativos 9. Pronombres personales 10.Pronombres y adverbios relativos 11. Tiempos y modos verbales: 11.1 Indicativo: presente, futuro, pretérito perfecto simple, pluscuamperfecto 11.2 Imperativo 11.3 Condicional 11.4 Subjuntivo: presente, pret. imperfecto, pret. perfecto, pluscuamperfecto 11.5 Formas no personales: infinitivo, participio, gerundio 11.6 Perífrasis 11.7 La pasiva 11.8 Ser y estar 12. Construcciones con se 13. Preposiciones y locuciones prepositivas. Régimen preposicional 14. Adverbios y locuciones adverbiales 15.Referencias o marcadores espaciales y temporales 16. Coordinación. Nexos 17. Subordinación. Nexos y tipos de oraciones: 17.1 Sustantivas 17.2 Adjetivas o relativas 17.3 Adverbiales 18. Formación de palabras 19. Marcadores discursivos 20. Ortografía, acento gráfico y puntuación. 21. Siglas Tabla 3.2 Contenidos gramaticales 49

50 El uso de corpus en la enseñanza de lenguas 1. Nociones 1.1 Ser y existir 1.2 Cantidad 1.3 Tiempo 1.4 Espacio y lugar 1.5 Relaciones entre eventos o sucesos Condición Concesión Causa Consecuencia Finalidad 1.6 Modo 1.7 Comparación 1.8 Propiedad y posesión 1.9 Intensidad y exclamación 1.10 Impersonalidad 2. Funciones comunicativas 2.1 Usos sociales: Saludos y despedidas. Presentaciones Invitaciones. Concertar citas Dar las gracias Pedir disculpas Fórmulas sociales: brindis, comidas, condolencias, tratamiento por teléfono 2.2 Estados físicos y emocionales: Gustos y preferencias Sentimientos y estados anímicos Deseos Estados físicos 2.3 Actitudes y conocimiento Posibilidad e imposibilidad. Capacidad e incapacidad Grado de certeza. Grado de probabilidad e hipótesis Conocimiento, recuerdo y olvido Opinión Acuerdo y desacuerdo Obligación y necesidad 2.4 Influencia: Consejos, advertencias y recomendaciones Sugerencias y propuestas Peticiones Quejas, reclamaciones Regañar. Amenazar e insultar Animar a la acción Promesas, compromisos y juramentos Instrucciones, órdenes, prohibiciones Permitir y pedir permiso. 2.5 Comunicación: Destrezas de comunicación oral Organización discursiva Control del lenguaje Discurso referido Tabla 3.3 Nociones y funciones comunicativas 50

51 El uso de corpus en la enseñanza de lenguas 1. Identificaciones personales 2. La profesión y el trabajo 3. La religión y la ideología 4. La familia 5. Carácter, valores y estado de ánimo 6. La casa y el hogar 7. Tiempo libre y ocio 8. La naturaleza 9. El tiempo y el clima 10. El arte y la cultura 11. Medios de comunicación 12. Deportes y espectáculos 13. Los viajes 14. La residencia y el alojamiento 15. El transporte 16. El cuerpo y la salud 17. La educación 18. La gastronomía 19. Comercio, negocios e industria 20. Instituciones públicas y civiles 21. Pesos, medidas y cantidades 22. El estado y la sociedad 23. Descripción de objetos 24. Ordenadores, Internet y tecnología 25. Hábitos y valores culturales 26. Fraseología Tabla 3.4 Contenidos léxicos 3. Desarrollo de una herramienta de búsqueda. Dicha herramienta consiste en un sistema de concordancias con sonido: el usuario escribe la palabra o palabras que desea consultar y el sistema le muestra los ejemplos contenidos en el corpus (si no saca ningún fragmento es que el corpus no tiene esa expresión). 51

52 El uso de corpus en la enseñanza de lenguas Figura 3.5 Herramienta de búsqueda de C-ORAL-ROM En la figura 3.5, los profesores y alumnos pueden introducir el contenido que quieran buscar en el cajetín de Search y consultarlo. Esta herramienta de concordancias puede servir para ver y oír ejemplos del habla espontánea. Un sistema como este permite mucha libertad, pero tiene el inconveniente de que si el usuario no sabe muy bien lo que busca, los resultados pueden ser muy confusos. Como los aprendices de una lengua no dominan ni conocen muchos de los conceptos gramaticales o léxicos que quieren buscar, sería muy útil organizar las búsquedas por temas y representarlas de una manera ordenada. De esta manera, la herramienta serviría tanto para profesores (como complemento a sus explicaciones) como para alumnos (en tareas de autoaprendizaje) La experiencia de la elaboración de la serie Español Oral en Contexto Merece una especial mención el libro Textos de Español Oral de la serie Español Oral en Contexto (Campillos et al., 2010). El material se acompaña de una herramienta de consulta en formato hipertextual para consultar y escuchar los contextos lingüísticos. Sirve como un complemento a los manuales existentes o a los 52

53 El uso de corpus en la enseñanza de lenguas recursos propios del docente y proporciona, además, actividades diseñados para los usuarios. El principal objetivo para el que puede contribuir consiste en la mejora de la destreza de comprensión auditiva. Es conveniente principalmente para profesores o estudiantes de niveles intermedio-avanzado (B1-B2) o superior-perfeccionamiento (C1-C2). Como el nivel de dificultad es parecido a nuestro corpus C-ORAL-CHINA, sirve como modelo en nuestro futuro trabajo de explotación del corpus para la enseñanza de chino. Este recurso didáctico incluye: Ejemplos de uso de habla real. Gran variedad de temas y situaciones comunicativas: Diversos géneros y tipos de discurso oral (monólogos, diálogos o conversaciones). Muestras del registro formal y del coloquial Metodología y criterios de selección de documentos La selección de los textos ha sido manual. Todos los ejemplos se han seleccionado de los documentos de subcorpus de español de C-ORAL-ROM. En total, se ofrecen 200 fragmentos de entre 20 segundos y 3 minutos de duración, que suman un total de 6 horas de grabaciones para la práctica de la comprensión auditiva. Son más de ejemplos presentes en más de sonidos. Según ellos, la experiencia en la elaboración del recurso permite afirmar que dichos ejemplos recogen los elementos más fundamentales para el correcto aprendizaje de una lengua o, cuando menos, una amplia mayoría, si es que se tiene en cuenta la consideración de G. Aston sobre la preferencia de un corpus de entre y palabras para un contexto de enseñanza (tomado de Campillos et al., 2010: IX). 53

54 El uso de corpus en la enseñanza de lenguas Básicamente, el proceso de la elaboración abarca las siguientes etapas: Escuchar el documento, valorar la adecuación de sus contenidos para la didáctica, y seleccionarlo. Los documentos que adolecen de mala calidad acústica, contenidos inconvenientes para la didáctica o temas no interesantes no han podido ser seleccionados. Leer detenidamente las transcripciones de los documentos (adaptadas a las convenciones de la lengua escrita) y describir sus contenidos gramaticales, léxicos, su registro o su velocidad de habla, etc. Clasificar el documento en un nivel de dificultad según el Marco Común Europeo de Referencia para las Lenguas. Durante todo el proceso, hay dos puntos muy importantes. Uno es la selección de conversaciones dentro del ámbito informal. Dicho ámbito presenta un alto grado de elipsis de estructuras en el habla (del tema tratado, o de partes de la oración fundamentales como verbos o sujetos, que quedan implícitos en el contexto situacional). Junto a ello, en las conversaciones coloquiales existe una frecuente falta de planificación del discurso, que no solamente se refleja en una organización de las estructuras lingüísticas diferente a la del discurso escrito, sino también en la ausencia de un tema central que aglutine los motivos de la conversación. En efecto, muchas conversaciones coloquiales se han llevado a cabo para socializarse o mantener un vínculo con el interlocutor, más allá del interés de transmitir datos. Todos estos factores hay que tenerlos en cuenta en la búsqueda de ejemplos. El otro punto relevante centra su atención sobre las situaciones comunicativas concretas del uso de la lengua. Las personas que utilizan un corpus no son los destinatarios originales de los textos que lo componen, y, precisamente por eso, la adaptación de los mismos a la enseñanza requiere un proceso de mediación pedagógica que procure reconstruir el contexto discursivo auténtico. La recreación 54

55 El uso de corpus en la enseñanza de lenguas del contexto original por parte del estudiante será tanto más accesible cuanta mayor familiaridad tenga éste con el tema del texto y cuanto más interesante le resulte. Bajo este presupuesto, los autores han intentado enmarcar algunos textos extraídos en un tipo de actividad que pueda situar al alumno en una situación comunicativa semejante a la original (Campillos et al., 2010) Tipología de actividades Se han diseñado una serie de actividades. Principalmente son las siguientes: 1. Selección de información: Preguntas de verdadero / falso Rellenar huecos Rellenar tablas Completar información Marcar las casillas Ordenar los diálogos Ordenar elementos. 2. Transferencia de información: Con ilustraciones, se pueden realizar actividades como escuchar y seguir una ruta, marcar en un mapa qué ciudades se mencionan o los fenómenos climáticos de cada región. Dibujar un plano de una casa a partir de los datos escuchados. 3. Relación o distinción de información: Relacionar datos Distinguir la información escuchada y la que se ofrece en forma de texto: Corregir un texto 55

56 El uso de corpus en la enseñanza de lenguas De entre varias ideas clave que se presentan sobre un documento, marcar las que se escuchan o en qué orden aparecen 4. Sintetizar información: se trata de actividades de resumir los contenidos en un breve texto, empleando un título o completando una frase. 5. Reacción y respuesta: responder a preguntas de respuesta abierta o cerrada, de selección múltiple, etc. escuchar la grabación y formular un consejo. 6. Actividades de inferencia: en estos ejercicios, el hablante escucha una grabación y deduce los datos necesarios para realizar una tarea, por ejemplo: interpretar información o inferir datos desconocidos de la grabación. 56

57 El chino putonghua 4. El chino putonghua 4.1 Visión global La República Popular de China está compuesta por cincuenta y seis grupos étnicos. Entre ellos, la etnia Han, que ocupa más del 90% de la población, es la más numerosa. El idioma hablado por los Han se llama hanyu. Es el idioma principal de los chinos. Según Ethnologue 5, además de en China, también se habla en otros países como Singapur, Malasia, Indonesia, Mongolia, Tailandia, etc. Dependiendo del lugar donde se hable, también se denomina como zhongwen, guoyu, huayu, etc. Hay otras lenguas en China con su propio sistema de escritura, como el mongol, el tibetano o el manchú. Principalmente, las hablan los grupos étnicos minoritarios. La forma estandarizada del chino es putonghua. Es la lengua representativa de la China moderna. Pertenece a la familia sino-tibetana. Es uno de los idiomas con más hablantes del mundo y una de las lenguas oficiales de las Naciones Unidas. Jerry Norman, catedrático estadounidense de la lengua china de la Universidad de Washington, ha descrito el idioma chino en su libro Chinese: Chinese is only one of a very few contemporary languages whose history is documented in an unbroken tradition extending back to the second millennium BC. At the same time, in its numerous dialectal forms, it has more speakers than any language spoken in the modern world (Norman, 2008: 27). 5 Chinese, mandarin. En: EthnologueLlanguages of the World [en línea]: < [consulta: 15 de febrero de 2011] 57

58 El chino putonghua Es un idioma que tiene una larga historia y muchos dialectos. Si cada individuo habla su dialecto, es difícil comunicarse. Como lengua común, el putonghua facilita mucho el intercambio entre gente que habla diversos dialectos de diferentes zonas. El estudio del putonghua es obligatorio en los colegios y es el idioma de la administración pública y los medios de comunicación. Su posición está firmemente establecida. En esta tesis, cuando se habla de la lengua china, se refiere a putonghua. 4.2 Evolución del idioma chino La evolución de la lengua china y la historia del pueblo chino están muy relacionadas. Según las características de la transformación del chino, éste se puede dividir en distintas etapas. Pero, como el desarrollo de una lengua es gradual, es imposible indicar qué año exacto es el comienzo de una etapa histórica del chino. Los sinólogos chinos y extranjeros han planteado puntos de vista sobre la clasificación. En esta tesis, vamos a seguir la conocida clasificación de Wang Li (1980) en su libro Hanyu Shigao. Chino arcaico (antes del siglo III d.c. Entre siglo III y siglo IV, se da la etapa de transición.) La escritura china en caparazones de tortugas y huesos de bóvidos, datados de la dinastía Shang, son los primeros caracteres maduros. Durante el período de Primavera y Otoño y el de los Reinos Combatientes ( a. C.), el chino cambia mucho. La anexión y unión de las tribus o reinos hacía que muchos dialectos pequeños locales se mezclaran y se formaran dialectos grandes. La literatura llegó a una etapa cumbre. Apareció el fenómeno de debate de las 58

59 El chino putonghua Cien Escuelas del pensamiento (Gao Jianping et al., 1980). Aunque las obras literarias de los grandes pensadores tenían características locales, poco a poco se desarrollaba una lengua literaria unificada denominada yayan (lengua elegante). Qin Shihuang, el primer emperador chino, unificó toda China en el año 221 a.c. China pasó a ser un estado centralista. Se aplicó una medida llamada shutongwen para unificar la escritura de todo el país. Asimismo, se estableció que se usara xiaozhuan como estándar de los caracteres. El aspecto más positivo de shutongwen consistió en que se garantizó el contacto sostenible y la transmisión de información entre el gobierno central y las distintas provincias, en todos aspectos. Un caracter podía tener múltiples pronunciaciones, pero su forma de escritura era estable y unificada. Tal desarrollo supone la base para la unificación de la lengua. En las dinastías siguientes, se mantenía dicha tradición que favorece notablemente la herencia histórica de la cultura. Por esta razón, los chinos de hoy en día pueden entender las obras literarias clásicas. Según Wang Li (1980), en esta etapa las características generales son: en las oraciones enunciativas, no se usa la cópula; en las oraciones interrogativas, el objeto pronominal se coloca delante del verbo; hay dos tonos entrantes (uno de los cuatro tonos de la pronunciación del chino clásico, aún existente en ciertos dialectos), etc. Chino antiguo (siglo IV - siglo XII d.c. Entre siglo XII y siglo 13, se da la etapa de transición.) En comparación con la etapa anterior, la estructura gramatical se desarrolló mucho. Hay algunos fenómenos lingüísticos muy representativos en esta época. Por ejemplo, el nacimiento de 是 (el verbo copulativo), la oración pasiva con 被, el nacimiento de la 59

60 El chino putonghua partícula 了 y 着, el nacimiento de caracteres con tono descendente, etc (Gao Jianping et al., 1980). Además, con la estabilidad del significado y la función de las palabras, poco a poco aparecía la diferenciación de categorías de palabras. Chino moderno (siglo 13- siglo 19. Entre 1840 y 1919, se da la etapa de transición. ) En la historia, la centralización política y el separatismo durante largo plazo mantenían la unificación del chino, sobre todo la de la escritura. Como la población de la etnia Han crecía mucho y la superficie de distribución se extendía, en esta época, se formaban los siete grandes grupos de dialectos: dialectos del norte, Wu, Xiang, Gan, Kejia o Hakka, Min y Yue. Con el cambio de las condiciones políticas, económicas y culturales, los dialectos del norte cobran cada vez más importancia. En la dinastía Ming, se comenzó a hablar guanhua (lengua oficial). Tomaba el dialecto de Nanjing como referencia. Después del traslado de la capital de Nanjing a Beijing, se mezclaban el dialecto de Nanjing y el de Bejing. En 1728, el emperador Yong Zheng de la dinastía Qing publicó un decreto imperial, creando las academias de zhengyin (correcta pronunciación) para promover el guanhua de Beijing en toda China. En 1909, se estableció el guoyu (lengua nacional) en sustitución del guanhu (Wen Songhui, [en línea]). En esta época, surgieron muchos escritores famosos. Utilizando la lengua de manera variada y viva, escribieron numerosas obras literarias. Su estructura del lenguaje y el empleo de ricas formas de expresión sientan las bases el desarrollo del chino contemporáneo. Chino contemporáneo (1919-actualidad) Durante las dinastías Tang y Song surgió el baihuawen (una forma de chino más cercana a la lengua hablada). Y también aparecieron novelas escritas en baihuawen. Sin embargo, la posición dominante 60

61 El chino putonghua de wenyanwen (chino clásico) no fue modificada ni desafiada. El wenyanwen se fue desconectando del lenguaje hablado poco a poco, con lo cual ya no se adaptaba al desarrollo de la sociedad y la lengua popular. Alrededor del Movimiento del 4 de Mayo de 1919, se inició el movimiento a favor del uso generalizado del baihuawen a través de la revista Nueva Juventud (Xinqinnian), provocando un debate entre los defensores del baihuawen y los del wenyanwen. Este debate formó parte del Movimiento de la Nueva Cultura. No sólo fue una reforma dentro de la lengua, sino que también estaba estrechamente relacionada con la reforma de la conciencia de pensamiento y la modernización del país. La confrontación entre el baihuawen y el wenyanwen reflejó en gran medida el choque entre distintos sistemas de valores e ideologías sociales. Finalmente la época del baihuawen finalizó, justo en el momento histórico donde se produjo la transición de China desde la sociedad feudal a la democrática. A partir de entonces, el chino empezaba a absorber el léxico y la gramática del occidente. En 1932, el Ministerio de Educación definió el dialecto de Beijing como la pronunciación de la lengua nacional (Wen Songhui, [en línea]). En 1955, se celebró la Conferencia Académica de la Normalización del Chino Moderno en la que se planteaba oficialmente la definición de putonghua. Toma la fonética de Beijing como estándar, el habla del norte como dialecto básico y obras modernas en baihuawen (el escrito en lengua moderna) como base para las reglas gramaticales (VV.AA., 2006). En febrero de 1958, en la Asamblea Popular Nacional de China, se aprobó el esquema del alfabeto fonético del chino, denominado como hanyu pinyin. En el apartado 4.4, los comentaremos detalladamente. 61

62 El chino putonghua 4.3 Caracteres chinos Uno de los aspectos más llamativos y peculiares de la lengua china es su escritura. Se trata de una de las escrituras más antiguas del mundo. Fue adoptada por otras lenguas asiáticas, como por ejemplo, el japonés, el vietnemita y el coreano. En chino, los caracteres se llaman hanzi ( 汉字 ). Son combinaciones de trazos evolucionados sobre la base de los primeros pictogramas El número de caracteres chinos A lo largo de la historia, la escritura del chino ha experimentado muchos cambios y reformas. Como resultado de esta evolución y acumulación, si se tienen en cuenta todo tipo de formas variantes, cada vez hay más caracteres. La tabla 4.1 nos muestra el número de caracteres chinos en los diccionarios más representativos en cada época histórica. Fecha Dinastía Diccionario Número de caracteres 100 Han de Este Shuōwén jiězì 9, Liang Yùpiān 12, Song Guǎngyùn 26, Song Jíyùn 53, Ming Zìhuì 33, Qing Kāngxī zìdiǎn 47, Minguo Zhōnghuá dà zìdiǎn 48, República Popular de China Zhōnghuá zìhǎi 85,568 Tabla 4.1 Número de caracteres en diccionarios chinos (Norman, 2008) 62

63 El chino putonghua Esta cifra es muy sorprendente. En Zhōnghuá zìhǎi, editado hace 17 años, se recogen más de 85,000 caracteres. Aquí cabe señalar que de todos estos, unos 3,500 (VV.AA., [en línea]) son los habituales. Con dominarlos, una persona ya puede leer la prensa Origen y evolución Los caracteres chinos cuentan con una historia muy larga. En las Restos Arqueólogos de la Edad Neolítica, de unos 6,000 de antigüedad, se han descubierto signos simples y regulares inscriptos en cerámicas, los cuales han sido considerados por arqueólogos y filólogos como la forma embrionaria. Hace más de 3,000 años, las inscripciones en caparazones de tortuga y huesos de animal, procedentes de la dinastía Shang, han sido considerados como escritura madura y estructurada. Gráficamente, la escritura china ha experimentado una evolución gradual de pictogramas a logogramas cuadrangulares compuestos por trazos, de formas complejas a simples. Los estilos de caligrafía más conocidos son jiaguwen (inscripciones en caparazones de tortuga y huesos de animal), jin (inscripciones en antiguas vasijas de bronce), zhuanshu (escritura de sellos), lishu (escritura oficial), caoshu (escritura cursiva), kaishu (escritura regular) y xingshu (escritura corrida), etc. Entre ellos, kaishu nació a finales de la dinastía Han. Presenta una forma cuadrada, la cual se modela y se utiliza hasta la actualidad. Después de la fundación de la República Popular de China, el gobierno chino empezó un proceso de reforma con el objetivo de simplificar los caracteres, sustituyendo la escritura compleja por una forma de escritura más sencilla y compuesta por menos trazos. Así que las grafías son más simples y abstractas. Resultarán más fáciles de recordar y se empleará menos tiempo a la hora de escribirlos. Pero, 63

64 El chino putonghua en algunas zonas como Taiwan, Hong Kong y Macao, aun utilizan la escritura sin simplificarse, conocida como la tradicional Estructura En el diccionario Shuōwén jiězì, redactado por Xu Shen en el siglo I de nuestra era, se introducen seis clases etimológicas (en chino, liushu) sobre el origen de cada carácter. Hoy en día, el estudio sobre la estructura de los caracteres chinos no mantiene estas seis clases. Generalmente, se cree que entre las seis, cuatro explican la formación de caracteres. (1) Pictograma (xiangxing). Describe según las características físicas del objeto. Por ejemplo, el carácter 日 (sol) imita la forma del sol. (2) Caracteres indicadores (zhishi). Es la forma para demostrar las cosas abstractas. Por ejemplo, 上 (encima, arriba) 下 (debajo, abajo) son respectivamente trazos añadidos encima y debajo de una línea transversal, indicando la posición relativa de los dos caracteres. 3) Ideograma (huiyi). Une dos o más signos para formar un nuevo carácter. Por ejemplo, 日 (sol) y 月 (luna) forman 明 (brillante, claro). (4) Fonograma (xingsheng). Está compuesto por dos partes: un radical que aporta el significado semántico y una parte fonética que indica la pronunciación. Por ejemplo, para el carácter 樱 (cerezo, yīng), 木 significa que es un tipo de árbol y 婴 (yīng) determina su pronunciación. escritura Las reglas del orden de los trazos de la En cuanto a la manera de componer y leer un texto escrito, los 64

65 El chino putonghua caracteres chinos se escriben de izquierda a derecha, de arriba hacia abajo como la escritura occidental. Sin embargo, a diferencia del español, los caracteres se colocan uno tras otro sin espacios entre medio, incluso cuando se trate de palabras distintas. A continuación se enumeran unas reglas básicas del orden de los trazos en la escritura china (Li Xingjian, 2004). Reglas fundamentales: 1. Primero el trazo central y luego los laterales. 水 2. Primero los trazos horizontales y luego los verticales. 十 3. Primero los trazos superiores y luego los inferiores. 前 4. Primero los trazos del lado izquierdo y luego los del derecho. 作 5. Primero los trazos exteriores y luego los interiores, si hay trazos que rodean. 闰 6. Primero los trazos exteriores,luego los interiores, y al final el cierre si es como una caja cerrada. 国 7. Primero el trazo derecho y luego el izquierdo cuando dos trazos curvos se cruzan en forma de "x". 风 Reglas adicionales: 1. Si el punto está en la parte superior o la parte superior del lado izquierdo, primero el punto. 主 2. Si el punto está en la parte superior del lado derecho o dentro del carácter, el punto se escribe el último. 瓦, 我 3. En caracteres con elementos que rodean otros elementos, el orden depende de: Si hay trazos que rodean la parte superior y la parte derecha o la parte superior y la parte izquierda, primero los trazos exteriores y luego los interiores. 厅, 庆 Si hay trazos que rodean la parte izquierda y la parte inferior, primero los trazos interiores y luego los exteriores. 远, 建, 廷 En palabras con un elemento como un cuadrado, pero sin el 65

66 El chino putonghua lado superior, primero los trazos interiores y luego los exteriores. 凶, 画 En palabras con un elemento como un cuadrado, pero sin el lado inferior, primero los trazos exteriores y luego los interiores. 同, 用, 风 En palabras con un elemento como un cuadrado, pero sin el lado derecho, primero los trazos superiores, luego los interiores, y al final la parte inferior de la izquierda. 巨, 匠, 区 4.4 Hanyu pinyin Para la transcripción fonética de los caracteres chinos se usa una romanización de los sonidos: el pinyin. Está aceptado por el gobierno chino y por la comunidad internacional. El pinyin tiene sus propias normas de pronunciación, las letras no se pronuncian como en castellano ni en inglés Evolución En China, antes no había pinyin. Para marcar el signo fonético, se utilizaban los métodos zhiyin o fanqie. Zhiyin, es el método tradicional de indicar la pronunciación de un carácter chino citando otro de la misma pronunciación. Pero, si el otro también es un carácter complicado o raramente usado, resulta evidentemente complicado de comprender. El método fanqie, consistía en indicar la pronunciación por medio de otros dos caracteres, de los cuales el primero proporciona la consonante y el segundo la vocal (con o sin nasal final) y el tono (Sun Yizhen, 1999). Por ejemplo, el carácter 胜 (la pronunciación es shèng), se señala como 师 (shī) y 正 (zhèng), lo que significa una combinación de la consonante sh de shī y la vocal más nasal eng y el cuarto tono de zhèng. Este método tiene una desventaja. Para manejarlo, hay que conocer primero más o menos 1000 caracteres (Hu Jicheng, [en línea]), lo cual también 66

67 El chino putonghua supone una carga. Bajo estas circunstancias, se necesitaba urgentemente una serie de signos fáciles y prácticos, con el fin de compensar los defectos de los métodos tradicionales. Al final de la dinastía Ming, los misioneros occidentales llegaron a China. En 1605, en Xizi Qiji (Wonder of Western Writing) (Yin Binyong, [en línea]), publicado en Beijing por Matteo Ricci (jesuita italiano ), se introdujo el alfabeto fonético latino para intentar una trascripción fonética del chino, con el objetivo de facilitar a los extranjeros el aprendizaje del idioma y la escritura. Este intento inspiraba a muchos expertos de generaciones posteriores a intentar diseñar y promover un alfabeto romanizado para la lengua china. Antes del establecimiento del esquema oficial del alfabeto fonético del chino, había tres normas diseñadas por los chinos que tenían influencia. Se trataba de: zhuyin zimu (publicado en 1918), guoyu luomazi (publicado en 1926) y ladinghua xinwenzi (publicado en 1931) (Hu Jicheng, [en línea]). Debido a las condiciones históricas, tenían sus limitaciones. Después de la fundación de la República Popular de China, con el objetivo de promover el putonghua, la lengua común, y absorbiendo las ventajas de los esquemas anteriores fruto del esfuerzo de los antepasados, se elaboró el esquema del alfabeto fonético del chino que fue aprobado en febrero de 1958 en la Asamblea Popular Nacional de China, denominado como hanyu pinyin Características Está compuesto por la tabla de alfabeto fonético chino, tabla de consonante inicial, tabla de vocal, signos de tono y signos divisorios silábicos. Tras considerar y rechazar varias propuestas, finalmente, en este esquema, se escoge el alfabeto latino. Es un tipo 67

68 El chino putonghua de letras internacional; es fácil de escribir y leer; y permite analizar y describir la pronunciación de manera minuciosa. En total, hay 26 letras, entre ellas, 21 son consonantes. Su orden alfabético también se conforma con el orden tradicional de las letras latinas, desde a hasta z. Como 26 letras no son suficientes, se aplican unos métodos, por ejemplo, la fórmula de una nueva a través de dos letras individuales, como zh, ch, sh y ng, o el uso de signos adicionales, como el caso de ü. Además, el chino tiene otra peculiaridad: es un idioma tonal. El tono juega un papel muy importante en distinguir la semántica de morfemas cuasihomónimos. La pronunciación incorrecta puede provocar malentendidos y confusiones. Existen cuatro tonos principales (Zhao Shiyu, 1999): El primer tono: alto y sostenido, representado por signo tonal - El segundo tono: ascendentes de medio a alto, representado por signo tonal / El tercer tono: descendente y ascendente, representado por signo tonal v El cuarto tono: descendente de alto a bajo, representado por signo tonal \ Finalmente, el tono neutro (también llamado tono ligero): corto y ligero, un fenómeno fónico de modificación de tono, sin signo tonal Uso Después de su establecimiento, el uso del pinyin se populariza y se extiende ampliamente. Ahora los manuales, la prensa, los diccionarios, los envases y embalajes, carreteras, etc, tienen marcado el pinyin. 68

69 El chino putonghua Este alfabeto fonético es el que se usa en la etapa inicial del putonghua para conocer la pronunciación de cada nuevo carácter que aprenden. En la enseñanza de chino al extranjero, constituye una herramienta auxiliar para el aprendizaje. Gracias a las nuevas tecnologías informáticas, los chinos pueden usar el pinyin para escribir con mucha facilidad en ordenadores o en teléfonos móviles. Al escribir, no es necesario aislar el radical de cada carácter, como la manera clásica de buscar una palabra en un diccionario de papel chino. Es mucho más sencillo: Se escribe en pinyin en el teclado y en la pantalla aparecen en caracteres las distintas palabras asociadas a esa pronunciación. Al encontrar la opción deseada, el usuario la selecciona y automáticamente aparece en pantalla el carácter correspondiente. Como esta tecnología cada vez más inteligente, en algunos sistemas avanzados, para escribir las palabras más habituales, con sólo escribir la consonante inicial de cada carácter, ya aparecen las opciones, lo cual ha aumentado considerablemente la rapidez con la que un usuario puede escribir un texto en chino. Asimismo, ha servido como base para la reforma de la escritura de algunas étnias minoritarias. Finalmente, se utiliza en áreas donde no es fácil de usar caracteres chinos, por ejemplo, códigos telegráficos, braille para ciegos, lengua de signos para sordos, etc. 4.5 Dialectos Dentro de la etnia Han, los chinos suelen llamar dialectos ( 方言, fangyan) al habla local de diferentes zonas del país. Estos dialectos regionales conviven en la República Popular de China con otras lenguas como el tibetano o el uigur. Estas lenguas se hablan por otras etnias minoritarias, y tienen su propio sistema de escritura. 69

70 El chino putonghua Los dialectos pueden clasificarse en siete grandes grupos (Yuan Jiahua, 2001): dialectos del norte (beifang fangyan, 北方方言 ), dialectos de Wu (Wu fangyan, 吴方言 ), dialectos de Xiang (Xiang fangyan, 湘方言 ), dialectos de Gan (Gan fangyan, 赣方言 ), dialectos Kejia o Hakka (Kejia Fangjian, 客家方言 ), dialectos de Min (Min fangyan, 闽方言 ) y dialectos de Yue (Yue fangyan, 粤方言 ). Entre ellos, los primeros cubren una extensión más amplia y tienen mayor cantidad de hablantes. Alrededor del 70% de la población Han los habla. Además, como hemos comentado en el apartado 4.1, son la base de putonghua. Los dialectos chinos son muy complicados. Tienen sus propios fondos históricos, sistema de pronunciación y características de léxico y gramática. Entre diferentes grupos, son mutuamente ininteligibles. Incluso dentro del mismo grupo, los hablantes pueden no entenderse unos a otros. Pero, todos usan los mismos caracteres chinos como escritura. China has always had a uniform written language which is logographic. People who cannot understand each others speech can still read the same written language provided that they are educated (Comrie, 1990: 813). Aunque puede que fonéticamente no se entienda, la compresión semántica es igual porque la gente puede leer los mismos caracteres. Como el corpus C-ORAL-CHINA está destinado a la enseñanza del idioma chino, hemos pedido a todos los participantes que en la grabación hablaran el putonghua, aunque unos de ellos también pueden hablar dialectos de su pueblo. Con respecto a esto, vamos a hablar con más detalles en el Capítulo Lengua oral y escrita Tanto la oralidad como el surgimiento de la escritura a partir de la oralidad son necesarias para la evolución de la conciencia. (Walter Ong, 1987) 70

71 El chino putonghua La lengua oral está formada por sonidos, y la lengua escrita, por caracteres. Cuando hablamos, podemos aprovechar el cambio de la velocidad, la entonación, el lenguaje corporal y el entorno para expresar la idea. La lengua oral es más natural y espontánea, con oraciones más sencillas. Es inevitable que haya repeticiones, pausas, apoyos vocálicos, etc. La lengua escrita es más estructurada y más exigente con el uso de palabras. Trata de excluir palabras ociosas. Como comentamos en el apartado 4.2, en la historia, debido a que el wenyanwen se desvinculaba de la lengua oral, se inició el movimiento a fin de preconizar el baihuawen, más popular y fácil de entender. En el chino contemporáneo, esencialmente, la lengua oral y la lengua escrita son coherentes entre sí, pero también presentan notables diferencias. En un contexto, el intercambio es inmediato, por eso, la lengua oral es una acción inmediata y se puede corregir en seguida. En cambio, como la lengua escrita puede sobrepasar el límite de tiempo y espacio, es imprescindible la reflexión y el refinamiento. Puesto que son dos formas distintas de comunicación, el vocabulario que se usa es distinto. En un país tan grande como China que tiene muchos dialectos, tanto en la historia como en la actualidad, hay grandes diferencias entre el vocabulario oral y el escrito. Por ejemplo, el carácter 信 y el 函. El primero tiene mucho matiz oral. Es más corriente y sencillo. El segundo tiene matiz escrito. Es más culto y formal. 71

72 El chino putonghua Número de sílabas Monosílabos Bisílabos Polisílabos Cantidad de palabras de la lengua oral Porcentaje 12.72% 67.95% 19.33% Cantidad de palabras de la lengua escrita Porcentaje 41.98% 57.24% 0.78% y la escrita Tabla 4.2 Contabilidad de número de sílabas de la lengua oral Número de morfemas Palabra de un solo morfema Palabra compuesta Cantidad de palabras de la lengua oral Porcentaje 14.09% 85.91% Cantidad de palabras de la lengua escrita Porcentaje 46.43% 53.57% Tabla 4.3 Contabilidad de número de morfemas de la lengua oral y la escrita 72

73 El chino putonghua Número de significados Palabras que sólo Polisémicas tienen un sentido Cantidad de palabras de la lengua oral porcentaje 88.03% 11.97% Cantidad de palabras de la lengua escrita Porcentaje 84.72% 15.28% Tabla 4.4 Contabilidad de número de significados de la lengua oral y la escrita (Cao Wei, 2003) En la tabla 4.2, 4.3 y 4.4, Cao Wei ha hecho una contabilidad de cantidad entre palabras de la lengua oral (se indica con 口 ) y palabras de la escrita (se indica con 书, palabras de wenyan) en el Diccionario de Chino Contemporáneo (versión 1983). Los datos nos demuestran que en el chino contemporáneo, como las palabras orales se forman a base de baihuawen, hay más palabras compuestas que palabras de un solo morfema. Hay más bisílabos y polisílabos que monosílabos. Como no tiene una historia larga, ni la divulgación por escrito, hay más palabras que sólo tienen un sentido que polisémicas. Dialectos Lengua oral Lengua escrita 子儿头 Tabla 4.5 Contabilidad de palabras que llevan tres sufijos habituales en dialectos, lengua oral y lengua escrita La tabla 4.5 es una comparación de las palabras que llevan tres 73

74 El chino putonghua sufijos habituales de nombres 子, 儿 y 头 respectivamente en dialectos (se indica con 方 ), lengua oral (se indica con 口 ) y lengua escrita (se indica con 书 ) en el mismo diccionario. Se nota que obviamente estos sufijos se usan mucho en dialectos y lengua oral, y muy poco en la lengua escrita. En torno a la gramática, la lengua oral no se atiende tanto al convencionalismo, hay más oraciones cortas y elípticas. A veces no concuerdan estrictamente con los principios gramaticales. Además, la lengua oral se basa en el sonido, así que se usan más interjecciones, palabras de forma inacentuada que cumplen funciones gramaticales de estructura, de tiempo, o de modo, la duplicación de palabras, oraciones exclamativas, oraciones interrogativas, etc. Y la lengua escrita se concentra más en el sentido del carácter. Algunos dichos clásicos de wenyanwen pueden aparecer en ella. Sin embargo, la lengua oral y la escrita no son contradictorias. También se influyen mutuamente. Los componentes de la lengua escrita también entran en la lengua oral. Los componentes de la lengua oral también se absorben en la lengua escrita para que esté más viva y rica. En la enseñanza del chino como segunda lengua, se puede motivar a los alumnos a conocer las relaciones mutuas entre ellas y peculiaridades de cada una. Por medio de clases de lectura y redacción y clases de lengua oral, se intenta elevar de manera eficaz la capacidad de comunicación escrita y oral de los alumnos. 4.7 Gramática El chino pertenece a la familia sino-tibetana, y el español, a la familia indoeuropea. El chino es una lengua radical-aislante, y el español, flexiva. Son dos lenguas muy distintas. Por ejemplo, el chino es una lengua tonal, y el español, no; los caracteres chinos son monosílabos, y las palabras españolas constan casi siempre de dos o más sílabas; en términos generales, el chino no depende de la flexión estricta como 74

75 El chino putonghua las lenguas de indoeuropeas, sino que principalmente se aprovecha de medios gramaticales como secuencias o partículas para expresar las relaciones y el significado gramatical. No tiene conjugación de verbos, ni tiempos, ni concordancia de género y número A continuación, se enumeran algunas características de la gramática de chino. 1. Ausencia de flexión. En comparación con el español, morfológicamente una característica muy destacada del chino consiste en la ausencia de la flexión. En general, las palabras de chino tienen una forma inmutable. No tiene un sistema de cambios flexivos para expresar diferentes significados gramaticales. Es decir, su forma no cambia según el número, género, tiempo, modo, etc. Cuando una palabra se usa en diferentes lugares gramaticales y expresa diferentes significados gramaticales, no hay flexión. Tampoco podemos juzgar la categoría de una palabra desde la morfología si es un nombre, un verbo, un adjetivo o un adverbio, etc. Los casos como la duplicación de palabras no son universales ni obligatorios. 2. El cambio de secuencia afecta mucho a la estructura y el significado gramatical. El orden fundamental de chino es: el sujeto está delante del predicado; el objeto, detrás del verbo; el modificador, delante del modificado; el complemento, detrás de verbo/adjetivo; etc. Cuando la secuencia cambia, como consecuencia, las relaciones estructurales y el significado también pueden cambiar (Zhang Yanqun y Gao Qiliang, 2008). Pongamos un ejemplo: 他们支持 (ellos apoyan): sujeto+predicado 支持他们 (apoyar a ellos - apoyarles): verbo+objeto 75

76 El chino putonghua Con el cambio de palabras entre 他们 y 支持, las relaciones no son iguales. El primero es una relación sujeto+predicado, y el segundo, verbo+objeto. 我给他借一本书 (Le pido un libro a él.) 我借给他一本书 (Le presto un libro a él.) Con el cambio de palabras entre 给 y 他, las dos oraciones ya tienen el significado totalmente distinto. Pero, aquí también vale la pena señalar que en algunos casos, se puede cambiar la secuencia de manera flexible según la necesidad de la expresión. Para la misma relación semántica, hay diferentes formas sintácticas. 他看过了这部电影 (Ha visto esta película) 这部电影他看过了他这部电影看过了 Estos tres ejemplos utilizan los mismos caracteres. A pesar del cambio de palabras, expresan el mismo sentido: Ha visto esta película. Las relaciones semánticas entre 他 (él), 电影 (película) y 看 (ver) no cambian. 3. El uso de partículas tiene mucha importancia. Las partículas interpretan un papel importante en la organización de una estructura gramatical. Pueden expresar diferentes relaciones entre las palabras y las locuciones. En algunas estructuras, el uso o no de partículas puede afectar las relaciones gramaticales y la semántica. Por ejemplo, 更改 (cambiar) 计划 (el plan): verbo+objeto modificador+modificado 更改的 (cambiado) 计划 (el plan): 76

77 El chino putonghua Con el uso de 的, las relaciones gramaticales cambian. El primero es una estructura verbo+objeto, con el sentido de cambiar el plan ; el segundo, una estructura modificador+modificado, con el sentido de plan cambiado. Otro ejemplo, 牛脾气 significa testarudo, obstinado o terco, mientras 牛的脾气, el temperamento del toro. 4. No hay relaciones correspondientes fáciles entre las categorías y los elementos sintácticos. Categoría Elemento sintáctico 主语 sujeto 宾语 objeto Ejemplos 电话来了 Ha entrado la llamada. 打电话 hacer la llamada 名词 nombre 动词 verbo 形容词 adjetivo 定语 atributo 状语 modificador adverbial 谓语 predicado 谓语 predicado 主语 sujeto 定语 atributo 宾语 objeto 谓语 predicado 定语 atributo 宾语 objeto 电话会议 conferencia de teléfono 电话联系 contactos por medio de teléfono 明天星期天 Mañana es domingo. 他们正在调查这个问题 Están investigando este problema. 调查研究很重要 La investigación es muy importante. 调查提纲 esquema de investigación 今天开始调查 Hoy empieza la investigación. 他的房间很干净 Su habitación está muy limpia. 干净的衣服 ropa limpia 他爱干净 Él adora la limpieza. 补语洗干净 Lavar limpio 77

78 El chino putonghua complemento 主语 sujeto 状语 modificador adverbial 干净是最要紧的 La limpieza es lo más importante. 他干净利索地把问题解决了 Ha resuelto el problema de manera pulcra. Tabla 4.6 Ejemplos de relaciones entre categorías y elementos sintácticos 6 La Tabla 4.6 muestra ejemplos de relaciones entre categorías y elementos sintácticos. Se nota que hay muchas diferencias entre el español y el chino al respecto. Relativamente, en chino, las relaciones entre las categorías y los elementos sintácticos son más difusas. En español, estas relaciones son más fijas. Saquemos un ejemplo de la Tabla 4.6. 他的房间很干净 Su habitación está muy limpia. En este caso, en español, hay una cópula ser o estar para servir como predicado. En contraste, en chino, el adjetivo 很干净 solo puede servir como predicado sin la conexión de la cópula. 5. La estructura de palabras, la de locuciones y la de oraciones son parecidas. De lo pequeño a lo grande, el análisis gramatical de chino tiene cuatro unidades básicas: morfema, palabra, locución y oración. Como resultado de la ausencia de flexión y de la correspondencia entre las categorías y elementos sintácticos, su estructura es básicamente parecida (Zhang Yanqun y Gao Qiliang, 2008). 6 Oficina Nacional de Propaganda Internacional de chino: 汉语中词类与句法成分之间不是简单的对应关系. [en línea]: < > [consulta: 3 de enero de 2011] 78

79 El chino putonghua El morfema chino es la combinación fonética y semántica más pequeña. La mayoría de los morfemas son monosílabos. Algunos pueden formar una palabra ellos solos, y también pueden formar una palabra junto con otros. Algunos no pueden formar una palabra solos. Si los alumnos pueden dominar la forma, la fonética y el significado de un morfema, les ayudará a entender la semántica de palabras compuestas por este morfema, y al mismo tiempo, les servirá como base para el aprendizaje de locución y oración. Conocer el principio estructural de la locución puede ayudar a conocer el de la oración. La locución es estática, sin entonación. La oración es dinámica, y lleva una entonación para la oración completa. En chino, cuando agregamos la entonación a muchas locuciones, se pueden convertir en una oración. Por ejemplo, 洗苹果 (lavar la manzana) es una locución. En el diálogo 你在干什么? 洗苹果, 洗苹果 se convierte en una oración. 6. La variedad de clasificadores constituye otra dificultad para muchos alumnos de chino. Tony McEnery y Richard Xiao ([en línea]) han hecho una investigación de los clasificadores usados en corpus de LCMC y CallHome. Comentan: Chinese is generally recognised as a classifier language not only because of its large inventory of classifiers but also because the use of classifier is mandatory in this language. While it is difficult to give an exact number of classifiers because of the fuzzy boundaries between classifiers and nouns on the one hand and between classifiers and numerals on the other hand (cf. Xing 1993; Li 2000), it has been estimated that there are commonly used classifiers in Chinese (cf. Guo 1987: 10). In the LCMC and CallHome corpora used in this study, a total of 421 types of classifiers are found (or 342 types when 79

80 El chino putonghua reduplicated classifiers and those with a suffix 儿 er or 子 zi are collapsed into their stems). In terms of tokens, classifiers account for 2.48% of LCMC and 3.13% of CallHome. There is increasing consensus that classifiers in Chinese can be grouped into three broad categories: nominal (people, animals and objects etc), verbal (actions and events) and temporal (time), but different authors have different ideas of the subcategories for nominal and verbal classifiers. In the taxonomy based on grammatical functions and level of grammaticalization, there are three types of nominal classifiers: specialised (i.e. fully grammaticalized classifiers with no other grammatical function), concurrent (i.e. functioning either as classifiers or some other word classes), and temporary (i.e. other word classes used as classifiers on an ad hoc basis), while verbal classifiers are of two types: specialised (functioning only as classifiers) and borrowed (i.e. temporary borrowings from other word classes) (cf. Guo 1987). A través de su estudio, se ve claramente que hay gran cantidad y diferentes tipos de clasificadores. Su uso es universal en chino. Además, varios clasificadores pueden juntarse con la misma palabra, y un clasificador puede juntarse con diferentes palabras. Entender las diferencias entre ellos y recordarlos siempre no es un trabajo fácil. 7.( 语气词 Interjección 啊, 吗, 吧,etc.) Hay varias interjecciones como 啊, 吗, 吧, 呢, 呗,etc. Estas palabras se colocan al final de una oración. El significado de la oración puede variar según la interjección empleada. 8. Faltan marcadores explícitos que señalen la relación de los verbos en la construcción de verbos en serie (serial verb construction) (Comrie, 1990: 825). 80

81 El chino putonghua Pongamos un ejemplo: 我叫他买橙子吃 Le digo que compre naranjas para comer. En chino, aquí no hay marcadores como que o para. Las relaciones entre los verbos deben inferirse según el significado y el contexto en que ocurre la combinación de verbos. Además de lo arriba explicado, el uso de la duplicación, la estructura de complemento resultativo, la oración pasiva sin marcadores, etc, también reflejan las características de la gramática de chino. Para los hispanohablantes que están acostumbrados a la flexión, estos son sus puntos más difíciles. 4.8 Léxico La lengua evoluciona sin cesar. Durante este proceso, el léxico también se enriquece. Para resumir, el léxico chino tiene las características como lo siguiente: 1. La mayoría de los morfemas son monosílabos. Para juzgar la capacidad de componer palabras de un morfema monosílabo, se consideran dos condiciones: uno es si puede formar una palabra solo, el otro es si puede formar una palabra junto con el otro y tener flexibilidad en el orden. Si cumplen ambas condiciones, son morfemas libres. si sólo cumple la segunda, son morfemas semilibres. Los morfemas no libres no cumplen ninguna de las dos. En general, su orden es fijo. No hay muchos morfemas bisílabos y polisílabos. Tampoco tienden a aumentarse (Tian Xiaolin, [en línea]). 2. La composición de palabras y la de locución son parecidas. Eso 81

82 El chino putonghua se debe a la falta de la flexión. Hay cinco estructuras básicas: yuxtaposición, modificador-cualificativo, verbo-objeto, verbo-complemento y sujeto-predicado. Estas cinco son estructuras principales para el nacimiento de nuevas palabras, sobre todo, las primeras tres (Tian Xiaolin, [en línea]). 3. La mayoría de palabras bisílabas o polisílabas son palabras compuestas. Pero, también hay una parte de palabras bisílabas de un solo morfema, manifestadas principalmente por palabras de duplicación y palabras compuestas de dos caracteres, generalmente aliteradas o rimadas(como 仿佛, 逍遥, 妯娌, etc.). Estos dos tipos de palabras tienen una característica común: en la palabra, el carácter solo no tiene ningún sentido. Sólo la composición de los dos pueden expresar la semántica concreta. 4. Con respecto al extranjerismo, el chino tiene una historia larga de absorber léxico desde otras lenguas. Desde el chino arcáico, ya empezaba a absorber palabras de Xiongnu y regiones del Oeste(un término usado en la disnastía Han para designar un territorio al oeste de Yumenguan que incluye la región actual de Xinjiang y parte de Asia Central (Sun Yizhen, 1999: 887), tales como 琵琶, 葡萄, etc. En el chino contemporáneo, a medida que se intercambia cada vez más con el extranjero, aparecen muchas palabras nuevas que abarcan diversos ámbitos (Shi Youwei, 2000). 5. La tendencia a las palabras bisílabas. Unas palabras monosílabas se transformaban en bisílabas, lo cual constituye una caracterítica importante de la evolución de chino antiguo a chino contemporáneo. Una ventaja radica en que puede evitar el fenómeno de que cuando hay demasiado monosílabas, hay más homófonos y podrá provocar más confusión Resourced Pool for Teaching and Promoting Chinese as a Foreign Language: 现代汉语词汇的特点 [en línea]: < [consulta: 11 de enero de 2011] 82

83 El chino putonghua 6. En comparación con el chino antiguo, los trisílabos han crecido mucho. Especialmente, palabras que llevan sufijos como 性, 化, 式, 员,etc. Aparte, hay gran cantidad de chengyu(modismo de cuatro caracteres). Las palabras que llevan más de cuatro ya son términos científicos y especiales. 4.9 La enseñanza de la lengua china como lengua extranjera en España Limitado por el espacio de la tesis, en este apartado, no se va a describir la situación de la enseñanza de chino como segunda lengua en cada país de habla hispana, sino que se proporciona una visión general sobre la enseñanza de chino en España a lo largo de los últimos años, tomándola como una representación, además de resumir los puntos que deberían tenerse en cuenta en la enseñanza de chino hacia los hispanohablantes. Estos años se ha fortalecido la cooperación política, económica, cultural y educativa entre ambos países y, entre ellas, el intercambio comercial y económico ha crecido notablemente. El volumen total del comercio bilateral para el año 2009 ha sido de millones de dólares. Hasta marzo de 2010, España tiene 1707 proyectos de inversión en China 8. Bajo esta circunstancia, en la sociedad, cada vez hay más demanda de la gente que habla tanto la lengua castellana como la lengua china, y la enseñanza de chino ha tenido un gran empuje en los últimos años. Según los datos de la Oficina de Asuntos Educativos de la Embajada de la República Popular de China, hasta el final del año 2003, en España sólo había 10 universidades donde se podía estudiar el chino, en las cuales el número de los estudiantes de chino también era muy limitado, puesto que este número no superaba los En contraste, actualmente, hay más de 40 universidades que han incorporado el 8 Ministerio de Asuntos Exteriores de China: Las relaciones entre China y España. [en línea]: [consulta: 25 de noviembre de 2010] 83

84 El chino putonghua idioma chino en su oferta académica. Además, la enseñanza del idioma chino está experimentando un crecimiento sin precedente en otros centros docentes ya que más de 100 colegios ya tienen cursos de chino. Un ejemplo de ello nos lo da la Comunitat Valenciana, que ofrece la asignatura del idioma chino como lengua extranjera en unos 30 colegios públicos a partir del año escolar de En total, actualmente hay más de alumnos de chino; y además se han abierto cuatro Institutos Confucio en España, que se encuentran en: Madrid, Valencia, Granada, y Barcelona. Hoy en día, en los cuatro Institutos, el número total de alumnos de chino ha sobrepasado a Este aumento también se ha reflejado en el número de participantes del examen HSK (Hanyu Shuiping Kaoshi, examen oficial de nivel de chino). Dicho examen realizó la primera convocatoria en el año 2003 con 13 adscritos, mayoritariamente de origen chino. Mientras que en 2009 se registra el record de 250 adscritos, casi el doble de 2008, y con una participación más activa de españoles que inmigrantes chinos. El primer semestre de 2010, este número ha sobrepasado de 700 personas. Durante todo el año ha sobrepasado los Las cifras son elocuentes para demostrar el boom del estudio de chino. Sin embargo, en comparación con muchos países, la enseñanza de chino en España se inició relativamente tarde, y tiene unas dificultades propias. La inexistencia de investigaciones sobre problemas específicos para el aprendizaje de la lengua china de hablantes de español, así como el exotismo que hasta hace poco suponía la docencia de la lengua china en España, nos coloca en una situación ciertamente compleja. Y a la carencia de docentes formados se une también la enorme escasez de materiales docentes dirigidos a hablantes españoles, adaptados a los diversos objetivos, y que tengan en cuenta los distintos tipos de estudiantes (Fisac, 2008: 40). 84

85 El chino putonghua En 2009, la Oficina de Asuntos Educativos de la Embajada China en España ha hecho una encuesta a 55 universidades, colegios, escuelas de idiomas e instituciones para preguntarles la situación de la enseñanza de esta lengua. A continuación, se enumeran algunas dificultades para los hispanohablantes. Pronunciación de ciertas consonantes La pronunciación de unas consonantes tales como <j> ([tɕ]), <q> ([tɕʻ]), <x> ([ɕ]), <zh> ([tʂ]), <ch> ([tʂ]), <sh> ([ʂʻ]) es muy difícil para los hispanohablantes porque no están familiarizados con dichas consonantes, al no estar en los sistemas fonológicos. Manual de chino Muchos manuales de chino están escritos y publicados en chino o en inglés; algunos en español están traducidos por personas que no se dedican a la docencia. Así que publicar o encontrar manuales exclusivamente para los hispanohablantes de chino deja mucho que desear puesto que todavía queda mucho por probar e investigar. Diccionarios y gramáticas Lo mismo ocurre con diccionarios y gramáticas. Son herramientas útiles y complementarias para el aprendizaje de una lengua extranjera, sin embargo, faltan estos materiales redactados sólo para los hispanohablantes pensando en su característica lingüística y cultural. La metodología Debido a la diferencia de mentalidad y cultura entre ambos países y la gran diferencia entre los dos idiomas, hay que ampliar la investigación sobre la metodología de la docencia de la lengua china a los hispanohablantes. 85

86 El chino putonghua El ambiente lingüístico y cultural Se recomienda a los alumnos que tengan una estancia en los lugares donde el ambiente lingüístico y cultural es chino, sea por cuenta propia, sea por convenios de intercambio. Con sólo el estudio en clase, sería muy difícil para que los alumnos tengan un alto nivel en la expresión y la comprensión oral. Docentes profesionales Con 20 años de esfuerzo, en España ya se han formado cierta cantidad de docentes profesionales. Pero, todavía faltan tanto docentes nativos de chino como docentes hispanohablantes con experiencia y especialidades. Algunas de estas recomendaciones van a ser tratadas en esta tesis. 86

87 PARTE SEGUNDA La aplicación 87

88 Diseño del corpus 5. Diseño del corpus En este capítulo, se exponen los aspectos relacionados con el diseño del corpus, en el que se fundamenta la recogida de grabaciones. Como tarea previa a la realización del corpus en sí, dicho proceso posee esencial importancia para la futura elaboración, explotación de los resultados de la investigación. 5.1 Aspectos generales Al hacer el diseño, ante todo, hay que definir bien el objetivo que se persigue con la elaboración del corpus. La creación de corpus puede tener diversos fines, tales como la elaboración de diccionarios, el estudio de frecuencia de palabras, la investigación de algunos fenómenos lingüísticos, la enseñanza de lenguas, la traducción automática, etc. El objetivo decide el tamaño y el contenido de la recolección de datos. La lengua escrita y la lengua oral se adaptan a distintas circunstancias de uso. En nuestro caso, en vista de que hay muchos corpus a gran escala de la lengua escrita de chino, decidimos elaborar un corpus de habla espontánea para la enseñanza de chino como segunda lengua para hispanohablantes. Un corpus de habla espontánea puede mostrar a los alumnos cómo, de hecho, actúa un nativo en su lengua materna de manera simultánea y dinámica en un contexto situacional, y así ayudarles a desarrollar la competencia comunicativa y expresiva. El trabajo siguiente será proponer claramente unos determinados factores como tamaño del corpus, tipos de grabación, contenido, participantes, lugares posibles de grabación, formas de recogida de datos, formas de almacenamiento, etc. Todos los pasos son interactivos. En la elaboración de nuestro corpus hemos preparado un marco que 88

89 Diseño del corpus responde a los siguientes parámetros: 1. Idioma: chino putonghua. En el capítulo 4, ya explicamos que el chino putonghua es la lengua común de los chinos. 2. Participantes: universitarios, profesores, empresarios, trabajadores de otras profesiones en lugares públicos, etc. Siempre procedimos a pedirles primero una sencilla declaración firmada, tal como se muestra en el apartado 6.1., de que estaban conformes con la grabación y el uso que se iba a hacer de ella. 3. Lugares de grabación: Las grabaciones se han realizado en dos países. Una parte se grabó en la Universidad de Estudios Internacionales de Beijing, y la otra parte, en la Universidad Autónoma de Madrid y Alcalá de Henares. Para un corpus oral, la calidad acústica desempeña un papel muy importante. Si es el caso de que, por una u otra causa, no se escucha bien, por una parte, resultaría difícil para la transcripción. Por ejemplo, el corpus CASS (Chinese Annotated Spontaneous Speech) no tenía muy buena calidad acústica y había ruido de fondo, por lo que al final, según los autores, costó mucho trabajo y tiempo hacer la transcripción (Li Aijun et al., 2000). Por otra parte, con estas condiciones sería imposible usarlo en la enseñanza: los alumnos se quejarían del ruido, no entenderían bien el contenido, perderían el interés, etc. El lugar de grabación y los equipos de grabación influyen sin duda mucho en la calidad acústica. Por eso, al hacer la grabación, siempre hemos tratado de buscar un estudio o una oficina silenciosa y usar las grabadoras profesionales para evitar el ruido y cualquier interferencia posible. El contenido de un corpus tiene que estar sujeto al objetivo para el cual el corpus se construye. Aquí, un aspecto muy importante a tener en cuenta es que los temas deben ser convenientes para nuestro propósito de enseñanza. Una referencia en la que nos hemos basado son los temas que aparecen en Textos de Español Oral del laboritorio LLI-UAM. El habla espontánea está enmarcada en un conjunto de circunstancias de carácter social, cultural, espacial, etc. Hemos 89

90 Diseño del corpus pretendido que los temas se relacionen más con la vida cotidiana de los chinos, la cultura china, el aprendizaje de chino, etc.; de ahí que luego el contenido sea interesante y fácil de entender y aparezcan las palabras de uso más cotidiano y frecuente. Los temas seleccionados comprenden aprendizaje, profesión, carácter, ocio, arte, cultura, deporte, viaje, transporte, salud, gastronomía, compras, aficiones, cocina, mascotas, plantas, juego, cosméticos, estaciones del año, etc. Antes de la grabación, explicamos bien a los participantes el objetivo del corpus y el tema. Todos los archivos de sonido fueron guardados en formato.wav y.mp3 para su futuro procesamiento. En cuanto a la nomenclatura de los archivos de cada grabación, seguimos las convenciones del laboratorio LLI-UAM. Por ejemplo, para el archivo chfo01, aquí ch se refiere al idioma chino, fo, al subcorpus Formal, y 01, el número de archivo en la carpeta llamada Formal. Chin01 se refiere al archivo número 1 de la grabación de la carpeta de Informal. Chme01 se refiere al archivo número 1 de la grabación de la carpeta de Medios de Comunicación. La transcripción de cada archivo fue guardada en formato.txt. Cada documento.txt tiene dos partes: la cabecera y la transcripción de la grabación. En la primera parte, vienen todas las informaciones relacionadas con la grabación (cfr. Apartado 6.2), las cuales que pueden ser relevantes en las consultas o el análisis futuro. Como ya comentamos en el apartado 2.1, en la práctica, no es cierto que cuanto más grande, mejor sea el corpus. El tamaño de un corpus depende del objetivo concreto. As well as the very large, general corpora designed to assist in writing dictionaries and other reference books, there are thousands of smaller corpora around the world, some comprising only a few thousand words and designed for a particular piece of research (Hunston, 2006: 26). Para un trabajo como la construcción de un diccionario, como hace falta capturar diferentes aspectos del uso de la palabra, obviamente un corpus pequeño no puede satisfacer tal necesidad. Sin embargo, a pesar de que los corpus generales requieren de mucha inversión de tiempo y recursos y contienen mucha información, hay que decir que no todos los 90

91 Diseño del corpus materiales son convenientes para el estudio de lenguas. Los corpus más pequeños y de ámbito más restringido, que se han creado para una investigación específica o propósito pedagógico, son mucho más adecuados para proporcionar ideas directamente relevantes para la enseñanza y el aprendizaje con propósitos específicos (O keeffe y McCarthy, 2010). En nuestro corpus, nos planteamos hacer 10 horas de grabación, equivalente aproximadamente a unas palabras en un corpus español similar. El número de interlocutores en cada grabación oscila entre el mínimo propio del monólogo y un máximo de tres, ya que un número superior a tres puede aumentar las dificultades de la transcripción y provocar la dificultad de comprensión de los alumnos. Las fechas de la recogida de los datos se sitúan entre octubre de 2008 y el final del año Elección de los participantes Tomando en cuenta que este corpus tiene por objeto formar a los alumnos que quieran estudiar el chino y tengan el español como lengua materna, los materiales obtenidos debían reflejar el habla espontánea de los nativos chinos que han vivido durante largo tiempo en China. Como es sabido, China es un país de diversas lenguas y dialectos. Aunque la enseñanza de putonghua es obligatoria en los colegios, no todos los chinos pueden hablar el putonghua estándar. Dependiendo de factores como la región en que se vive, el nivel de educación, el nivel socio-económico, la profesión, etc, el nivel de dominio del putonghua varía de persona en persona. En realidad, cierta cantidad de gente habla una variante que es combinación de un putonghua estándar y el dialecto de su pueblo (Norman, 2008). 91

92 Diseño del corpus El corpus C-ORAL-CHINA no es un estudio dialectológico. No nos interesa aquí una representación de rasgos lingüísticos diferenciales conforme a la geografía. Al seleccionar a los participantes, es necesario que todos ellos puedan hablar bien conforme a la gramática estándar el putonghua. Los datos del nivel sociolingüístico de los participantes se han registrado en la cabecera de cada documento. Antes de cada grabación, reiterábamos a los interlocutores la indicación de que hablaran el putonghua durante toda la grabación. Si no, creemos que este corpus destinado a la enseñanza de lenguas hubiera perdido las notas de pertinencia lingüística, representatividad y utilidad pragmática. El corpus C-ORAL-CHINA abarca 10 horas de grabación, y en su obtención han participado 47 miembros. Entre ellos, hay 33 mujeres y 14 hombres. La desigualdad del número de participantes entre mujeres y hombres se debe a varias razones, a saber: 1. La participación en este corpus ha sido voluntaria. Durante la recogida de muestras, primero había que pedir el permiso a cada cual, y el hecho es que hemos tenido más voluntarias que voluntarios como en el caso de corpus español C-ORAL-ROM. 2. La lengua china no es una lengua flexiva. Tampoco hay tantas diferencias entre la lengua femenina y la lengua masculina como el japonés. 3. En el subcorpus de Medios de Comunicación, casi la mayoría de los presentadores de la televisión son mujeres. Edad Nº pers. Porcentaje A: años % B: años 8 17% C: años 1 2.1% D: >60 años 3 6.4% Tabla 5.1 Edad de los participantes de C-ORAL-CHINA 92

93 Diseño del corpus La tabla 5.1 nos muestra la estructura de la edad de los participantes. Como tenemos muchos voluntarios universitarios y el subcorpus de Medios de Comunicación pertenece a una universidad china, la edad A (entre años) ocupa un porcentaje muy significativo, 74.5%. Una ventaja de esta estructura es que, como son jóvenes, el vocabulario que usa es muy innovador, reflejando el desarrollo de la tecnología y la sociedad. Ponemos un ejemplo del archivo chin01. *SMW: 对 /// < > 我就是一个 [///] hhh {%act: click} 用一个先进点的词儿说 // 我就是一颜控 /// < > 就是我干什么都要看外貌的那种 /// < > 但是也不是说我就是说想找一个特别帅的男朋友这种 // 但我就是喜欢看 /// < > 就是美女我也喜欢看 // 就是好看的东西我都看 /// < > XX 控 es una forma muy nueva de expresar la obsesión de una persona por algo favorito suyo. El uso de este tipo de palabras (neologismos) representa las palabras recién aparecidas en aquella misma época en que hacemos la recogida de datos. En la transcripción, también hemos notado un fenómeno. En la grabación, mucha gente mantiene sus acostumbradas muletillas, pero casi nadie dice palabrotas. Creemos que eso se relaciona con el hecho de que ya saben cuál es el uso final de este corpus y la grabación no es secreta, lo cual afecta a su comportamiento lingüístico. Para un chino, pronunciar tacos en una ocasión así, es una falta de cortesía. Además, muchos participantes de nuestro corpus tienen experiencia de haber vivido cierto tiempo en países hispanohablantes. En unos documentos, han contado su vida en esos países, lo cual puede ser interesante e atractivo para los alumnos hispanohablantes y les facilita la comparación cultural entre distintos países. 93

94 Diseño del corpus 5.3 Tres tipos de grabación Diferentes corpus adoptan diferentes estrategias de estructura. En C-ORAL-CHINA, usamos la partición de C-ORAL-ROM. Es decir, dividimos el habla en formal (60%) e informal (40%). El habla formal se divide en dos partes: medios de comunicación y el habla en contexto público. Según Massimo Moneglia (2005), si bien es cierto que un registro formal de expresión con frecuencia se basa parcialmente en un texto escrito, también está ligado a otras condiciones relevantes, tales como: a. uso público del habla; b. uso profesional del habla, de acuerdo con la función social y el papel del hablante en la comunidad; c. la tarea deliberada de llevar a cabo un texto oral que implica el tratamiento de un tema, argumentación, conclusiones, etc. Concluye este autor diciendo que el habla formal todavía puede ser espontánea siempre y cuando no sea la ejecución de un texto previamente preparado y escrito. Distribuimos las 10 horas en tres subcorpus: Formal en contexto público, Medios de comunicación e Informal. La duración y el contenido de cada subcorpus se diseñan como la tabla

95 Diseño del corpus Tipos Duración Contenido Lugares de grabación Formal en 2 horas Conferencias sobre China y contexto la cultura china, España público clases de chino, etc. Medios de 4 horas Entrevistas, China comunicación reportajes, etc. (radio y televisión) Informal 4 horas Diálogos en sitios China y públicos, dialógos en sitios privados España Tabla 5.2 Parámetros en el diseño del corpus C-ORAL-CHINA Entre ellos, en el subcorpus Formal en contexto público, todos los textos orales son monólogos. Según Patrice Pavis, el monólogo puede ser caracterizado como el discurso de un personaje que no está dirigido directamente a un interlocutor con el propósito de obtener una respuesta (Patrice Pavis, 1998). En ese caso, el emisor emite las informaciones a los receptores para convencerles de lo que está contando. El subcorpus Informal abarca 25 diálogos. El diálogo es un tipo de interacción entre dos interlocutores. Es una forma de conversación más cooperativa. En comparación con el monólogo, Briz (2002) lo caracteriza por los siguientes rasgos: a) Dialógico, lo que implica sucesión de intercambios; b) Inmediato, puesto que, a diferencia de un informativo o un mensaje pregrabado, se desarrolla en la coordenada espacio-temporal aquí-ahora-ante ti; c) Retroalimentado y cooperativo, puesto que se obra juntamente con otro y su intervención; 95

96 Diseño del corpus d) Dinámico, como demuestra la alternancia de turnos, que además es no predeterminada. Aunque el tema es definido antes de hacer la grabación, el contenido no es planificado. En realidad, no hay control del contenido ni del tiempo en la producción del habla por parte de la investigadora. Por lo tanto, hay parejas que hablan mucho tiempo y parejas que hablan apenas un par de minutos. 5.4 Comparación con el corpus CADCC Como se expone en el capítulo 2, actualmente hay diferentes corpus de habla espontánea en China. Aquí vale la pena mencionar los corpus orales explotados por la Academia de Ciencias Sociales de China(Chinese Academy of Social Sciences): Corpus de Monosílabos. Contiene 1275 monosílabos, pronunciadas por 15 hablantes masculinos. Corpus de Bisílabos. Abarca más de 3000 combinaciones de vocales y consonantes. Annotated Speech Corpus of Chinese Discourse (ASCCD). Este corpus leído está formado por textos orales, datos fonéticos y la anotación. Se puede usar en la investigación fonética, explotación de ingeniería fonética y la enseñanza de putonghua. Chinese Annotated Dialogue and Conversation Corpus (CADCC). Se compone de grabación de diálogos de lengua natural y la transcripción. Chinese Annotated Spontaneous Speech (CASS) Corpus de Reconocimiento de Habla 863 / Corpus de Síntesis de Habla 863. En este apartado, seleccionamos uno famoso de entre ellos CADCC (Chinese Annotated Dialogue and Conversation Corpus) para hacer una comparación de diferentes aspectos entre los dos. 96

97 Diseño del corpus CADCC está destinado a la investigación de la lengua natural, al reconocimiento fonético y a la enseñanza de putonghua de nivel alto, etc. El sonido fuente ha sido grabado en formato.wav, 16 bits, 16 KHZ, con un almacenamiento de 1.6 GB (Liu Yabin y Li Aijun, [en línea]). 1. La estructura. CADCC abarca dos subcorpus: Set1 (de diálogos telefónicos) y Set2 (de diálogos en conversación). La Tabla 5.3 proporciona algunos datos básicos de este corpus. Tiene 12 unidades de diálogos, captados en un ambiente de grabación profesional. En cada unidad participan dos interlocutores. Todos hablan el estándar putonghua. Set1 Set2 Contenido Servicio en hotel Sin restricción Duración 2 horas 16.2 horas Participante > hombres y 10 mujeres Acentos Sí no dialectales Transcripción sí sí Formato.wav.wav Solapamiento más menos Tabla 5. 3 Datos básicos del corpus CADCC CADCC no tiene ni monólogos ni grabaciones en medios de comunicación como el nuestro. En este sentido, C-ORAL-CHINA abre a más variedades de habla espontánea. 2. Diseño de temas 97

98 Diseño del corpus En CADCC, no han trazado ningún límite en el contenido del diálogo. Este corpus pretendía reflejar absolutamente las características de la lengua natural en un contexto real. Se trata de conversaciones libres, sin control alguno por parte del investigador. En C-ORAL-CHINA, la conversación es semidirigida, con control del investigador. Es decir, antes de hacer la grabación, se les explica a todos los participantes el propósito específico del corpus y se les propone un tema preferido previamente escogido. El objetivo del diseño puede explicar dicha diferencia. En CADCC se trataba de hacer un estudio de tiempo/tema. Hablante Sexo Número total de tópicos Duración en seg. Seg. por tópico SUNXI MEN ZHNGJ MEN XINGY WOMEN CHENX WOMEN DUYU WOMEN SONGW MEN LIUJI MEN LVJIN WOMEN XUCHA MEN DURUI MEN TANJI MEN Tabla 5.4 Distribución de tiempo/tema de cada pareja de interlocutores En el Set2 de CADCC, cada pareja son colegas o compañeros que tienen la misma afición o temas comunes. El diálogo dura más o menos una hora. La tabla 5.4 trata de la distribución de tiempo/tema de cada pareja de interlocutores. Según ellos, 80% de los temas duran menos de 4-5 minutos, y 90% de los temas, menos de 5-6 minutos. En C-ORAL-CHINA, como el tema es fijo, se nota que algunas 98

99 Diseño del corpus parejas son capaces de hablar más tiempo permaneciendo exclusivamente en el ámbito de la cuestión propuesta. No es el caso de otras que, eventualmente, dentro de una misma grabación pueden desviarse a otros temas. En cualquier caso, unas y otras dedican lo esencial de la conversación al tema de que se trata y que se indica en el encabezamiento del texto de cada grabación. Nuestra idea fundamental con esto es que, luego, aprovechando nuestro corpus, los alumnos de chino puedan familiarizarse con ciertas palabras habituales y sinónimos de un mismo tema o campo semántico. 3. La grabación secreta y los participantes. En CADCC, la grabación se hace en oficinas o habitaciones normales. Los equipos de grabación inálambricos se colocan en otra habitación. Cada interlocutor lleva micrófono inálambrico encima. Lo han hecho así para poder garantizar que ambas partes puedan entrar en el diálogo de manera más natural. En C-ORAL-CHINA, la grabadora no se esconde. Las interacciones se han grabado con el micrófono a la vista, y se han realizado casi en su totalidad frente a la investigadora. La presencia de la investigadora sirve para garantizar que todos los equipos funcionen bien y la grabación tenga buena calidad. 4. El estudio de la velocidad al hablar. En CADCC, aparte de los dos subcorpus, grabaron a 6 locutores que leían un artículo seleccionado. Después, hacían una comparación entre CADCC, el corpus leído ASCCD y estas grabaciones de texto leído. En nuestro corpus, no incluimos el subcorpus leído. Teniendo en consideración que actualmente la mayoría de los manuales lleva un CD para practicar la lectura, no lo hemos preparado. Según los investigadores del otro estudio, en su experimento, la velocidad de la lengua espontánea es cuatro veces mayor que la velocidad del corpus leído. Por nuestra parte, también hemos realizado una medición de velocidad en los contenidos del corpus. 99

100 Diseño del corpus Archivo Segundos Nº Caracteres Caracteres / Segundo chfo chfo chfo chfo chfo chfo chfo chfo chfo chfo chfo chfo chfo chfo chfo chfo chfo chfo chfo chfo chfo Media 3.4 Tabla 5.5 Velocidad caracteres / segundo del subcorpus Formal en contexto público. 100

101 Diseño del corpus Archivo Segundos Nº Caracteres Caracteres / Segundo chin chin chin chin chin chin chin chin chin chin chin chin chin chin chin chin chin chin Chin chin chin chin chin chin Chin Media 4.29 Tabla 5.6 Informal Velocidad caracteres / segundo del subcorpus 101

102 Diseño del corpus Archivo Segundos Nº Caracteres Caracteres / Segundo chme chme chme chme chme chme chme chme chme chme chme chme chme chme chme chme chme chme chme chme chme chme chme chme chme Media 3.74 Tabla 5.7 Velocidad caracteres / segundo del subcorpus de Medios de comunicación Las tres tablas 5.5, 5.6 y 5.7 presentan la velocidad de habla calculada en cada texto oral y la velocidad media en los tres subcorpus. Nos damos cuenta de que la rapidez al hablar en el subcorpus Informal es mayor que en la de los dos subcorpus Formal. 102

103 Diseño del corpus 4. Convenciones de transcripción. En CADCC, la transcripción también se almacena en formato.txt. La transcripción de cada enunciado tiene tres líneas de información. La figura 5.8 es un ejemplo extraído. 1: (67140:28306) B:[NS]. Word Segments: \B:[NS].\ Pinyin String: B:[NS]. 2: (95446:73585) A:[BR] 哎呀 [MO][SG][SM]. Word Segments: \A:[BR]\ 哎呀 \[MO][SG][SM].\ Pinyin String: A:[BR] ai1 ya1 [MO][SG][SM]. 3: (169031:24955) B: 你们现在 [DS] 紧不紧呀 [MO]? Word Segments: \B:\ 你们 \ 现在 \[DS]\ 紧 \ 不 \ 紧 \ 呀 \[MO]?\ Pinyin String: B: ni3 men0 xian4 zai4 [DS] jin3 bu4 jin3 ya0 [MO]? 4: (193986:46226) A:[BR] 紧不紧就看自己了, 我这两天还行. Word Segments: \A:[BR]\ 紧 \ 不 \ 紧 \ 就 \ 看 \ 自己 \ 了 \,\ 我 \ 这 \ 两 \ 天 \ 还 \ 行 \.\ Pinyin String: A:[BR] jin3 bu4 jin3 jiu4 kan4 zi4 ji3 le0, wo3 zhei4 liang3 tian1 hai2 xing2. 5: (240212:8828) B: 全自己安排. Word Segments: \B:\ 全 \ 自己 \ 安排 \.\ Pinyin String: B: quan2 zi4 ji3 an1 pai2. Figura 5.8 Ejemplo de transcripción en CADCC Entre ellas, en la primera línea, el primer número indica el número del enunciado; entre comillas, dos cifras se refieren respectivamente al inicio temporal de este segmento de sonido y su duración. La segunda línea es la información de segmentación de palabras. La tercera línea es la transcripción en pinyin. 103

104 Diseño del corpus En C-ORAL-CHINA, considerando que el nivel de chino de cada alumno es distinto y que en realidad los chinos leen los caracteres y no el pinyin, no metemos las dos transcripciones en el mismo documento. Lo que sale en la transcripción de la página web es como la figura 5.9: CRJ: 同学们好! CRJ: 今天是我们上课的第一天 /// CRJ: 我先来介绍一下我们这门课 // 怎么 hhh {%com: close the door} 来上 /// CRJ: 这一门课我们学习的是 // 新实用汉语课本的第二册 /// CRJ: 这个学期 / 我们学习 / 第十五课 / hhh {%com: open the book} 到第二十课 /// CRJ: 一共我们学习六课书 /// CRJ: &mm 每一课书基本上是用六个小时 /// CRJ: 前 [/] 前四个小时或者五个小时 // 我们学习 / 生词 / 语法 / 课文和一部分的练习 /// Figura 5.9 Ejemplo de transcripción en C-ORAL-CHINA Igual que en CADCC, el primer número indica el número del enunciado. Las dos cifras que lo siguen son el tiempo inicial y terminal de este segmento. Preparamos otro documento.txt con la transcripción de pinyin. Presentamos dos formas de pinyin. 104

105 Diseño del corpus *CRJ: tóng xué men hǎo!jīn tiān shì wǒ men shàng kè de dì yī tiān wǒ xiān lái jiè shao yí xia wǒ men zhè mén kè, zěn me hhh {%act: close the door} lái shàng Zhè yì mén kè wǒ men xué xí de shì,xīn shí yòng hàn yǔ kè běn de dì èr cè zhè ge xué qī wǒ men xué xí dì shí wǔ kè hhh {% act: open the book} dào dì èr shí kè yí gòng wǒ men xué xí liù kè shū ng... měi yí kè shū jī běn shang shì yòng liù ge xiǎo shí qián... qián sì ge xiǎo shí huò zhě wǔ ge xiǎo shí,wǒ men xué xí shēng cí yǔ fǎ kè wén hé yí bù fen de liàn xí Figura 5.10 Ejemplo de transcripción de pinyin (sin segmentación de palabras) *CRJ: tóngxuémen hǎo! jīntiān shì wǒmen shàngkè de dìyītiān wǒ xiānlái jièshao yíxia wǒmen zhè mén kè, zěnme hhh {%com: close the door} lái shàng zhè yìmén kè wǒmen xuéxí de shì,xīn shíyòng hànyǔ kèběn de dìèr cè zhège xuéqī wǒmen xuéxí dìshíwǔ kè hhh {%com: open the book} dào dìèrshí kè yígòng wǒmen xuéxí liù kè shū ng... měi yíkè shū jīběnshang shì yòng liùge xiǎoshí qián... qián sìge xiǎoshí huòzhě wǔge xiǎoshí, wǒmen xuéxí shēngcí yúfǎ kèwén hé yí bùfen de liànxí Figura 5.11 Ejemplo de transcripción de pinyin (con segmentación de palabras) En las dos figuras 5.10 y 5.11, la primera forma no dispone de la segmentación de palabras, mientras la segunda dispone de ella. De esta manera, en la búsqueda, los alumnos podrán buscar por carácter o por pinyin como quieran. Si alguno no sabe el principio de la segmentación de palabras, también puede usar la herramienta para encontrar la palabra. Aparte de todo lo dicho, otra diferencia de la transcripción de pinyin es que en CADCC, en vez del estándar pinyin, usan solamente las letras del abecedario más el número, sin ningún símbolo diacrítico. Pero esto resulta, a nuestro juicio algo tosco y poco operativo. Además, una transcripción así puede ser difícil de leer y, sobre todo, no se corresponde a la costumbre de los chinos. Por eso, hemos querido que nuestra transcripción fuera una estandarizada y usada realmente por los chinos. Gracias a las codificaciones modernas como UTF8 de Unicode, en C-ORAL-CHINA, este problema está resuelto. Es más, hemos notado que nuestra transcripción no afecta el 105

106 Diseño del corpus estudio de los fonemas (véase el apartado 7.2.). En cuanto a la transcripción de los llamados signos o fenómenos paralingüísticos, nuestro método (C-ORAL-CHINA) y el de CADCC son también distintos. Fenómeno 1 拖音 lengthening [LE ] 2 喘息 breathing [BR ] 3 笑声 laughing [LA ] 4 哭声 crying [CR ] 5 咳嗽 coughing [CO ] 6 间断 disfluency [DS ] 7 噪音 noise [NS ] 8 沉默 silence (long) [SI ] 9 含混音 murmur/uncertain segment [UC ] 10 语气词 modal/exclamation [MO ] 11 咂嘴音 smack [SM ] 12 其他语言 non-chinese [NC ] 13 吸鼻音 sniffle [SN ] 14 打哈欠 yawn [YA ] 15 重叠发音 overlap [OV ] 16 插话 interjection [IN ] 17 吞咽 deglutition [DE ] 18 清嗓子 hawk [HA ] 19 打喷嚏 sneezes [SE ] 20 电话忙音 beep [BP ] 21 颤音 trill [TR ] 22 口误 error [ER ] 23 填充停顿 filled pause [FP ] Transcripción Tabla 5.12 Convenciones de transcripción de signos paralingüísticos de CADCC En CADCC, usan la abreviatura preelaborada para transcribir los signos paralingüísticos como la tabla

107 Diseño del corpus Por ejemplo: A:LE<MO< 噢 LE> MO>;B: 那个就是 DS< 一一 DS> 锤子的事儿 En el nuestro, no usamos la abreviatura, sino una descripción más explícita para que el lector se aclare con el fenómeno de un vistazo (esto se concreta en el apartado ). Ejemplo: *WAL: &mm 我想西班牙人 [///] &mm 我想很 [/] 对于很多西班牙的同学来讲 // 那个 hhh {%act: clearing of the throat} 上这个课的目的呢 / 肯定是想将来 / 有机会能够自己 / 比如在中国呀或者在西班牙也好 // 能够 hhh {%act: click} &mm 上一些新闻的看 [/] 上一些新闻网站啊 / 看一些实时的国内一些消息 /// 5.5 Diseño final El corpus C-ORAL-CHINA consta de caracteres. En total son diez horas de grabación, distribuidas en tres subcorpus, con 71 textos, con la participación de 47 voluntarios. Todos los textos orales se ofrecen en formato electrónico digital. Representan el estándar putonghua. Incluyen diferentes situaciones comunicativas en la vida real. Además, los alumnos pueden consultarlo a través de la página web. En el Apéndice, se adjuntan ejemplos de transcripción y las tablas de las informaciones generales de los subcorpus sobre el número de palabras, duración de los archivos, números de turnos, enunciados por fichero, etc. 107

108 Metodología 6. Metodología 6.1 Grabación y digitalización Las mayor parte de las grabaciones se han realizado con una grabadora Edirol (modelo R09HR) con dos micrófonos incorporados. El sonido fuente ha sido grabado en formato WAV, 16 bit, Hz, estéreo. La parte de medios de comunicación del corpus ha sido proporcionada directamente por la Radio y la Televisión de la Universidad de Estudios Internacionales de Beijing. La protección de los derechos de propiedad intelectual y de privacidad es obligatorio en los corpus actuales. Los participantes en la grabación tienen derecho a prohibir que se publique o se comercialice su voz. Antes de hacer la grabación, explicamos a todos los participantes el uso final de su grabación y les pedimos que firmaran un permiso en el que nos autorizaban la grabación y el uso de la voz. En la Figura 6.1, presentamos el modelo de permiso que usamos en el C-ORAL-CHINA siguiendo la convención del laboratorio LLI-UAM. 108

109 Metodología I,., at the request of the person in charge of the project carried out by the Computational Linguistics Laboratory (LLI) at the Universidad Autónoma de Madrid, whose purpose is to develop a spontaneous speech corpus made up of a collection of recordings and transcriptions, within the framework of the Doctoral Dissertation by.., give my permission and authorization for the following: 1. Recording of my voice. 2. Transcription of the recording. 3. Treatment of the sound and the transcription. 4. Dissemination and commercialization of the sound and the transcription 5. I keep the right to listen to the recordings and to deny my authorization for whatever reason that I consider pertinent. The persons in charge guarantee the anonymity of the participants and of any person mentioned in the recording. Date: Signature: Figura 6.1 Modelo de permiso de grabación 109

110 Metodología Durante todo el proceso, había que observar si funcionaban bien la grabadora y el micrófono. En la transcripción, si se descubría que había alguna grabación o algún trozo de grabación que no se podía escuchar bien, lo quitábamos o lo cortábamos. En contadas ocasiones se ha empleado el programa Cool Edit para manipular el sonido mejorando su calidad, eliminando ruidos o cortando partes que no son relevantes o que preferimos no utilizar por cuestiones de anonimato e intimidad. De esta forma seleccionamos las grabaciones que vamos a transcribir, editándolas en archivos.wav independientes. Figura 6.2 Edición del sonido con Cool Edit 110

111 Metodología 6.2 Transcripción ortográfica En comparación con el corpus de lengua escrita, la construcción del corpus de habla espontánea es más complicada y difícil. El habla espontánea contiene muchos fenómenos como pausas, palabras cortadas, vacilaciones, repeticiones, etc. La transcripción de este tipo de corpus es muy costosa. Los programas actuales de reconocimiento de habla no son capaces de hacer la transcripción ortográfica adecuada automáticamente. Tenemos que hacerlo manualmente. En nuestro caso, una hora de grabación puede costar 40 horas de trabajo. La transcripción constituye el punto de partida para el procesamiento posterior del corpus y los análisis lingüísticos. En C-ORAL-CHINA, se procura atenerse a 3 principios. 1. La fidelidad. Tenemos que ser fieles a los enunciados, manteniendo el estado original sin hacer ninguna corrección u omisión. 2. La integridad. Durante el habla oral, debido a varios motivos, es inevitable que haya oraciones incompletas, pausas, interrupciones, autocorrección, etc. Aunque algunos elementos no tienen una representación gráfica normativa, siempre tratamos de hacer la transcripción de manera integral elaborando algunas convenciones para registrarlos porque todo esto impulsa la marcha de la comunicación del lenguaje. 3. La exactitud. Se refiere a juzgar con exactitud el contenido de la grabación como la pronunciación, la entonación, las locuciones y el léxico, etc, usando correctamente los signos de transcripción ya establecidos. De acuerdo con estos principios, seguimos las convenciones del laboratorio LLI-UAM, en combinación con las características reales de la lengua china. Sin duda, un estándar favorece tanto la buena marcha de la transcripción como los análisis siguientes a la transcripción. 111

112 Metodología Cabe señalar finalmente que para garantizar la precisión de la transcripción del sonido y los fenómenos paralingüísticos, es imprescindible la revisión por un transcriptor diferente. El procedimiento de transcripción ortográfica se divide en tres fases: 1. Transcripción ortográfica con inclusión simultánea del etiquetado de marcas prosódicas. 2. Revisión del etiquetado por un segundo etiquetador. 3. Segunda revisión por parte del primer etiquetador para garantizar al máximo la precisión. El texto de una transcripción se va a estructurar en dos partes: cabecera 9 y la propia transcripción del sonido. Así pues, el formato textual comprende dos niveles: 1. Metadatos: información de la sesión de grabación (contexto, tamaño, participantes, calidad acústica, fuente, transcriptores y revisores). Estos datos significan mucho para la investigación lingüística: A través de ellos, se puede consultar todo tipo de informaciones relacionadas con el corpus; se puede formar distintos subcorpus para adaptarse a diferentes necesidades de los investigadores; se puede hacer comparaciones entre los subcorpus para estudiar y descubrir los factores que puedan influir en el uso y del desarrollo de la lengua, etc. 2. Representación dialógica: información lingüística y no lingüística presentada en forma textual y con dos niveles de información: Líneas de texto: transcripción ortográfica. Líneas dependientes: información contextual. 9 Para la información contenida en la cabecera se utiliza el inglés por ser la convención seguida en el proyecto C-ORAL-ROM. 112

113 Metodología Cabeceras (Metadatos) Aquí, se presenta toda la información de la título que ayude a reconocer el nombre del datos de cada participante, donde se incluye: Nombre: tres letras mayúsculas, generalmente las tres primeras letras del nombre del participante. Sexo (man/woman). Edad: se utiliza el código A: 18-25; B 25-40; C: 40-60; D: >60. Educación: 1: primaria o menos; 2: secundaria; 3: estudios superiores. Profesión. Role: papel del participante en la separado por barras, con las cuatro cifras del lugar geográfico de la breve descripción del espacio e información relevante del lugar en el que se ha hecho la temas y subtemas tratados en el texto, con un máximo de 50 en este caso indicamos el nombre del tipo de interacción, es decir, formal, informal, privada, pública, minutos ( ) y segundos ( número de A (muy buena), B (buena), C (suficientemente nombre del nombre del comentarios del transcriptor sobre el texto. Pongamos un ejemplo: 113

114 WAL, (man, B, 3, profesor, in a classroom, not newspaper, spanish students, learning formal, public, 15' Dong Convenciones Turnos *ABC: los turnos se indican con asterisco, tres mayúsculas (pueden ser las tres primeras letras del nombre del participante. Si el nombre sólo tiene dos caracteres, pueden ser las dos primeras letras del apellido más la primera letra del nombre), dos puntos y un espacio. 中国象棋? *JIJ: 听说你会下象棋? 那么 // 是国际象棋 / 还是 *HXL: 我会 [/] 我会下国际象棋啊 /// Comentarios En los comentarios se introduce toda la información paralela a la conversación que se considera relevante para comprender lo que está 114

115 Metodología sucediendo. Los comentarios se escriben dentro del turno, en la misma línea, entre llaves { }, inmediatamente después de la palabra tras la cual se ha producido el fenómeno. Como se podrá observar, los comentarios se escriben en inglés. En función de la clase de información que se quiera expresar en el texto, existen distintos tipos de comentarios: %act: son los comentarios más usuales y sirven fundamentalmente para expresar el paralenguaje: *JIJ: 那一个五岁的小孩儿就下国际象棋 // 会不会让人有那种 // 幼年老成的感觉呢 hhh {%act: laugh}? %com: sirve para hacer referencia a algún cambio ocurrido en la situación, como por ejemplo, que de pronto un participante se levante, se cambie de lugar, o se marche de la escena, o también la llegada de otro participante. Todo lo que pueda influir en la forma de enfocar la situación comunicativa y en los temas de conversación. Por ejemplo, encender la televisión y comentar los anuncios publicitarios. *CRJ: hhh {%com: open the book} 我再讲一下这本书 [/] 它的这本书的 / 这个 // 主要的安排的 / 想法 // 就是它的主要的想法 /// Por otra parte, en este corpus, hay cuatro horas de grabaciones de medios de comunicación. Entre ellas, algunas tienen la música como fondo para unos trozos o durante toda la grabación. Se usa {%com: background music} para indicar el inicio de la música. 家好! *WYL: {%com: background music} Hello / 观众朋友们大 115

116 Metodología Si la música sale en toda grabación, este comentario sólo aparece una vez. Si la música sale en algún trozo, cuando la música termina, se usa {%com: end of background music}. En el trozo siguiente, los comentarios se repiten al inicio y al final de la música. *WYL: 还有 // 良好的生活习惯 / 对皮肤的好坏可以起到关键性作用哦 {%com: end of background music}! Lo mismo pasa con otro tipo de sonidos. *WYL: {%com: background music and street noise} 看了那么多五颜六色 // 精美绝伦的镜头 // 是不是给你的眼球儿 / 带来了不小的享受和冲击呢? 现在的你是不是已经有了灵感? 如何把你的小窝儿装点一新了呢? 刚才 // 我们给大家介绍了那么多有关如何布置宿舍方面的知识和小窍门 // 希望能对大家有所帮助! 好了 // 节日宿舍布置好了 // 下面就是挑选什么礼物送给朋友 / 会别有新意 / 不落俗套 / 而又经济实惠呢? 下面就跟着我一起去挑选节日礼物吧 {%com: end of background music and street noise}! Si en un enunciado, sólo hay música, se transcribe como {%com: music}. *WYL: 比如像帽子 // 围巾 // 手提包 // 还有靴子 /// {%com: music} /// 一件合适的羽绒服 // 在今年冬天已经成为了一件热门的时尚单品 /// Siempre se escribe dentro del turno, en la misma línea, entre llaves { }, justamente cuando suena o para el sonido de fondo. %alt: este tipo de comentario tiene dos funciones: en primer lugar, se utiliza para reflejar los errores de producción. Por ejemplo, imaginemos que un hablante en un momento determinado de la 116

117 Metodología conversación se equivoca y dice pacharrón en lugar de chaparrón. En nuestro caso, en la transcripción se presentaría así: *LIC: 啊 / 说到排球 / 我也蛮感兴趣的 /// 您们 {%alt: 您几位 } 一般都什么时间去打呀? Así pues, en la transcripción se refleja lo que el hablante dijo realmente, y la forma normativa se pone en el comentario. En segundo lugar, los comentarios %alt sirven para recoger todo tipo de expresiones o fenómenos que son típicos del habla oral pero que no están aceptados por la norma. Por ejemplo, imaginemos que un hablante dice fúbol en lugar de fútbol o m acuerdo en lugar de me acuerdo. En todos estos casos, la forma que, desde un punto de vista normativo, se considera correcta se pone en el comentario de la transcripción, mientras que la variante lingüística se pone en el texto. %pho: este comentario se ha utilizado para reproducir las pronunciaciones erróneas (en la misma línea entre llaves). *XYZ: &mm 圣 {%pho: [sèng]} 诞节吗 // &mm 因为我们是 {%pho: [sì]} 马上 {%pho: [sàng]} 要毕业了 // 可能会跟全班同学一起聚一聚 // 吃 {%pho: [cī]} 顿饭 // 然后会去唱唱 {%pho: [càng]} 歌什么的 // 因为马上 {%pho: [sàng]} 离开校园了 // 这种机会也挺难得的 /// En caso de que alguna pronunciación no exista en pinyin, también tratamos de marcarla con el signo fonético de pinyin. prosódica Etiquetas para marcar la información Pausas entonativas: / sirve para indicar las unidades tonales. En términos generales, se pondrá una barra / cuando intuitivamente se perciba una pequeña pausa tonal, a pesar de que el hablante no haya terminado su unidad entonativa o enunciado. 117

118 Metodología *YMJ: 第五种呢 / 叫白茶 /// 这个白茶呀 / 比较珍贵 // 以前也称作 / 是给皇上啊 [/] 进贡给皇上的贡茶 /// Como podemos observar, cuando el hablante llega a 呢 hace una pausa pero no ha terminado de hablar. Normalmente, la barra simple / se suele corresponder con una breve pausa con entonación ascendente, que indica que el hablante no ha finalizado su discurso (independientemente de si desde un punto de vista sintáctico la oración esté completa o no), mientras que con las dos barras // el hablante hace una pausa más marcada, a veces con entonación descendente, pero a continuación prosigue su unidad informativa. Final de enunciado: estos cinco signos, ///,?,!,, + (según sea asertivo, interrogativo, exclamativo, suspensión por conocimiento compartido o interrupción por parte de otro hablante) sirven para indicar el final del enunciado. A diferencia del español, en chino sólo hay? y!. Al principio de cada enunciado, no existe el uso de y. Los seis puntos (en chino, los puntos de suspensión son de seis puntos) indican el final de un enunciado con entonación suspendida. Es un enunciado que no se termina porque el hablante considera que su interlocutor ya ha inferido lo que quiere decir. Pongamos un ejemplo: *LXX: [<] < 然后 / 对 > /// 在吃方面 // 尽量少在外面吃饭吧 // 虽然好像那些餐馆看起来都... En este caso, el hablante considera que no es necesario terminar su enunciado porque se deduce lo que quiere decir. Así pues, los puntos suspensivos se ponen cuando la entonación suspendida guarda en sí misma una carga de significado que no se explicita pero que se da por supuesto. No hay que confundir los puntos 118

119 Metodología suspensivos con los alargamientos vocálicos: en este caso, el hablante no considera que su interlocutor pueda inferir el resto de la información, sino que el alargamiento, ya sea de un sonido vocálico o uno consonántico, en una estrategia de planificación del discurso, pero el hablante culminará su enunciado. Los alargamientos se señalan con el signo a continuación del fonema alargado. La triple barra (///) se indica para señalar el final de todos los demás tipos de enunciados, de la clase que sean, afirmativos, dubitativos, imperativos, etc. Continuación de turno: se pondrá este símbolo a principio de turno para indicar que se continúa la unidad informativa del turno anterior, tras una interrupción o solapamiento. *LYM: 对 // 是在古巴很有名的 /// 就是 / 你只要随便拉一个古巴人 // 他都会给你跳一段 / SALSA /// 因为它的 + *LYH: 噢 / hhh {%act: assent} /// *LYM: 节奏非常简单 // 我们在舞蹈课上也有学过 /// Apoyos vocálicos Son signos de transcripción que se utilizan para expresar aquellas vocales que pronunciamos como por ejemplo eh y ah, con el fin de alargar el tiempo de planificación de habla. En nuestro corpus se van a transcribir de esta forma: &mm, &hao o &ne, etc. *GUY: &mm 我喜欢 [/] 我其实比较喜欢那种 // &mm 从西方的音乐改编成二胡曲的 // 那种乐曲 /// En el caso de transcripciones de habla extranjera, se transcribirán los apoyos vocálicos propios de cada idioma. Por ejemplo, para el inglés se emplearán los siguientes: &uh, &um (variante nasalizada de la anterior), &er, &erm Para el chino, &hao y &ne se usan en C-ORAL-CHINA. 119

120 Metodología *JIJ: 没细看 // 不敢接近 hhh {%act: laugh} /// *ZHF: &nenenenenenene /// *YMJ: 现在在中国的 / 这个电视台上热播的 / 这个讲解这个论语的 // 这个 [/] 哎 / 就 [/] 就指的就是这本书 &hao /// Interjecciones Las interjecciones se transcriben con signos de exclamación!. No sirven para designar realidades sino únicamente para expresar el estado de ánimo del hablante. *SMW: [<] < 对 > hhh {%act: assent} /// 然后就是国内的酒 // 基本上就是如果我们喝的话 // 就是都喝 50 度以上的吗 /// < 然后 > + 晕这儿了 /// *DOY: [<] < 啊 >! 你那么厉害 /// 我估计我喝一口就 Los signos paralingüísticos Los sonidos que no son lingüísticos pero que tienen significado, por ejemplo, de duda, de interrogación, etc. se reflejan como hhh. Algunos de estos signos paralingüísticos son: laugh (risa) assent (asentimiento) click (chasqueo) cough (tos) negation (negación) doubt (duda) interrogation (interrogación) 120

121 Metodología blow (soplido) clearing of throat (carraspeo) yawn (bostezo) A la hora de transcribir, en el texto de la transcripción se pondrá hhh mientras que el significado se pondrá en un comentario de tipo %act, tal y como ya hemos explicado más arriba. *WAL: &mm 我想西班牙人 [///] &mm 我想很 [/] 对于很多西班牙的同学来讲 // 那个 hhh {%act: clearing of the throat} 上这个课的目的呢 / 肯定是想将来 / 有机会能够自己 / 比如在中国呀或者在西班牙也好 // 能够 hhh {%act: click} &mm 上一些新闻的看 [/] 上一些新闻网站啊 / 看一些实时的国内一些消息 /// lingüísticos Sonidos no reconocidos como signos Las tres equis: se recurre a este signo de transcripción (xxx) cuando el transcriptor no entiende lo que ha dicho el hablante. Indica sonido ininteligible. *LYH: 哎 // 其实在这些 [///] 我想对于这些舞蹈形式 // 其中还是 [/] 可能是互相联系的 /// 是吧? 都不可能是单独存在 // 都可能 /// hhh {%act: click} / <XXX> + *LYM: [<] < 那可不 >! 它就是 [///] 都是 [/] 舞蹈都是相通的吗! El ampersan: es el signo (&) que tiene que preceder a palabras inconclusas o fragmentos. *WQZ: 有 [///] 一种是用手指涂和用 & 海 [///] &mm 第二种呢 // 就是用海绵涂 /// 121

122 Metodología Reinicios y reformulaciones Los signos para expresar reinicio o reformulación son dos: [/] y [///]. Se utilizan para aquellos casos de reprogramación del habla en los que el hablante se traba o se confunde al decir una palabra y necesita pronunciarla de nuevo. También sirve para aquellos casos en los que el hablante no se muestra satisfecho con lo dicho y prefiere comenzar otra vez. En el reinicio siempre hay dos partes: *SMW: 当然游了 // 不然能晒这么黑吗? 我们是 [/] 我们是一大家子人一起去的 // 然后 / 所有人都下水了 /// A la izquierda del signo de reinicio siempre se encuentra el fragmento desechado; mientras que a la derecha del reinicio se encuentra la opción que el hablante ha dado por válida. Dependiendo del grado de semejanza o variación que haya a un lado y a otro se elegirá entre [/] y [///]. Normalmente, se suele utilizar [/] para aquellos casos en los que a un lado y a otro existe o bien la misma cadena de habla, o bien dos palabras que a pesar de ser distintas tienen la misma categoría gramatical. Veamos un ejemplo de cada tipo: *SMW: 就是他们会调很好的装备 /// 然后我们就 [///] 但是这个 [/] 这个地方你一个人是打不了的 // 你就是大家要组队打 /// Como vemos, en estos ejemplos marcados con [/] hay repetición pero no se produce una ruptura de la sintaxis de la oración. Mientras que cuando se utiliza el signo con tres barras [///], la reprogramación del habla es completa Interrupciones Existen dos tipos de interrupciones. 122

123 Metodología La autointerrupción (=): esto es, cuando el hablante corta su discurso de una forma brusca para hablar de otro tema completamente distinto al que estaba tratando anteriormente. La diferencia entre = y [///] es temática, es decir, que mientras = implica un cambio de tema dentro del discurso, [///] no. *SMW: [<] < 没有我们 [/] 我们 > 那个 = 他们好像就是说 / 去 [/] 去 FIESTA 之前 // 他们就是要先在家里先喝一下 /// 他们说那个叫什么 BOTELLON /// La interrupción de un participante a otro cuando el primero no ha concluido su enunciado. Esto se marca con el signo + en el punto de la interrupción, para indicar que el enunciado está inconcluso. *LYH: 古巴主要的支柱产业 + *LYM: < 你可以猜一下 > Pausa El signo # se utiliza para marcar una pausa prolongada. Es un silencio, un espacio temporalmente muy perceptible y que no se pueda considerar una pausa prosódica. *CRJ: 如果一些不是很常用的 // 或者是书面语 [/] 书面语色彩特别强的词语 // 可以暂时不用 [/] 不用掌握 # Solapamiento El solapamiento se produce cuando dos hablantes hablan a la vez. El texto solapado aparece entre los signos < >. En el siguiente turno, [<] indica que se solapa con el anterior. 123

124 Metodología *LYH: <&mm > *LYM: [<] < 他 > [/] 他们都有自己的想法 /// 6.3 Alineamiento El alineamiento consiste en la sincronización del texto transcrito con el sonido original, de forma segmentada, es decir, o bien por turnos conversacionales o bien por enunciados. C-ORAL-CHINA está alineado por enunciados, siguiendo la metodología del LLI-UAM. Tanto las transcripciones como el alineamiento se llevan a cabo con Transana(versión 2.12), un programa de transcripción y análisis de datos creado en la Universidad de Wisconsin y disponible de forma gratuita a través de su página web 10. En nuestra opinión, este programa presenta tres ventajas básicas: Simultaneidad de operaciones: Transana se presenta en un formato que permite mantener activas simultáneamente varias ventanas, entre las que se incluyen la ventana de texto y la de sonido (también está preparado para video, en caso de que la grabación incluya imágenes). De esta forma, se puede operar en la ventana de texto al mismo tiempo que se escucha el sonido. El programa se compone de cuatro ventanas: arriba, en la parte izquierda, aparece la ventana de sonido con la imagen de la onda sonora e información sobre el tiempo total de duración de la grabación, o el tiempo actual de la transcripción; debajo de esta ventana encontramos la de texto, con una pequeña barra de herramientas para la edición; en la parte superior derecha tenemos la ventana de video; y debajo de ella está la ventana de datos, donde almacenamos los distintos archivos de sonido y texto. 10 [en línea]: < [consulta: 25 de noviembre de 2010] 124

125 Metodología Figura 6.3 Programa de transcripción Transana Ergonomía: Transana dispone de un número de atajos en el teclado con los que se facilita la labor del transcriptor: Ctr+S segundos Ctr+D Ctr+A Ctr+F Ctr+P Parada/marcha; retrocede automáticamente dos Parada/marcha; sin retroceso Reinicio diez segundos atrás Reinicio diez segundos adelante Comienza en el principio de la grabación Alineamiento simultáneo: Transana permite alinear el sonido durante el mismo proceso de transcripción. Utilizando el atajo Ctr+D se para el sonido en el momento preciso de la finalización de cada enunciado, y se marca con el símbolo (Ctr+T) destinado a esta 125

126 Metodología tarea, sincronizando o alineando el segmento de sonido con su correspondiente fragmento textual. Figura 6.4 Alineamiento en Transana El texto que produce Transana se copia y pega en un documento Word. Este documento hay que guardarlo con extensión.txt (guardar como texto sin formato). Sobre este documento.txt se aplicarán tanto el programa de conversión al formato XML como el transcriptor de pinyin. 126

127 Metodología 6.4 Transcripción de pinyin Entre las grabaciones de C-ORAL-CHINA, hemos seleccionado unas cuantas para hacer la transcripción de pinyin. El transcriptor de pinyin se aplica al texto de forma automática, posibilitando la transcripción del mismo en poco tiempo. Una vez que tenemos el texto transcrito y alineado (con las marcas de tiempo), se copia y se guarda como archivo de texto, txt. Sobre este archivo de texto aplicaremos el programa de transcripción de pinyin. Hay unas páginas web exclusivas para hacer este trabajo. También hay software exclusivo, por ejemplo, el que hemos usado en C-ORAL-CHINA, KTestpinyin.exe Con posterioridad, es muy necesaria una revisión manual para asegurar la fiabilidad y corregir posibles errores. Por ejemplo, en pinyin, existen tono ligero y duoyinzi( 多音字 : son aquellos que se pueden pronunciar de manera diferente). Veamos un ejemplo: el caracter 乐 tiene diferentes pronunciaciones. 乐趣 se pronuncia como lèqù, mientras 音乐, como yīnyuè. En muchos casos, los programas no pueden distinguirlos bien, hay que revisarlos y corregirlos de manera muy detallada. 6.5 Conversión XML El texto de salida en Transana se puede exportar a cualquier otro editor de texto, como por ejemplo Microsoft Word o Edit Plus, 127

128 Metodología simplemente seleccionando el texto, copiando y pegándolo en el documento elegido. En nuestro caso, nos interesaba convertir el formato de texto de Transana en un documento en XML. Sin embargo, las marcas de tiempo establecidas en Transana para alinear se convierten en cifras numéricas al exportar el texto a otro tipo de documento. Esas cifras numéricas expresan el tiempo exacto del alineamiento de texto y sonido en milisegundos, quedando de la siguiente manera como la figura 6.5: *AZY: 听你说了这 {%pho: [zè]} 么多 / 我感觉你是一个性格很开朗的人 /// <4957> *YUF: 还好吧我 / 我觉得 /// <6439> *AZY: 我很喜欢你这种性格的人 # 无论什么时候见到你 // 总是那么神采奕奕的 /// <13999> *YUF: 可能是我没有太多的烦心事吧 /// <16482> 你看 / 有的时候 / 发生些什么事情 / 我都会以一种自己的方式来解决 /// <21732> 然后呢 / 想通 [/] 想通了也就好了 /// <24897> 其实 / 性格这种问 [/] 这种事 [/] 事情吧 / 不是说你觉得它好就是好的 /// <31006> 一定要是有个自己的磨合 / 找到一个适合自己发泄的方式 /// <35495> 然后 [///] 其实我觉得 / 应该把最开心的一面留给大家 / &mm / 让大家觉得 / 自己 [///] &mm 让大家觉得身边都是充满了开心与 [/] 与欢乐的 /// <46052> 如果每天愁眉苦脸的话 / 可能身边也没有那么多的朋友吧 <50062> *AZY: hhh {%act: assent} &mm 看来是的 /// <52169> Figura 6.5 Salida del alineamiento en transana Es necesario convertir el formato de salida de Transana al formato convencional de C-ORAL-ROM, es decir, desglosando el texto en enunciados limitados por una marca de tiempo al inicio y otra al final 128

129 Metodología de los mismos. Así pues, se hizo un programa que realizara el cambio de forma automática para que el documento final mostrase el mismo aspecto y formato que las transcripciones alineadas de C-ORAL-ROM, quedando así: <UNIT speaker="azy" starttime="0" endtime="4.957"> 听你说了这 {%pho: [zè]} 么多 / 我感觉你是一个性格很开朗的人 ///</UNIT> <UNIT speaker="yuf" starttime="0" endtime="6.439"> 还好吧我 / 我觉得 ///</UNIT> <UNIT speaker="azy" starttime="6.439" endtime="13.999"> 我很喜欢你这种性格的人 # 无论什么时候见到你 // 总是那么神采奕奕的 ///</UNIT> <UNIT speaker="yuf" starttime="13.999" endtime="16.482"> 可能是我没有太多的烦心事吧 ///</UNIT> <UNIT speaker="yuf" starttime="16.482" endtime="21.732"> 你看 / 有的时候 / 发生些什么事情 / 我都会以一种自己的方式来解决 ///</UNIT> <UNIT speaker="yuf" starttime="21.732" endtime="24.897"> 然后呢 / 想通 [/] 想通了也就好了 ///</UNIT> <UNIT speaker="yuf" starttime="24.897" endtime="31.006"> 其实 / 性格这种问 [/] 这种事 [/] 事情吧 / 不是说你觉得它好就是好的 ///</UNIT> <UNIT speaker="yuf" starttime="31.006" endtime="35.495"> 一定要是有个自己的磨合 / 找到一个适合自己发泄的方式 ///</UNIT> <UNIT speaker="yuf" starttime="35.495" endtime="46.052"> 然后 [///] 其实我觉得 / 应该把最开心的一面留给大家 / &mm / 让大家觉得 / 自己 [///] &mm 让大家觉得身边都是充满了开心 129

130 Metodología 与 [/] 与欢乐的 ///</UNIT> <UNIT speaker="yuf" starttime="46.052" endtime="50.062"> 如果每天愁眉苦脸的话 / 可能身边也没有那么多的朋友吧 </UNIT> <UNIT speaker="azy" starttime="50.062" endtime="52.169">hhh {%act: assent} &mm 看来是的 ///</UNIT> Figura 6.6 Ejemplo de salida a formato XML La etiqueta <UNIT> incluye un solo enunciado, especificando el tiempo de inicio y el de finalización en formato XML. En Transana, la primera marca de tiempo no puede corresponderse con 0, ya que ha tenido que pasar al menos un segundo para ponerla. Aquí, la primera marca en el ejemplo es <4957>, que indica el final del primer enunciado en milisegundos. El programa de cambio a formato C-ORAL-ROM establece el inicio del primer enunciado en 0 y el final en 4957 ; esta cifra será a su vez el tiempo de inicio del siguiente enunciado, cuyo tiempo de finalización será de nuevo el tiempo de inicio de la siguiente y así sucesivamente. 6.6 Resumen Todos los símbolos se escribirán dejando un espacio en blanco a ambos lados del mismo. En la tabla 6.7 se resumen las convenciones usadas en C-ORAL-CHINA. Símbolo Descripción Etiqueta XML Ejemplo *ABC: Iniciales del <Turn> <Name> *SMW: &mm 我去 participante xxx </Name> <Says> zzz </Says> 海边玩了 /// </Turn> / Interrupción <Tone_Unit *DOY: 啊呀 / 亲爱 prosódica no Type="standard" /> 的 // 你怎么晒黑 terminal y no 了? autónoma 130

131 Metodología // Interrupción prosódica terminal autónoma no y /// Interrupción prosódica terminal; entonación descendente? Interrupción prosódica terminal; entonación interrogativa! Interrupción prosódica terminal; entonación exclamativa Interrupción prosódica terminal; entonación suspendida <Tone_Unit Type="complex" /> <Utterance Type= "enunciation"> <Utterance Type= "interrogation"> xxx </Utterance> <Utterance Type= "exclamation"> xxx </Utterance> <Utterance Type= "suspension"> *HXL: &mm / 比较好玩儿 // 还更加生动 /// *HXL: 小的时候呢 // 大街上总有一些老年人 // 在下中国象棋 /// *JIJ: 听说你会下象棋? *JIJ: 天哪 // 你好厉害呀! *LXX: [<] < 然后 / 对 > /// 在吃方面 // 尽量少在外面吃饭吧 // 虽然好像那些餐馆看起来都... = Autointerrupción <Utterance Type= "self-interruption"> Continuación de turno tras interrupción o solapamiento + Interrupción <Utterance Type= "interruption"> [/] Reformulación o reinicio léxico o sintagmático *GLT: 然后因为 = 下班就不行了 // <Continues /> *LYM: < 因为 >+ *LYH: [<] < 这要 > *LYM: 还是在卡斯特罗这位老同志的领导之下 <Tone_Unit Type="partial_resta r" /> /// *LYM: 或者只是 [/] 他只是想打一个招呼 + *LYH: < 对 > *LYH: 那么大的 [/] 那么大的芒果! [///] Reformulación sintáctica <Tone_Unit Type="total_restar" /> *LYH: [<] < 噢 // 据说古巴 > 在水果还有果汁这方面 / 特别 [///] 就是有限制是吧? 131

132 Metodología < > [<] Solapamiento <Overlap> xxx </Overlap> & Palabra incompleta <Fragment> xxx </Fragment> hhh xxx &hao/&n e Signos paralingüísticos Fragmentos ininteligibles <Non_Linguistic /> *LYH: < 是吧 > *LYM: [<] < 你走 > 在街上 // *WQZ: 有 [///] 一种是用手指涂和用 & 海 [///] &mm 第二种呢 // 就是用海绵涂 /// *LYH: 可以说 // 也 # hhh {%act: click} 是一种引领着 / 人们的一种思想的 / 一个 [///] 这样一个人物 /// <Unintelligible /> *LYH: 因为他已经 / 几乎成了 / 现在 XXX 一种精神的象征 /// Apoyos vocálicos <DM> &eh </DM> *YMJ: 这个 [/] 哎 / 就 [/] 就指的就是这本书 &hao /// # Pausa no prosódica <Pause /> *XUN: &mm 这个是不一样的 /// &mm 北 # 京的标准 %alt: Errores o <Notes fenómenos no type="xxx"> zzz normativos </Notes> *LIC: 啊 / 说到排球 / 我也蛮感兴趣的 /// 您们 {%alt: el dato correcto es 您几位 } 一般都什么时间去打呀? %com: Comentarios <Notes type="xxx"> </Notes> %act: Paralenguaje <Notes type="xxx"> </Notes> zzz zzz *CRJ: hhh {%com: open the book} 到第二十课 /// *CRJ: hhh {%act: clearing of throat} 上课的时候 // Tabla 6.7 Convenciones de la transcripción 132

133 Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas 7. Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas Como hemos comentado en el capítulo 3, los corpus constituyen una herramienta útil, renovadora y práctica en la enseñanza de lengua segunda. Las aplicaciones concretas nos permiten realizar actividades de diverso tipo encaminadas al desarrollo de la conciencia lingüística y a descubrir cómo funcionan diferentes elementos. En este capítulo, se plantean propuestas didácticas sobre la enseñanza de aspectos léxicos, gramaticales, discursivos y fonemas. Seguimos usando la herramienta de concordancias desarrolladas por el LLI-UAM. Gracias a ella, podemos formular una búsqueda, recuperar rápidamente ejemplos con contexto y escuchar las grabaciones. Teniendo en cuenta diferentes necesidades de concordancias, en el corpus C-ORAL-CHINA se adoptan dos métodos para hacer concordancias de muestras. Un método es el de buscar el contexto y la grabación entera. Cuesta más tiempo de trabajo, pero permite la comprensión total del texto y localizar construcciones no consideradas. El otro método es el de hacer aparecer todo el enunciado por medio de introducir alguna palabra o locución de éste, gracias a que todas las muestras han sido cortadas ya en enunciados y sus textos han sido alineados con el sonido correspondiente. Dadas las características de lengua oral de C-ORAL-CHINA y el nivel de dificultad de aquellos documentos de los que hemos seleccionado, las muestras oscilan entre un nivel intermedio y avanzado. 133

134 Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas 7.1 El uso de corpus en la enseñanza del léxico En comparación con corpus generales, una de las ventajas de nuestro corpus es que el vocabulario se concentra en unos temas fijos de la vida cotidiana. En la transcripción, ya hemos filtrado el contenido y quitado la parte inconveniente para la enseñanza. Para consultarlo, los interesados pueden visitar la página web: Usuario: visitante Contraseña: En ésta, la herramienta de concordancias es muy fácil de manejar, incluso para la gente que no tenga muchos conocimientos informáticos. Por medio de una búsqueda rápida y sencilla, los alumnos pueden familiarizarse con el vocabulario según su necesidad y conocer el uso adecuado de las palabras o locuciones en diferentes contextos, incluso el uso más nuevo que algunos diccionarios no contienen todavía. Por ejemplo, si queremos aprender las palabras relacionadas con el catarro, en C-ORAL-CHINA, podemos encontrar un diálogo entre paciente y médica MÉDICA: 下一号 /// PACIENTE: 哎 / 大夫您好 /// MÉDICA: 噢 / 来看病 &hao // 请坐 /// PACIENTE: &mm 谢谢 /// MÉDICA: 多大年龄了? PACIENTE: 24 /// MÉDICA: 噢 / 哪里不舒服啊? PACIENTE: &mm / 我这两天有点儿流鼻涕 / 然后还打喷嚏 / 另外嗓子也有点儿疼 /// MÉDICA: 发烧吗? 134

135 Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas PACIENTE: &mm / 刚才在外面护士给量的 / 是 38 度多 /// MÉDICA: 噢 /// MÉDICA: 根据你的症状啊 / 还有你的体温呢 / &mm 估计你这是得了上呼吸道感染 /// MÉDICA: 啊 /// MÉDICA: 那个还有别的不舒服吗? PACIENTE: &mm 吃饭也不是太有胃口 /// MÉDICA: 噢 /// MÉDICA: 来我看看你的嗓子 /// PACIENTE: &ah hhh {%act: open the mouth} /// MÉDICA: 噢 // 好 / 嗓子有点儿红啊 /// MÉDICA: 扁桃腺不大 /// MÉDICA: 那个 / 去做一个化验吧 // 看看 &mm 血项怎么样 // 好不好? PACIENTE: &mm 好 hhh {%act: assent} /// MÉDICA: 我给你开一个单子 /// MÉDICA: < 啊 > PACIENTE: [<] < &mm > hhh {%act: assent} /// MÉDICA: &mm 给你 / 拿这单子上化验室做化验 /// MÉDICA: &mm 做完化验 / 再拿这单子来过来找我 hhh {%com: give the paper to the pacient} /// PACIENTE: &mm hhh {%act: assent} 好 hhh {%com: take it} /// PACIENTE: &mm 大夫这个是那个化验室的单子 hhh {%com: give the paper to the doctor} /// MÉDICA: 噢 / 我看看噢 /// MÉDICA: &mm hhh {%com: take the paper} 从这个单子上看吧 / &mm 血项不太高 // 那个还是病毒感染 /// PACIENTE: &mm hhh {%act: assent} /// MÉDICA: 所以 / 我 [/] 那个我给你开点药 /// PACIENTE: < &mm hhh {%act: assent}> MÉDICA: [<] < 好吧 >? MÉDICA: &mm 开的药主要是抗感冒的 /// MÉDICA: < 噢 > 135

136 Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas PACIENTE: [<] < &mm hhh {%act: assent}> /// MÉDICA: &mm 中药和西药都有 /// MÉDICA: 这个中药呢 / 是咱们开的感冒冲剂 / 是要冲着喝的 // 一天两次 / 一次两袋儿 /// MÉDICA: <&hao> PACIENTE: [<] < &mm hhh {%act: assent}> /// MÉDICA: 西药呢 / 是给你拿的是 / &mm 速效感冒胶囊 /// PACIENTE: &mm hhh {%act: assent} /// MÉDICA: 一天三次 / 一次一粒 /// PACIENTE: &mm hhh {%act: assent} /// MÉDICA: 消炎药 / 我就不给你开了 / 噢 /// MÉDICA: 因为你这个血项不太高 / 是病毒感染的 / 咱们不用吃消炎药了 /// MÉDICA: 你大量地喝热水 / 也可以 &hao /// MÉDICA: 再有 / 我给你开点退烧药 / 这是 ABC 的 /// PACIENTE: &mm hhh {%act: assent} /// MÉDICA: 吃了药以后 / 多 [/] 大量地喝热水 / 烧就能退了 &hao /// PACIENTE: 这些药是饭前吃还是饭后吃啊? MÉDICA: 这个不一定 // 没关系 / 饭前饭后都可以 /// PACIENTE: 噢 hhh {%act: assent} // 要分开吗? MÉDICA: 中药和西药要分开 MÉDICA: // 二十分钟 // 间隔二十分钟 /// MÉDICA: < 吃 > PACIENTE: [<] < &mm hhh {%act: assent}> /// MÉDICA: &mm &mm 吃饭要注意什么? MÉDICA: 注意点儿那个不要吃辛辣的东西 &hao // 刺激的 / 酸辣的尽量避免一下 /// PACIENTE: 都不能吃 /// PACIENTE: < 是吧 &mm > MÉDICA: [<]< 对 > /// 136

137 Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas MÉDICA: 行 / 给你拿这个方子 // 先去一楼大厅去划价室划价 /// PACIENTE: &mm hhh {%act: assent} /// MÉDICA: 完了 / 再上药房拿药就可以了 /// PACIENTE: &mm hhh {%act:assent} /// MÉDICA: 好吧? PACIENTE: hhh {%act: assent} 好 /// MÉDICA: &mm 过几天 / 如果不见好转 // 那个记得来复查一下来 /// PACIENTE: &mm 好 hhh{%act: assent} /// PACIENTE: 另外我还想问一下 / 就是我觉得自己经常感冒 // 这种情况是不是应该接种一下那种流感疫苗? MÉDICA: 嗯 / 是应该接种 /// MÉDICA: 这个接种的时间 / 应该是在每年的 10 月份接种 /// MÉDICA: 这个流感疫苗是非常好的一个疫苗儿 // 能 / 预防自己不得感冒 / 而且也 [/] 也能对他人进行保护 /// PACIENTE: 每年只有 10 月份才能接种啊? MÉDICA: 对 hhh {%act: assent} / 10 月份接种以后 / 半个月到 20 天产生抗体 / 能预防冬天的和 / 春季的流感 / 流行 /// PACIENTE: 噢 hhh {%act: assent} / 行 / 那我就等明年 10 月份过来 /// MÉDICA: &mm 好 hhh {%act: assent} /// PACIENTE: &mm 好 hhh {%act: assent} /// PACIENTE: 谢谢大夫 /// MÉDICA: 好 / 再见! PACIENTE: &mm 再见! Figura 7.1 Ejemplo de C-ORAL-CHINA En este documento, podemos sacar un listado de léxico médico para que los alumnos practiquen. Síntomas: 流鼻涕 (caérsele a alguien los mocos), 打喷嚏 (estornudar), 嗓子疼 (doler a alguien la garganta), 发烧 (tener la 137

Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas fiebre), 上呼吸道感染 (infección del tracto respiratorio superior), 病毒感染

138 Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas fiebre), 上呼吸道感染 (infección del tracto respiratorio superior), 病毒感染 (infección viral), 流感 (la gripe), etc. Tratamientos: 量体温 (tomar la temperatura), 血项化验 (análisis de sangre), 开药 (recetar), 拿药 (ir por medicina), 吃药 (tomar pastillas), 复查 (revisión), 接种流感疫苗 (vacunación contra la gripe),etc. Medicinas: 中药 (medicina tradicional de China), 西药 (medicina occidental), 消炎药 (medicina anti-inflamatorios), 退烧药 (antipirético), etc. Son expresiones y estructuras muy frecuentes usadas por los nativos. No aparecen solas, sino en un contexto concreto. Los alumnos pueden deducir el significado de algunas palabras desconocidas por el contexto y su conocimiento del mundo. También podemos usar la herramienta para hacer una comparación semántica detallada entre diferentes palabras. Entramos en la página web. Sale esta pantalla: Figura 7.2 Pantalla principal de la página web Seleccionamos Buscador, sale la siguiente página: 138

3 Buscador de C-ORAL-CHINA Rellenamos en el blanco el contenido que queremos

139 Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas Figura 7.3 Buscador de C-ORAL-CHINA Rellenamos en el blanco el contenido que queremos buscar. En este caso, son dos palabras 感动 y 激动. Figura 7.4 Ejemplos de la palabra buscada 感动 139

140 Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas Figura 7.5 Ejemplos de la palabra buscada 激动 Lo que obtenemos es una pantalla con enunciados que contienen la palabra buscada. En las figuras 7.4 y 7.5, al lado de cada enunciado, aparece un botón que al accionarse nos reproduce el fragmento seleccionado. Es decir, podemos leer la transcripción a la vez que escuchamos el sonido. A la derecha, se ofrecen las informaciones sociolingüísticas del hablante y número del enunciado en el documento original. Si los alumnos no entienden algún enunciado o tienen mucho interés, pueden consultar directamente ese documento completo para poder entender mejor. Por ejemplo, el primer enunciado de 感动 viene de chin02. Volvemos a la página principal. Seleccionamos Transcripciones. Nos sale la siguiente pantalla como la figura

141 Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas Figura 7.6 Ficheros de Transcripciones Seleccionamos el fichero original del primer enunciado, y entramos en ese fichero chin

Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas Figura 7.7 Contenido del fichero chin02 Podemos endenterlo en el contexto.

142 Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas Figura 7.7 Contenido del fichero chin02 Podemos endenterlo en el contexto. Si no estamos decididos y queremos saber de qué trata cada fichero, podemos entrar en Buscador y seleccionar Files. En seguida, tenemos informaciones resumidas de cada fichero como la Figura 7.8. Figura 7.8 Informaciones resumidas de todos los ficheros de C-ORAL-CHINA Si vemos que hay algún tema que nos interesa, podemos pinchar el título para escucharlo o leerlo. Al final, con tantos ejemplos vivos, podemos concluir que 感动 significa que algo impresiona a alguien y se emociona. 激动 quiere 142

Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas expresar el estado de excitarse, conmoverse o agitarse.

143 Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas expresar el estado de excitarse, conmoverse o agitarse. Otro ejemplo es un par de sinónimos 采用 y 采纳. Escribimos 采用. Pasamos a la página siguiente: Figura 7.9 Ejemplos de la palabra buscada 采用 De la misma manera, podemos sacar los ejemplos de la otra palabra 采纳. 143

144 Aplicación a la enseñanza de lengua segunda mediante el desarrollo de recursos basados en el corpus: propuestas didácticas Figura 7.10 Ejemplos de la palabra buscada 采纳 Después de leer detalladamente los ejemplos, podemos hacer la comparación. Notamos la diferencia entre las dos palabras. La primera se refiere a utilizar o emplear algo, y la segunda significa adoptar o aceptar alguna propuesta. 7.2 El uso de corpus en la enseñanza de la gramática Igual como en la enseñanza del léxico, el corpus también puede usarse para la enseñanza de la gramática. Tradicionalmente, el estudio de la gramática se basa en la lengua escrita. La compilación de corpus de habla espontánea nos trae un recurso muy valioso para conocer y estudiar las características de la gramática de la lengua hablada. El profesor puede diseñar un programa de gramática y extraer muestras. A continuación, veremos cómo usar los ejemplos del corpus para explicar algunos puntos gramaticales característicos del chino. 144

展开

LAUNCH SCREEN ESPECIFICACIONES MEDIDA ESTÁNDAR 320 X 480PX WIDTH HEIGHT 320 X 548PX WIDTH HEIGHT 320 X 568PX WIDTH HEIGHT MEDIDA RETINA 640 X 960PX WI

LAUNCH SCREEN ESPECIFICACIONES MEDIDA ESTÁNDAR 320 X 480PX WIDTH HEIGHT 320 X 548PX WIDTH HEIGHT 320 X 568PX WIDTH HEIGHT MEDIDA RETINA 640 X 960PX WI LAUNCH SCREEN MEDIDA 320 X 480PX 320 X 548PX 320 X 568PX MEDIDA 640 X 960PX 640 X 1096PX 640 X 1136PX 30PX MEDIDA MARGEN DE SEGURIDAD 60PX MEDIDA GENERALES 150 KB 00:00:05 / DURACIÓN MÁXIMA ENVIAR LAS