Glissando: un corpus per a estudis prosòdics multidisciplinaris en espanyol i català
El corpus Glissando s’ha desenvolupat en el marc del projecte “Glissando, un corpus de habla anotado para estudios prosódicos en catalán y español: aplicaciones en tecnologías del habla” (FFI2008-04982-C03-02/FILO), projecte de caràcter coordinat entre les universitats de Valladolid (grup ECA-SIMM, IP: D. Escudero), la Universitat Pompeu Fabra (Departament de Lingüística i Comunicació, IP: J.M. Garrido) i la Universitat Autònoma de Barcelona (Departament de Filologia Espanyola, IP: Lourdes Aguilar). Aquest corpus comprèn diferents estils de parla: un subcorpus de notícies i un subcorpus de diàlegs que, al mateix temps, es divideixen en diàlegs dirigits a la consecució d’una tasca específica (obtenir informació de transports, viatges o tràmits de gestió universitària) i converses espontànies.
Les gravacions van ser realitzades en alta qualitat per dos perfils de parlants: professionals de la ràdio i de la publicitat i estudiants pregraduats nadius. Així, les vint-i-cinc hores de gravacions cobreixen diferents estils de lectura (ràdio, publicitat i neutre), registres (lectura de notícies i diàlegs formals i informals), veus (masculines i femenines) i llengües (català central i espanyol europeu estàndard). La inclusió d’aquestes variables té com a objecte facilitar estudis comparatius d’àmbits diferents.
La imatge és un exemple de visualització d’allò que s’obté fàcilment amb un programa de tractament de la parla de distribució lliure (i.e. praat). Les gravacions han sigut transcrites ortogràficament i fonètica perquè es puguin reconèixer les paraules en relació amb el senyal acústic, alineant-se amb el principi i el final de cada paraula. També disposem de la separació sil·làbica, de la situació dels accents lèxics (identificats per “_"”) i de les prominències tonals (simbolitzat amb T). Els silencis entre fragments es representen entre línies i amb la lletra P (pausa). D’aquesta manera, l’usuari pot practicar la transcripció fonètica dels sons, aïllant aquells sons amb els que té majors problemes d’identificació; pot comparar nivells d’accentuació en les síl·labes (per exemple, accents primaris en contraposició a accents secundaris) o pot observar com la duració de les pauses incideix en una millor o pitjor comprensió del missatge.
Per representar l’entonació, s’ha aplicat el model de la fonologia entonativa (i.e. ToBI), desenvolupat en treballs anteriors del castellà i el català (Sp_ToBI http://prosodia.upf.edu/sp_tobi/en/ i Cat_ToBI http://prosodia.upf.edu/cat_tobi/en/). Aquest model permet descriure els moviments melòdics a partir de la diferència entre tons baixos (i.e. L) i alts (i.e. H) i també distingir entre segments entonatius que comporten un significat complert (i.e. fronteres caracteritzades amb el nombre 4) i segments intermedis (i.e. fronteres caracteritzades amb el nombre 3). Gràcies a aquest sistema de representació tonal, es caracteritza des d’un punt de vista fonològic l’entonació de cada text oral. Elsarxius d'àudio amb les seves etiquetes associades són de lliure accés per a fins de recerca, a la pàgina web del projecte: http://veus.glicom.upf.edu.
L’aplicació més directa del corpus Glissando es relaciona amb la docència al sector universitari però també és comú que a l’educació secundaria i al batxillerat es donin crèdits relacionats amb la comunicació, amb l’objectiu d’introduir els alumnes en terrenys com el periodisme, les noves tecnologies, etc. En aquest àmbit, conèixer corpus orals de parla espontània o dirigida pot ajudar els alumnes a millorar les seves capacitats comunicatives, ja que, entre d’altres coses, els permet formar-se com a bons oradors o, simplement, diferenciar entre una entonació col·loquial i una altra de formal a partir de pràctiques orals. Com a conseqüència, és més fàcil que incorporin en la seva vida diària diferents registres comunicatius.
Per últim, a més de les investigacions teòriques i descriptives que poden desenvolupar-se gràcies al corpus Glissando, l’anotació prosòdica de corpus permet crear eines útils per a les noves Tecnologies de la Informació i la Comunicació (TIC). Per això, les seves possibilitats d’aplicació són cada vegada més extenses. En concret, una mostra anotada del corpus Glissando ha permès crear una eina semiautomàtica de transcripció prosòdica i s’està avaluant la seva utilitat com a material de suport per a la creació d’eines de producció i/o comprensió de textos i l’aprenentatge de l’espanyol i del català com a llengües estrangeres.
Referències
Garrido, J. M.; Escudero, D.; Aguilar, L.; Cardeñoso, V.; Rodero, E.; De-La-Mota, C.; González, C.; Rustullet, S.; Larrea, O.; Laplaza, Y.; Vizcaíno, F.; Cabrera, M., Bonafonte, A. Glissando: a corpus for multidisciplinary prosodic studies in Spanish and Catalan. Language Resources and Evaluation 47(4): 945-971. 2013.