Resulta fundamental que en un proyecto de las características de AMPER, internacional, plurilingüe y multidisciplinario, haya unos criterios metodológicos estrictos y comunes, a pesar de que cada equipo, siguiendo unas directrices generales, goce de cierta autonomía en múltiples aspectos como son, por ejemplo, la elección de los puntos de encuesta o la adaptación del corpus, en función de las peculiaridades del ámbito dialectal o del dominio lingüístico. Solo así puede asegurarse la comparación entre resultados de diferentes grupos y puede garantizarse la unidad del Atlas que se pretende ir formando.

Así pues, a lo largo de todos estos años se ha trabajado intensamente en la puesta en marcha y en la aplicación metodológica del Proyecto Amper en Andalucía y Extremadura, sobre todo en lo que afectaba a los puntos de encuesta, delimitando aquellos que presentaban una mayor pertinencia prosódica, a la selección de los informantes, a la realización de las primeras grabaciones, a la digitalización del corpus, al etiquetaje de los archivos de sonido y a la realización de los primeros análisis acústicos. De esta manera, nuestro interés y nuestra confianza en el proyecto se han ido consolidando día a día; somos conscientes de la importancia y relevancia del mismo, de las investigaciones que en él se están realizando y de los frutos esperables.

La metodología que se sigue incluye:
1) Trabajo de campo para la elaboración de un corpus digitalizado.
2) Análisis acústico de los enunciados del corpus.
3) Test de comprobación a partir de los patrones melódicos vacíos de contenido semántico.


El desarrollo total del proyecto incluye cuatro tipos de corpus que comparten el estar emitidos con la mayor naturalidad posible y cubren un abanico de mayor a menor control en las emisiones, en un intento de obtener una descripción completa y representativa de la variedad de habla local de los habitantes de una comunidad.

CORPUS 1. Corpus experimental fijo dirigido

Consta de tres grupos de frases: un primer grupo básico, con frases de 11 sílabas cada una y con una estructura: SN1+V+SN2 (o SPrep); un segundo grupo de frases, las mismas, pero con expansión del SN1; y, finalmente, un tercer grupo, las mismas, pero, en este caso, con expansión del SN2. Las palabras de las frases son agudas, llanas y esdrújulas en el SN1 y SN2, mientras que el verbo siempre es llano. Ello nos permite establecer relaciones oportunas entre acento y entonación. Todas las combinaciones posibles en español dan como resultado 63 frases en cada modalidad objeto de estudio (enunciativa e interrogativa absoluta), lo que hacen un total de 126 enunciados. Éstas se presentan a los informantes de forma aleatoria y se graba un mínimo de tres repeticiones por cada una de ellas, que es el número de emisiones que se analizarán, es decir, 378 emisiones por informante. Lo que, multiplicado por cada punto de encuesta y demás variables sociolingüísticas, da como resultado un número muy elevado de frases para su posterior análisis y estudio.

CORPUS 2. Corpus inducido

Consta de 10 frases muy habituales en el hablante; frases de uso cotidiano, como, por ejemplo, las que se utilizan para preguntar la hora, saludar al vecino, preguntar por la salud, etc. Se consiguen mediante el planteamiento de un supuesto al informante.

CORPUS 3. Map Task

Este sistema permite alcanzar un grado mayor de espontaneidad en las realizaciones. Se plantea como una especie de juego entre dos informantes que se hacen preguntas y dan respuestas a partir de un mapa semi-mudo que se les entrega.

CORPUS 4. Conversación libre

Se intentar obtener el discurso libre del informante, el habla vernácula, lo más natural posible, teniendo en cuenta la paradoja del observador de Labov.

El sistema AMPER trabaja a partir de las vocales y empieza su análisis segmentándolas en la cadena a partir de un oscilograma. De cada una de ellas se toman en consideración valores de tres parámetros distintos (F0, duración e intensidad) y, a su vez, el de entonación toma tres valores en el tiempo: el inicial de la vocal, el de su centro y su valor final. Todo ello ocasiona que se maneje un volumen muy considerable de datos.


Dada la estructura piramidal del Proyecto AMPER, el campo de acción de los distintos atlas que lo constituyen (de macrodominio, dominios y ámbitos lingüísticos) y el volumen de información que se va recopilando, las bases de datos se hacen progresivamente más pormenorizadas desde el vértice superior hasta su base. Es decir, en la base de datos de AMPER Internacional, de momento, se colgarán sólo los datos y estudios de un hombre y una mujer por cada punto de encuesta (uno urbano y otro rural); los de aquellos que sean considerados más representativos.

En cuanto al Atlas del dominio lingüístico del español, la información que recogerá su base de datos está aún por delimitar; de momento, en una primera fase se ha empezado a trabajar con mujeres de entre 25 y 55 años, sin estudios superiores, de ámbito rural y urbano.

Por lo que respecta a la base de datos del Atlas Multimedia de Prosodia de Andalucía y Extremadura, de todo lo anterior se desprende que ésta será mucho más amplia en todas sus vertientes: una red más tupida de puntos de encuesta, un número mayor de informantes y todas las variables sociolingüísticas.


Los puntos de encuesta se han establecido teniendo en cuenta además de su pertinencia prosódica, su adscripción dialectal. En principio, está previsto tomar muestras de diez puntos geográficos por provincia: la capital y enclaves significativos del ámbito rural. Los hasta ahora encuestados son los siguientes (17, en total)

Provincia de Sevilla: Sevilla capital y la Sierra Norte

Provincia de Huelva: Huelva capital y la Sierra Norte

Provincia de Cádiz: Cádiz capital, Trebujena y Tarifa

Provincia de Granada: Granada capital y El Padul

Provincia de Almería: Almería capital y Vera

Provincia de Jaén: Jaén capital y Lopera

Provincia de Cáceres: Cáceres capital y Madroñera

Provincia de Badajoz: Badajoz capital y Don Benito

Las encuestas se llevan a cabo sobre el terreno, es decir, en un ámbito conocido y habitual para los informantes, después de habernos ganado su confianza, para que, en la medida de lo posible, no se sientan observados ni intimidados por la presencia del encuestador. Los corpus son grabados en varias sesiones para conseguir que su atención sea siempre la adecuada y garantizar así la naturalidad de los datos obtenidos.


El análisis se inicia con la digitalización de las grabaciones que convierten en ficheros de voz cada una de las frases (.wav) y con el etiquetaje de los mismos según las convenciones generales de AMPER: La estructura LLNNLLLLN.extensión (donde N= Número y L= Letra). El primer carácter corresponde al país en cuestión, el segundo al área dialectal, el tercero a la localidad, el cuarto al informante, las tres letras siguientes al tipo de frase, la cuarta a la modalidad de la frase y el último número a la repetición de la frase.

A continuación, se realiza la transformación de cada frase por una serie de subrutinas creadas en el entorno Matlab hasta conseguir por un lado el análisis de los tres parámetros (F0, duración e intensidad) de todas las vocales de la frase y, por otro, su melodía vacía de contenido léxico. El análisis completo genera el mismo archivo con diferentes extensiones: *.wav, *.dfo, *.txt, *.ton. Se debe llegar, además, a una media general que resulte de la media de las tres repeticiones de cada frase.

Posteriormente, se pasa a la grabación de la síntesis y al pase de test de percepción para comprobar si la síntesis de la melodía sirve para detectar la modalidad oracional. Se realizará tanto en la misma localidad en la que se grabaron las frases originales como en otras, para ver si el reconocimiento de la prosodia propia es más alto que el de la ajena.

Por último, se procede a la transcripción fonética del corpus (sistema IPA).