Este ítem es privado
Alineación automática de corpus paralelos
Una propuesta metodológica y su aplicación a un dominio de especialidad
No hay miniatura disponible
Fecha
2000-02-10
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad de Deusto
Resumen
En esta tesis se aborda el problema de la alineación de un corpus paralelo
y se aportan soluciones novedosas en algunos de los niveles de resolución
más complejos. Estos niveles son las oraciones y algunos elementos intraoracionales
como los términos multipalabra y los nombres propios. Se ha formalizado
la alineación de un corpus paralelo como un problema de asignación con
restricciones en un grafo bipartito.
Para llevar a cabo dicha formalización, se ha propuesto una serie de
definiciones de conceptos asociados a la alineación que no habían sido
descritos con anterioridad en la bibliografía sobre el tema. El problema
de asignación en un grafo bipartito se ha formalizado como un problema
de satisfacción de restricciones (PSR). Para resolver este PSR, se propone
un algoritmo de vuelta atrás mejorado adaptado al problema de la alineación.
En dicha adaptación cabe destacar la implementación que se ha realizado
del
espacio de alineación así como de las alineaciones candidatas. El enfoque
utilizado para resovler la alineación se basa en la segmentación del corpus
paralelo en los siguientes niveles descriptivos: estructural, independiente
del domino y en unidades de traducción. La información resultante de dichos
niveles de segmentación se convierte en una fuente de conocimiento para
la resolución de la alineación.
Las estrategias que se proponen para alinear combinan la utilización
de medidas cuantitativas con conocimiento lingüistico. Se trata, por lo
tanto, de una propuesta híbrida que dará más o menos peso a cada tipo de
criterio dependiendo del nivel de resolución al que se aplique. La evaluación
de la metodología y de las soluciones algorítmicas propuestas se ha llevado
a cabo con un corpus paralelo bilingüe en euskara y castellano perteneciente
al dominio jurídico-administrataivo. Este corpus recibe el nombre de BOB.
Los buenos resultados obtendios permiten afirmar que tanto la metodología
com
Palabras clave
Descripción
Materias
Matemáticas
Lingüística
Ciencia de los ordenadores
Lingüística aplicada
Lingüística
Ciencia de los ordenadores
Lingüística aplicada