Estoy usando el kit de herramientas de alineación fast_align: https://github.com/clab/fast_align, para obtener la alineación palabra a palabra de un corpus paralelo. Existe una opción para imprimir la puntuación de alineación. ¿Cómo interpreto esta puntuación? ¿Mide la puntuación el grado de alineación entre las oraciones paralelas? Sé que algunas de las oraciones del corpus están bien alineadas y otras no, pero hasta ahora no veo ninguna correlación entre la puntuación y lo bien alineadas que están. ¿Debo ajustar el número de palabras de la oración?

2
md1630 8 oct. 2019 a las 22:06

1 respuesta

La mejor respuesta

FastAlign es una implementación de IBM Model 2, la puntuación es la probabilidad estimada por este modelo . Los detalles del modelo se explican muy bien en estas diapositivas de JHU .

La puntuación es una probabilidad de la oración de origen dadas las palabras de la oración de destino y la alineación. El algoritmo estima iterativamente:

  1. Las probabilidades de ser una traducción del otro para (prácticamente todos) los pares del idioma de origen y el idioma de destino.
  2. Alineación óptima dadas las probabilidades de traducción de palabra a palabra.

La puntuación es entonces un producto de las probabilidades de traducción de palabra a palabra con la alineación a la que convergió el algoritmo. Entonces, en teoría, esto debería correlacionarse con cuán paralelas son las oraciones, pero hay muchas formas en las que esto puede romperse. Por ejemplo, las palabras raras tienen estimaciones de probabilidad poco fiables. Otro problema podría ser que algunas palabras (como "de") pueden ser parte de expresiones de varias palabras que son una sola palabra en otros idiomas, lo que también sesga las estimaciones de probabilidad. Por lo tanto, no es de extrañar que no se pueda confiar en la probabilidad.

Si su objetivo es filtrar el corpus paralelo y eliminar los pares de oraciones alineados incorrectamente, recomendaría algo más. Por ejemplo, puede usar BERT multilingüe como lo hicieron en un documento de Google, donde se muestran los vectores centrados para recuperación en varios idiomas. O simplemente busque en Google "filtrado de corpus paralelo".

2
Jindřich 9 oct. 2019 a las 08:31