Projecte de creació de documentació de la Unió Europea en català

CasaDeLaVila Palafrugell 2

Casa de la Vila – Palafrugell

El català no és una llengua oficial de la Unió Europea i per tant la documentació oficial de la Unió no es publica en català. El català és reconegut com a llengua de comunicació i això vol dir que els ciutadans poden adreçar-se per escrit a les següents institucions europees: la Comissió Europea, el Parlament Europeu, el Consell, el Defensor del Poble Europeu i el Comitè de les Regions. També tenim el dret de rebre les respostes d’aquestes institucions en català.

Algunes publicacions i documents oficials de la UE es publiquen en català. Si cerquem en el portal de documentació de la Unió Europea, podem trobar uns 37 documents en català, que contrasta amb els més de 65.000 documents del castellà.

El català per nombre de parlants mereix l’oficialitat dins de la Unió Europea, ja que té més parlants que altres llengües oficials, com el croat, eslovè, eslovac, estonià, lituà, letó, danès, finès i maltès. Uns dels obstacles que s’al·leguen és el gran pressupost necessari per crear el corpus de documentació bàsica i per publicar les noves lleis i disposicions en aquesta llengua.

Però el català és una llengua que disposa d’una gran quantitat de recursos i eines computacionals que fan viable la creació de sistemes de traducció automàtica eficients per dur a terme la tasca de traducció de la documentació europea.

En el projecte que presentem, pretenem demostrar que aquesta tasca és tècnica i humanament viable traduint la documentació europea del castellà al català mitjançant un sistema de traducció automàtica més postedició humana.

El corpus JRC-Acquis

El Acquis Communautaire (AC) és el cos total de lleis de la Unió Europea aplicable en la Unió Europa. Aquesta col·lecció de textos legislatius canvia constantment i actualment comprèn textos des dels anys 50 fins a l’actualitat. Aquests textos estan disponibles en 22 llengües oficials de la Unió Europea: búlgar, txec, danès, alemany, grec, anglès, espanyol, estonià, finès, francès, hongarès, italià, lituà, letó, maltès, holandès, polonès, portuguès, romanès, eslovac, eslovè i suec.

El corpus JRC-Acquis és un corpus paral·lel, alineat a nivell de segment, que conté el Acquis Communautaire en totes aquestes llengües. La versió 3 d’aquest corpus conté els documents des de l’any 1958 fins a l’any 2006.

En aquest projecte pretenem traduir tot el contingut d’aquest corpus del castellà al català.

Els sistemes de traducció automàtica

Actualment hi ha disponibles diverses eines que permeten crear sistemes de traducció automàtica. Si aquests sistemes s’entrenen fent servir corpus paral·lels de gran mida i de la mateixa temàtica dels textos a traduir, és possible obtenir resultats de traducció millors que els que s’obtenen amb els sistemes per a textos d’àmbit general. Si obtenim sistemes de traducció automàtica de gran qualitat, els esforços de postedició poden ser menors.

Entre els sistemes disponibles que disposen de llicència lliure es poden destacar els següents:

  • Apertium és una plataforma per desenvolupar sistemes de traducció automàtica basats en transferència sintàctica superficial. A més de ser un conjunt d’eines que permeten desenvolupar sistemes de traducció automàtica, també es distribueixen sistemes funcionals per a un gran nombre de parells de llengües, entre elles el castellà-català. Es poden tant crear sistemes per a nous parells de llengües, com afegir regles o entrades dels diccionaris per ampliar els parells de llengües disponibles.
  • Moses és un motor de traducció automàtica estadística que s’ha fet servir àmpliament per desenvolupar un gran nombre de sistemes, tant comercials com lliures, per a un gran nombre de parells de llengües. Aquest motor també ha estat una plataforma excel·lent per a la recerca en traducció automàtica estadística i durant anys s’han anat incorporant nous mòduls que implementen els darrers avenços en aquest tipus de sistemes.
  • ModernMT és un sistema que permet crear motors de traducció automàtica que poden tenir en compte el context de la frase per traduir mitjançant l’ús dels anomenats vectors de context. Es poden fer servir dos motors de traducció: un d’estadístics i un de neuronal. Una altra característica interessant és que permet reentrenar fàcilment els sistemes amb nous parells de segments originals i traduïts.
  • OpenNMT és un entorn que permet crear sistemes de traducció automàtica neuronals. Es distribueix en tres variants dependent de l’entorn de modelatge neuronal que es faci servir: OpenNMT-lua (que fa servir LuaTorch), OpenNMT-py: (que fa servir PyTorch) i OpenNMT-tf (que fa servir TensorFlow).
  • Sockeye és un sistema que fa servir el marc seqüència a seqüència per a la creació de sistemes de traducció automàtica neuronal. Implementa arquitectures codificador-decodificador d’última generació.
  • Marian, que s’anomenava anteriorment AmuNMT, és un entorn eficient per a la creació de sistemes de traducció automàtica neuronal escrit en C++ pur i amb molt poques dependències. S’està desenvolupant actualment en nombrosos projectes europeus.

En aquest projecte estem fent servir principalment ModernMT, en la seva variant estadística. Hem triat aquesta eina perquè permet reentrenar el sistema amb noves traduccions d’una manera molt senzilla i ràpida. D’aquesta manera, el sistema pot anar millorant a mesura que el projecte avanci. Tenim previst fer comparacions amb sistemes entrenats amb els mateixos corpus fent servir Moses.

Com a línia futura pretenem crear sistemes de traducció automàtica neuronal i fer les comparacions amb els sistemes estadístics.

Recursos

Per entrenar els sistemes de traducció automàtica estadística fem servir dos recursos principals:

  • El corpus del Diari Oficial de la Generalitat de Catalunya. Des de fa molts anys el Diari Oficial de la Generalitat de Catalunya (DOGC) es publica en català i castellà. Recentment s’ha recopilat i paral·lelitzat el corpus DOGC, obtenint un corpus paral·lel de grans dimensions d’una temàtica similar a la de la documentació europea. Aquest corpus permet entrenar sistemes de traducció fiables per traduir la principal documentació europea del castellà al català.
  • Un corpus de notícies compilades de diaris bilingües català-castellà.

En la següent taula podem observar les mides, en segments i paraules, dels corpus paral·lels emprats per entrenar el sistema de traducció automàtica.

Corpus Segments Paraules CA Paraules ES
DOGC 6.899.799 178.582.225 176.453.572
Notícies 4.145.545 91.947.117 92.553.927

Entorn de postedició

Actualment en el projecte estem fent servir l’eina de traducció assistida en línia Memsource, gràcies a la llicència acadèmica que ens han proporcionat. El fet de fer servir una eina en linia com Memsource és molt convenient, ja que un cop assignades les tasques a un col·laborador es reben missatges de correu automàtics del sistema que avisa dels canvis d’estat del projecte. Ara bé, com que en la creació dels projectes es fa servir el format estàndar XLIFF, aquests es poden obrir en qualsevol eina de traducció assistida. També, per a aquells col·laboradors poc avesats a fer servir aquest tipus d’eines, Memsource pot exportar documents de Word amb tres columnes: l’original, la traducció a posteditar i una columna destinada als comentaris. Un cop realitzada la postedició, aquests documents de Word es poden reimportar al sistema. D’aquesta manera, els aspectes tècnics no han de ser un impediment per participar en el projecte.

Dimensions del projecte

En el nostre projecte pretenem traduir tot el corpus JRC-Acquis de castellà al català. Aquest és un projecte molt gran, amb un total de 23.573 documents i més de 60 milions de paraules a traduir.

Primers resultats

Hem començat la traducció i postedició al català pels primers anys i en tenim quatre de completats (1958, 1959, 1962, 1963 i 1964). En la següent taula podem observar el nombre de documents, segments i paraules per cada any.

Any Documents Segments Paraules
1958 3 429 9348
1959 3 142 3678
1962 7 676 16893
1963 5 363 7882
1964 7 1795 36337
TOTAL 25 3399 74138

Participació en el projecte

Aquest projecte està obert a qualsevol empresa o professional de la traducció o de la postedició, i també a estudiants d’últims cursos de graus (traducció i interpretació i relacionats, com filologia catalana, etc.), o bé de màster. Es preveuen dos tipus de col·laboració:

  • Com a traductor/posteditor: que dugui a terme la postedició de la traducció automàtica. Poden ser tant professionals en actiu com estudiants. El volum de feina és totalment adaptable a les possibilitats de cada col·laborador.
  • Assegurament de la qualitat: dirigit a professionals en actiu que estiguin disposats a tornar a revisar el 10% de les postedicions realitzades pels voluntaris. Aquest pas té la doble funció d’assegurar la qualitat i d’oferir un retorn als voluntaris sobre la qualitat de les seves postedicions.

Cerquem especialment la col·laboració d’Universitats de l’espai lingüístic del català que ofereixin titulacions de traducció i interpretació o relacionades.

Per participar en el projecte cal posar-te en contacte amb mi (aoliverg@uoc.edu).

Conclusions

Aquest projecte és molt ambiciós pel que fa al volum, ja que la quantitat de documents per traduir és molt gran. Al mateix temps, el projecte ofereix grans oportunitats, entre les que podem destacar:

  • Demostrarà que la consideració del català com a llengua oficial de la Unió Europea és tècnicament viable i es pot dur a terme amb pressupostos ajustats.
  • És una oportunitat per a estudiants de traducció d’adquirir experiència en l’àmbit de la postedició de traducció automàtica, un perfil molt sol·licitat actualment.
  • Generarà uns recursos lingüístics molt importants: el corpus JRC-Acquis en català. Donat que tindrem l’alineació amb el castellà i el castellà està alineat amb la resta de llengües oficials de la Unió Europea, disposarem de fet d’un gran corpus paral·lel entre el català i 23 llengües de la Unió.
  • Servirà de camp per a l’experimentació i recerca en traducció automàtica.
  • Servirà de camp per a l’experimentació i recerca en el camp de la integració de la traducció automàtica en els processos de traducció i en postedició de la traducció automàtica.
Antoni Oliver

Antoni Oliver

Antoni Oliver González (Barcelona, 1969) és doctor en Lingüística per la Universitat de Barcelona, llicenciat en Filologia Eslava (Universitat de Barcelona) i Enginyer Tècnic de Telecomunicacions (E.U.E.T.T. La Salle, Universitat Politècnica de Catalunya).

Actualment és el director del Màster de Traducció especialitzada de la UOC i professor dels Estudis d'Arts i Humanitats (UOC), on coordina assignatures relacionades amb les tecnologies del llenguatge. El seu camp de recerca principal és el Processament del Llenguatge Natural, concretament en temes relacionats amb la traducció automàtica, amb les eines de traducció assistida i en l'adquisició automàtica de recursos lingüístics.
Antoni Oliver

About Antoni Oliver

Antoni Oliver González (Barcelona, 1969) és doctor en Lingüística per la Universitat de Barcelona, llicenciat en Filologia Eslava (Universitat de Barcelona) i Enginyer Tècnic de Telecomunicacions (E.U.E.T.T. La Salle, Universitat Politècnica de Catalunya). Actualment és el director del Màster de Traducció especialitzada de la UOC i professor dels Estudis d'Arts i Humanitats (UOC), on coordina assignatures relacionades amb les tecnologies del llenguatge. El seu camp de recerca principal és el Processament del Llenguatge Natural, concretament en temes relacionats amb la traducció automàtica, amb les eines de traducció assistida i en l'adquisició automàtica de recursos lingüístics.
This entry was posted in Catalan, Computing tools, Translation. Bookmark the permalink.