La nova versió del corpus paral·lel del Diari Oficial de la Generalitat de Catalunya (DOGC)

DOGC

Acaba de publicar-se la nova versió del corpus paral·lel català – castellà del Diari Oficial de la Generalitat de Catalunya. Des de fa un un parell d’anys existia una versió que comprenia els textos fins l’any 2013 i que es podia descarregar des de la plana web OPUS Corpus. Recentment s’ha descarregat novament tots els articles d’aquesta publicació des del 1977 fins el 2015 i s’han processat fins a obtenir la nova versió que presentem en aquest article. La nova versió pot descarregar-se des del lloc web del grup de recerca Language Processing Group de la Universitat Oberta de Catalunya. Aquí presentem breument el procés de descàrrega i processament del corpus, així com estadístiques sobre el corpus resultant i les millores que presenta respecte la versió anterior.

Descàrrega i processament del corpus

Tots els documents del DOGC s’identifiquen per un identificador (documentId) i una llengua (language) que pot ser català (ca_ES) o castellà (es_ES). Per exemple, el següent enllaç:

https://dogc.gencat.cat/ca/pdogc_canals_interns/pdogc_resultats_fitxa/?action=fitxa&documentId=656789&language=ca_ES

porta al document número 656789 en català. Si volem accedir al mateix document però en castellà accediríem al següent:

https://dogc.gencat.cat/ca/pdogc_canals_interns/pdogc_resultats_fitxa/?action=fitxa&documentId=656789&language=es_ES

Si seguiu aquests enllaços, però, observareu que en la versió castellana l’únic que hi ha traduït al castellà és el títol de l’anunci, però no el text. Aquesta és una de les característiques que dificulten el processament d’aquest corpus. Tot i que moltes de les lleis, disposicions, etc. publicats al DOGC estan en les dues llengües, alguns d’ells només estan en català o bé en castellà. També cal tenir en compte que alguns dels enllaços, a més, no porten al text corresponent, sinó a un enllaç d’on es pot descarregar un PDF de la plana on apareix el document.

A la següent taula podem veure els processos duts a terme i el resultat obtingut a cada procés.

Procés Resultat
Descàrrega Corpus html
Classificació automàtica per anys Corpus html per a cada any
Conversió de html a text Corpus text per a cada any
Verificació de llengua
Segmentació dels textos amb llengua verificada Corpus segmentat per a cada any
Alineació
Neteja Corpus paral·lel en format de text tabulat
Eliminació segments repetits Corpus paral·lel en format de text tabulat

Corpus paral·lel en format Moses

Memòria de traducció en format TMX

A continuació expliquem molt breument cada un d’aquests processos:

Descàrrega

Per obtenir tot el DOGC des del 1977 fins al 2015 s’han desarregat tots els arxius html corresponents a documents des de l’1 fins al 715000 (que ja inclou documents corresponents al 2016).

Classificació automàtica per anys

Cada document presenta un requadre amb la información de número, data i plana. Hem aprofitat aquesta informació per classificar automàticament per anys cada document. Cal tenir en compte que la relació any – número de document no és purament incremental i podem trobar documents d’un determinat any amb número de document superior a alguns d’anys posteriors.

Conversió de html a text

S’ha desenvolupat un algorisme propi de conversió d’html a text basat en el paquet de Python Beautiful Soap. Aquest procés ha presentat una sèrie de dificultats, entre les que destaca el fet que cada plana web conté molta més informació que el propi document (com menús, informació fixa, etc.) que no volíem que estigués present en l’arxiu de text resultant; i el fet que l’estructura de la plana ha anat variant al llarg del temps, cosa que ha obligat a desenvolupar diverses estratègies de conversió.

Verificació de llengua

Com hem comentat, no tots els documents estan en les dues llengües i s’han descarregat i convertit documents suposadament en castellà que estan escrits en català i a l’inrevés. Per evitar tenir en el corpus segments alineats que siguin català-català o bé castellà-castellà, s’ha fet servir un mòdul de detecció automàtica de llengua. Si un document suposadament en català s’ha detectat com a castellà, s’elimina, i es du a terme el mateix procés per als documents suposadament en castellà.

Segmentació dels textos amb llengua verificada

El procés de segmentació s’ha dut a terme mitjançant un algorisme propi. Prèviament s’ha desenvolupat un senzill algorisme que ha permès descobrir les abreviatures i sigles emprades al DOGC tant en català com en castellà. A partir d’aquesta llista d’abreviatures i sigles i afegint una altra llista d’abreviatures habituals, s’ha desenvolupat un algorisme de segmentació i s’han segmentat tots els arxius de text que tenen la llengua verificada.

Alineació

L’alineació s’ha fet de manera totalment automàtica fent servir Hunalign. Per millorar la precisió del programa es pot fer  servir un diccionari bilingüe català – castellà. S’ha extret un diccionari en el format adequat a partir dels diccionaris de transferència del sistema de traducció automàtica Apertium.

Neteja

Un cop alineats els arxius, s’ha fet un procés de neteja per eliminar certs segments problemàtics. Concretament, s’han dut a terme les següents accions:

  • S’ha fet una normalització del caràcter corresponent a l’apòstrof, ja que alguns documents contenien accents  o altres caràcters.
  • S’han eliminat tots els segments que contenen únicament xifres o altres símbols però que no contenen cap paraula.
  • S’han eliminat els segments massa llargs, ja que amb molta probabilitat provenen d’errors de segmentació.

Eliminació de segments repetits

Del corpus DOGC es presenta una versió completa, és a dir, que conté tots els segments un cop alineats i netejats; i una versió sense repeticions, és a dir, que, per a tots els segments que apareixen diverses vegades, només es conserva una aparició.

Arxius presents a la distribució

El corpus DOGC es pot obtenir en diversos formats:

    • DOGC-info-cat-spa.txt.zip: Arxiu paral·lel separat per tabuladors que conté els segments catalans alineats amb els castellans amb informació de número de document de procedència, any de publicació i el valor de fiabilitat de l’alineació donat per Hunalign.
    • DOGC-cat-spa.txt.zip: Arxiu paral·lel separat per tabuladors que conté els segments catalans alineats amb els castellans.
    • DOGC-unic-cat-spa.txt: Arxiu paral·lel separat per tabuladors que conté els segments catalans alineats amb els castellans endreçats alfabèticament i sense repeticions.
    • DOGC-unic-cat-spa.tmx.zip: Les alineacions sense repeticions en el format estàndard per a l’intercanvi de memòries de traducció (TMX: Translation Memory eXchange).
    • DOGC-unic.ca-es.ca.zip i DOGC-unic.ca-es.es.zip: Alineacions sense repeticions en format Moses, és a dir les alineacions sense repeticions en dos fitxers de text separats, un per al català i un altre per al castellà.

De tots aquests arxius es presenten tant un global com versions que contenen els segments provinents de documents d’un determinat any.

Addicionalment es distribueixen també tots els arxius html descarregats, els transformats a text i els segmentats.

Conclusions

L’objectiu principal d’aquesta nova descàrrega dels arxius del DOGC i posterior processament i alineació ha estat crear un corpus paral·lel de major mida i millor qualitat que la versió anterior. Els processos de verificació i neteja han estat exhaustius i s’han descobert nombrosos documents sense traducció i altres errors que no havien estat detectats a la versió anterior. Això ha fet que s’eliminés una quantitat important de documents i de segments problemàtics.

Per aquest motiu, l’increment de mida de la nova versió no ha estat massa important, però si en canvi la qualitat del corpus. A la següent taula es poden veure les mides dels corpus en la versió 2013 i la versió actual (que anomenem 2015 perquè recull els DOGC fins finals d’aquest any). Si ens fixem, la versió 2015 té menys segments que la 2013, però en canvi té més paraules tant en català com en castellà.

Versió Segments Paraules en català Paraules en castellà
2013 10.933.622 162.981.769 150.435.197
2015 8.074.284 188.908.522 197.991.183
2015 – unic 5.026.847 142.502.123 149.339.268

Un corpus paral·lel d’aquestes característiques pot ser de gran utilitat per a diverses tasques:

  • Com a memòria de traducció, que es pot fer servir directament en qualsevol eina de traducció assistida, atès que també es distribueix en format TMX.
  • Per a tasques d’extracció automàtica de terminologia i cerca automàtica d’equivalents de traducció.
  • Per a l’entrenament de sistemes de traducció automàtica estadístics. El corpus DOGC es distribueix també en format Moses.

Antoni Oliver

Antoni Oliver González (Barcelona, 1969) és doctor en Lingüística per la Universitat de Barcelona, llicenciat en Filologia Eslava (Universitat de Barcelona) i Enginyer Tècnic de Telecomunicacions (E.U.E.T.T. La Salle, Universitat Politècnica de Catalunya).

Actualment és el director del Màster de Traducció especialitzada de la UOC i professor dels Estudis d'Arts i Humanitats (UOC), on coordina assignatures relacionades amb les tecnologies del llenguatge. El seu camp de recerca principal és el Processament del Llenguatge Natural, concretament en temes relacionats amb la traducció automàtica, amb les eines de traducció assistida i en l'adquisició automàtica de recursos lingüístics.
Antoni Oliver

About Antoni Oliver

Antoni Oliver González (Barcelona, 1969) és doctor en Lingüística per la Universitat de Barcelona, llicenciat en Filologia Eslava (Universitat de Barcelona) i Enginyer Tècnic de Telecomunicacions (E.U.E.T.T. La Salle, Universitat Politècnica de Catalunya). Actualment és el director del Màster de Traducció especialitzada de la UOC i professor dels Estudis d'Arts i Humanitats (UOC), on coordina assignatures relacionades amb les tecnologies del llenguatge. El seu camp de recerca principal és el Processament del Llenguatge Natural, concretament en temes relacionats amb la traducció automàtica, amb les eines de traducció assistida i en l'adquisició automàtica de recursos lingüístics.
This entry was posted in Catalan, Digital stuff. Bookmark the permalink.