La base de dades terminològica IATE en català

IATE logo at http://termcoord.eu/

El IATE (InterActive Terminology for Europe) és un recurs molt conegut pels professionals de la traducció. Conté termes de moltes àrees temàtiques en les 24 llengües oficials de la Unió Europea. És un recurs de gran mida amb diversos milions d’entrades multilingües. Tot i que no tots els termes tenen denominacions en totes les llengües, la majoria d’ells sí que tenen equivalents en diverses llengües. La manera tradicional de treballar amb l’IATE fins fa poc ha estat la consulta a través de la seva interfície web. Des de fa algun temps, el IATE està disponible per a la seva descàrrega. La base de dades es descarrega com a un arxiu TBX comprimit en zip d’una mida molt gran. L’ús directe d’aquest arxiu és pràcticament impossible i des de la mateixa plana de descàrrega està disponible un programa (IATExtract.jar) que permet obtenir subconjunts de la base de dades per especialitats i per llengües. D’aquesta manera s’obtenen arxius TBX molt més petits i fàcils de manipular (es poden fer servir directament, per exemple, en la majoria d’eines de traducció assistida).

Des de fa un temps s’està treballant en la versió catalana del IATE amb la idea de proporcionar la denominació catalana del major nombre possible de termes presents al IATE. És interessant llegir la següent notícia del Termcoord.

El TermCat i la UOC estan duent a terme un projecte de col·laboració per a l’obtenció de les denominacions catalanes dels termes presents al IATE. Aquesta tasca es du a terme mitjançant dues metodologies diferenciades:

  • Fent servir les dades terminològiques de la col·lecció Terminologia Oberta del TermCat.
  • Fent servir tècniques de cerca automàtica d’equivalents de traducció en corpus paral·lels

A partir de Terminologia Oberta

Es treballen grans àrees temàtiques del IATE, per exemple 16-ECONOMICS. Llavors es miren els glossaris de terminologia oberta que puguin contenir termes d’aquesta mateixa àrea. En aquest cas serien els glossaris:

  • Crisi econòmica
  • Mercats financers
  • Negociació col·lectiva
  • Planificació estratègica
  • Renda
  • Finançament alternatiu

I també les entrades amb la marca de tema Economia dels glossaris generals:

  • Consulteca
  • Neoloteca

Els termes de terminologia oberta habitualment tenen denominacions en català i castellà, i molts d’ells també en altres llengües. Moltes de les entrades terminològiques de Terminologia Oberta també disposen de definició. En total, de tots aquests glossaris disposem de 1.881 entrades terminològiques de l’àrea d’Economia.

Es prenen tots els termes del IATE de l’àrea concreta que tinguin denominació en castellà i en anglès (que en el cas de l’Economia suposa un total de 9.703 entrades) i es cerquen els possibles equivalents catalans (amb les seves definicions) a partir de la denominació castellana. En el cas de l’Economia això ens retorna un fitxer amb 213 entrades que incorporen la denominació anglesa, castellana i catalana, així com en molts casos la definició en català. Aquesta llista és imprescindible revisar-la manualment.

Aquesta metodologia té l’avantatge de proporcionar-nos una gran precisió, però en general una cobertura molt baixa. Fixem-nos que al IATE hi ha 9.703 entrades terminològiques amb denominació en anglès i castellà, i a Terminologia Oberta 1.881 entrades i finalment només hem pogut trobar la relació de 213 entrades. Un avantatge important, també, és que atès que moltes entrades de Terminologia Oberta disposen de definició, aquesta es podrà mantenir i incorporar-la a l’entrada corresponent del IATE.

A partir de corpus paral·lels

Si disposem d’un corpus paral·lel podem cercar de manera automàtica l’equivalent de traducció d’un determinat terme. Si el terme a cerca apareix al corpus diverses vegades i sempre s’ha traduït de la mateixa manera, es podrà determinar de manera automàtica quina és el equivalent de traducció. Posem per exemple un la denominació castellà d’un terme de l’àmbit del dret, texto refundido (que té com a ID de IATE 1883189). Si fem la cerca a un corpus adequat, com pot ser el corpus del Diari Oficial de la Generalitat de Catalunya, podrem observar que aquest terme apareix en castellà en 18.612 segments. S’espera que en els segments corresponents en català també aparegui la denominació catalana. A continuació veiem uns quants segments d’exemple:

Hasta en tanto no se proceda a una nueva regulación del sistema de clasificación profesional, serán de aplicación de las normas contenidas en el artículo 39 del texto refundido de la Ley del Estatuto de los Trabajadores, tanto en trabajos de superior e inferior categoría como en materia de movilidad funcional. Fins que no es procedeixi a una nova regulació del sistema de classificació professional, seran d’aplicació les normes que conté l’article 39 del text refós de la Llei de l’Estatut dels treballadors, tant en treballs de superior e inferior categoria com en matèria de mobilitat funcional.
Hasta dicha fecha, la dotación básica, a efectos de lo establecido por los artículos 69.1 y 69.2 de dicho texto refundido, es de 12 metros cúbicos mensuales, y es de aplicación en los tramos establecidos por el citado artículo 69.2. Fins a aquesta data, la dotació bàsica, als efectes del que estableixen els articles 69.1 i 69.2 del dit text refós, és de 12 metres cúbics mensuals i és aplicable als trams establerts per l’esmentat article 69.2.
Finalmente, mediante Acuerdo GOV/195/2008, de 18 noviembre, se modificó el artículo 6 de los estatutos, correspondiendo al domicilio social de la entidad, y se aprobó el texto refundido de los Estatutos de la Agrupación. Finalment, mitjançant Acord GOV/195/2008, de 18 novembre, es va modificar l’article 6 dels estatuts, corresponent al domicili social de l’entitat, i s’aprovà el text refós dels Estatuts de l’Agrupació.
Finalmente, se modifica el texto refundido de la Ley de urbanismo, aprobado por el Decreto legislativo 1/2010, de 3 de agosto. Finalment, es modifica el text refós de la Llei d’urbanisme, aprovat pel Decret legislatiu 1/2010, del 3 d’agost.
Finalidad: redacción del proyecto de texto refundido del Plan Especial del Conjunto Residencial de la Colonia Güell. Finalitat: redacció del projecte de text refós del Pla Especial del Conjunt Residencial de la Colonia Güell.

L’algorisme de cerca bàsic funciona de la següent manera:

  • Es seleccionen tots els segments catalans corresponents a segments castellans que continguin el terme cercat
  • Es du a terme un procés d’extracció automàtica de terminologia en els segments catalans seleccionats. Aquest procés pot ser estadístic, consistent a calcular els n-grames (amb una n calculada a partir del nombre de paraules del terme castella; per exemple, si el terme té dues paraules, podríem considerar com n=1, n=2 i n=3) amb un posterior filtratge per paraules buides.
  • El candidat a terme més freqüent serà el candidat més probables a equivalent de traducció del terme cercat.

Aquesta metodologia funciona bé però pot arribar a ser molt lenta, sobretot si treballem amb corpus molt grans, com pot ser el corpus del Diari Oficial de la Generalitat de Catalunya. Per poder agilitzar el procés de cerca es fan servir models de traducció estadística, concretament les taules de traducció. En els nostres experiments hem fet servir Moses per calcular les taules de traducció a partir del corpus DOGC. El càlcul d’aquestes taules és molt lent (pot trigar dies en un ordinador estàndard) però un cop calculades es poden fer servir per fer totes les cerques necessàries.

L’algorisme de cerca simplement cerca en la taula de traducció una entrada que contingui el terme a cercar. El l’exemple de texto refundido obtindríem:

texto refundido ||| text refós . ||| 0.333333 0.928782 0.002331 0.0149143 ||| 0-0 1-1 ||| 3 429 1 ||| |||

texto refundido ||| text refós de ||| 0.00647249 0.928782 0.004662 0.286081 ||| 0-0 1-1 ||| 309 429 2 ||| |||

texto refundido ||| text refós del qual ||| 1 0.928782 0.002331 3.18142e-06 ||| 0-0 1-1 ||| 1 429 1 ||| |||

texto refundido ||| text refós del ||| 0.0322581 0.928782 0.002331 0.00210871 ||| 0-0 1-1 ||| 31 429 1 ||| |||

texto refundido ||| text refós ||| 0.914573 0.928782 0.848485 0.930424 ||| 0-0 1-1 ||| 398 429 364 ||| |||

L’opció amb una probabilitat més gran (en negreta en l’exemple) és la que segurament serà l’equivalent de traducció. Les taules de traducció són molt grans, amb milions de línies. Per poder fer una cerca en un temps reduït es poden fer servir programes específics que es distribueixen amb Moses, o bé emmagatzemar les taules en estructures de dades eficients.

Seguint amb l’exemple de l’àrea d’Economia, de les 9.703 entrades terminològiques amb denominació en anglès i castellà del IATE, hem pogut obtenir l’equivalent en català d’un total de 228 termes. Aquesta extracció es va dur a terme amb un fragment del corpus DOGC versió 2015. Recentment s’ha publicat una nova versió del corpus d’una mida sensiblement superior. Fent servir tot aquest nou corpus esperem que puguem obtenir encara més termes.

Antoni Oliver

Antoni Oliver

Antoni Oliver González (Barcelona, 1969) és doctor en Lingüística per la Universitat de Barcelona, llicenciat en Filologia Eslava (Universitat de Barcelona) i Enginyer Tècnic de Telecomunicacions (E.U.E.T.T. La Salle, Universitat Politècnica de Catalunya).

Actualment és el director del Màster de Traducció especialitzada de la UOC i professor dels Estudis d'Arts i Humanitats (UOC), on coordina assignatures relacionades amb les tecnologies del llenguatge. El seu camp de recerca principal és el Processament del Llenguatge Natural, concretament en temes relacionats amb la traducció automàtica, amb les eines de traducció assistida i en l'adquisició automàtica de recursos lingüístics.
Antoni Oliver

About Antoni Oliver

Antoni Oliver González (Barcelona, 1969) és doctor en Lingüística per la Universitat de Barcelona, llicenciat en Filologia Eslava (Universitat de Barcelona) i Enginyer Tècnic de Telecomunicacions (E.U.E.T.T. La Salle, Universitat Politècnica de Catalunya). Actualment és el director del Màster de Traducció especialitzada de la UOC i professor dels Estudis d'Arts i Humanitats (UOC), on coordina assignatures relacionades amb les tecnologies del llenguatge. El seu camp de recerca principal és el Processament del Llenguatge Natural, concretament en temes relacionats amb la traducció automàtica, amb les eines de traducció assistida i en l'adquisició automàtica de recursos lingüístics.
This entry was posted in Profession, Word reference. Bookmark the permalink.

One Response to La base de dades terminològica IATE en català

  1. Ruben Giro Ruben Giro says:

    Antoni, un article interessantíssim per als professionals de la traducció que treballem cap al català. Normalment tenim força dificultats per trobar terminologia concreta més enllà del TermCat. Poder incorporar el IATE és, sens dubte, una notícia magnífica!

Please respond to this Tradiling post.