Využití překladových pamětí
 08  ES




Soubor ke stažení: cs_es


Obsah

Contenido

A.

A.

Úvod - charakteristika základních souborů

Introducción - las características de los conjuntos de base

B.

B.

Podrobnější charakteristika

Especificaciones detalladas

C.

C.

Využití překladových pamětí (Translation Memory = TM)

Uso de la memoria de traducción (TM = la memoria de traducción)

D.Odkazy a ukázky

D. Las referencias y las muestras

A.

A.

Úvod - charakteristika základních souborů

Introducción - las características de los conjuntos de base

1.

1.

Bitext a tabulka v DOC (RTF)

Bitext una tabla en la DOC (RTF)

1.1.

1.1.

Bitext obsahuje texty ve dvou jazycích.

Bitext contiene textos en dos idiomas.

Soubor neobsahuje jazykové kódy a je kódován tak, aby byly oba jazyky lidmi čitelné.

El archivo no contiene los códigos de lenguaje, y codificadas para que la gente lea los dos idiomas.

Jde nejčastěji o TXT soubor, který může mít národní kódování pro

Por lo general, un archivo TXT que puede ser de la codificación nacional de

a) DOS, Unix (Linux), Mac

a) DOS, Unix (Linux), Mac

b) ANSI (Windows), národní stránky jednotlivých jazyků a jejich ekvivalenty pro HTM (čeština Win-1520)

b) ANSI (Windows), los sitios de los idiomas nacionales y sus equivalentes de HTM (Checa Win-1520)

Tabulky v DOC (RTF) obsahují v dokumentu jazykové kódy polí, která obsahují text (ve zdrojovém a cílovém jazyce).

Las tablas en formato DOC (RTF), documento que contiene los códigos de idioma de los campos que contienen texto (el idioma de origen y de destino).

c) UTF-8 je využíván nejčastěji, protože oba jazyky jsou lidmi čitelné, je využíván pro přiřazování souborů (UTF-7 se v překladatelském oboru nevyužívá) a soubory mají menší velikost než v UTF-16

c) UTF-8 se utiliza con mayor frecuencia, porque ambos idiomas son legibles, se utiliza para los archivos de mapeo (UTF-7 no se utiliza en la industria de la traducción) y los archivos son más pequeños que en UTF-16

d) Unicode (UTF-16) využívá MS Word a programy (CAT), které v něm fungují pro zobrazení textových souborů; může jít o lokální nebo webové databáze, konverzní programy atd.

d) Unicode (UTF-16) utiliza MS Word y programas (CAT), que trabaja para mostrar archivos de texto, puede ser un programa de conversión de bases de datos locales o web,,, etc

e) Unicode Big Endian pro zobrazení východoasijského písma (CJK = čínština, japonština a korejština)

e) Unicode Big Endian para ver las fuentes de Asia Oriental (CJK = chino, japonés y coreano)

1.2.

1.2.

Tabulky v DOC (RTF) obsahují v dokumentech jazykové kódy a texty jsou uloženy v ANSI

Las tablas en formato DOC (RTF), los documentos contienen los códigos de lenguaje y los textos son almacenados en ANSI

2.

2.

Glosář a obdobné soubory

Glosario y archivos similares

Slovník - obsahuje heslo + slovní druh + tvary slova + příklady použití + překlady.

Diccionario - contiene la contraseña discurso + + + + formas de la palabra ejemplos de la utilización de las traducciones.

Bývá tříděn abecedně podle hesel.

Está ordenada alfabéticamente de acuerdo a las entradas.

Překladový slovník - obsahuje výraz , který se skládá z jednoho až pěti slov a jeho překlad a bývá uložen v databázi

Diccionario de traducción - contiene una expresión que consiste de uno a cinco palabras y su traducción y se almacena en una base de datos

Slovníček - obsahuje výraz z jednoho až pěti slov a jejich překlad a bývá uložen v textovém souboru nebo XLS (maximálně dvě pole)

Glosario - contiene las palabras de una a cinco palabras y su traducción y se almacena en un archivo de texto o XLS (máximo de dos campos)

Glosář - slovníček + další pole na poznámky a eventuáleně data, jaká mohou být v atributech překladových pamětí

Campos adicionales Glosario - un glosario + a las observaciones y los datos eventuáleně como pueden ser los atributos de las memorias de traducción

3.

3.

Segmentovaný dokument Trados (DOC nebo RTF), nevyčištěný dokument přeložený v MS Wordu

Segmentado Trados documento (DOC o RTF), sin limpiar papel doblado en MS Word

Běžně vzniká v průběhu překladu v CAT nástrojích, které využívají jako textový editor MS Word.

Comúnmente se plantea en el curso de la traducción en herramientas de traducción asistida, que utiliza un editor de texto MS Word.

Někdy jej exportují i aplikace, které používají pro překládání jiný typ souboru.

A veces las solicitudes de exportación que se utilizan para traducir otro tipo de archivo.

Dokument obsahuje překladové jednotky, tj. dvojice vět, kdy první věta je ve zdrojovém jazyce a druhá věta je v cílovém jazyce, oddělovací značky a číslice, která vyjadřuje procento shody.

El documento contiene una unidad de traducción, es decir, un par de frases, donde la primera frase en el idioma de origen y la segunda frase en el idioma de destino, marcas y números de separación, que expresa el porcentaje de cumplimiento.

4.

4.

Překladová paměť

Memoria de Traducción

4.1.

4.1.

Jednotlivé CAT nástroje využívají svůj vlastní (nativní) typ souboru.

Cada uno de las herramientas TAO utilizar su propio (nativo), tipo de archivo.

Překladová paměť se anglicky jmenuje Translation Memory a má akronym TM.

Inglés de memoria de memoria de traducción Traducción y llamó a la abreviatura TM.

Přestože data obsažená v překladových pamětech jsou obdobná, liší se formát dat, struktura dat, typ souborů.

Los tipos de archivos Aunque los datos contenidos en la memoria de traducción son similares, formato, estructura de datos.

Je to např.

Como ejemplo

TXT, ESL, DBF, MDB, TBW, SQL.

TXT, ESL, DBF, MDB, ACT, SQL.

CAT s nimi pracuje jako s databázovým souborem.

CAT trabaja con un archivo de base de datos.

Uživatel může data překladové paměti bez nativního CAT nástroje upravovat, pokud data uvidí v jiném nástroji a nástroj mu umožní změněný soubor uložit.

Los datos de usuario no puede nativo memoria de traducción, herramientas de traducción asistida para editar, si los datos se ve en otras herramientas e instrumentos para que pueda guardar el archivo modificado.

4.2.

4.2.

Translation Memory Exchange (TMX) je textový soubor s příponou TMX, který je kódován buď v UTF-8 nebo v Unicode.

Memoria de Traducción de Exchange (TMX) es un archivo de texto con TMX, que está codificado en cualquiera de UTF-8 o Unicode.

B.

B.

Podrobnější charakteristika

Especificaciones detalladas

1.Bitext

1.Bitext

Bitext je možno vytvořit

Bitext puede crear

a) konverzí dvou sloupců z listu XLS souboru nebo listu jiné tabulkového procesoru

a) la conversión de dos columnas de una hoja de cálculo xls archivo de hoja de cálculo o cualquier otra hoja de

b) přiřazením segmentů soborů ( přiřadit je anglicky "align" a přiřazení "alignment"

b) el segmento de datos de gestión de asignación (asignarlo a Inglés "align" y asignar "alineación"

c) konverzí ta z tabulky nebo jiných typů souborů, kdy dojde ke ztrátě atributů a časového razítka

c) la conversión de una tabla o de otros tipos de archivo, que perdió los atributos y hora

Příklad konverze: v MS Exelu je možno soubor "Uložit jako" vybrat vhodný formát; v MS Wordu se konverze provádí přes položku menu Tabulka a potom se pokračuje jako v MS Exelu

Ejemplo de conversión: MS Excel puede presentar "Guardar como" para seleccionar el formato adecuado, en MS Word de conversión se realiza a través del menú Tabla y después continúa como en MS Excel

2.Glosář

 

Elektronické překladové slovníky umožňují přidávání a export terminologie.

Diccionarios de traducción electrónica para permitir la adición y la terminología de la exportación.

Do slovníku je možno přidávat jednotlivé významové dvojice a třídící poznámky.

El diccionario puede ser añadido un par de significado individual y toma nota de la clasificación.

Autoři slovníků šifrují obsah svojí databáze a neumožňují export dat.

Los autores de diccionarios para cifrar el contenido de su base de datos y no a la exportación de datos.

Z komerčních slovníků je možno exportovat pouze uživatelem přidanou terminologii.

Los diccionarios comerciales pueden ser exportados sólo por la terminología agregó.

Příklad: v PC Translatoru je možno přidávat do slovníku kromě významové dvojice pouze kód oboru.

Ejemplo: el traductor de PC puede ser añadido a la significado del diccionario que apenas un par de campo de código.

Je možno přidávat jednotlivé významové dvojice nebo celé soubory a potom shodné výrazy smazat.

Es posible agregar parejas significado diferente o archivos enteros y luego borrar los mismos términos.

Export vlastní terminologie je možno archivovat a importovat do novější verze softwaru.

La terminología propia de exportación pueden ser archivados y de importación a una nueva versión del software.

Shrnutí: glosáře z CAT nástrojů je možno po konverzi využít v jiných CAT nástrojích a také v překladačích.

Resumen: Glosario de herramientas de traducción asistida puede ser utilizado en la conversión de otras herramientas de traducción asistida y los compiladores.

Do CAT nástrojů je možno připojovat i terminologii z překladačů nebo jiných veřejně dostupných zdrojů.

Mediante herramientas de traducción asistida puede conectar la terminología del compilador o de otras fuentes disponibles al público.

3.

3.

Segmentovaný dokument Trados

Trados documento segmentado

Dokument obsahuje neviditelná, viditelná a skrytá data.

Documento contiene datos invisibles, visibles y ocultos.

Neviditelná data je možno zkontrolovat po uložení souboru jako HTM a HTM soubor prohlížet jako textový soubor (zdrojový HTM soubor).

Invisible de datos se puede comprobar para guardar el archivo como HTM y HTM para ver el archivo como un archivo de texto (fuente htm).

Viditelná data obsahují přeložený text.

Visibles los datos contiene el texto traducido.

Skrytá data obsahují zdrojový text, oddělovací značky a pomocné údaje, jako je procento shody s překladovou pamětí, která byla využita při překladu.

Datos ocultos contiene el texto de origen, marcas de separación y datos auxiliares como el cumplimiento de porcentaje con una memoria de traducción, que fue utilizado en la traducción.

Tento formát je standardem a využívá jej kromě Tradosu například Wordfast Classic, AnyMem.

Este formato es estándar y se utiliza menos como Trados Wordfast Classic, AnyMem.

Načítá jej a exportuje do něj MetaTexis.

Lo lee y lo exporta a MetaTexis.

Exportuje do něj Wordfast Anywhere a další CAT nástroje a konverzní nástroje.

Exportación en Wordfast en cualquier lugar y otras herramientas CAT y herramientas de conversión.

Tzv. vyčištěním dokumentu (clean-up), je dokument vyčištěn od zdrojového textu a všech pomocných značek a o obsah dokumentu může být rozšířena aktuální překladová paměť jednotlivého CAT nástroje.

La llamada. Documento de limpieza (limpieza), el documento se limpia a partir del texto de origen y las etiquetas de todos los auxiliares y el contenido del documento puede ser extendido a la actual unidad de memoria de traducción, herramientas CAT.

Segmentovaný dokument Trados může být využit pro aktualizaci TM, kteří používají různé CAT nástroje.

Trados documento segmentado puede ser utilizado para actualizar el TM, utilizando una variedad de herramientas de traducción asistida.

4.

4.

Překladová paměť

Memoria de Traducción

Jednotlivé CAT nástroje umí importovat a exportovat TMX a tím je umožněna výměna dat mezi uživateli různých CAT nástrojů.

Cada uno de las herramientas TAO pueden importar y exportar TMX y permitir así el intercambio de datos entre usuarios de diferentes herramientas CAT.

TMX je hlavním prostředkem pro výměnu TM a umí s ní pracovat i nástroje, které nepracují v MS Wordu a nepracují se segmentovaným dokumentem Tradosu.

TMX es el principal vehículo para el intercambio de TM y puede trabajar con él, así como herramientas que no funcionan en MS Word y no trabajan con el documento Trados segmentado.

Specifickým nástrojem mezi CAT nástroji je OmegaT.

Instrumento específico de los instrumentos es OmegaT CAT.

Nástroj je napsán v Javě a má tři verze (pro jednotlivé operační systémy:

La herramienta está escrita en Java y tiene tres versiones (para diferentes sistemas operativos:

Windows, Linux a MacIntosh).

Windows, Linux y Macintosh).

Je to open free software.

Está abierto de software libre.

Pracuje samostatně nebo s Open Officem (typ souboru ODT) a jako svoji překladovou paměť používá TMX v kódování UTF-8.

Trabaja solo o con Open Office (tipo de archivo ODT) y como su memoria de traducción en TMX usa UTF-8.

C.

C.

Využití překladových pamětí (Translation Memory = TM)

Uso de la memoria de traducción (TM = la memoria de traducción)

1.

1.

CAT nástroj do TM ukládá při překládání jednu překladovou jednotku se všemi atributy za druhou

Herramienta de CAT a TM guarda la hora de traducir una unidad de traducción con todos los atributos de la segunda

2.

2.

CAT nástroj porovnává (match) otevřený zdrojový segment překládaného dokumentu se všemi zdrojovými segmenty připojených překladových pamětí

Comparación de herramientas TAO (partido) del segmento de código abierto del documento traducido, todos los segmentos fuente conectada TM

Pozn. anglické "match" - porovnání, vyhovění apod. vnímají Češi častou pouze konfrontačně jako střet - utkání (fotbalový match).

Observe que el Inglés "Match" - la comparación, el cumplimiento, etc checos a menudo se percibe como un conflicto sólo de confrontación - Match (partido de fútbol).

Zde údaj match = 90, znamená, že segment se shoduje na 90% s nejvíce podobným segmentem v překladové paměti.

Aquí la información partido = 90, significa que el segmento es idéntico al del 90% con el segmento más similares en la memoria de traducción.

Pro porovnávání se nejčastěji používá Löwensteinův algoritmus.

Por comparación, el algoritmo de Löwenstein más comúnmente utilizados.

CAT většinou zobrazí překladové jednotky s nejvyšší shodou, nebo automaticky umístí překlad do cílového segmentu a umí také zobrazit rozdíly mezi zdrojovými segmenty v dokumentu a v překladové paměti.

CAT suelen aparecer la unidad de traducción con el mayor consenso, o colocar automáticamente una traducción en el segmento y también puede ver las diferencias entre los segmentos en el documento fuente y la memoria de traducción.

3.

3.

Pokud segmenty (věty) neobsahují více než 10 slov jsou častou poskytovány 100% nabídky z TM.

Si los segmentos (oraciones) no más de 10 palabras son a menudo proporcionan 100% del suministro de TM.

Dlouhé věty (třeba o 50 až 200 slovech) lze najít tehdy, když nový dokument obsahuje citace z předchozích dokumentů, zejména právnických, aktualizace příruček, návodů k obsluze apod.

Las oraciones largas (quizás 50 a 200 palabras) se puede encontrar si el nuevo documento contiene una cita de los documentos anteriores, en particular jurídica, la actualización de manuales, manuales, etc

4.

4.

Konkordační vyhledávání - ruční vyhledávání terminologie z vět uložených v jazykových párech

Búsqueda de Konkordační - terminología de búsqueda manual de las penas impuestas en los pares de idiomas

5.

5.

Ruční doplňování terminologie do slovníků a glosářů nebo opravy uložené terminologie.

Manual de la terminología de reposición en los diccionarios y glosarios de terminología o la reparación almacenados.

6.

6.

Dolování terminologie z vět uložených v jazykových párech.

La terminología de Minería de las penas impuestas en los pares de idiomas.

Speciální statistický software vyhodnocuje výskyt slov a frází v jazykovém páru a odhadne jak mají být slova nebo výrazy přeloženy.

De software estadístico Especial evalúa la presencia de palabras y frases en el par de idiomas y la estimación de cómo deben ser palabras o frases traducidas.

Taková technologie je obsažena např. v bezplatné službě Google Translate, který data využívá k provádění strojového překladu (Machine Translation = MT).

Dicha tecnología se incluye como Traducir gratuito de Google, los datos utilizados para implementar una traducción automática (MT = Machine Translation).

Existují i placené webové služby, které ze zákazníkových TM vydolují překlady, ke kterým neposkytuje překlad technologie porovnání celých segmentů.

Hay también pagó los servicios Web, que TM del cliente traducción vydolují, que facilita la comparación de tecnología de traducción de segmentos enteros.

E.Odkazy a ukázky

E. Los vínculos y las muestras

Na www.condak.net poskytuji informace o CAT nástrojích a na www.condak.cz jsou informace o PC Translatoru nebo jiných desktopových překladačích.

El www.condak.net proporcionar información sobre herramientas de traducción asistida y la información en el escritorio de Traductor www.condak.cz PC o otros compiladores.

Na webové stránce http://www.condak.net/osu/cs/00.html bude prezentace z tohoto workshopu.

El sitio web http://www.condak.net/osu/cs/00.html presentaciones de este seminario.

V Ostravě 17.9.2009

En Ostrava 17.9.2009

Ing.

Ing.

Milan Čondák

Milán Condak

Využití překladových pamětí

Utilice TMs


Copyright Ing. Milan Čondák 17.09.2009