Werken met platte tekst


Standaard codering

Platte-tekst bestanden - meestal met een .txt. extensie - bevat uitsluitend tekstuele informatie. Er bestaat geen helder gedefinieerde manier om de computer te vertellen welke taal zij bevatten. In (erg) simpele woorden: dat betekent dat de computer per definitie aanneemt dat de tekst is geschreven in de taal die de computer zelf gebruikt.


Verminkte weergaven

Als u Russisch bent is het zeer waarschijnlijk dat uw computer ook in het Russisch werkt: de menu's zijn in het Russisch, de bestanden die u opent zijn in het Russisch etc. In de meeste gevallen maakt de computer de juiste aanname met betrekking tot bestanden in het algemeen: zij bevatten allemaal Russisch en niet-Russische tekens kunnen niet worden weergegeven.

Maar als u een Russische vertaler bent die vertaalt vanuit het Japans, zullen de Japanse bestanden die u zult krijgen, als zij platte tekst-bestanden zijn, door de computer waarschijnlijk worden geïnterpreteerd als zijnde bestanden die Russisch bevatten. Omdat er in het bestand zelf geen informatie aanwezig is die aan de computer duidelijk maakt in welke taal zij zijn geschreven.

De Japanse bestandsinhoud zou kunnen zijn:

OmegaTとは、コンピュータを利用した翻訳ツールです。

Maar uw tekstbewerkingsprogramma zou dit zeer goed weer kunnen geven als:

OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≅ВЈБB

Omdat het verwacht dat de inhoud Russisch is... Maar dit is geen Russisch. Dit zijn Japanse tekens die foutief worden weergegeven als Russische tekens.

OmegaT is niet anders. OmegaT gaat er van uit dat platte tekst-bestanden tekst bevatten die automatisch kan worden weergegeven met behulp van de standaardinstellingen van de computer. Dat werkt prima als de computer werkt in het Frans en als u Engelse bestanden krijgt of als de computer Duits is en u Italiaanse bestanden krijgt.


Tekensets en coderingen

Waarom zou dat wel werken met Engels en Frans maar niet met Russisch en Japans? Omdat Engels en Frans een algemene tekenset delen. Namelijk Latijns-1 of een variatie daarop. Tot voor kort deelden Russisch en Japans geen tekensets. De meeste huidige Russische tekensets kunnen niet overweg met Japans en andersom. Het resultaat ziet eruit zoals hiervoor getoond.

De Japanse cliënt werkt met een Japanse computer en maakt tekstbestanden die Japans bevatten. De tekenset die werd geselecteerd door de computer van de cliënt zal afhankelijk zijn van het besturingssysteem en van andere instellingen, maar het is zeer onwaarschijnlijk dat de gekozen (Japanse) tekenset juist zal worden geïnterpreteerd door de Russische computer.

En dan nu, hoe de tekstuele informatie in de gespecifieerde tekenset fysiek wordt verzonden (dat is: hoe wordt het in het bestand geschreven zodat de computer het kan interpreteren en weergeven) is afhankelijk van een codering. Als de computer het bestand leest, "decodeert" het de informatie overeenkomstig de codering en geeft het die weer overeenkomstig de tekenset. Algemeen gesproken correspondeert één codering met één tekenset...


De OmegaT-oplossing

Er bestaan in principe 3 manieren om dit op te lossen in OmegaT. De 3 manieren behelzen allemaal het gebruik van de bestandsfilters in het menu Opties.

  1. Specificeer de codering voor uw platte tekst bestanden - dat zijn bestanden met de extensie .txt.
    Wijzig de Codering van bronbestanden van <auto> naar de codering die overeenkomt met uw bron .txt-bestand in de sectie Tekstbestanden van het dialoogvenster Bestandsfilters.
  2. Wijzig de extensies van uw platte tekst-bronbestanden - bijvoorbeeld van .txt naar .jp voor Japanse platte teksten.
    Voeg het Patroon voor bronbestandsnaam *.jp toe en selecteer de juiste parameters voor de bron- en doelcodering in de sectie Tekstbestanden van het dialoogvenster Bestandsfilters.
  3. Open uw bronbestand in een tekstbewerker die zijn codering juist interpreteert en sla het bestand op met de codering "UTF-8".
    Wijzig de bestandsextensie van .txt naar .utf8.
    OmegaT zal het bestand automatisch interpreteren als een UTF-8-bestand.

Momenteel is OmegaT als volgt ingesteld om platte tekst-bestanden te begrijpen

U kunt dat zelf controleren door het item Bestandsfilters te selecteren in het menu Opties.

OmegaT houdt dit lijstje bij om het voor u eenvoudiger te maken om sommige platte tekstbestanden te behandelen.

Als u bijvoorbeeld een Tsjechisch tekstbestand (zeer waarschijnlijk geschreven in de ISO-8859-2-code) hebt, hoeft u alleen maar de extensie te wijzigen van .txt naar .txt2 en OmegaT zal de inhoud juist interpreteren.


Auteursrechten