Trados Studio 2022 CU6以降でのPDFファイルの変換とOCR（光学式文字認識）をサポートするPDF Assistant for Trados Studioアドインアプリのご紹介

島田智紀 2023年10月30日読了目安時間：5分

Trados Studio 2022 CU6以降でのPDFファイルの変換とOCR（光学式文字認識）をサポートするPDF Assistant for Trados Studioアドインアプリのご紹介

Trados Studio 2022 CU6以降では、翻訳プロジェクトにおけるPDFファイルの処理に新しいメカニズムと変換テクノロジーが採用されています。

これに伴い、Trados Studio 2022 CU6以降では、PDFファイルタイプの設定を変更するだけでは紙媒体からスキャンされたPDF文書内の画像化されたテキスト（マウス等で選択できない文字）をOCR（光学式文字認識）技術により抽出できなくなっていますが、こうした変更に対応するために、PDF Assistant for Trados Studioという新しい無料アプリがRWS AppStoreで提供されています。

今回のブログ記事では、このPDF Assistant for Trados Studioアプリの詳細と使用方法をご紹介します。

（Trados StudioでPDFファイルを翻訳する際の一般的な注意点などについては、PDFファイルの翻訳を行なうときのポイントをご覧ください。また、Trados Studio 2017 SR1～2022 CU5をお使いの場合は、Trados Studio 2017 SR1～2022 CU5で利用可能な日本語OCR機能をご覧ください。）

PDF Assistant for Trados Studioのインストール方法

PDF Assistant for Trados StudioアプリケーションをTrados Studio 2022 CU6以降にインストールするには、RWS AppStoreにアクセスしてインストーラー（.sdlpluginファイル）をダウンロードしてダブルクリックし、ウィザードの指示に従って手動でインストールを完了します。

また、Trados Studio内で [アドイン] タブ > [RWS AppStore] ボタンをクリックして [AppStore] を選択し、「PDF Assistant for Trados Studio」を検索してインストールすることも可能です。

なお、このアドインアプリを利用するには、コンピュータにMicrosoft Officeがインストールされている必要があります（このアドインアプリの検証はOffice 365がインストールされたコンピュータで行われ、旧バージョンのOfficeでは実施されていません）。

このアプリは大部分のPDFファイルをDOCXに変換できますが、100％確実に変換できることを保証するものではありません。PDFファイルを取り扱う際に起こり得る問題については、本記事の「PDFの処理について」セクションをご覧ください。

※ このアドインアプリでPDFを正しく処理できないときは、Abbyy FineReaderやAdobe Acrobat Proなど、より専門的なPDF編集アプリケーションが必要になる場合があります。

アドインがインストールされる場所

このアドインは、Trados Studioリボンの[アドイン]タブ内にある[ツールボックス]グループにインストールされます。

PDFの処理について

このアプリは、PDFファイルからDOCXへの変換をサポートし、Trados Studioで翻訳を行う前にDOCXの品質を高められるようにすることを目的として開発されています。

このようなアプローチを取った理由は、専門的な編集ソフトを使わずにPDFからDOCXに変換すると書式の問題が発生し、元のPDFとは異なる文書が作成される場合があるためです。

PDFからDOCXへの変換時に発生しやすい問題としては、以下のものが挙げられます。

文字や画像の配置：変換時にテキストや画像の配置がずれてしまい、最終的に元のPDFと異なる文書になってしまうことがあります。
書式に関する問題: 多くのPDFファイルには、列、表、グラフなど、複雑な書式が含まれます。これらの要素はDOCXへの変換が難しく、最終的な文書で書式の問題が発生することがあります。
ォント：変換を実行するコンピュータにインストールされていないフォントがPDFに含まれている場合、最終的な文書でテキストが異なって表示されることがあります。
ファイルサイズ：PDFファイルは一般的にサイズが大きいため、DOCXに変換するとファイルサイズが大きくなり、ストレージ容量を圧迫してしまうことがあります。
セキュリティ機能: PDFファイルの中には、内容のコピー＆ペーストを禁止するセキュリティ機能が設定されているものがあり、そのようなPDFをDOCXに変換することは困難な場合があります。
OCRの問題：紙媒体などからスキャンした画像や元々デジタルデータになっていないテキストがPDFに含まれている場合は、テキストを変換するためにOCR（光学式文字認識）ソフトウェアが必要になりますが、OCRでは時にエラーや文字の欠落が発生し、最終的な文書に誤りが生じることがあります。
不要なタグ: 上記の問題のいずれかに該当する場合、DOCXに不要な制御タグが多数挿入され、翻訳ツールで作業する際にそれらのタグが表示されます。
分節化の問題：上記の問題と同様に、DOCXに不必要なハードリターン（強制改行）が追加されて、翻訳が困難になることがあります。
文字表示の問題：文字コードが正しくないと最終的な文書で文字が正しく表示されないことがあります。特にアジア言語では、一部の文字がクエスチョンマークやボックスとして表示されることがあります。
文字の欠落: エンコーディングが正しくないと最終的な文書で特定の文字が欠落することがあります。その結果、読みにくく、理解しにくい文章になることがあります。
エンコーディングの競合：同じ文書内で複数のエンコーディングが使用されていると変換時に競合やエラーが発生することがあります。たとえば、一部の文字列がUTF-8でエンコードされ、他の文字列がASCIIでエンコードされていると、文書をPDFなどに変換する際にエラーが発生することがあります。

変換の品質は、元のPDFの品質と、使用する変換ソフトに大きく依存するため、Adobe Acrobat Proなどの他の変換ツールを使用するとより良い結果が得られる場合があります。

この「アドイン」は、Microsoft WordデスクトップAPIを利用してシンプルなテキスト変換機能とOCR機能を提供するアプリケーションです。

「アドイン」を使わずに直接Microsoft Wordを使用してPDFからDOCXへの変換を行うこともできますが、このアドインでは（特にOCR機能に関して）Microsoft Wordアプリケーションから直接利用できる機能よりもさらに多くの機能がサポートされています。

アドインの使用方法

ファイルの追加

PDF Assistant for Tradosは、リボン内のアイコンをクリックすることで起動します。このボタンをクリックすると小さなウィザードが開き、ここでファイルを追加できます。

追加できるファイル数に制限はありませんが、変換するファイル数が多すぎると処理に時間がかかり、メモリ不足になる可能性があります。このアドインで実際に変換できるファイル数は、PDFファイルに含まれるページ数や、ファイル内の画像数、必要なOCR処理量などに依存します。

ファイルとフォルダは、ドラッグ＆ドロップ、またはウィザード内のアイコンを使用して追加できます。この例では、OCRが必要な画像とそうでない画像を１つずつ含む英語のPDF文書と、テキストデータを含まずに内容全体が1つの大きな画像になっている韓国語のPDF文書を追加しています。

プロバイダーとOCRオプションの選択

[Options] 画面では、次のオプションを指定します。

どのPDFアシスタント（PDF変換プロバイダー）を使用するかを選択します（ただし、現在のところ選択できるオプションはMicrosoft Wordのみです）。
次に、画像からテキストを抽出するかどうかを指定し、抽出する場合は、（次の画面で）どの画像のOCR処理を行うかを指定します。

注: 画像のOCR処理を行う場合、背景画像は失われ、ソフトウェアが抽出できたテキストのみが残ることに注意してください。

ファイルが複雑すぎて処理を完了できないような場合は、いつでも処理をキャンセルできます。

画像の選択

ウィザードのこの部分では、ソフトウェアが識別できた画像を抽出し、どの画像に翻訳可能なテキストが含まれているかを指定できます。

この例の場合、OCRの対象となる画像は2つだけです（英語ファイル内の表の画像と、韓国語ファイル内の小さなバナー画像）。[Next]をクリックすると、[Summary]画面が表示されます。

[Summary] ステージ

ウィザードのこのステージの画面では、選択した変換設定の概要が表示されます。

[Preparation]ステージ

最後のステージでは、変換処理の経過が表示されます。

翻訳前に変換済みファイルに対して行うDTP作業

DOCXに変換されたPDFをMicrosoft Wordで開くと、翻訳を行う前にファイルの品質を向上させることができます。

この段階でDTP作業を適切に行っておくと、翻訳後に訳文ファイルを生成した後に、必要最小限の編集作業（訳文言語でテキストが長くなったり短くなったりすることに伴うレイアウト調整など）を行うだけでほぼそのままリリースできるようになります。

PDF変換によりレイアウトが崩れてしまったファイルを修正するのに適したTransToolsというツールをhttps://www.translatortools.net/products/transtoolsから入手できます。

この例では、英語ファイルに2つの画像が含まれており、1つはOCR処理され、もう1つは通常の画像として扱われています。

このPDFファイルをMicrosoft Wordで直接開いた場合は両方の画像が通常の画像として扱われるため、「アドイン」を使った方がより適切な翻訳用ファイルを準備できます。

表のレイアウトの調整は必要ですが、これはWordで編集できるため、より多くのテキストが含まれる場合は、時間の節約につながります。

テキストデータを含まない韓国語PDFの方は、書式の調整が若干必要なものの、それほど大きな問題は見られません。画像はフローティング方式で配置されているため好きな場所に移動でき、テキストはすべて翻訳可能です。

そのため、わずかなDTP作業を行うだけで翻訳用ファイルを準備でき、最終的な訳文ファイル上でのDTP作業は必要最小限で済みます。

■お問い合わせ■

製品に関するご質問はこちらまで、お気軽にお問い合わせください。

sales-jp@rws.com

制作者

島田智紀

シニアソリューションコンサルタント

RWSでTrados製品のコンサルティングをしております。
Trados認定トレーナー。

この執筆者の全記事：島田智紀

Trados Studio 2022 CU6以降でのPDFファイルの変換とOCR（光学式文字認識）をサポートするPDF Assistant for Trados Studioアドインアプリのご紹介

Trados Studio 2022 CU6以降でのPDFファイルの変換とOCR（光学式文字認識）をサポートするPDF Assistant for Trados Studioアドインアプリのご紹介

島田 智紀

関連記事

島田智紀