Trados Studio 2017 SR1~2022 CU5で利用可能な日本語OCR機能

島田 智紀 2023年10月30日 読了目安時間:4分

Trados Studio 2017 SR1~2022 CU5で利用可能な日本語OCR機能

今回は、Trados Studio 2017 SR1~2022 CU5で利用可能な日本語OCR機能についてご紹介します。
 
OCR(光学文字認識)機能とは「テキストデータではなく画像として処理された文字情報を、ソフトウェア上で再び文字として認識し、テキストデータに変換する機能」とご理解ください。(Trados StudioでPDFファイルを翻訳する際の一般的な注意点などについては、PDFファイルの翻訳を行なうときのポイントをご覧ください。)
 
ここでは例として、「紙に印刷されたドキュメントをスキャナーで読み込んだPDFファイルのみが翻訳対象ファイルとして指定されており、ドキュメントの元ファイルであるMS Wordファイルはすでに存在していない」といった場合を考えてみましょう。
 
紙に印刷されたドキュメントをデータ化するには、まずこのドキュメントをスキャナーで読み込み、PDFファイルに保存するところからはじめなくてはなりません。こうして作成されたPDFファイルをスキャンPDFと呼びます。
 
このスキャンPDFはMicrosoft WordなどからエクスポートされたテキストPDFとは異なり、文字がテキストデータではなく画像として処理されています。
 
スキャンPDFに含まれている文字は、そのままではテキストデータとして扱うことができません。こうした画像として処理された文字をTrados Studio上で翻訳対象の原文テキストに変換するため、OCR機能が利用できるようになりました。
 
翻訳対象のテキストが紙媒体でしか提供されていない状況においても、スキャンPDFに対してOCR機能を使用することで、Trados Studioで翻訳作業を行い、また翻訳結果を翻訳メモリに蓄積していくことができます。
 
 
日本語OCR機能のインストール方法
 
日本語対応のOCR機能は、Trados Studioのソフトウェア本体とは別に、プラグインの形で追加されます。RWS AppStoreより提供されています。対応しているTrados Studioのバージョンは、2017 SR1~2022 CU5となります(Trados Studio 2022 CU6以降をお使いの場合は、Trados Studio 2022 CU6以降でのPDFファイルの変換とOCR(光学式文字認識)をサポートするPDF Assistant for Trados Studioプラグインアプリのご紹介をご覧ください)。
 
RWS AppStore内の下記のページを開きます。
 
 
 
こちらの画面より、お使いのTrados Studioのバージョンに対応したプラグインのインストーラーを選択してダウンロードできます。
 
 
IRIS PDF OCR Support for Studio.sdlpluginというファイルがダウンロードされます。Trados Studioを終了した状態でこちらダブルクリックすると、インストールが開始されます。プラグインをインストールするTrados Studioのバージョンが正しいことを確認し、指示に従ってインストールを完了してください。
 
 
インストール完了後、Trados Studioを起動します。[ファイル]>[オプション]より[ファイルの種類]>[PDF]>[コンバータ]の画面を表示させます。
 
2019-08-22_8
 
[光学式文字認識にIRIS技術を使用する]という項目にチェックを入れ、「アドオンをダウンロードしてください」というダイアログボックスが表示されたら[OK]をクリックします。[PDFテキストの認識]の項目は、文字情報をテキストデータへ変換中に問題が発生した際、どの範囲で修復を行うかということについての設定項目となります。基本的にはデフォルトの[問題のある文字のみ]が選択された状態で問題ありません。
 
以上で、Trados Studioで日本語OCR機能を使用する準備ができました。
 
 
日本語スキャンPDFでのプロジェクト作成
 
それでは、スキャンPDFを使用して実際にプロジェクトを作成してみます。この時の注意点として、「原文の編集」および「段落を越えた分節の結合」が可能になるようにプロジェクトを設定することをおすすめします。
 
具体的には、以下の画面で[原文の編集を許可する]および[段落を越えた分節の結合を有効にする]にチェックを入れます。
 
 
本機能の文字認識精度はとても優秀ですが、全角の閉じ括弧や全角の句読点の後、あるいは行の折り返しなどにある若干の余白が、半角スペースとして認識されてしまうことがあります。
 
こちらを読み込み後に修正し、余分な余白や改行を調整することで、より適切に整理された例文を翻訳メモリに蓄積していくことができます。
 
このような理由からこの設定をお勧めします。この設定変更は、プロジェクトの作成後に[プロジェクトの設定]メニューより実施することも可能です。
 
2019-08-22_10
 
翻訳対象ファイルとして読み込まれたスキャンPDFファイルは、Trados Studio内でいったんDOCX形式のMicrosoft Wordファイルへと変換され、そこからさらにバイリンガルファイルへと変換されます。こちらはテキストPDFを翻訳対象とした場合と同様のプロセスとなります。
 
翻訳作業が完了後、訳文の生成を行いますが、その際に書き出されるファイル形式もDOCX形式のWordファイルとなります。
 
このたびのOCR機能の日本語対応により、翻訳対象ドキュメントの元データが存在しないあるいは入手困難な場合においても、テキストデータによる翻訳作業が可能となりました。是非お役立ていただければと思います。
島田 智紀
制作者

島田 智紀

シニアソリューションコンサルタント
RWSでTrados製品のコンサルティングをしております。
Trados認定トレーナー。
この執筆者の全記事: 島田 智紀