
Trados Studioの日本語OCR機能
こんにちは。SDLジャパンの土田です。こちらのブログでSDL Trados Studioをはじめとする弊社製品についての実用的な情報をお届けしています。
今回は、Trados Studioの日本語OCR機能についてご紹介します。
OCR(光学文字認識)機能とは「テキストデータではなく画像として処理された文字情報を、ソフトウェア上で再び文字として認識し、テキストデータに変換する機能」とご理解ください。
例として、「紙に印刷されたドキュメントをスキャナーで読み込んだPDFファイルのみが翻訳対象ファイルとして指定されており、ドキュメントの元ファイルであるMS Wordファイルはすでに存在していない」といった場合を考えてみましょう。
紙に印刷されたドキュメントをデータ化するには、まずこのドキュメントをスキャナーで読み込み、PDFファイルに保存するところからはじめなくてはなりません。こうして作成されたPDFファイルをスキャンPDFと呼びます。
このスキャンPDFはMicrosoft WordなどからエクスポートされたテキストPDFとは異なり、文字がテキストデータではなく画像として処理されています。
スキャンPDFに含まれている文字は、そのままではテキストデータとして扱うことができません。こうした画像として処理された文字をTrados Studio上で翻訳対象の原文テキストに変換するため、OCR機能が利用できるようになりました。
翻訳対象のテキストが紙媒体でしか提供されていない状況においても、スキャンPDFに対してOCR機能を使用することで、Trados Studioで翻訳作業を行い、また翻訳結果を翻訳メモリに蓄積していくことができます。
日本語OCRのインストール方法
日本語対応のOCR機能は、Trados Studioのソフトウェア本体とは別に、プラグインの形で追加されます。SDL AppStoreより提供されています。対応しているTrados Studioのバージョンは、2017 SR1以降となります。
SDLアカウントにあらかじめログインし、SDL AppStore内の下記のページを開きます。
IRIS PDF OCR Support for Studio
こちらの画面より、プラグインのインストーラーがダウンロード可能です。
IRSaddon.sdlpluginというファイルがダウンロードされます。Trados Studioを終了した状態でこちらクリックすると、インストールが開始されます。
[Next]をクリックして次に進みます。
[I agree with the license’s terms and conditions]にチェックを入れ、[Next]をクリックして次に進みます。
プラグインをインストールするTrados Studioのバージョンを選択し、[Next]をクリックするとインストールが開始されます。
インストール完了後、Trados Studioを起動します。[ファイル]>[オプション]より[ファイルの種類]>[PDF]>[コンバーター]の画面を表示させます。
[光学式文字認識にIRIS技術を使用する]という項目にチェックを入れ、[OK]をクリックします。[PDFテキストの認識]の項目は、文字情報をテキストデータへ変換中に問題が発生した際、どの範囲で修復を行うかということについての設定項目となります。基本的にはデフォルトの[問題のある文字のみ]が選択された状態で問題ありません。
以上で、Trados Studioで日本語OCR機能を使用する準備ができました。
日本語スキャンPDFでのプロジェクト作成
それでは、スキャンPDFを使用して実際にプロジェクトを作成してみます。この時の注意点として、「原文の編集」および「段落を越えた分節の結合」が可能であるようにプロジェクトを設定することをおすすめします。
具体的には、以下の画面で[原文の編集を許可する]および[段落を越えた分節の結合を有効にする]にチェックを入れます。
本機能の文字認識精度はとても優秀ですが、全角の閉じ括弧や全角の句読点の後、あるいは行の折り返しなどにある若干の余白が、半角スペースとして認識されてしまうことがあります。
こちらを読み込み後に修正し、余分な余白や改行を調整することで、より適切に整理された例文を翻訳メモリに蓄積していくことができます。
このような理由からこの設定をお勧めします。この設定変更は、プロジェクトの作成後に[プロジェクトの設定]メニューより実施することも可能です。
翻訳対象ファイルとして読み込まれたスキャンPDFファイルは、Trados Studio内でいったんDOCX形式のMicrosoft Wordファイルへと変換され、そこからさらにバイリンガルファイルへと変換されます。こちらはテキストPDFを翻訳対象とした場合と同様のプロセスとなります。
翻訳作業が完了後、訳文の生成を行いますが、その際に書き出されるファイル形式もDOCX形式のWordファイルとなります。
このたびのOCR機能の日本語対応により、翻訳対象ドキュメントの元データが存在しないあるいは入手困難な場合においても、テキストデータによる翻訳作業が可能となりました。是非お役立ていただければと思います。