Excelにテキストで入力されたタグを抽出する

島田 智紀 2023年10月20日 読了目安時間:3分
Excelにテキストで入力されたタグを抽出する

Excelにテキストで入力されたタグを抽出する

今回はExcelのセル内に<b></b>などのタグがテキストとして入力されていた場合に、Trados Studio上でインラインタグとして抽出する方法をご説明します。
 
こちらはTrados StudioのExcel用ファイルタイプに以前から備わっていた機能なのですが、あまり知られていないように思いますので、あらためておさらいしましょう。
 
 
セル内にタグがテキストとして入力されていた場合
 
例えば以下のようなExcelファイルがあるとします。セル内のテキストには、<b></b>といったタグペアや<br>といったセルフクロージングタグが存在しています。
 
2019-11-22_1 
 
タグ入りのテキストをxlsx形式やcsv形式などでエクスポートするシステムの場合、このような原文ファイルが翻訳対象となることがあります。
 
こちらを既定の設定でTrados Studioに読み込ませますと、このようにタグはすべてそのままのテキストで抽出されてしまいます。
 
2019-11-22_2
 
 
埋め込みコンテンツの処理
 
ここで、Excel用のファイルタイプ設定を変更しましょう。[ファイル]>[オプション]>[ファイルの種類]より、[Microsoft Excel 2007-2019]>[埋め込みコンテンツ]を選択し、[埋め込みコンテンツの処理を許可する]にチェックを入れ、[タグ定義規則]より[追加]をクリックします。
 
 
 
ここから先は正規表現が必要になるのですが、例えば<a><b><u><i>の各HTMLタグペアをインラインタグとして抽出する場合、以下のように追加します。
 
規則の種類:タグ ペア
開始:<[a-z][a-z0-9]*[^<>]*>
終了:</[a-z][a-z0-9]*[^<>]*>
 
 
 
また、<br>(または<br />および<br/>)および<hr>(または<hr />および<hr/>)というセルフクロージングタグをインラインタグとして抽出する場合は以下のように設定します。
 
規則の種類:プレースホルダ
開始: <[a-z][a-z0-9]*\s?\/?>
 
こちらの設定で先ほどのExcelファイルを読み込ませます。セル内にテキスト入力されていたタグがインラインタグとして処理されました。
 
2019-11-22_7
 
今回はごく一部のHTMLタグを対象にしましたが、正規表現の組み方によっては、その他のHTMLタグやXMLタグにも対応可能です。また正規表現でパターン化せずに、それぞれのタグを個別に設定することも可能です。
 
この「Excel内の埋め込みコンテンツの処理」は、どこかで役に立つのではないかと思います。
島田 智紀
制作者

島田 智紀

シニアソリューションコンサルタント
RWSでTrados製品のコンサルティングをしております。
Trados認定トレーナー。
この執筆者の全記事: 島田 智紀