Traduire un document PDF à l'aide de Trados Studio

Emma Goldsmith 01 mai 2019 5 minutes de lecture
Cet article de blog explique comment traduire un document PDF à l'aide de Trados Studio
Personnellement, je préfère traduire des documents Word classiques. Quand on nous demande de traduire un PDF, on sait que cela va prendre plus de temps et que parfois, le fichier final devra être retravaillé. Voici quelques conseils utiles d'un traducteur pour traiter les fichiers PDF dans Trados Studio et pour vous faciliter un peu le travail.
 
 
Qu'est-ce qu'un PDF et quelle est la différence entre un fichier numérisé et un fichier modifiable ?

Le sigle PDF veut dire Portable Document Format. Ce format permet d'afficher exactement le même contenu, avec la même présentation, quel que soit l'appareil et le programme utilisé pour ouvrir le fichier. Si cela présente un avantage pour l'auteur du document, ce n'est pas vraiment le cas pour le traducteur.
 
Les documents PDF sont soit numérisés, soit modifiables. Les PDF modifiables ont des calques de texte et peuvent être traités dans toutes les versions prises en charge de Studio. Les fichiers PDF numérisés sont de simples images d'une page qui ne contiennent aucun caractère de texte électronique. Ils peuvent être traités dans Studio, car le logiciel possède une fonctionnalité de reconnaissance optique de caractères (OCR) qui extrait le texte.
 
Il est facile de différencier ces deux types de PDF. Ouvrez votre fichier avec un lecteur PDF. Si vous pouvez sélectionner, copier et coller un mot ou un paragraphe du document, il s'agit d'un PDF modifiable.
 
 
Limitations dans les langues et autres problèmes

Le moteur OCR utilisé par Trados Studio pour les fichiers PDF repose sur la technologie Solid Documents. La technologie OCR fonctionne grâce à un dictionnaire, c'est pourquoi elle n'est disponible que dans certaines langues : le danois, le néerlandais, l'anglais, le finlandais, le français, l'allemand, l'italien, le norvégien, le polonais, le portugais, le russe, l'espagnol, le suédois et le turc.
 
Le texte source doit donc être dans l'une de ces langues. En outre, pour que le document PDF soit convenablement converti, la qualité de l'image doit être bonne. Un texte déformé, flou, pâle, taché ou écrit à la main ne pourra pas être converti :
 
 

 
Si votre document PDF ressemble à l'un des exemples ci-dessus (qui sont des exemples réels), je vous conseille de dicter le document source dans Word à l'aide d'un logiciel de reconnaissance vocale, puis de traduire ce fichier Word dans Studio.
 
 
Obtenir un aperçu avant de débuter la traduction

Supposons que vous ayez un document PDF numérisé d'assez bonne qualité, comme le document ci-dessous :
 

 
L'étape suivante consiste à le tester dans Studio. Il vous suffit de déposer le PDF dans l'affichage Bienvenue.
 

 
Dans la fenêtre suivante, cliquez sur Avancé.
 

 
À gauche, cliquez sur Types de fichiers>PDF>Convertisseur puis sur Parcourir pour obtenir un aperçu du fichier.
 
 
Cela permet d'avoir un aperçu de la manière dont se présentera le fichier dans la fenêtre de l'Éditeur et d'enregistrer le fichier au format docx dans le même dossier que le document PDF.
 
Maintenant, vous avez le choix entre traduire le document tel quel ou bien retravailler la mise en page et la présentation du fichier source au format Word pour ensuite traduire cette version améliorée dans Studio, à la place du document PDF original.
 
N'oubliez pas que pour un projet, l'aperçu des types de fichiers utilise les règles de segmentation standard et non les paramètres de segmentation de la MT. En outre, l'aperçu des types de fichiers n'est pas disponible en ajoutant un fichier à un projet, mais seulement en ouvrant le fichier dans l'affichage Bienvenue, dans les paramètres du projet et dans les options générales.
 
 
Conversion OCR et options Word dans le type de fichier PDF

La fonction d'aperçu dans Studio vous permet de tester les différents paramètres de fichiers PDF (voir la capture d'écran ci-dessus) et de voir comment le fichier sera traité si ces paramètres sont appliqués. Généralement, dans la catégorie Présentation, je choisis l'option Enchaînement. On obtient ainsi le résultat le plus basique, mais qui reproduit fidèlement le format des puces, des caractères en gras, etc.
 
Personnellement, je supprime les images, mais il se peut que vous deviez les garder et les convertir, lorsque cela est possible. C'est la meilleure option de traitement des en-têtes et pieds de page, même s'il est parfois plus simple de les effacer à ce stade pour les rajouter plus tard à la main dans le fichier cible au format Word.
 
Détecter les tableaux est une fonctionnalité essentielle.
 
La dernière série d'options définit la manière dont Studio va reconnaître le texte. 
  • L'option Tout caractère convient aux documents PDF mixtes (contenant à la fois du texte modifiable et du texte numérisé).
  • L'option Caractères à problème uniquement convient aux PDF numérisés (mais vous pouvez aussi utiliser l'option Tout caractère).
  • L'option Aucun convient aux PDF modifiables.
Maintenant, revenez à la liste à gauche. Commun (en dessous de Convertisseur) vous propose tous les paramétrages possibles pour les documents Word, y compris les options permettant d'ajouter des commentaires dans le document cible.
 
 
Considérations pratiques en cours de traduction

Une fois que vous avez défini les paramètres de votre projet et passez à la phase de traduction, soyez attentifs aux erreurs classiques d'un OCR qui peuvent se glisser dans le texte source. Dans certaines polices, les « 1 » et les « I » se ressemblent beaucoup, tout comme les « 0 » et les « o » (exemple : 2O décembre 20I6). Il arrive aussi que certaines combinaisons de lettres soient mal interprétées, surtout dans les noms propres qui ne figurent pas dans le dictionnaire de l'OCR (par exemple « Dr Tumer » au lieu de « Dr Turner »).
 
N'oubliez pas que vous pouvez modifier les segments source pour corriger les erreurs. Cela permet d'améliorer le texte source, mais aussi de mieux exploiter vos MT, dès à présent et dans le futur. Dans le segment actif, cliquez sur Alt+F2 pour modifier la source.
 
Parfois, la conversion de fichiers PDF génère de faux retours de chariot (marques de paragraphe) ce qui entraîne le découpage d'une phrase en deux segments. Dans Studio 2019, vous pouvez facilement fusionner ce type de segments. Pour cela, appuyez sur Alt+Shift+Flèche du bas, faites un clic droit dans la colonne des numéros, puis sélectionnez Fusionner les segments. Si cette option est grisée, allez dans les paramètres du projet et vérifiez que les options de modification de la source et de fusion des segments sont activées comme dans l'écran ci-dessous :
 
 
Pour terminer, lorsque vous allez enregistrer votre document cible en appuyant sur Shift+F12, ne vous affolez pas si vous ne pouvez pas l'enregistrer au format PDF. Le fichier cible sera au format Word docx.
 
 
PDF modifiables

Traduire des documents PDF modifiables est un jeu d'enfant. Comme nous l'avons déjà vu plus tôt, la plupart des versions de Studio permettent d'importer des fichiers PDF modifiables. Vous verrez d'ailleurs que Studio convertit mieux ce type de fichiers que si vous les ouvrez dans MS Word. Studio reproduit plus fidèlement les en-têtes et les pieds de page, conserve mieux les caractères en gras et n'ajoute pas d'espace avant chaque marque de paragraphe en début de ligne.
 
 
PDF et tarification

Malgré les avancées dans le traitement des fichiers PDF, la traduction de ces derniers prend plus de temps que la traduction de fichiers aux formats natifs. Il est aussi plus difficile d'obtenir un compte exact de mots sources. Si possible, je conseille de facturer ce type de traduction à l'heure ou, à défaut, au compte final de mots cible avec un tarif plus élevé.
 
Un dernier conseil si vous avez affaire à un document PDF particulièrement coriace : demandez au client le fichier original. Studio prend en charge une immense variété de formats de documents. Ainsi, même si vous ne possédez pas le programme natif, vous pourrez sans doute traiter le fichier dans Studio.
Balises
Trados Studio
Emma Goldsmith
Rédaction

Emma Goldsmith

Traductrice médicale, Goldsmith Translations

Emma est une traductrice indépendante, travaillant de l'espagnol vers l'anglais et spécialisée dans le domaine médical. Autrefois infirmière, elle a décidé de se reconvertir il y a 25 ans. En dehors de son métier de traductrice, Emma travaille actuellement comme webmaster pour l'association MET (Mediterranean Editors and Translators) et tient le blog « Signs & Symptoms of Translation », consacré à la traduction médicale, à la terminologie espagnol-anglais et à Trados Studio.

Tous les articles de Emma Goldsmith