機械翻訳を活用してRHELドキュメントの定期更新を実現するまでの裏話

Red Hatのもえわきです。Red Hatローカライゼーションチーム(各国の言語への翻訳を担当する部署)でRHELの翻訳プロジェクトコーディネーター兼トランスレーターをしています。

Red Hatは、製品の拡充とともに、各国へのローカライゼーションに迅速に対応できないという課題がありました(マイナーバージョンごとにドキュメントが更新されるため、「製品の拡充 x リリースされるバージョン」とドキュメントの数は膨大)。その中で、新たな試みとして、機械翻訳を積極的に活用するプロジェクトが立ち上がりました。今回、ローカライゼーションのRHELチームが機械翻訳の適用にあたって取り組んできた裏話をご紹介したいと思います。

もくじ

RHEL 8から始まった「機械翻訳」プロジェクト: 目標は、日本語版の「全冊公開」

RHELはRed Hatのコア製品であり、多くのお客様にご利用頂いております。昨年、メジャーバージョンであるRHEL 8がリリースされ、今月2つ目のマイナーバージョンであるRHEL 8.2がリリースされます。それにあわせて、RHELの英語ドキュメントを制作するライティングチームが増員され、毎月かなりの量が追加公開されています。

一方で、RHEL翻訳チームは少人数で対応しています。このため、これまでは一般公開日(GA)に一部のドキュメントを公開し、その後残りを少しずつ公開するという方法を選択しており、「読みたいのに日本語がない(古い)」というご指摘をいただくことも少なくありませんでした。

このようなご指摘に対応するため、昨年メジャーバージョンであるRHEL 8のGAにあわせ、多くの日本語ドキュメントを公開するプロジェクトを立ち上げました(その軌跡は以下のページ)。

rheb.hatenablog.com

この取り組みは成功しましたが、いくつかの課題が残りました。

  • RHEL 8ドキュメントのうち1/3が翻訳されていない

  • RHEL 8の英語ドキュメントの更新速度に追いつかない

  • RHEL 8を準備している間RHEL 7の日本語ドキュメントが更新されず古くなっていた

これを解消するため、私たちは機械翻訳を積極的に活用することを模索し始めました。

機械翻訳を活用してRHELの日本語翻訳版を定期更新できるようになるまでの軌跡

まずは、機械翻訳を活用してRHEL 8を全冊公開

最初に取り組んだのが「機械翻訳+簡単なポストエディット」で残りのRHEL 8を翻訳して公開。ポストエディットというのは、機械翻訳で作成された訳文を人間の手で修正する作業のことで、昨今、翻訳業界でその手法や問題点が活発に議論されています。RHELチームは、RHEL 8のGAに向けて日本オフィスから吸い上げた意見をもとに、「最低限の修正だけ行い最短期間で公開」という形をとり、本来人間の手だけでは数か月かかる量を数日で公開しました。これによりGA後2ヶ月以内にRHEL 8全冊公開となりました。初めての試みで、しかも待望のメジャーバージョン。公開にあたっては多少の心配もありましたが、想像していた以上に温かいお言葉をたくさんいただきました。

RHEL 7.7への対応と、人の手によるRHEL 8の再翻訳

この頃の機械翻訳の品質は、以前と比べると飛躍的に良くなっていましたが決して十分とはいえず、翻訳者による再翻訳が必須となっていました。さらには、目の前に迫ってきたRHEL 7.7のGA。RHEL翻訳チームも念願の増員を果たし、RHEL 7.7でのGA公開と、RHEL 8の再翻訳を同時にすすめていきました。

RHEL 8.1のGA公開と、可能になった「定期更新」

RHEL 7が終わると、今度はRHEL 8.1に向けて、RHEL 8のGAで公開したドキュメントの更新、そして翻訳者が再翻訳したドキュメントの更新が目の前に立ちはだかりました。さらに、この頃には、社内でも私たちの取り組みが知られるようになり、「RHEL 7のドキュメントが古いので更新してほしい」としたリクエストも徐々に増えてきました。そのため、お客様と弊社社員、また弊社社員とRHEL翻訳チームのやりとりを円滑にすすめるために、翻訳周期をGAより短い「RHEL 8を毎月更新、RHEL 7を毎四半期(弱)更新」に設定して社内へ周知。RHEL 8だけでなくRHEL 7も、更新頻度は高くなってきました。これは、機械翻訳自体の品質が改善されたのに加え、翻訳者の「機械翻訳+十分なポストエディット」ノウハウも蓄積されてきて非常に効率的に作業できるようになったことで可能になりました。

活動の幅を広げる

並行して、昨年力をいれたのが「業界からの情報収集」と「社内外への情報発信」です。翻訳関連のイベントに参加して、機械翻訳に取り組んでいる企業と積極的に情報交換を行い、また弊社の社内外向け各種イベントにも参加し、また時には登壇して自分たちの取り組みを紹介し、さまざまな意見を集め、今後の方向性を模索していきました。同時に、翻訳作業もRHELを超えて対応できるようになりました。少しずつではありますが、ご提供できる量は確実に増えています。私自身も翻訳プロジェクトコーディネーターとして対応する製品が増え、今年はAnsible(TowerとEngine)の強化に尽力することになりました。

そして、新たな試み: Red Hat Insightsでの「機械翻訳+α」

昨年皆様から承ったさまざまなご意見により、今年私たちは大きな節目を迎えます。その先駆けとして、先日、RHELの関連製品であるRed Hat Insightsで以下の試みが行われました。

  • 「機械翻訳+システマティックな後修正+簡単なポストエディット」による迅速な公開

RHEL 8のときと何が違うのか。まず、スクリプト等を多用して、翻訳者が作業しやすい環境を作り効率化を目指す。機械翻訳の「くせ」を自動修正または検出し、検出されたものを翻訳者が修正する。最後に大きな間違いが残っていないかを自動検出して確認する。これにより、RHEL 8のときと比べ、短時間の「+簡単なポストエディット」でも品質が飛躍的に向上しました。今後は、エンジンを効果的に学習させ、複数のエンジンを使い分けることも視野にいれています。

さらには、このようにして培ってきたノウハウを、Insightsだけでなく、RHELやAnsibleにも無理のない形で積極的に取り入れていくことで、「定期更新」よりも短い「即時対応」も可能になってくるでしょう。

最後に

RHEL翻訳チームは、「読みたいのに日本語がない、こんな経験が少しでもなくなれば」を合言葉に、機械翻訳という非常に強力なツールを賢く取り入れるさまざまな取り組みを行ってきました。「+簡単なポストエディット」は「100%機械翻訳」ではありません。しかし、通常の翻訳作業(および「+十分なポストエディット」)とも異なります。多少言い回しが気になる訳文も見つかるでしょう。それでも、私たちは、日本のお客様、パートナー様にいち早く日本語版を届け、早期にフィードバックを得るという点を重視し、これからもより良い方法を模索し続けます。翻訳に問題がある場合はお気軽にご相談ください。

引き続き、より多くの方にRHELおよび関連製品をご利用いただければと思います。

なお、Red Hatの製品ドキュメントは購入前からすべて閲覧できます。ぜひ導入前からご参照ください。

access.redhat.com

* 各記事は著者の見解によるものでありその所属組織を代表する公式なものではありません。その内容については非公式見解を含みます。