AIの進化によって自動翻訳の精度が高まり、従来よりも自然な文章に翻訳できるようになってきましたが、一体どのような仕組みで動いているのでしょうか。本ページでは、AI自動翻訳の仕組みについて解説します。
AI自動翻訳(機械翻訳)の仕組みは、大きく分けて3種類あります。以下に、それぞれの仕組みと特徴をまとめました。
ルールベース型とは、基本的な文法ルールをもとに、文法と辞書を照らし合わせながら翻訳していくシステムです。従来からある機械翻訳の仕組みで「直訳タイプ」とも呼ばれており、「自動翻訳」と聞くとこのルールベース型をイメージする方も多いでしょう。
ルールベース型の自動翻訳は、用語辞書や単語辞書を比較しながら翻訳するため、辞書づくりやアルゴリズムづくりが重要となります。同じ単語でも、文法上のどの用法で使われるかによって文章の意味が大きく異なるからです。
ルールベース型では、機械にアルゴリズムで文法を教え、コーパスと呼ばれる言語データベースで辞書をつくっていきます。
アルゴリズムが文法に沿って単語を切り分け、ルールに沿って単語を参照しながら翻訳していくイメージです。
元の文章がきちんと文法に則って作られていれば有用な手法ですが、実際には文法通りに書かれる言葉は少ないため、特に口語的な文にはほとんど対応できない弱みがあります。
原文と訳文の双方のデータを利用して、「対訳コーパス」と呼ばれるデータベースをつくり、それを元に機械翻訳を行う方法です。従来のルールベース型は単語や用語単位のコーパスが用いられたのに対し、統計ベース型では段落や文章など、ある程度のかたまりでデータベースが作られています。
また、文法やルールの最適値を学習する工程を経て翻訳されるため、自動的に翻訳の精度が高まります。
そのため、ルールベース型の機械翻訳よりも文章のニュアンスを踏まえた翻訳や、口語・文語を判断して翻訳できるため、口語的な文も人間並の自然な翻訳ができるようになりました。ただ、統計ベース型は対訳コーパスと機械学習が鍵を握るため、データの少ない言語の翻訳にはあまり性能を発揮できません。また、珍しい用法や語句に弱く、単語を無視して翻訳されることがある点も課題となっていました。
最近では、対訳コーパスはビッグデータ、機械学習は「ディープラーニング」の登場によって充実し、飛躍的な進歩を見せています。
ディープラーニングとは、人間の脳の神経回路をモデルとした高い学習能力を備えた機械学習。後に登場するニュートラルネットワーク型のAI自動翻訳にも活用されています。
ニューラルネットワーク型とは、従来のルールベース型と統計ベース型よりも後に開発されたAI自動翻訳システムです。
システム内に人間の脳神経細胞活動をモデルとした「ニューラルネットワーク」を採用することで、翻訳に必要な情報を学習できるまでに進化しました。
ニューラルネットワーク型のAI自動翻訳の代表として挙げられるのが「Google翻訳」です。コンピュータの処理能力向上によってディープラーニング機能も進歩し、日々精度の高い翻訳ができるようになってきています。