グーグルが日本語入力ソフトを出した理由

2009年12月にグーグルが「Google 日本語入力」ソフトをリリースした。

▼Google 日本語入力

思いどおりの日本語入力。Google 日本語入力は、変換の煩わしさを感じさせない思いどおりの日本語入力を提供します。

なぜグーグルが日本語入力ソフトを出したのか? 検索エンジン会社が日本語入力ソフトを出す理由が分からない、という人は多いと思う。
実は日本語入力ソフトのリリースにはグーグルの大きな野望があるんだよね。
野望は3つある。

それはなにかというと、人造言語の開発と人工知能の開発、そして、ウェブページの翻訳化の3つだ。

どうして、この3つがグーグルの野望かというと、要するに今現在、世界各国には様々な言語が存在し、ウェブページも様々な言語で作成されているけれど、言語の違いが情報の違いを生み出してしまっているからだ。

例えば、日本人で言えば、英語が自由に読める人は少ない。海外発のニュースでも一度誰かが翻訳してくれないと、情報として受け取ることが難しい。
受け取られない、ということはその情報は無かったに等しいことになる。
どれだけ情報が溢れていても、届かない情報はただのノイズでしかない。

単純にウェブでなんらかのサービスを立ち上げるにしても、日本国内のユーザーだけを相手にするのと、世界各国のユーザーを相手にするのとでは、ユーザーが規模が全然違うのだ。
ユーザー規模が違うということは、そこから得られる収入も桁違いに変わる、ということでもある。

例えばWEB広告は現在、その言語に合わせた商品が表示されていると思う。なぜかというと、そのページを見ているのユーザーがその言語のユーザーだからだ。
仮に日本語のページで、ロシアのWEB広告が表示されても誰もクリックはしないだろう。
これが仮にマルチ言語のページであれば、ユーザーも多様であるため、言語的な制約は小さくなり、WEB広告の内容も変わるはずだ。

検索にしても検索ユーザーは、読めない言語のページは検索しようとは思わない。
検索にヒットしないということは、アクセスできないと同じであり、ウェブサイトがあったとしても、無かったに等しいことになる。

グーグルの収益は広告で賄われているので、広告市場を広げるには言語()の違いを埋めることは当然と言える。しかし、問題が山ほどある。

まず、翻訳の問題である。
現在の翻訳精度というのは非常に低い。はっきりいって意味が不明なのだ。
単語単位では翻訳をできるのだけれど、文章としては誤訳が多く、とてもじゃないが読めたものではない。

例えば、日本語を英語に翻訳したものを、再び英語から日本語に再翻訳すると、同じ翻訳ソフトであればまた元の日本語として変換されるだろう、という期待はあるかと思うが、これが全然ダメなのだ。
同じことを2セットやると原文のかけらすらなくなることもある。

課題として、最低限、翻訳したものを再翻訳した時に、内容が同等にならないと「使える」というレベルには程遠いのだ。

なぜ翻訳が難しいのかというと、それは文脈(コンテキスト)と語義(セマンティクス)が変動的だからだ。

例えば、「あれをあれして、そこにあれしておいて」という文章は通じるだろうか?
人によっては、通じる場合もあるし、通じない場合もある。
最初の「あれ」と次の「あれ」と最後の「あれ」は単語的には一緒なのがポイントだ。

最初の「あれ」が何か分からないと次の「あれ」が何か分からないから、最後の「あれ」も分からない。

「あれ」という代名詞は語義が定まってないのだ。

では、最初の「あれ」が何か? というヒントは文章中には出てこないため、前後の文脈を査定するしかない。
仮に前後の文脈があったとしても、どっからどこまでを範囲として切り取るのか? 自分と相手との関係はどうなのかによって、「あれ」の意味は変わってくる。

これは経験と知識に頼るしかない。

機械にはまず通じない。経験と知識という情報がないし、それを入力する方法もないためだ。
教える手間より、自分がやった方が早いし、コストも掛からない。
翻訳の難しさはここにある。

そもそも同言語使用者同士であっても誤解があるのに、異言語間の翻訳と意思疎通というのは、自動ではまず無理なのだ。

例えば、南半球と北半球とでは太陽の日照度が違う。日差しが強いところでは、色の見え方も異なる。色彩感覚が異なるんである。同じ赤でも感じ方が違うはずだ。つまりそれが文化の違いであり、ライフスタイルの違いであり、人格の違いとして現れてくる。

そういった違いを差し引いたり、加味したりするには、メタ言語とマルチリンガルが必要になる。

ここでいうメタ言語というのは、世界各国の全言語を含め網羅した超言語辞書という意味で、マルチリンガルというのは、世界各国の全言語をマスターした人のことだ。
しかも、言葉というのはリアルタイムで派生し、変化し続けている。辞書も最新のものにどんどん更新しなければならない。

そういった国語の神様みたいな人と神的な辞書があって、はじめて翻訳の精度というのは完璧になるんである。

つまり、翻訳に成功する、ということは、人工知能の誕生も意味するのだ。 人工知能の開発がどれだけ進んでいるかというと、残念ながら全然まだまだのレベルなのだ。
使えるレベルになる見込みも当分ない。

どうしてかというと、知能というのは、何を選ぶかではなく、何を選ばなかったか? だからだ。
どういうことかというと、正しい判断というのは正しく情報を入力すればできる。

しかし、正しい情報とはなにか? という定義に担保もないし保証もない。
「妻と子供のどちらかしか助けることができないとして、あなたならどちらを助けるか?」という究極の質問をしたとする。

結果的にどちらかを選んだとしよう。でも、そこには常に後悔がつきまとうはずだ。これはもはや知能ではない。感情である。感情は知能に影響するけれど、知能は感情を担保しない。
分かることと出来ることは別の話なのだ。

感情を考慮しない知能というのは無能である。 今の人工知能のレベルはまだ無能なのだ。

感情というのは、バイアス(偏見)によって生まれるのだけれど、そのバイアスを生み出すことは企業倫理として問題があるのだ。仮に人工知能がバイアスの導入によって成功したとしよう。
ちょっとクセのある人工知能が生まれたとする。だから間違ったり、怠けたりする。性格や個性が生まれるのだ。

しかし、こういったクセが人工的に生み出されると、ミスをした時に誰が責任をとるのか? という話になる。
「いえ、この子はこの場面ではこういうミスをする仕様なんです」とはなかなか言えない。
これは検索エンジンの倫理問題にも似ている。

検索エンジンのアルゴリズムが一種の性格でありバイアスだとしよう。
すると、そのアルゴリズムのせいで検索にヒットしないウェブサイトがあったり、ランキングが低いウェブサイトが出てくる。
そのキーワードで一位のときは、年商が5億もあったのに、ランキングが下がってからは年商が1千万円に下がってしまった企業があったとする。きっとその企業は「誰が責任をとるんだ!」と言うはずである。

人工知能は人間臭く精度が高くなればなるほど、この問題がつきまとう。
感情は知能に影響するけれど、知能は感情を担保しないのだ。
人間の心というのは作るものではなく、芽生えるものなのだ。

話は元に戻る。翻訳に人工知能が必要である、ということはわかったと思う。
そして、人工知能が現段階ではまだまだ未発達の分野であることも分かったと思う。
では、翻訳ができないのか? というとそうではないんだよね。

ひとつだけ方法がある。
メタ言語とマルチリンガルをマスターし、文脈(コンテキスト)と語義(セマンティクス)を理解し、正しく翻訳できる存在というのは、実は自分なんである。

例えば、英語とその英語を翻訳した日本語の文章があるとする。既に意味が分かっているとする。
こういう状態ではもちろん翻訳は完璧なはずだよね?
既に対比が完了している情報であれば、情報の紐付けは簡単に行うことができる。
情報の紐付けが行われていれば、多少の意訳や派生も可能になる。

しかし、これでは意味がない。
なぜなら、既に分かっていることを翻訳しても意味がないからだ。
翻訳する必要すらない。

だけれど、みんなの既に分かっていることを連結し、蓄積していったらどうなるだろう?
「あれをあれして、そこにあれしておいて」の「あれ」のパターンを膨大に蓄積していったらどうなるだろうか?

「あれ」が指し示す意味は、前後の文脈の中にヒントがあるけれど、検索エンジンでは単語ベースでの入力のため、「あれ」が何を意味しているのかは統計的にしか分からない。

しかし、日本語入力ソフトで文章を入力し、その頻出単語の統計を直に取ることができたらどうだろう?
その人のその単語の使われ方のクセを知ることができる。
それをネットに送信し、データベースに蓄積していき、単語変換時にフィードバックしていけばどうなるか?

言葉の使い方は、その人の考え方そのものである。

その人が今何を考えているのかを検索エンジンは知ることができる。
ほぼリアルタイムにその単語と文章の用例・用法の活きた定義が可能になる。
送信されたデータを解析すれば、ユーザーが検索するはるか以前に隠れたニーズを捉えることができ、広告にも活用できるだろう。
戦いは検索後ではなく検索以前になっているのだ。

なにより、結果的に前人未踏の日本語大辞典が完成するのが凄い。
こういった大辞典を各国の言語で作り上げていき、共通点や類似点を抽出し、人工的な中間言語を作り出すことができれば、ウェブページのシームレスな翻訳は可能になる。
どんな言語も中間言語に一旦変換し、そのユーザーの母国語に変換することができれば、ウェブベースでは国境はなくなってしまう。

一度、中間言語が完成すれば音声言語(声に出して話す言葉)の精度も高くなるので、グーグルがリリースするスマートフォンのネクサスワンでの通話もリアルタイムで翻訳してくれるかもしれない。

無料で外国人とのチャットをほぼリアルタイムで通訳してくれる携帯なんていうのも登場するかもしれない。
外国語の動画にも字幕スーパーが自動的につくかもしれない。
外国語の書籍は翻訳されるより早く読めるかもしれない。
翻訳した文章に著作権がないと言い張れば、もしかして無料で作品を読めるかもしれない。
外国のケーブルテレビを字幕ありで無料で見られるかもしれない。

通貨レートの問題はまだまだあるけれど、広告市場は爆発的に広がるのは確かだ。言語統一に成功したグーグルは当然のことながら、中間通貨(あるいはポイント)というものを考え、世界通貨とするだろうね。
どの国からでも同じような手順で決済することができる。

その結果、リアルでは小売店やショッピングモールが弱体化、ネットでは楽天市場、ヤフーショッピング、アマゾンのような巨大ショッピングサイトの弱体化が予想される。

多分、グーグルは広告を載せる代りに広告黒字によって決済手数料を無料化する、という手段を講じてくるからだ。手数料などの利鞘で稼いでいるネットビジネは大打撃を受ける可能性がある。

メーカーが直販できるチャンスが広まるが、広告はグーグルに依存する、という気持ち悪い関係は続くかもしれない。
この時にはグーグルの資産総額はいくらになっていることやら。

関連記事