Google自動翻訳の開発路線はいかに

一年半ほど前に、Google自動翻訳の八ヶ月間の進歩について報告した。

そのとき試した原文はこうだった。

THE ISLAND CAME OUT OF THE OCEAN as isolated isles, then the keys became mountains and the shallows, valleys. Later the islands joined to form a great island, which soon became green where it wasn't golden or reddish. Islets continued to emerge beside it; now they were keys and the island turned into an archipelago: a long island beside a great round island surrounded by thousands of islets, isles and even other islands. But since the long island had a defined form, it dominated the group, and nobody has seen the archipelago, preferring to call the island "the island" and to forget the thousands of keys, isles, islets, that border it like clots of a long green wound. There's the island, still coming out between the ocean and the gulf: there it is. . . .

(G. Cabrera Infante, VIEW OF DAWN IN THE TROPICS 1974)

そして2005年10月17日の自動翻訳結果(T1):

島は隔離された島として海洋から, それからキーなった 山とshallows すなわち谷に出た。大きい島を形作るために後で島 は結合したすぐに緑にところでそれ金か赤味がかったwasn't なった。小島はそれの側に現れ続けた; 今それらはキーと archipelago に回った島だった: たくさんの小島, 島及び他の島 によって囲まれる大きい円形の島の側の長い島。しかし長い島に 定義された形態があったので, それはグループを支配し, だれも 島を" 島" と呼ぶことを好むarchipelago 見, たくさんのキーを , 島忘れるためにすなわち小島, それに接する長い緑の傷の血塊 を好む。There's 島すなわち海洋と湾の間に静かな来ること :そこにそれはある。。。

(熱帯地方1974 年の夜明けのG. Cabrera Infante, 眺め )

と2006年7月8日の自動翻訳結果(T2):

島は隔離された島として海洋から出た、 それからキーは山およびshallowsになった、 谷。 後で島は金またはでなかったところですぐに緑になった大きい島を形作るために結合した 赤味がかった。 小島はそれの側に現れ続けた; 今それらはキーおよび多島海に回った島だった: a 囲まれる大きい円形の島の側のロングアイランド たくさんの小島、島および他の島。 しかしロングアイランドに定義された形態があったので、それは支配した グループおよびだれも島を「島」と呼ぶことを好む多島海を見ないし、たくさんのキーを、島忘れるために、それに接する小島、長い緑の傷の血塊を好む。 出て来島、海洋と湾の間に静かな出て来ることがある: そこにそれはある。 …。 (g. Cabrera Infante、熱帯地方1974年の夜明けの眺め)

を構文変換と語彙変換の観点から簡単に比較して、少し進歩したと結論した。

あれから一年半ぶりの2007年12月20日の自動翻訳結果はこうだった(T3)。

この島から出てきた海の島として孤立し、そのキーになった山や浅瀬、谷です。入社後、この島を形成する偉大な島、これはたちまち緑色のどこか赤みを帯びていない黄金します。続いて、横にある島をemerge ;今かれらは、島のキーとなって、列島:ロングアイランドの横に大きなラウンド数千人の島に囲まれた島で、島と島の他にもいます。しかし、ロングアイランドで定義したフォームで、グループを支配して、誰も見てきたの列島、お好みを呼ぶ島"アイランド"と何千人もの鍵を忘れて、島、島、その国境の塊のように緑色の長い傷します。そこの島では、まだ海の間から出てくると、湾岸:することがあります。します。します。します。

( 1974 )

「えっ!」と驚いたほど、一見すると進化どころか退化したように見えた。「することがあります。します。します。します。 ( 1974 )」はないだろう!しかも"G. Cabrera Infante, VIEW OF DAWN IN THE TROPICS"が「消えている」。 何が起こったのだろう、とこの結果を眺めながらしばし考え込んだ。原文はかなり構文解析しにくく、かつ、使用されている語彙も地理学的専門性が高い。しかしT1からT2へは明らかに「進歩」が見られたのに、T3ではにわかには判断しにくいある大きな変化が起こっている。気づいたことは、語彙変換に揺れが生じていることである。つまり英日辞書が個人的にはかなり「解せない方向」で書き換えられている。

例えば、以前は変換されなかった"shallow"が「浅瀬」に変換されたかと思えば、逆に以前は普通に「現れ」と変換された"emerge"が変換されていない。また小文字の"a long island"が以前は無難に「長い島」だったのが、「ロングアイランド」と固有名扱いになっているし、「多島海」と絶妙に置き換えられていた"archipelago"は「列島」と地味な訳語が当てられるようになった。さらに、"thousands of"が「たくさんの」から「数千人の」、「何千人の」と人間を数えることに限定され、"form"が「形態」からカタカナの「フォーム」に、そして" "the island" "は「「島」」から"アイランド"になった。等々。

これはあくまで私の個人的な多分に直観的な推測の域を出ないが、この一年半の間に英日辞書が「人事」および「非専門性」に重点をシフトして書き換えられてきたのではないかと思った。そしてこの点に関係するかもしれないと思ったのは、いつの間にかGoogle自動翻訳のインターフェイスにユーザの翻訳結果をフィードバックして「翻訳品質の向上に活用」するための「翻訳を改善する」という仕組み(フォーム)が導入されていたことである。

そこには、翻訳結果に対する意見や感想を書き込むこともできるが、デフォールトでは翻訳結果がそのままGoogleに送信される仕組みである。このフィ−ドバックを「翻訳品質の向上」に生かすという解決路線(ソリューション)で、ユーザから寄せられた「情報」がある偏りを生じていたために、少なくとも私個人としては不満な方向に日英辞書が書き換えられつつあるのではないかと想像した。根拠の薄い予断、思い過ごしに過ぎないかもしれないが。