辻正浩のはてなブログ

せっかくだから俺はこのはてなブログを選ぶぜ

「対馬」検索結果から見るGoogleの意味認識の激しい進化

検索エンジンは進化を続けています。その中で、特にここ数年で進化が著しいのは「意味」の認識だと私は考えます。

文字列一致を中心にした検索エンジンでは今のインターネットに対応出来ませんので、今日の検索エンジンは、検索された検索語句やWebページの意味を識別した上で検索結果を作っています。

その意味認識の進化の例としておもしろい検索結果が確認できましたのでご共有です。

これは[対馬]の検索結果の3週間での変化です。

f:id:t-w-o:20171204075350p:plain

これはGoogleの意味認識の異様な精度を表すものとして興味深いのですが、複雑ですので少し解説を書いてみます。

 

前提:[対馬]検索のニーズの変化

艦隊これくしょん」というゲームがあります。旧日本軍の軍艦を擬人化したキャラクターによるシミュレーションゲームです。

このゲームで11月17日から始まったイベント「捷号決戦!邀撃、レイテ沖海戦(前篇)」で、新キャラクター「対馬」が登場しました。

f:id:t-w-o:20171204080109p:plain

多くの人にとって「対馬」というと長崎県対馬でしょう。[対馬]という検索で求められる主な情報も地名としての対馬の情報ばかりだったはずです。

しかし11/14に艦これの対馬実装が発表されてからは、このキャラクターや元ネタとなる船の対馬の情報を求める検索が増えました。シンプルだった情報のニーズが、複雑になったのです。

さらにその複雑さに輪をかける事として「対馬」という船は3隻ありました。

今回の艦隊これくしょん登場キャラ「対馬」は1942年に起工した海防艦対馬のキャラクターですが、他に1901年に起工した「防護巡洋艦対馬」と1990年に起工された海上自衛隊の「掃海艦つしま」があったのです。

そしてこの3隻で「海防艦対馬」だけはWikipediaにページが存在していません。これは対馬_(曖昧さ回避)ページですが

f:id:t-w-o:20171204081414p:plain

このように、多くの人が情報を求めるようになった「海防艦対馬」はページが存在していなかったのです。(12/5 4:30追記:海防艦対馬のページは11/24に新規作成されていたようです。作成されたばかりでGoogleが評価していなかったようですね)

 Googleの意味/エンティティ判断には、Wikipediaが大きな影響を与えていると推測されます。そのWikipediaには正解が無い状態で情報のニーズだけが増えた、という特殊な状況が今回発生したのです。

 この同じ名前の2隻は70-100年前の船で、情報の多くは失われてあまり伝わっていませんし、インターネット上にもあまり記載されていません。その同じ名前で検索がされたときに、どちらの船の情報が求められているかを判断する、というのは、極めて難しいはずですが、Googleはどのように処理したのでしょうか。

 

検索結果の変化

 この状況での検索結果の変化が冒頭で出したものです。

実際の検索結果には、艦隊これくしょんのキャラクター紹介ページが入ってきましたが、問題は右カラムのパネルを見てください。

f:id:t-w-o:20171204082054p:plain

11/17にキャラクターが実装されて検索ニーズが増えた結果、一度はWikipediaページを元に「対馬(防護巡洋艦)」を表示しますが、その後数日で、海防艦対馬の英訳「Japanese Escort Ship Tsushima」を表示しました。

ここが英語になっているのは、日本語の「海防艦対馬」のページは12/4現在存在しませんが、英語版フィンランド語インドネシア語ペルシャ語のページは存在していて、英語版を情報元として使ったからだと考えられます。

対馬という検索が増えたもののその意味を明確に言語化するページが存在しないため、英語版ページを表示したということになります。

対馬(海防艦)と対馬(防護巡洋艦)は全く違う船ですが、多くの人にはその違いはわからないでしょう。にも関わらず、[対馬]という検索の意味がどちらを示しているのか、Googleアルゴリズムで判断できていると言えます。

通常、日本語検索のこの部分には英単語は出づらいものです。曖昧な意味認識でしたら何も出さないか、Wikipediaにページがある防護巡洋艦を出し続けていたはずですが、Googleは明らかに防護巡洋艦ではない、と判別できたのでしょう。

Wikipediaを参考にしていることは確かですが、Wikipediaだけを重視するわけではなく色々なデータを元に判断が出来ていると言えます。

このように判断できた理由は、シンプルなものではないはずです。掛け合わせて検索されるキーワードの変化や、世界中のWebページに発生する文言などを元に総合的に検索キーワードとWebページの意味を判断をしていると思われます。

この意味認識は右のパネルだけではなく実際の検索結果にも大きく影響をしています。そのように高度な意味の認識を元に検索意図に合う情報を検索者に届けているのが現在の検索エンジンです。

進化する検索エンジン

普通に検索していると、知りたい情報が表示されるのが当たり前のように思えてきます。ただ今回のように裏では非常に高度な処理が行われていることも多いです。

このような高度な意味の認識はGoogle以外の検索エンジンは出来ていませんし、3~4年前のGoogleでも出来ていなかったはずです。

最近、検索結果に色々な問題があることが良く言及されるようになりましたし、それはその通りと思います。ただますます複雑になるインターネットの中で、着実に検索エンジンも進化を続けていることも確かと思います。

価値と問題の両方を把握していきたい、と私は思います。