「検索ランキングシステムの解像度が上がるGoogleによる情報開示を解説じゃ」の巻【蔵前教授の白熱!検索教室3】

この物語について

2024年春。ここ、東京・秋葉原はインバウンド観光が再開され海外の観光客が多く訪れるようになり、街全体が活気を取り戻しつつある。

その片隅に校舎を構えるJADE大学は、検索エンジンの過去・現在・未来及びそれを活用したビジネスの在り方を研究している「検索教養学部」が設置され6度目の新学期を迎えた。

この物語は、検索教養学部で繰り広げられる教授と生徒たちの白熱の議論をお伝えするものである。

登場人物紹介:

蔵前教授

検索エンジンなど社会へ大きなインパクトを与えるプラットフォームを長年研究。特にスパム検出のアルゴリズム開発については複数の企業で実務者としても関わってきた経験を持つ。
趣味はスプラトゥーンと、イギリス製ミニチュアゲーム製作。長期休みがあると旧街道を歩き回るクセがある。めっちゃ歩いたけどまだ膝は大丈夫。JADE大学は本当は蔵前エリアにキャンパスを開設したかったけど教授会で「ピンとこない」という理由で却下された。せめてとの思いで苗字を改名。

一堂スパム(いちどう・すぱむ)

検索教養学部の学生。根はとてもいい奴だが、考えることがついつい脱法的になってしまうクセがある。.xyzドメインを108個持っている。

冷越タブロー(れいえつ・たぶろう)

検索教養学部の学生。検索結果を眺めるのが趣味。最近ビジュアライゼーションにはまり出している。目立つのが好きではないため言葉少な目だが、主張したいときはグラフで論破する。

外神田唯(そとかんだ・ゆい)

教育学部の学生。夢いっぱいにJADE大学に入学。将来は地元の図書館で司書をしたいとの思いがあり図書館学を専攻しているが、その単位取得の一環で検索教養学部の授業に参加している。活字中毒で、検索エンジンのことは実はあまりよく知らない。正義感が強い。趣味は豚角煮を週末に作り置きすること。

 

冷越、パソコンの画面を凝視してる。目をこすっているが、楽しそうだ。

 

ふむぅ。。。

 

冷越君どうしたの?

 

長い

 

えっ

 

いや、長かった

 

(すっかり勘違いして)え、今年のゴールデンウィーク、そんなに日の並びはそんなに良くはないわよ…

 

唯ちゃん、ちがうよ。コアアップデート。Googleのコアアルゴリズムアップデートだよ。

 

あ、そっちね。。。って、まだ続いていたの!!?ちょっと長すぎるわ。

 

いや、そちらは一応完了していて、5/6からは寄生サイト対策が始まっているんだ。今は、手動対応中心のようだけど、今後アルゴリズムを用いた対応も行われるらしい。

検索結果を眺めるのが趣味の僕にとっては、寝る暇もない状況だよ。さあ、今日はどの検索クエリをチェックしようかな。

 

冷越、目の下にクマを作りながら、目を輝かせている。

そこへ、一堂スパムが入室してくる。

 

いやぁぁぁ~、みなさまおはようございまする~。お元気ですかぁ?

 

あ、一堂君、今日はいつもより早いわね。おはよう。

 

唯ちゃ~~~ん。先週、授業ノートを貸してくれてありがとうー。あのノートのおかげで先週のレポート提出はなんとか乗り切れたましたぁ。唯ちゃんは、本当に僕にとっての恩人。神様ですぅ。

 

外神田、いつもとノリが違う一堂にとまどいながら、

 

あ、いえ、あの、どういたしまして。

 

そんな救世主の唯ちゃんへ、せめてものお礼にセブンプレミアムの「金の豚角煮」をプレゼントしましょうー。

 

と、かばんから「金の豚角煮」を取り出す。

 

え!私が角煮大好きなの知ってたなんて?うれしい、ありがとうーー。

 

と、遠慮なく「金の豚角煮」を受け取ろうとする。

 

唯ちゃん!

 

 

冷越の大きな声に驚く。

 

あれぇ、冷越君も「金の豚角煮」欲しいですかぁ。とても美味しいですよねぇ。分かりました。冷越君にも差し上げます。お礼?いらない、いらなーい。ただの僕の好意ですから。

 

唯ちゃん、だまされちゃいけないよ。おい、一堂!

 

一堂、ハッと冷越を見つめる。

 

一見、相手に見返りを求めない好意を与えているように見えて、その実、相手からの自発的な好評価をひそかに期待する返報性の原理を悪用したその手口。

 

…….。

 

お前こそ、歩く「サイト・レピュテーション・アビューズ(Site Reputation Abuse=サイト評判の濫用)」だぁ!

 

ギクゥゥゥ!グァァ……(と教室後方へふっとぶ)。何を、何を、根拠もないことを。

 

これが証拠だぁ!

 

と、自分のパソコンの画面を一堂に見せつける。

さまざまなサイトのドメイン単位での検索順位状況を一覧できる美しいTableauのUIだ。

 

あ、あ、俺のサイトの情報がぁぁぁぁ。

 

さっそく手動対策の対象になったようだな。評判を人工的に作り出そうとしたって、そんなものは無駄なんだ。

蔵前教授の授業に出ているのに、いつになったらこのことを理解するんだ!

 

と、そこへ蔵前教授が入室してくる。

冷越、一堂、外神田は席に着く。

 

みなさん、おはよう。ゴールデンウィークはみな楽しんだかな。

 

はい!

 

お、一堂君。手に持っているのはセブンプレミアムの豚角煮か。なかなかの美味よのう。

ファミマの豚角煮もおすすめじゃよ。

 

一堂、バツがわるそうに角煮を鞄にしまう。

 

さて、今日の授業はゴールデンウィーク明け特別編じゃ。Googleの検索システムについてこれまでDCIRのことや、組織としてみる視点などをお話ししてきたが、今回はランキングシステムのことについて深ぼってお話をしよう。

 

それは大変興味深いです。この記事の第一回で、確かランキングインフラチームは秘密主義の傾向が強いとお伺いしました。

 

そうじゃ。なにせ、Google検索のランキングがどのように決定されているかに関わるわけじゃからな。社会とのコミュニケーションを一歩誤ると、スパマーたちの…

 

呼んだ?

 

お前じゃない、アビューズ!

 

アビューズじゃない!スパムだ!

 

どっちもひどいわ!

 

コホン。スパマーたちによるシグナル濫用を手助けすることになる。彼らは悪知恵を働かせることにおいては天下一品じゃからな。Googleもさんざん悩まされてきたわけじゃし、今もイタチごっこは続いておる。ところがじゃ、

 

ところが?

 

日本ではなかなか実感がわきづらいが、「米国政府 vs. Google」という図式ともいえる法廷闘争が行われておる。訴えているのはなんと政府じゃ。

 

すごい…自宅に、日本政府の代表の方が「訴えます」って訪問してきたら、私死んでしまいます。

 

Googleは長らく市場独占の文脈で非難を受け続けておる。ヨーロッパでは制裁金を課される始末じゃ。米国内でもカリフォルニア州で「ジャーナリズム保護法案」が審議されておる。

その訴訟でのGoogle側の証言内容や、それらをもとにした解説記事が米国内では色々と紹介されておる。

それらを見ていると、Googleの検索ランキングシステムについて過去に例を見ないほどに踏み込んだ内容をGoogleエンジニアが証言しとるんじゃ。

今日の授業素材はこれじゃ。

 

なんと。。

 

法廷じゃからな、Googleも問われれば誠実に回答せなばならん。

 

その前フリだけで、き、緊張します。。

 

では始めよう。

 

ランキングシステムの説明

まずはこれを見てもらう。法廷で提出された資料の中にあるスライドのひとつじゃ。

 

と、蔵前、スクリーンにスライドを映し出す。

 

出典:Antitrust Division | U.S. and Plaintiff States v. Google LLC [2020] - Trial Exhibits

ベーシック・コントロール・フロー(Basic Control Flow)?

 

フローの最後がウェブ検索結果(Web Search Results)、ウェブ検索結果という結果を生み出す手順なので、まさに検索”アルゴリズム”の概要でしょうか。

 

そうじゃ。

 

(過去の授業ノートを見ながら)右上の言葉はみたことがあります。クロール・アンド・インデキシング(Crawl & Indexing)。Googleのロボットが、インターネット上で発見したURLにアクセスして、分析→格納するんですよね。

 

外神田君、グッドじゃ!よろしい。これまでの学びが生きておるな。

 

でも、左上の表現は見たことがありません。。クエリー・リライター?ライター?

 

リライター、リライト=書き換えるということだよ、きっと。教授、検索クエリを書き換えるとはどういうことですか?あ、Interprets Queryって書いてある。クエリを解釈する…。

 

まず、向かって右側は、Googlebotとインターネット上の文書(URL)との接触の流れじゃが、左側は検索ユーザーによる検索クエリ入力を起点とした処理の流れじゃ。このようにフローが示されたのはちょっと珍しいかもしれんのぉ。

さて、リライトするということはどういうことなのか。文字通り、書き換えるということなのじゃよ。

 

えっ!入力された検索キーワードそのままでシステムへ問い合わせをしないのです?

 

しないのじゃ。書き換える。この仕組みによって、入力された検索キーワードの「類義語」や「表記ゆれ」などに対してまで対象範囲を拡張するのじゃ。

 

表記ゆれ?

 

Googleのことを「Google」と検索する人もいるし、「グーグル」「ぐーぐる」、あるいは「ぐぐーる」と検索されることもあり得る。表記は違うけど、検索意図は同じだから、そこをGoogleはちゃんと解釈して検索結果に反映させるということだよ。

 

外神田、メモる

 

検索結果のタイトルリンクには、検索クエリに使った言葉の記載はないけど上位表示しているページに出会うことはあるじゃろう。

 

よくあります。

 

あ、そういえば、少し前に公開されたGoogleのHow Search Worksで、同社のゲイリーさんの動画で同じような話を聞いたような…。しまった、適当に聞き流していた…。

この動画です。

www.youtube.com

 

とても有益な情報提供じゃな。

 

見ます!

Muppet、AscorerとSuperroot

次は、えーと、まぺっと?エー、スコア、ラー。すーぱー、るーと?何と呼ぶのが正しいのかな?そこから分からないや。

 

グットじゃ。合っておる。マペット(Muppet)、エースコアラー(Ascorer)とスーパールート(Superroot)じゃ。読めないのも無理はない。Googleとしてはほぼ初出の情報じゃろうな。

 

ゴクリ…

 

ゴクリ…

 

Muppet/Ascorer、Superrootもともにランキングを決定するためのシステムに当たることはこの図から分かるじゃろう。

この二つのうち、Muppet/Ascorerのほうがよりコアなランク付けな仕組みにあたり、Superrootはランキング調整システムのようじゃ。Googleにとっての秘伝のタレは、Muppet/Ascorerのほうと言えるじゃろうな。

 

秘伝のタレ…?

 

唯ちゃん、そんなこともわからないの、Googleは焼鳥屋ってことだよ。

 

外神田、おなかが鳴る

 

ぜんぜんちがーーーーう!(気を取り直して)教授、もう少し分かりやすく教えいただけませんか?

 

うむ。図中の文章から推察するに、Muppet/Ascorerは、いわゆる Information Retrieval 、情報検索が行われる部分じゃろうな。インデックスに入っているすべてのドキュメントを対象にするアルゴリズムじゃ。あらゆるタイプの検索クエリ、通常のものから、YMYL、ポルノ系などにいたるまで、それらに対してすべてのドキュメントを対象に、関連性の判断を行ってアウトプットを出すのがMuppet/Ascorerだと考えられる。

 

まさに核になる仕組みですね。

 

角煮?

 

唯ちゃん、おなかすいたなら生協いったほうが良いよ。

 

我慢します…。

 

教授、でも….「すべてのドキュメント」を対象にするって、計算量がものすごく、費用がかさむような気がします。パフォーマンスも遅くなりそうな。

 

さすがじゃな、冷越君。コストという観点はとても大事じゃ。だからこそ、Googleは2段階の調整をしていると考えられる。Superroot システムの登場じゃ。

 

えっ……(ひらめいて)なるほど、切り分けるのですね!

 

そう。まず大まかなスコア付けはMuppet/Ascorerで行い、その上で、検索クエリの意図に応じて、Superrootで調整を行うと考えられるのじゃ。その際は対象となるドキュメント(URL)もかなり限定される。Muppet/Ascorerから返ってきた情報のみを対象にするからのぉ。

 

調整というと、サイトの信頼性を用いた足切りとか、細やかなランキングの変更とかが行われるんでしょうか。

 

そうじゃな。ほれ、たまにクエリで検索結果が数件しか表示されないことなどがあるじゃろう。それも、Superrootの処理の結果の可能性があると言えよう。

 

いくつか思い当たります。。。

 

これまでじゃと、URL達がインデックスされたのかどうか?がこの問題における調査の切り分けになっていただろうが、このBasic Control Flowを理解することによって、仮説立ての幅が広がるじゃろう。

 

Superrootは対症療法、Muppet/Ascorerは根本治療、そのようなイメージでしょうか。

 

グッドじゃ。まさにそのようなイメージで理解するとよろしいじゃろう。

 

なるほど、そういうことか!完全に理解した!オラは完全に理解したぞぉ!!

 

ほほぉ、一堂君、グッドじゃ。

 

キーマンはMuppet/Ascorer氏ってことだな。よおし、セブンプレミアムの豚角煮プレゼント大作戦はこいつに向けて展開でぜぇ!

マウンテンビューに電話しよう。タウンページ、タウンページ…。

 

理解が歪んでる…お前の頭の構造は一体どうなってるんだ!それから、タウンページとかに電話番号なんか載ってないから!

 

一堂君!

 

突然の声に三人が外神田唯のほうに振り向く

 

一堂君

 

な、なんだよ…唯…角煮はあげねぇぜ

 

一堂君にも根本治療が必要ね!

 

間。

 

(後悔する)

 

唯ちゃん…

 

え?

 

うまい、グッドじゃ!

 

後編に続く。

 

蔵前教授から読者のみなさんへ:

今回紹介したGoogleのプレゼンテーション資料はこちらから確認できるぞ。かなり長大な資料じゃが、自分自身の検索マーケティングの経験と照らし合わせながら読み込むと得るものも多いじゃろう。

ぜひ、時間があれば目を通してみてほしい。

www.justice.gov

蔵前教授の過去の授業はこちら:

blog.ja.dev

blog.ja.dev