Google検索のAPIドキュメントリーク：クリックを正しく捉えたい - ブログ

こんにちは、JADEの伊東です。

すでにご存じの方も多いですが、5月下旬にGoogle社内で使われている検索システムのAPIに関する内部ドキュメントが漏洩したという記事が公開され、大きな話題となりました。

この話題を伊東の私見を交えながらお伝えしたいと思います。

※こちらの記事は、6/11に配信した【JADEニュースレターvol.4】をブログ化にあたり一部編集し転載したものです。なにとぞご了承ください。

［目次］

何が起こったのか？
この情報をどう捉えるべき？
Googleは嘘を言ってきたの？
リークドキュメント内で「ほぉほぉ」と個人的に思った情報
DCIR-QCLSモデルの妙味
「JADEニュースレター」購読フォームを設置しました

何が起こったのか？

5/27に米国でB2B向けSaasツールを提供するSparToro（スパークトロ）社のCEO Rand Fishkin（ランド・フィシュキン）氏の元に、匿名の情報提供が行われました。

その内容は、Google検索のシステムに用いられていると思われる大量の内部ドキュメントがGitHubに意図せず公開状態にあったというものです。

ランド氏によって、その一連の経緯やドキュメントのポイントとなるところをまとめた記事が公開されて大きな話題を呼びました。

ランド氏は今はSEO業界を離れていることから、第一線でSEOコンサルティングを行っていて技術文書の読みこなしもできる友人のMike King（マイク・キング）氏の助けを借りて分析を行いました。

▼ランド氏の記事（英語）

sparktoro.com

▼マイク氏の記事（英語）

ipullrank.com

↓写真右上がマイク氏、右下がランド氏（6/8のLocal U主催ウェビナーより）

Now watching... pic.twitter.com/IFNjQxwQhz
— 伊東周晃 (Noriaki Ito) (@noriaky) 2024年6月7日

Googleも事後的に本ドキュメントは、Google自身のものであることを認めています。

この情報をどう捉えるべき？

このドキュメントについて、弊社ファウンダーの長山がうまい表現をしてくれています。

長山は、Google在籍時代にこのドキュメントを知っている側でもあったわけですが、曰く「これは料理に例えるなら、レシピ（アルゴリズム）ではなく、冷蔵庫に入っている食材である」と。

例えば、ドキュメント内のアトリビュートの一つに「fontsize」というものがありますが、これを見て反射的に「文字の大きさがランキングに影響する！」と判断するというのは飛躍が過ぎますよね。「fontsize」は食材のひとつだけど、それだけでどんな料理（アルゴリズム）ができるかは全くわからない。

また、本ドキュメントは最新なのかも不明です。賞味期限の切れた食材で、料理を作ることはあり得ないわけですから、このドキュメントが「今のGoogle」と捉えるのは正しくありません。

もし、これを以て「Googleの検索アルゴリズムが漏洩した」と発信している情報があったとすれば、その段階でシャットダウンして良いでしょう。

思い起こせば、いわゆる「検索品質評価ガイドライン」も一番最初はリークされたものでしたよね。

E-E-A-T（E-A-T）というコンセプトは、このドキュメントを発端に知られるようになったものです。随分と様々な人々によってミスリーディングされる歴史を経て、最近になってようやく「ガイドライン」と「検索アルゴリズムそのもの」との位置関係の理解も進んできたように思います。

今回の漏洩ドキュメントはページ数が2,500以上、掲載されているアトリビュートの項目数が14,000以上にも及ぶ膨大なものです。

しかも、品質評価ガイドラインよりも技術的な要素が強いドキュメントなので、非専門の人が解釈することでより一層ミスリーディングが生まれそうな気もします。

気を付けましょう。

Googleは嘘を言ってきたの？

今回のドキュメントで大きな焦点となっているのが、「GoogleはGoogle Chrome越しのクリックストリームデータを使っている」という点です。

それが、「Googleはクリックは使っていないとずっと言ってきたのに嘘ついてきたのかー！ワーーー！」といったGoogle糾弾系の文脈にもつながっています。

まあ、これに関しては個人的には、今更アグレッシブな気持ちにはなれないです。

すでに「ユーザー行動を踏まえてSEOを設計する」というのは、SEO施策実施におけるコンセンサスになって久しいですし、Googleも間接的にはクリックストリームを活用している点を既に認めています。

国内でもこんな記事がすでに公開されています。

webtan.impress.co.jp

たとえば、検索結果ページにすぐ戻ってくる場合というのも、目的のものをすぐに見つけて戻っている場合もあるだろうし、ぱっと見て違うと思って戻ってきた場合もある。そのため、単純にそのユーザー行動をデータとしてみても、良いのか悪いのかの判断は難しい。

そうした行動データを利用してはいるが、それだけでなく、評価者によるページ品質の判断を含めたさまざまな情報を組み合わせている。

以下は伊東が2019年に執筆したものです。

webtan.impress.co.jp

また、CNBCの取材記事の中で、Googleエンジニアが、あるアルゴリズムの検証作業時に、「何%のユーザーが検索結果へクリックバックしていたか」を計測するシーンが記述されている。

アルゴリズムの「検証」には少なくとも、エンゲージメント指標が用いられているのである。

またGoogleと米国司法省との間で行われている法廷闘争中の証言においてGoogle社古参エンジニアのPandu Nayak（パンドゥ・ナヤック）氏がかなり詳細にNavboost（クリックストリームデータ関連のアルゴリズム）についての説明を既に行っています。

ちなみに、これについての概略は弊社ブログにて5月中旬（今回のリーク前）に紹介をしておりました。よろしければどうぞ。

blog.ja.dev

「クリックは使っているのか、使っていないのか？」の質問に対するGoogleの一般的な回答は、「クリックをそのまま用いるのはノイズが多すぎて不適切」といったものでしたが、そもそも質問の解像度が悪いからこういった回答になるのですよね…。

リークドキュメント内で「ほぉほぉ」と個人的に思った情報

ということで、ここまでは優等生的な（本音ですが）コメントでしたが、最後にリークドキュメントを通じて、個人的に「ほほぉ」と興味深かったポイントをつぶやきたいておきましょう。

Disclaimer：伊東は、リークドキュメントすべてには目を通しておりません。ランド氏、マイク氏の記事と二人が登壇した6/8のウェビナー、私の経験から信頼できると思っている専門家のドキュメント等を補助線にしながら部分的にドキュメントを読んだ次第です。

Good Click, Bad Click, lastLongestClicksというアトリビュート

この表記を見て、「Long Click」「Short Click」の話を思い出す人がいたら、SEOに長くかかわっている傍証の一つになるかもしれません。

Long ClickもShort ClickもGoogleの公式表現ではなく、欧米のSEO専門家の中で使われていた言葉なので日本国内でポピュラーだったわけではありません。が、海外では一定の認知のあったコンセプトです。

「The Long Click and the Quality of Search Success」（2015年）

（注：Googleの特許分析で有名な「SEO by the Sea」のオーサーBill Slawski氏（故人）による記事）

moz.com

Long Clickとは、ある検索クエリに対する検索結果上のあるURLをクリックした後、しばらくの間、検索結果へクリックバックしない（＝遷移先サイトに滞在する）タイプのクリック、Short Clickはその反対です。

Longは「良い行動」シグナルであり、Shortは「悪い行動」シグナルを意味します。

先述のランド氏に至っては2015年前後に、Twitter経由や、各種カンファレンス（Mozcon, Search Love等）で観客を巻き込んだライブテストを20回弱行いその都度、結果をシェアしていました（全くもってクレイジーな実験ですｗ）。

Google文書内の、Good ClickはLong Clickが想起され、Bad ClickはShort Clickが想起されるのは長くSEOをやってきた人にとっては人情というものです。

さらに驚いたのは、「Long Click」とはSEO専門家内の言葉でしたが、Googleのドキュメントにも「lastLongestClick」という似た呼称があった点です。

結構、センスの良いネーミングだったのかもしれません。

LinkにはTier（階層レベル）がある

リンクを3つのレベル（High, Medium, Low）に分けていることがうかがえるアトリビュートの記述があります（sourceType）。

その基準は、クリック数（TotalClicks）で、クリック数が多ければHighのティアーに格納され、クリック数が少ないリンクはLowのティアーに分類されます。

完全にそうと言い切れる明確なアトリビュート間の紐づけまでは読み取れなかったので、半分妄想ではありますが、「クリックが発生しないリンクは評価が低い」というSEO実践の経験値的な観点とは整合します。

大昔は、外部から得られるリンクの評価をサードパーティーツールや（今は無き）ツールバーページランクのスコアをもとに評価していましたが、今は「流入数で評価しましょう」という考え方がオーソドックスだと思います。

流入数が多いとは、

コンテンツ内のメイン領域からリンクが設置されている（フッターリンクではなく）
明確な意図をもったユーザーの訪問なので、良質なユーザー行動を期待できる

こういう観点が背景にあるため「流入数」というメトリックが考案されたわけですが、やはり妥当なメトリックなのかも、と改めて思いました。

クリックが焦点ではある

「リークドキュメントは読み物としては面白いけど、SEOとして明日からやることには何も影響しない」が、総論的結論にはなります。

品質評価ガイドラインと異なり、今後更新されることもないでしょうから、情報としては古くなる一方です。

ただ、ひとつ改めて強く認識しておいた方が良いことは「クリックが生まれない」とどうやらSEOは始まらないという事実です。

簡単に言うと、これまでのSEOは「Googlebotに対しての最適化」が枕詞としてあったわけですが、「Chromeなどを通じたGoogle製品とユーザーとの接点における体験の最適化」というもう一つの大きな軸が今はあり、後者は要するに「クリック起点」であるということです。

この観点をまだあまり認識されていらっしゃらない方が居られましたら、ぜひ気にかけていきましょう。

以前から、高品質なSEOサービスを提供する支援会社は、

「内部リンクは、フッター等ではなくサイトの主動線を通じて、全ページを辿れるように設計しましょう」
「XMLサイトマップにクロール・インデックスを依存するのではなく、ユーザーが辿れるリンクがサイト内にあることを前提にしましょう」

というアドバイスをしてきましたが、これは間接的に「ユーザー体験最適化」の提案を昔からしてきたわけですね。だから、総論として「明日からの実践に影響しない」のです。

DCIR-QCLSモデルの妙味

弊社では、検索インタラクションモデル「DCIR-QCLS」という名称でSEO実践のフレームワークを提唱してきました。

blog.ja.dev

前者が検索エンジン最適化（Discover- Crawl- Index- Rank）を指し、後者が検索ユーザー体験最適化（Query- Click- Land- Surf）を指します。

特に後者を明示的にSEOのフレームワークとして取り込んだところは、独自性のある点と自負しています。

QCLSにおいては、さきほど述べたClickをフレームワークに取り込んでいる点で非常にモダンな枠組みであることは確かですが、個人的にはClick以上にSurf（=サイト回遊）という言葉で“Long Click”にあたる事柄を指している部分にこのモデルの奥深い妙味があると思っています。

Conversion（予約・購入）ではないんです、Surf（回遊）なんですよ。

例えば、「北海道旅行」という検索クエリへのSEOを考える場合、それを検索するユーザーの意図は多様であることが予想できます。「家族連れ」「デート」「おひとり様」「グルメ重視」「温泉重視」「長期/短期」など......。

このような意図を持った検索ユーザーのマジョリティが満足するコンテンツを計画し提供することが、多くのページ訪問ユーザーの満足した検索行動（体験最適化）の必要条件になります。しかし、そこを経由して発生するコンバージョンは獲得したすべてのクリックの一部です。

満足した訪問を「コンバージョン」のみに絞ってしまうと、「情報を知れて満足した！」＝「回遊のみ」を正しく評価するレンズを持つことはできません。

最近、こんな記事を読みました。音楽アプリのSpotifyと言語学習アプリのDuolingoの経営者へのインタビュー記事です。

xtrend.nikkei.com

――「有料会員」であることは「熱烈なファン」の必要条件に思えますが、いかがでしょうか。

トニー・エリソン氏（スポティファイジャパン、以下、エリソン）　私は、必ずしも有料会員＝熱烈なファンだとは考えていません。

特に音楽の領域では、一般的に若い人の方が情熱を持っていますよね。しかし彼らは、音楽サービスに十分に払えるほどのお金を持っていないこともある。有料会員ではないけれど、熱烈なファンと言えます。

あるサービスを「買う人」だけが、ファンではないのですよね。買わないけど「熱烈な読者」というサイレントな支持のあり様が存在する。「買ってくれる人」の数より圧倒的に多いこの層の人たちに「Click後の良いユーザー行動」をたくさんしてもらうことがSEOにとっては生命線にもなり得るわけです。

この真実をDCIR-QCLSというモデルは、Surfという奥ゆかしい表現で捉えようとしていると私は思っています。

JADEニュースレターで「コンテンツマーケティング戦略」の解説を行っているのも、この「購入者ではないけどファンである」層をどのように捉えていくか（モデル化していくか）を、深く考察してきたのがロバート・ローズ氏が洗練させてきた理論だから、という側面があります。

追記：弊社ファウンダー長山はドキュメントのほうに全て目を通して、質問あったら回答できるよ、とのことです。何かご質問ありましたら、長山かJADEのXアカウントあてにご質問ください。

https://x.com/KazushiNagayama

https://x.com/_jade_kk