Google の Helpful Content Update って他のアップデートと何が違う？元 Googler に一問一答で聞いてみた。 - ブログ

2022-09-29 追記: Helpful Content Update の初動で落ちたとみられるサイトの傾向を見ながら、これからについても考察する記事を出しました。ぜひご一読ください。

ja.dev

Google は8月18 日(米国時間)、Google 検索の新しいアップデートである"Helpful Content Update" を行うと発表しました。

ロールアウト開始は8月22日週とされ、まずは英語圏に数週間をかけて展開予定とされています。

developers.google.com

今回のアップデートは、「人が人のために書いた、より独創的で役立つコンテンツ」「人間優先のコンテンツ」(people-first content) をGoogle検索において評価する、としています。

このアップデートについての概要及び意図や背景の解説については、渡辺隆広さんの記事に詳しく書かれており、ご一読をオススメいたします。

さて、「良いコンテンツ」「良いサイト」を評価するためのさまざまなアルゴリズムを過去にも Google はロールアウトしてきました。

それらと今回との違いは何か？気になる方もいらっしゃるのではないでしょうか。

そこで本記事では過去のアップデートとの類似点や違い、その他気になることについて、元 Googler で弊社ファウンダーの長山一石に素朴な疑問・質問をぶつけてみました。その一問一答を公開します。

そもそもHelpful Content Updateロールアウト前なので、あくまで「見立て」となる点はご了承下さい。

Q: コンテンツの品質に関するアルゴリズムといえばパンダアップデートだと思うが、それとの違いは？

A: 低品質コンテンツを対象としている点で狙いは似ているが、パンダは既にいわゆるコアアルゴリズムアップデートの一部になっている。

これは別の、機械学習モデルをベースにした新しいサイトレベルスコアで、走っているパイプラインが異なるものと思われる。

また、パンダアップデートは定期的にリフレッシュされるタイプのスコアだったが、これは継続的に学習が走るタイプのスコア。

Q: では、コアアルゴリズムアップデートとの違いは？

A: コアアルゴリズムアップデートは、パンダやペンギンを含む複数の観点から総合的に評価され、かつ、定期的にリフレッシュされるもの。

サイトレベルのスコアリングが主であることは同じだが、このアップデートは、目的が限定されており、継続的に訓練される機械学習モデル。リフレッシュ自体も自動化されている。

Q: 日本語圏にはまだ導入されてはいないが、プロダクトレビューアップデートとの違いが分かりづらい気もするが？

立ち位置的には似ていると思う。どちらもいわゆる低品質コンテンツを対象にしており、機械学習も利用しているだろう。

ただ、おそらく担当チームも異なり、少しずつ違ったシグナルやアルゴリズムを利用したアップデートになっているはず。

よく「何百ものアルゴリズム」という話が Google から出るが、似た目的を持つが、少しずつ異なるクラシファイアが複数存在するのはよくあること。

Q: 英語圏先行なのはなぜか？言語に依存する何かがある？それとも単に試行として？

A: コンテンツは当然シグナルとして利用しているだろうから、言語はもちろん関係している。

日本語に展開する場合は、日本のサイトに対してモデルを訓練し、また別途、出てくる検索結果の評価を行う必要がある。

グローバルに展開する価値はあるアップデートなので、今後モデルを訓練していくだろう。

Q: コンテンツに関する処理なの？コンテンツに対するユーザー行動に関する処理なの？

A: どのようなシグナルを機械学習モデルに食わせているかはわからないが、おそらくページ単位でコンテンツの品質をスコアリングし、サイト全体で何らかの方法でアグリゲートしているのだろうと思われる。

Q: 公式ブログでは、Unhelpful Content の削除が推奨されているように読める。コンテンツ削除の施策が増えそうだが？

A: 低品質なコンテンツを消すことはこのアップデートに関わらず重要な施策だが、やたらめったら消すことはお勧めしない。

やるなら、検索エンジンから流入してくるユーザーの行動（直帰率や読了率、CTAのクリック率など）をきちんと計測し、あるコンテンツが検索ユーザーの役に立っているか否かを総合的に判断した上で行うべき。

Q: 公式ブログにある"classifier process"のくだり、機械学習に関するものと考えられるがちょっと解説してほしい。

これは、Google 側で、この機械学習モデルを継続的に訓練するためのインフラを構築した、という話。

今までのクラシファイアは定期的に「アップデート」を行う必要があるものだったが、これは勝手に自分を再訓練し続けるので、「2022年10月の Helpful Content Update」みたいなものはなくなる。おそらく、コアアップデートも将来的にはそうなるはず。

機械学習モデルは、一度訓練して、リリースしたら終わり、というわけではなく、定期的にアップデート、再訓練する必要がある。それをオフラインかつバッチで数ヶ月ごとに行うか、それともオンラインで継続的に少しずつ行い続けるか、という違いがある。

インデックス処理における Caffeine 登場以前と以後のことを思い出してもらえればわかりやすいと思う。

Q: ○選って記事は全部ダメなの？

A: そうは思わない。

重要なのは、Google も書いている通り、検索ユーザーではなく検索エンジンにフォーカスしてしまっている記事を、検索ユーザーの求める情報へのフォーカスに移していくこと。

○選タイプの記事は読者が求めているものでもあることは確かだから、それが即アウトというわけではない。

重要なのは、ちゃんと選ばれていること。

Q: 引用メインの記事は全部ダメなの？何割ならいいの？

A: 「何割ならいい」という話ではない。

引用がメインであっても、独自の視点で付加価値をつけているならば、それは評価されるべき記事。

ポイントは、他の記事と比べたときに、独自の、付加的な価値があるのか否か。

もちろん、いわゆる著者の権威性というところも重要だろう。

Q: アルゴリズムのネーミングについてどう思う？「へ、へるぷふるこんてんつあっぷでーと」ってちょっと舌を噛みそうです。

A: 特に何ともw

さて8月22週以降、英語圏でのランキング変動などさまざまな情報が飛び交うこととなると思いますが、本アップデートについては新たな発見があった場合はJADEブログにてまたご報告したいと考えております。

ご興味ある方は、弊社公式Twitterアカウントをフォローしていただければ幸いです。

twitter.com