検索マーケターが知っておくべき検索エンジンと機械学習の話

検索マーケティング担当者が機械学習と検索エンジン(主に Google) に関して知っておくべきことについて、過去を振り返りつつまとめてみました。今日では、検索のあらゆるプロセスにおいて機械学習が使われています。

検索マーケターが知っておくべき検索エンジンと機械学習の話

こんにちは、株式会社JADE創業者の長山一石です。以前は、主に Google と Twitter のスパム検出チームで働いていました。 2019 年の記事では、「レンダー バジェット」という用語を作りました。今日は、マーケティング担当者が機械学習と検索エンジン、主に Google について知っておくべきことについて少しお話ししたいと思います。

「検索における機械学習の重要性を説明してください」

私は仕事柄、よく面接をします。検索マーケティング業務経験者の方ともよくお話をします。その中でよく使う質問の 1 つに、「今日の Google 検索における機械学習の重要性について説明してください」というものがあります。しかし、応募者の方が満足のいく答えを思いつくことは非常にまれです。犯しがちなよくある間違いの 1 つは、RankBrain、BERT、MUM などの、Google 検索で使用されていることがわかっている ML モデルの名前をリストアップすることです。もちろんこれらのモデルは非常に重要ですが、これらのモデルが実際に何をするのか、なぜ重要なのかを理解していないことがほとんどです。よく考えてみれば、マーケター向けに、検索における機械学習の真の意義をきちんと説明している記事は多くないことに気付きました。この記事では、上の質問により多くの人が答えられるようになるための説明を少ししてみたいと思います。

AIファーストに後れをとった Google 検索

歴史を少し。Google 検索は、機械学習に関しては後手に回っていた、という事実をご存知でしょうか。Google 検索が機械学習を主要な取り組みとして導入したのは RankBrain がローンチされた 2015 年です。特筆すべきは、この取り組みは、検索エンジニアではなく、主に機械学習の研究センターだった Google Brain の研究者によって推進されたことです。この時までに、Google 広告やその他の製品は、システムで機械学習を利用するために何年にもわたって大量のリソースを投資しており、Google 自体が「AI ファースト」の企業への変革を試みていました。しかし、検索の場合、それは傍流にとどまり続けていました。彼らはムーブメントの発信側ではなく、受信側にいたわけです。 WIRED の記事 によると、2000 年から検索をリードしてきた Amit Singhal 氏は、機械学習に懐疑的であり、また同社の検索関係者の多くが、検索のランキングに機械学習を導入することは「影響が大きすぎる」として反対していました。 この分野における Google 検索からの投資は大きくなく、RankBrain の開発は文字通り「実験」でした。「まあ、実験的に、ニューラル ネットワークからこの追加のスコアを計算して、それが有用なスコアであるかどうかを確認してみよう」と Jeff Dean は言った、とこの記事は述べています。しかし、RankBrain は最終的に機械学習の力を証明し、ランキングで「3 番目に重要なシグナル」としてデビューしたわけです。

2016 年、Amit Singhal は突然辞任。後からセクハラ スキャンダルが明らかになりました。そして、Google 検索の新しい責任者は、同社で最大の機械学習推進者の 1 人である John Giannandrea (JG) でした。彼のリーダーシップにより、新しい時代が到来しました。検索システムへの機械学習の適用に、全面的に取り組み始めたのです。それ以来、JG が 2018 年に Apple へ移った後も、Google 検索は機械学習をパイプラインにローンチすることに積極的に取り組んできました。

機械学習は検索のあらゆるプロセスに影響する

それから数年の間に、Google 検索が、機械学習技術のフォロワーから、先進的なテクノロジーを発信するリーダーへと根本的に変化したことを私たちは観察してきたと思います。重要なのは、名前の付いたモデルが数多くローンチされたというだけではありません。最大の意義は、機械学習が Google 検索のすべてのシステムに組み込まれているという事実です。ランキングだけではありません。今日、クロールの優先順位付けから正規の選択、タイトルの生成、サイト レベルのスコアリングまで、すべてのシステムを本質的に機械学習によって駆動されているものとして扱い、すべてのローンチを何らかの形で機械学習モデルに関連しているものとして扱う必要があります。 2012 年の Google とは異なり、我々は現在、機械学習ベースのシステムに直面しています。その重要性は、いくら強調しても強調しすぎることがないほど、根本的な変化です。

Google 検索が機械学習を全面的に導入した結果として、ここ数年でいくつかの大きな変化がありました。例えば…

(a) Google は、URL発見やクロールの初期段階でより正確な予測を行うことができるようになりました。ここ数年、Webページがインデックスに登録されていないという話を耳にするようになりました。これは、どのページをクロールしてインデックスに登録するかを予測して決定する仕組みが導入された結果だと思います。これまでのシステムでは、特定の URL の品質をインデックスに登録する前に確実に予測することが難しく、実際にインデックスしてみないと検索結果に表示する価値があるページか否かわからないものも多くありました。しかし今では、機械学習のスコアリングに基づいて、ページがランキングに値するかしないかを予測できるようになったと感じます。

(b) 「何がランキングのシグナルなのか」という議論は、基本的に無意味になりました。機械学習以前からこう言った議論は生産的ではありませんでしたが、現在はさらにそうです。どんなシグナルでも、それがどれくらいの重みを割り当てられるか、ということはハードコードされておらず、常に検索クエリやドキュメント全体に影響を与えるシグナルはありません。検索結果ハックすることはさらに難しくなっています。検索におけるランキングにとって「常に正しい」と言えることは、ユーザーに焦点を当てたページを作成することです。これは単なる理想やポジショントークではなく、現実になりました。

(c) 逆に、より影響を与えやすくなったものとしては、何が学習の単位になるのか、ということです。何をキーとして学習が行われるのか、を考えながら構造を作っていくことが重要になりました。これは、Google 広告ではさらに顕著です。最近では、広告アカウント内でキャンペーンと広告グループをどのように構成するかが非常に重要になってきました。なぜなら、それらが学習の対象となるからです。自然検索の側では、多くの場合、これらのキーは URL をベースにしたものになります。だから、URL を再構築したり、ドメインを変更したりすることの影響は、以前よりもさらに大きくなっているということができます。

「今日の Google 検索における機械学習の重要性とは何なのか?」という質問を面接でされたら、もう、みなさんは答えられるようになっていると思います。単にランキングがより精緻になったというだけの話ではなく、検索全体がそもそも機械学習ベースに変わったということ。それが故に、予測や分類、クラスタリングなど、機械学習が得意とする分野において、検索パイプラインのすべてのコンポーネントが改善されたということ。まずはここを理解した上で、他の、すでに発表されているモデルたちの重要性を語るようにしましょう。

機械学習をベースにしたシステムは、そうでないシステムとは大きく異なる動作をします。 これは、広告運用に真剣に取り組んでいらっしゃる方のほうが感覚的にご理解いただけることかもしれないのですが、私はこの説明によく動物の例えを使います。いかにしてモデルを飼い慣らすか、が非常に重要になってきています。適切な量の食べ物を適切なタイミングで食べさせ、適切な量の鞭とニンジンを与えて飼い慣らし、愛を与えていれば、モデルは必ずいい結果を返してくれます。皆さんが、うまくモデルを飼い慣らすことができるように祈っています。