【注意喚起】急増する他社サイトを利用するサイト内検索スパム内容と対策

2022年末から急増しているサイト内検索スパムについて紹介します。スパムが撒き散らされない、安全なインターネットに向けて、自衛を行っていきましょう。

【注意喚起】急増する他社サイトを利用するサイト内検索スパム内容と対策のメインビジュアル

こんにちは、あるいはこんばんは。村山です。早速ですが、SEOのニュースです。

ただいま、日本ではサイト内検索結果ページを利用したスパムが急増しております。しっかりと対応することでスパムに利用されない、被害を最小限に抑えることが可能です。サイト内検索結果ページを利用したスパムの手法を理解し、対策していきましょう。

 

 

サイト内検索ページについて

まず、サイト内検索ページって、なに?という方むけに、サイト内検索ページと、その検索エンジンとの関係性をご説明します。

 

サイト内検索ページとは

Webサイトにはサイト内検索が用意されていることが多く見受けられます。弊社、JADEのサイト内にも以下のように設置されています。

 

サイト内検索ブロックの例

 

このサイト内検索で "村山" と検索します。遷移先は下記のページで、サイト内から "村山" に関連したコンテンツを抽出したコンテンツが返されます。

URL:https://blog.ja.dev/search?q=村山

 

村山でのサイト内検索結果例

 

 

サイト内に多くのコンテンツがある場合、トップページ等の上流テンプレートなどへ流入したユーザーがコンテンツを見つけやすいよう、サイト内動線としてカテゴリやタグを設置することが多いでしょう。

サイト内検索機能は、こういったサイト内動線からユーザーが目的とするコンテンツが見つけられなかった場合に備えて設置されているものです。

サイト内検索結果ページと検索エンジン

前述のページURLは、http://ja.dev のサイト内に設置しているサイト内リンクでの動線はないため、通常であれば Googlebot に https://blog.ja.dev/search?q=村山 のURLは 発見(Discover)されません。

サイト内のURLがGoogle検索の検索結果に表示されるようには、 Googlebot によるURLの発見が必須です。 Googlebot に発見されないURLはクロールされることがないため、インデックスされることもありません。インデックスされないということは、Google検索の検索結果に表示されないということになります。

 

参照

ja.dev

Search Engine (DCIR)
 
 DCIR モデルは、検索エンジンがURLとどのように接するかをモデル化したものです。あるURLが検索結果に現れるためには、検索エンジンは、そのURLを発見 (Discover) し、クロール (Crawl) し、インデックス (Index) し、そして、順位づけ (Rank) しなければなりません。それぞれのフェーズがうまく行くために、ウェブサイトが満たさなければならない一定の要件が存在し、そのためにさまざまな施策を行う必要があります。

 

前述のようなサイト内検索結果ページは、通常はURLが発見しづらいため、Googleの検索結果にも表示されづらくなっています。しかし、このようなURLが発見され、クロールされると、サイト内検索結果ページであってもインデックスされることがあります。

 

ただし、Googleはサイト内検索結果ページを表示することを嫌うと言われています。これは、「Googleの検索結果から遷移したにもかかわらず、また同じようなページに出会ってしまう」ことが悪いユーザー体験であるとの思想からのものです。けれども実際には、サイト内検索結果ページであってもインデックスされることがしばしばあります。

これは、ユーザーが求める検索クエリに応じたコンテンツとして、他に優れたコンテンツがない場合に、しばしばサイト内検索結果が有用だからです。そのため、サイトによっては、戦略的にサイト内検索結果ページをインデックスさせることもあります。

 

サイト内検索結果ページは、どのように検索エンジンによって発見されるのか?

サイト内検索結果ページは、どのように検索エンジンによって発見されるのでしょうか。大きく分けて、サイト内からとサイト外からの2パターンがあります。

 

サイト内からのURL発見パターン

以下のような場合に、サイト内からURLが発見されます。

  • サイト内検索結果ページへの内部リンク動線が設置されている
  • sitemaps.xml 内にURL が記載されている

内部リンクとしてよくあるパターンとしては、検索ボックス直下にある「よく検索されているワード」リンクです。また、サイト内検索ページを sitemaps.xml へ記載していた場合も、 Googlebot にURLが発見されます。 

 

サイト外からのURL発見パターン

サイト外からサイト内検索結果ページへリンクが設置されているケースです。

http://ja.dev のサイトであれば、http://ja.dev 以外の第三者のサイトに、  https://blog.ja.dev/search?q=村山 へのリンクが設置されることを意味します。

 

インデックスの可否

サイト内とサイト外でのどちらのURL発見パターンにおいても、Googlebot によってURLが発見されれば、 Googlebot にクロールされ、インデックスされる可能性があります。

 

サイト内検索スパムの手法と実例

ここまでの内容でサイト内検索スパムの手法に気づいた方もいらっしゃるかもしれませんが、サイト内検索スパムを行うスパマーの手法と、スパムに汚染されてしまった実例を紹介します。

 

許すまじスパマーの手法

サイト内検索スパムを行うスパマーは、Google検索の検索結果に表示させたいスパムクエリを、様々なサイトのサイト内検索結果URLとしてスパマーが保有するサイトにリンクを設置します。そのURLが Googlebot に発見された結果、 Googlebot がスパムクエリで検索したサイト内検索結果ページのURLをクロールし、インデックスしてしまいます。 

サイト内検索スパムの手法

 

サイト内検索スパムに汚染された実例と増加傾向

サイト内検索スパムに汚染された実例と弊社で把握している汚染されたURLの増加傾向状態を紹介します。

 

スパムに汚染された実例

下記のキャプチャ画面はGoogleで "新橋 パチスロ" と検索した際の検索結果2ページ目の画面キャプチャです。"新橋 パチスロ" そのものでなくても、それに類似した検索クエリではこういった結果が現れることがあります。

 

”新橋 パチスロ”のGoogle検索結果

 

モザイクでマスキングした部分がスパムの被害にあったとされるサイトです。みなさんもご存じの可能性がある、有名なサイトもスパムの被害にあっています。

 

考えられるスパムの目的

スパマーは、なぜこういったことを行うのかを考えてみます。前述のGoogle検索結果内に表示されているタイトル部分にドメイン名が埋め込まれています。このことから、おそらくオンラインギャンブルサイトへの登録訴求を行おうとしていることが推測されます。"新橋 パチスロ" のようなギャンブルが趣味と考えられる検索ユーザーに対して、手軽に利益が得ることができるようなキャッチコピーで訴求し、オンラインギャンブルサイトへの会員登録を促している可能性があります。

(筆者は、上記サイトがオンラインギャンブルサイトなのか、記載されている体験を得ることができるのか等は検証しておりません)

 

スパムに汚染されたURLの増加傾向

弊社では、数十万のクエリを対象として定期的に調査を行っておりますが、こういった検索結果スパムは2022年12月中旬頃から増加しているようです。特にギャンブルやアダルト関連といったカテゴリで、このようなスパムがよく見られる状態になっています。

 

サイト内検索スパムに汚染されたURLの増加傾向

 

上記は、弊社内にてギャンブルカテゴリの検索クエリでの順位変動状況をスコアリングしたものですが、URLがサイト内検索結果で利用される文字列を含むページが急増し、一旦落ち着きましたが長期的には増加傾向であることを表しています。

 

スパムに汚染されていないか確認する方法

自身の運営するサイトがサイト内検索スパムに汚染されていないかを、簡易的に確認できる2つの方法をご紹介します。

 

Search Console

Search Console 内の検索パフォーマンスレポートでの確認方法です。フィルタの「ページ」にて、サイト内検索結果ページで利用されているパラメーターなど、URLの文字列を指定し、フィルタリングしてみましょう。

 

Search Consoleでサイト内検索を確認する方法

 

フィルタリングした結果、下記のように結果が返ってこなければ、今のところGoogle検索にはサイト内検索結果ページが表示されていないことを表します。

サイト内検索をSearch Consoleで確認した結果

 

フィルタリングした結果、サイト内検索結果ページのURLが表示された場合は、表示されたURLやクエリに上記のような傾向がないか、チェックしてみましょう。

 

Google アナリティクス

Google アナリティクス4 (GA4) を用いて、サイト内の検索結果ページが閲覧されたかをチェックすることができます。

GA4の探索レポートで以下のようなディメンション、指標を設定し、フィルタリングでサイト内検索結果ページで利用されているURLの文字列を指定します。

 

なんで、GA4の標準レポートでURLの文字列フィルタリングができないんだってばよ

 

上記の探索レポートからは、サイト内検索結果ページの多くの表示回数(≒ページビュー数)がサイト内の遷移によって発生しており、Google検索からのトラフィックはあまり多くないことが確認できます。セッション開始でランディングページとなったページは2つありますが、ページ内容から問題なさそうです。

せっかくGA4で確認するのであれば、サイト内検索結果ページへの流入がビジネスに貢献しているのかも一緒に分析してみても良いかもしれません。

 

GA4でのユーザーセグメント設定画面

 

サイト内検索結果ページから流入したセッションの中でコンバージョンしたか、サイト内検索結果ページに初回訪問で流入したユーザーだったか、などのデータも抽出できるのが便利ですね!

 

サイト内検索スパムへの対処指針と手段

もしサイト内検索スパムの被害に遭ってしまっていたら、あるいは被害をあらかじめ予防するには、どうすればいいのでしょうか。

サイトのニーズに応じて、いくつかの選択肢があると考えられます。

 

ケース1:サイト内検索ページへの Organic Search 流入を狙わないケース

サイト内検索ページには、Google検索からの流入はいらない、という判断をするのであれば、こういったページに noindex を追加することで対応終了です。

 

developers.google.com

 

noindex を追加してしまえば、サイト内検索結果ページのURLが Google にインデックスされることはありません。このとき、既にスパムの被害に遭っている場合は、 robots.txt 等でクローラーのアクセスをブロックしないように注意が必要です。

 

ケース2:サイト内検索ページへの Organic Search 流入を維持するケース

Google検索からの流入を維持したい場合は、事態がもう少し複雑になります。ケースバイケースで、いくつかの対応手段を検討することができます。ここでは、代表的なものをご紹介します。使われている用語がわからない場合は、技術により詳しい方に相談してみてください。

 

1: サイト内検索結果ページでのコンテンツが0件のとき、404やnoindexなどの処理を行う。

ほとんどの場合、スパマーが勝手に生成したサイト内検索結果のヒット件数は0件です。このとき、HTTPステータスコードが 404 なら、Google はこのページを無視します。また、前述のように noindex にしてしまえば、インデックスされることはありません。

 

サイト内検索結果ページのコンテンツが0件

 

ほとんどのケースではおすすめできるプラクティスですが、サイト内検索結果ページにヒットするコンテンツの出入り激しい場合は、注意深い検討が必要です。一度 404 が返ってきたページはあまりクロールされなくなるので、その後 200 になる可能性が高いページが無視されてしまうことがあります。

 

2: 特定の文字列を含むサイト内検索結果ページ時のみ noindex を追加する

厳密に対処する必要がある場合、サイト内検索スパムで狙われるような特定の文字列を含むURLにのみ noindex を追加するという方法も検討できます。

場合によっては、上記の0件ヒット時の 404 では足りない場合があります。例えばサイト内にギャンブル関係のコンテンツが実際に存在する場合です。そういった場合は、いわゆる拒否リストを作成し、特定の文言が含まれるクエリのみ noindex を追加するということが考えられます。

Googlebot からのアクセスが多いサイト内検索結果ページURLの検知、ユーザーによる閲覧数、返されるコンテンツ、サイト内検索クエリ等、スパム対応に利用できそうなデータから、スパムを検出するといった対策も組織として考えておきましょう。

 

スパマーに悪用されないサイト運営を

今回、このサイト内検索スパムの記事を執筆していて、はたして公開してもよいのか、と少し迷いました。一部にしか認知されていないスパム手法を公開してしまうことで、模倣犯が出る可能性もあるからです。

しかし、運用しているサイトがこういったスパムに汚染されてしまうと、Google検索においては、サイト全体のランキング上の評価に大きな悪影響が出る可能性があります。また、直接的な被害がユーザーに発生した場合、ソーシャルでの言及などを通じてブランド毀損に繋がる可能性もゼロではありません。ユーザーにだけでなく、サイトオーナーにとっても被害を防ぐことが重要だと判断し、この記事を公開させていただきました。

Webサービスやサイトの運営に携わっている方は、これを機会に一度、自分のサイト内検索結果は大丈夫かをチェックしてみてください。スパムが撒き散らされない、安全なインターネットに向けて、自衛を行っていきましょう。