【SEO】クローラーとは?最適化、確認方法について解説

今回は、クローラーについての内容になります!

クローラーの仕組みを知ると検索順位を上げる事に繋がりますので、分からない方はこの記事を読んで学んでみませんか?

最後まで読んで頂けると幸いです!

では、クローラーについて解説していきます!

クローラーとは?

クローラーとは、インターネット上のWebページを巡回するロボットのことを指します。

Google・Bing・Baiduなど各検索エンジン毎にクローラーは存在します!

今回は、Googleの「Googlebot(クローラーの名前)」を参考にさせて頂いてクローラーを解説していきます!

下記でクローラーの仕組みについて解説していきます!

仕組み

クローラーは、サイトから「HTMLソース」を解析し、そのファイル内の「テキスト・画像」などの情報を取得します!

この情報を検索エンジンの検索結果で表示できるようにGoogle側で用意しているデータベースに保存します!

上記の取得した情報をデータベースに保存する手順を「インデックス」と呼びます!

そして、データベースに保存されたサイト情報は、Google側のアルゴリズムによって評価され、掲載される検索の順位が決定されます!

これで、クローラーについて理解できたかと思います!

次の内容では、クローリングの最適化の方法について解説していきます!

最適化

クローラーがインターネット上を巡回することを「クローリング」と呼びます!

下記では、Googlebotのクローリングを質を高める「クローラビリティ」の最適化の方法について解説していきます!

URLの正規化

返す結果は、同ページでも異なるURLから入ることのできるページがあります!

下記で例を紹介します!

https://abc.com/

https://abc.com/index.html

サイトの作成経験がある方であれば、ご存知かと思いますが、取得したドメインのURLとTOPページである「index.html」を追加したURLは等しくTOPページを表示します!

これは、クローラーにとっては重複ページという扱いになり、2つのサイトを評価することとなりますのでクローラビリティが良いとは言えません!

ですので、URLを統一する事ができるURLの正規化をしておいて下さい!

robots.txt

robots.txtとは、クローラーが巡回を制御できるものを指します。

robots.txtでは、

クローラビリティの最適化

  • User-Agent: クローラーの種類を指定できます。これで、例えば画像のクロールを専門としているクローラーの訪問だけを拒否することも可能です。「*」で全てのクローラーを対象とできます。
  • Disallow: クローラーのアクセスを制御できます。 例: Disallow:/sample/ とすれば「sample」のディレクトリ配下を全てクロール拒否する事ができます!
  • ・Sitemap: サイトマップの位置をクローラーに伝える事ができます。サイトマップについては後ほど解説します!

robots.txtについては下記の記事で解説していますので、良ければ読んでみてください!

上記の3つを用いてクローラビリティの最適化を行う事ができます!

不要なページをクロールさせない

クローラーが巡回して欲しくないページの<link>タグ内で「rel= “nofollow”」とする事で指定したページの読み込みを拒否する事ができます!

ページ表示速度を上げる

ページの表示速度の向上は、ユーザーにとってもクローラーにとっても有効です!

クロール速度が上がりますので、404ページや読み込みばかりのページよりもクローラビリティが良いので、サイトへの評価も上がります!

PageSpeed Insightsにアクセスして一度速度を確認してみて下さい!

サイトマップの設置

サイトマップとは、サイトの全体図を分かりやすく伝えているものを指します。

サイトマップは、クローラーが巡回する際、手がかりとするものとなりクローラビリティを高めてくれます!

内部リンクもサイトマップ同様に手がかりとなるものですのでユーザーだけでなくクローラーにとっても評価を上げるものとなります!

上記がクローラビリティを最適化する方法となります!

次の内容では、ページがクロールされているかの確認方法について解説していきます!

確認方法

下記では、サイトがクローラーによって巡回されているのかを確認する方法について解説していきます!

site:

検索エンジンで「site:調べたいURL」と入力して下さい!

クローラーが正常に巡回し、インデックスされている場合、検索結果に調べたいサイトが表示されます!

一番上のページとすべての間に「〇〇件」という数字が表示されているかと思いますが、その数字が調べたいURLのインデックスされているページ数になります!

この方法で、自身のサイトがどれだけ検索結果に表示されているのかを確認する事も可能です!

Google Serach Consoleでの確認

Google Serach Consoleでクロールされているのかの確認をするために

手順

  1. 1. 「Google Serach Console」にログイン
  2. 2. 検索窓で調べたいURLを貼り付ける
  3. 3. クローラーが巡回しているかの確認(巡回していたら「URLが登録されている」といったニュアンスのメッセージが表示されます!)

もし、クローラーが巡回していなければ「URLが登録されていない」といったニュアンスのメッセージが表示されますので右下の「インデックス登録のリクエスト」を押して下さい!

これで、ペナルティや問題点がなければ、クローラーが巡回し、登録(インデックス)を行なってくれます!

※すぐに巡回はしませんので気長に待っておいて下さい!

登録されているURLのクロールの頻度など更に詳しく確認が行いたい際には、「ガバレッジ」から参照して下さい!

まとめ

いかがでしたか?

今回は、クローラーについて解説させて頂きました。

SEOを学ぶ上でクローラーの理解は必須となりますので是非覚えておいて下さい!