一流のウェブサイトの最適化は検索の成功の基本ですが、SEOの技術的な部分を忘れることは重大な間違いである可能性があります。
経験豊富なデジタルマーケターとSEO専門家は、適切な検索エンジンインデックス作成の重要性を理解しています。 そのため、Googleがサイトを適切にクロールしてインデックスに登録できるように最善を尽くし、ページ上の最適化とページ外の最適化に時間とリソースを投資しています。
コンテンツ、リンク、タグ、メタディスクリプション、画像の最適化、ウェブサイトの構造はSEOに不可欠ですが、ロボットについて聞いたことがない場合は。 txt、メタロボットタグ、XMLサイトマップ、microformats、X-Robotタグなど、問題が発生する可能性があります。
しかし、慌てる必要はありません。
この章では、robots.txtタグとmetarobotsタグの使用方法と設定方法について説明します。 いくつかの実用的な例も提供します。
はじめましょう!
- 1 Robots.txtとは何ですか?
- 1.1 Robots.txtが重要なのはなぜですか?
- 1.2 Web上のRobots.txt
- 1.3 Robots.txtの基本
- 1.4 Robots.txtの構造
- 1.5 Robots.txtで非表示にするもの
- 1.6 Robots.txtの使用方法
- 1.7 典型的なRobots.txtの間違い
- 2 メタロボットタグとは何ですか?
- 3 Robots.txt&MetaRobotsタグの非準拠
- 4 Sitemap.xmlの役割
- 5 まとめ
Robots.txtとは何ですか?
Robots.txtは、検索エンジンボット(クローラー、ロボット、スパイダーとも呼ばれます)にWebサイトページをクロールしてインデックスを作成する方法を指示するために使用されるテキストファイルです。
理想的には、robots.txtファイルをWebサイトの最上位ディレクトリに配置して、ロボットがその指示にすぐにアクセスできるようにします。
Robots.txtが重要なのはなぜですか?
robots.txtを正しく操作することで、検索エンジンのボットが必要なページにルーティングされ、コンテンツの重複が禁止されて位置が落ちます。 そのため、サイトに慎重に作成されたrobot.txtファイルがあることを確認する必要があります。
robots.txtファイルが正しく設定されていないと、複数のインデックス作成ミスが発生する可能性があります。 そのため、新しいSEOキャンペーンを開始するたびに、Googleのロボットテキストメッセージツールを使用してrobots.txtファイルを確認してください。
忘れないでください:すべてが正しく設定されている場合、robots.txtファイルはインデックス作成プロセスをスピードアップします。
Web上のRobots.txt
ただし、robots.txtファイルはウェブ上で公開されていることを忘れないでください。 robots.txtファイルにアクセスするには、www.website-example.com /robots.txtと入力するだけです。
この可用性は、次のことを意味します。
- データを保護したり隠したりすることはできません。
- 悪いロボットや悪意のあるクローラーはロボットを利用することができます。 txtファイル。最も価値のあるWebページをナビゲートするための詳細なマップとして使用します。
また、robots.txtコマンドは実際にはディレクティブであることに注意してください。 つまり、検索ボットは、指示しなくても、サイトをクロールしてインデックスに登録できます。
幸いなことに、ほとんどの検索エンジン(Google、Bing、Yahoo、Yandexなど)はrobots.txtディレクティブを尊重しています。
Robots.txtファイルには間違いなく欠点があります。 それでも、すべてのSEOキャンペーンの不可欠な部分にすることを強くお勧めします。
Googleはrobots.txtディレクティブを認識して尊重します。ほとんどの場合、Googleを使用するだけで十分です。
Robots.txtの基本
robots.txtファイルは次のようにする必要があります。
- 通常のテキストをUTF-8エンコードで含み、レコード(行)を記号で分割したものです。
- 適用されるウェブサイトホストのルートに位置している。
- 一意であること。
- 1,024以下のルールが含まれます。
- 500KB未満であること。
Googleボットは、次の場合にインデックス作成に使用できるすべてのコンテンツを検索します。
- robots.txtファイルはありません。
- robots.txtファイルはテキスト形式で表示されません。
- 200OKの応答がありません。
ノート:
- robots.txtファイルの先頭にバイト順マーク(BOM)を記載することはできますが、これは許可されていません。ボットによって無視されるためです。 この規格では、各ユーザーエージェントディレクティブの前に改行を使用することを推奨しています。
- エンコーディングにUTF-8以外のシンボルが含まれていると、ボットがファイルを誤って分析する可能性があります。 彼らは有効なエントリのみを実行し、間違いについて通知することなく残りのコンテンツを無視します。
Robots.txtの構造
- さまざまな検索エンジンのロボット向けの1つまたは複数のユーザーエージェントディレクティブ。
- インデックス作成を許可または制限するディレクティブをDisallowおよびAllowします。 サイトマップディレクティブ。
Disallowディレクティブはインデックス作成を禁止し、Allowディレクティブはインデックス作成を許可します。
各レコードは、ディレクトリフィールド(許可、不許可、ホストまたはユーザーエージェント)、2つのスポット、および値で構成されます。 空のスペースは必須ではありませんが、読みやすくするために推奨されます。 ファイル内の任意の場所にコメントを配置し、#記号でマークすることができます。
「#」はコメントの説明を意味する記号です。
Googleボットは、#記号と次の改行の間に記載されているすべてをカウントするわけではありません。
- 一般的な形式は、<フィールド>:<値> <#コメント(オプション)>です。
- 最初と最後の空のスペースは無視されます。
- <field>要素の大文字小文字は関係ありません。
- <field>要素によっては、<value>要素の大文字小文字が重要になる場合があります。
Robots.txtで非表示にするもの
もちろん、検索エンジンにプライベートな技術ページ、顧客の個人データ、重複するコンテンツを表示したくはありません。
Robots.txtファイルを使用して、特定のディレクトリ、カテゴリ、およびページを検索から除外できます。 そのためには、「disallow」ディレクティブを使用します。
robots.txtファイルを使用して非表示にする必要があるページは次のとおりです。
- 内容が重複しているページ
- ページ付けページ
- オンサイト検索ページ
- ダイナミックな商品・サービスページ
- アカウントページ
- 管理ページ
- ショッピングカート
- チャット
- サンクスページ
これは、ユーザーが検索バーで商品を検索したり価格で並べ替えたりしたときに生成される、ユーザーアカウント、カート、複数の動的ページに関連するすべてのページをクロールしてインデックスに登録しないようにGooglebotに指示する方法の例です。
Robots.txtの使用方法
Robots.txtファイルは非常に柔軟性があり、さまざまな方法で使用できます。
ただし、主な利点は、SEOの専門家が、ページごとにコードにアクセスしなくても、一度に複数のページを「許可」または「禁止」できることです。
たとえば、次のように、すべての検索クローラーをコンテンツからブロックできます。
User-agent: *
Disallow: /
または、次のように、サイトのディレクトリ構造と特定のカテゴリを非表示にします。
User-agent: *
Disallow: /no-index/
複数のページを検索から除外する場合にも役立ちます。
検索クローラーから非表示にするURLを解析するだけです。 次に、robots.txtに「disallow」コマンドを追加し、URLをリストして、出来上がり! –ページはGoogleに表示されなくなります。
ただし、さらに重要なのは、robots.txtファイルを使用すると、特定のページ、カテゴリ、さらにはCSSおよびJSコードのビットに優先順位を付けることができるということです。
ここでは、WordPressページと特定のカテゴリを禁止していますが、wp-contentファイル、JSプラグイン、CSSスタイル、およびブログは許可されています。 このアプローチにより、スパイダーが有用なコードとカテゴリを直接クロールしてインデックスに登録することが保証されます。
もう1つの重要なこと:robots.txtファイルは、sitemap.xmlファイルの可能な場所の1つです。 User-agent、Disallow、Allow、およびHostコマンドの後に配置する必要があります。
robots.txtファイルを手動でGoogle検索コンソールに追加することもできます。Bingをターゲットにしている場合は、Bingウェブマスターツールを追加することもできます。
robots.txtの構造と設定は非常に単純ですが、適切に設定されたファイルはSEOキャンペーンを成功または失敗させる可能性があります。
設定に注意してください:サイト全体を誤って簡単に「禁止」し、トラフィックと顧客が役に立たなくなるのを待つことができます。
典型的なRobots.txtの間違い
1.ファイル名に大文字が含まれている
可能なファイル名はrobots.txt、Robots.txt、ROBOTSのみです。 TXT。
2.Robots.txtの代わりにRobot.Txtを使用する
この場合も、ファイルの名前はrobots.txtである必要があります。
3.誤ってフォーマットされた命令
例:Disallow:Googlebot正しいオプションは次のとおりです。
User-agent: Googlebot
Disallow: /
4.単一の「許可しない」指示で複数のカタログに言及する
次のように、非表示にするすべてのカタログを1つの「許可しない」行に配置しないでください。
Disallow: /css/ /cgi-bin/ /images/
唯一の正しいオプションは次のとおりです。
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
5.「ユーザーエージェント」の空の行
Wrong option:
User-agent:
Disallow:
唯一の正しいオプションは次のとおりです。
User-agent: *
Disallow:
6.ファイルで大文字を使用する
これは間違っており、悪いスタイルとして扱われます。
USER-AGENT: GOOGLEBOT
DISALLOW:
7.ホストディレクティブでWebサイトとURLをミラーリングします
どのウェブサイトがメインのウェブサイトで、どれがミラー(レプリカ)であるかを示すために、スペシャリストはGoogleの場合は301リダイレクトを使用し、Yandexの場合は「ホスト」ディレクティブを使用します。
http://www.site.com、http://site.com、https:// www.site.com、およびhttps://site.comへのリンクは人間にとって同じように見えますが、検索エンジンはそれらを次のように扱います。 4つの異なるウェブサイト。
検索エンジンがあなたを正しく理解できるように、「ホスト」ディレクティブに言及するときは注意してください。
Wrong
User-agent: Googlebot
Disallow: /cgi-bin
Host: http://www.site.com/
Correct
User-agent: Googlebot
Disallow: /cgi-bin
Host: www.site.com
サイトにhttpsがある場合、正しいオプションは次のとおりです。
User-agent: Googlebot
Disallow: /cgi-bin
Host: https:// www.site.com
8.ディレクトリ内のすべてのファイルを一覧表示する
Wrong
User-agent: *
Disallow: /AL/Alabama.html Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html
Correct
ディレクトリ全体を非表示にするだけです。
User-agent: *
Disallow: /AL/
Disallow: /Az/
9.不許可の指示がない
検索エンジンのボットがあなたの意図を理解するためには、許可しない指示が必要です。
Wrong
User-agent: *
Disallow: /AL/Alabama.html Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html
Correct
ディレクトリ全体を非表示にするだけです。
User-agent: *
Disallow: /AL/
Disallow: /Az/
10.リダイレクト404
robots.txtを作成して入力する予定がない場合でも。 あなたのウェブサイトのためのファイル、検索エンジンはまだファイルに到達しようとするかもしれません。 少なくとも空のrobots.txtを作成することを検討してください。 404 NotFoundページで検索エンジンを失望させないようにするため。
11. *セクションで追加のディレクティブを使用する
たとえば「host」などの追加のディレクティブがある場合は、個別のセクションを作成する必要があります。
Wrong
User-agent: *
Disallow: /css/
Host: www.example.com
Correct
User-agent: *
Disallow: /css/
User-agent: Googlebot
Disallow: /css/
Host: www.example.com
12.不正なHTTPヘッダー
一部のボットは、HTTPヘッダーに誤りがある場合、ファイルのインデックス作成を拒否できます。
Wrong
Content-Type: text/html
Correct
Content Type: text/plain
メタロボットタグとは何ですか?
メタロボットタグ(REPタグ)は、検索エンジンスパイダーに、Webサイト上の特定のページをクロールしてインデックスを作成する方法を指示するインデクサーディレクティブの要素です。
これにより、SEOの専門家は個々のページをターゲットにして、何をフォローし、何をフォローしないかをクローラーに指示できます。
メタロボットタグの基本
メタロボットタグの実装など、いくつかの方法でページのインデックス作成を非表示にすることができます。 ここでは、次のディレクティブを使用できます。
all
インデックス作成とコンテンツのデモンストレーションに制限はありません。 このディレクティブはデフォルトで使用されており、特に指定がない限り、検索エンジンの動作に影響を与えることはありません。
noindex
このページと「保存されたコピー」リンクをSERPに表示しないでください。
nofollow
ページ上のリンクをたどることを許可しないでください。
none
noindexおよびnofollowメタタグと同じです。
noarchive
SERPに「保存されたコピー」リンクを表示しないでください。
nosnippet
このページの拡張説明バージョンをSERPに表示しないでください。
notranslate
このページの翻訳をSERPで提供しないでください。
noimageindex
ページ上の画像にインデックスを付けないでください。
unavailable_after: [RFC-850 date/time]
指定された日時以降、SERPにこのページを表示しないでください。 RFC850形式を使用します。
メタロボットタグの使い方
メタロボットタグの使い方はとても簡単です。
メタロボットタグの設定にそれほど時間はかかりません。 4つの簡単なステップで、Webサイトのインデックス作成プロセスをレベルアップできます。
- CTRL + Uを押して、ページのコードにアクセスします。
- ページのコードの<head>部分をコピーして別のドキュメントに貼り付けます。
- このドキュメントを使用して、開発者に段階的なガイドラインを提供します。 コードに挿入するメタロボットのタグを、どのように、どこで、どのようにタグ付けするかに焦点を当てます。
- 開発者がタグを正しく実装していることを確認します。 そのためには、The Screaming Frog SEOSpiderの使用をお勧めします。
メタロボットタグは、Google、Bing、Yahoo、Yandexなどの主要な検索エンジンで認識されます。 個々の検索エンジンまたはブラウザごとにコードを微調整する必要はありません(特定のタグを尊重する場合を除く)。
メインメタロボットタグパラメータ
上で述べたように、4つの主要なREPタグパラメータがあります:follow、index、nofollow、およびnoindex。 これらの使用方法は次のとおりです。
index、follow
検索ボットがページにインデックスを付けてそのリンクをフォローできるようにします
noindex、nofollow
検索ボットがページにインデックスを付けてそのリンクをたどることを防ぎます
index、nofollow
検索エンジンがページにインデックスを付けることを許可しますが、検索スパイダーからそのリンクを非表示にします
noindex、follow
ページを検索から除外しますが、そのリンクのフォローは許可します(リンクジュースはSERPの増加に役立ちます)
REPタグのパラメータは異なります。 まれにしか使用されないもののいくつかを次に示します。
- none
- noarchive
- nosnippet
- unavailabe_after
- noimageindex
- nocache
- noodp
- notranslate
特定のページを最適化する必要がある場合は、メタロボットタグが不可欠です。 コードにアクセスして、開発者に何をすべきかを指示するだけです。
サイトが高度なCMS(OpenCart、PrestaShop)で実行されている場合、または特定のプラグイン(WP Yoastなど)を使用している場合は、メタタグとそのパラメーターをページテンプレートに直接挿入することもできます。 これにより、開発者に助けを求めることなく、一度に複数のページをカバーすることができます。
Robots.txt&MetaRobotsタグの非準拠
robots.txtのディレクティブとページ上のメタタグの不一致はよくある間違いです。
たとえば、robots.txtファイルはページのインデックス作成を非表示にしますが、メタロボットタグはその逆を行います。
そのような場合、Googleはロボットによって禁止されていることに注意を払います。 txtファイル。 ほとんどの場合、ボットはコンテンツのインデックス作成を促進するディレクティブを無視します。
robots.txtはGoogleによる推奨事項ですが、要求ではないことに注意してください。
したがって、それらにつながる外部リンクがある限り、ページがインデックスに登録されていることを確認する機会があります。
robots.txtがページを非表示にしないが、ディレクティブが非表示にする場合– Googleボットは最も制限の厳しいタスクを実行し、ページ上のコンテンツにインデックスを付けません。
結論は簡単です。メタロボットタグとrobots.txtの間の非準拠を排除して、インデックスを作成するページとインデックスを作成しないページをGoogleに明確に示します。
もう1つの注目すべき例は、ページ上のメタタグ間の一貫性の欠如です。
Yandex検索ボットは、ページ上のメタタグ間の競合に気付いたときに正の値を選択します。
<meta name= “robots” content=”all”/>
<meta name=”robots” content=”noindex, follow”/>
<!–Bots will choose the ‘all’ value and index all the links and texts.–>
対照的に、Googleボットは最も強力なディレクティブを選択し、リンクのみにインデックスを付け、コンテンツを無視します。
Sitemap.xmlの役割
sitemap.xml、robots.txt、およびmeta robotsタグの命令は、正しく設定されていれば互いに補完し合っています。
主なルールは次のとおりです。
- Sitemap.xml、robots.txt、metarobotsのタグが競合しないようにしてください。
- robots.txtおよびmeta robotsタグでブロックされているすべてのページも、sitemap.xmlから除外する必要があります。
- インデックス作成のために開かれるすべてのページは、sitemap.xmlにも含まれている必要があります。
- sitemap.xml、robots.txt、meta robotsタグの命令は、正しく設定されていれば互いに補完し合っています。
- Sitemap.xml、robots.txt、metarobotsのタグが競合しないようにしてください。
- robots.txtおよびmeta robotsタグでブロックされているすべてのページも、sitemap.xmlから除外する必要があります。
- インデックス作成のために開かれるすべてのページは、sitemap.xmlにも含まれている必要があります。
ただし、いくつかの例外があります。
2番目のページ付けページを開始して、メタロボットタグに「noindex、follow」を追加し、robots.txtでインデックスを作成できるようにこれらのページを開いたままにする必要があります。
すべてのページネーションページをsitemap.xmlに追加して、すべてのリンクのインデックスを再作成できるようにすることを検討してください。
まとめ
robots.txtファイルとメタロボットタグを設定して使用する方法を知ることは非常に重要です。 たった1つの間違いで、キャンペーン全体が死に至る可能性があります。
私は個人的に、SEOに何ヶ月も費やしたデジタルマーケターを何人か知っていますが、彼らのWebサイトはrobots.txtでのインデックス作成が禁止されていることに気づきました。 他の人は「nofollow」タグを乱用しすぎて、ドライブでバックリンクを失いました。
robots.txtファイルとREPタグの処理はかなり技術的であり、多くの間違いにつながる可能性があります。 幸い、それらを正常に実装するのに役立ついくつかの基本的なルールがあります。
Robots.txt
1. robots.txtファイルをウェブサイトコードの最上位ディレクトリに配置して、クロールとインデックス作成を簡素化します。
2.次のようにrobots.txtを適切に構成します。User-agent-Disallow-Allow-Host-Sitemap。このようにして、検索エンジンのスパイダーは適切な順序でカテゴリとWebページにアクセスします。
3.「許可:」または「不許可:」にするすべてのURLが個々の行に配置されていることを確認します。 1行に複数のURLが表示される場合、クローラーはそれらにアクセスする際に問題が発生します。
4.小文字を使用してrobots.txtに名前を付けます。 「robots.txt」を持つことは、「Robots.TXT」よりも常に優れています。また、ファイル名では大文字と小文字が区別されます。
5.クエリパラメータを間隔を空けて区切らないでください。たとえば、この「/ cars / / audi /」のような行クエリは、ロボットでミスを引き起こします。 txtファイル。
6. *と$以外の特殊文字は使用しないでください。他の文字は認識されません。
7.サブドメインごとに個別のrobots.txtファイルを作成します。たとえば、「hubspot.com」と「blog.hubspot.com」には、ディレクトリ固有およびページ固有のディレクティブを持つ個別のファイルがあります。
8.#を使用してrobots.txtファイルにコメントを残します。クローラーは、#文字の行を尊重しません。
9.セキュリティの目的でrobots.txtに依存しないでください。パスワードやその他のセキュリティメカニズムを使用して、ハッキング、スクレイピング、データ詐欺からサイトを保護します。
メタロボットタグ
大文字と小文字を区別してください。 Googleやその他の検索エンジンは、大文字と小文字の両方で属性、値、パラメータを認識する場合があり、必要に応じて2つを切り替えることができます。 コードの可読性を向上させるために、1つのオプションに固執することを強くお勧めします。
複数の<meta>タグは避けてください。 これを行うことにより、コードの競合を回避できます。 <meta>タグには、次のように複数の値を使用します:<meta name =“ robots” content =“ noindex、nofollow”>。
インデックス作成の間違いを避けるために、競合するメタタグを使用しないでください。
たとえば、この<meta name =“ robots” content =“ follow”>のようなメタタグを持つコード行が複数あり、この<meta name =“ robots” content =“ nofollow”>の場合、“ nofollow”のみが取得されます。 考慮に入れます。 これは、ロボットが制限値を最初に置くためです。
robots.txtタグとメタロボットタグの両方をサイトに簡単に実装できます。 ただし、2つの間の混乱を避けるように注意してください。
ここでの基本的なルールは、制限値が優先されるということです。 そのため、robots.txtファイルで特定のページのインデックス作成を「許可」したが、<meta>で誤って「noindex」した場合、スパイダーはページにインデックスを付けません。
また、覚えておいてください。特にGoogleに指示を与える場合は、<meta name =“ googlebot” content =“ nofollow”>のように、「robots」ではなく<meta>「googlebot」を使用してください。 これは「ロボット」に似ていますが、他のすべての検索クローラーを回避します。