しかし、普通に考えて『どう使ってもいいのではないか?』と思う訳です。
例えば重複コンテンツに対して使用することは適切なのでしょうか?
普通は、重複コンテンツについては、canonicalを使用します。
しかし、この考えこそが『そもそもおかしい』のです。
canonicalは、あえて重複してしまうコンテンツに対して使うものです。
使用例としては、PCページとスマホページのテキストコンテンツの重複著作権の問題に使います。
Google検索エンジンが、オリジナルとしてキャッシュするものはたった一つです。
それが同ドメイン内にあろうとも、URL単位で重複判定をされます。
表現表示方法の違いだけで、著作権を合わせておかないとコピーコンテンツ扱いになりかねないからです。
canonicalで正しく正規化したページは、こう評価されます。
『PCページ』もあり『スマホページ』もあると。
これが正規化の目的でしょう。
重複するテキストコンテンツが同じ内容だとしても、同じ内容になってしまう諦めざるを得ない理由がある訳です。
さて、それではPHPなどのエラーになるとどうでしょうか?
全く同一の内容のページが量産されてしまうとします。
これは、正規化が必要でしょうか。普通に考えて必要ではあります。
しかし、そもそも全く同じものを正規化するということは、おかしいと思いませんか?
これをGoogle検索エンジンが見たときに、『正規化するのはいいけど、そもそもプログラムがおかしいから正規化せざるを得ないのでしょう?』と判断されてますよ?
または、『/menu/』と『/menu/index.html』や『/menu/index.php』などで考えると良いでしょう。
これらも同様に、全く同じページが存在してしまっていることになります。
正規化も良いでしょう。
ですが、そもそもソースやプログラムによって不要な動線を生み出すこと自体が、おかしな状態なのです。
つまり、Google検索エンジンから見ると、クロールされる度に、『また正規化かよ』と言われているのです。
『クロールする度に同じページだし、毎度正規化じゃクロール量も尽きるんですが…』と思われてます。
ならば、初めから『あっ、このページは見に行かなくても良いのか』『無駄な回り道をしなくてありがたい。他のページをクロールしょう』と検索エンジンクローラーに伝えた方が自然なのです。
だからこそ、あえて存在してしまっている不要なページを規制することが重要です。
『www付き』『www無し』なども同様です。
リダイレクトしたり正規化したりするのは理由があるとしても、そもそも動線自体がなければ、www無しなどで運用をしていけば良いだけなのです。
ここまで読んで下さった皆さんはお気づきになるとおもいますが、
『じゃ、何の為にRobots.txtは存在しているの?』と思いませんか?
canonical制御をしなければならない状況の重複ページが、判定され正規化する前に、
『そもそも、クロールさせなければ良い』
『インデックスさせなければ良い』
と思いませんか?
Robots.txtはその為にあります。
余程エラーや予期せぬURLの増加に使いたくはなります。
しかしながら、よくよく考えると、
『重複コンテンツが生まれないようにする』
『正規化する必要のないサイトを作る』
『不要ページを制御する必要のないサイトを作る』
これが、評価されるサイトなのではないでしょうか?
その中でも、真っ先に優先される物が、サイトの評価に直接影響を与えるGoogle検索エンジンをコントロールするものが『Robots.txt』です。
その後、サイトの不備を誤魔化すために使うのが正規化canonicalタグです。
もっと言うと、正確にクローラーを導く物こそが『sitemap.xml』な訳ですが。
これら3つの手段の力のバランスを考えると、
sitemap.xml > Robots.txt > canonical でしょう。
分かりますか?
もし、動線を指定しておきながらクロールを制御しつつ正規化をしようとするならば、
『これほどまでにGoogle検索エンジンをバカにしているものはないのです』
呆れます。
ちゃんとやれよと…。
Googleも、『言い訳は良いから、ウェブマスターツールでインデックス削除申請してから、Robots.txt当てろよ』と言いたいのではないかと思いませんか?
こういう考えや理解力の有無がリテラシーがあるかないかということに繋がります。
ウェブIT系を仕事にしてる、アホやバカは理解できないでしょうね。
もちろんGoogleは公式にcanonicalしなさいよ、Robots.txtはダメだよとは言っています。
しかし、使い方が間違っていない状況で正しくウェブサイトをコントロールできれば、そんなものは関係ありません。
あるのだから使う
そもそも、何の為にあるんだ
と考えれば一目瞭然ですよね?
重複コンテンツを吐き出させずに、Robots.txtで予防線も貼っておきつつ、インデックス削除はちまちま行う。