Googleにフォーム送信先の内容をインデックスさせない方法
2008年04月12日 プログラミングTIPS
張られているリンクをより多く見つける目的で、GooglebotにHTML Formを送信させて出てきたページもクロールさせる、という発表があった。と、秋元@サイボウズラボ・プログラマー・ブログに書かれていました。
「Googleにフォーム送信先の内容をインデックスされては困る!」という人もいるかもしれないので、その対処方法を。
以下のHTMLフォームを作成することで、Googleにクロールされなくなります。
これらを満たすHTMLフォームに対しては、クローラのクロール対象になりません。
これら以外のフォームに対しては、「クローラはいくつか適当な文字を入れてフォームを実行し、その結果新しいリンクが現れたらその先もクロール対象にする」そうです。
これまで以上に、検索エンジンへの指示、コントロールが重要になってくるのかもしれませんね。
「Googleにフォーム送信先の内容をインデックスされては困る!」という人もいるかもしれないので、その対処方法を。
以下のHTMLフォームを作成することで、Googleにクロールされなくなります。
- GETメソッドを利用しないこと
- クロール対象によって、今まで以上にGET,POSTのHTTP リクエストを適切に使い分けましょう。
- robots.txtで除外指定すること
- クロールさせたくないページは、robots.txtで適切にコントロールしましょう。
- <META>タグを追加して、インデックス登録しないようロボットに指示すること
- フォーム送信後のHTMLページに<META>タグを追加することで、インデックスされないようにしましょう。
- user, id, accountなどのフィールドを持たせること
- 個人情報が含まれてることが多い、user, id, accountなどのフィールドがあるとグーグルはクロールしません。また、passwordフィールドがあってもクロールされません。これからは、フィールド名にも注意を向けましょう。
これらを満たすHTMLフォームに対しては、クローラのクロール対象になりません。
これら以外のフォームに対しては、「クローラはいくつか適当な文字を入れてフォームを実行し、その結果新しいリンクが現れたらその先もクロール対象にする」そうです。
これまで以上に、検索エンジンへの指示、コントロールが重要になってくるのかもしれませんね。