辻正浩のサブブログ

せっかくだから俺はこのはてなブログを選ぶぜ

Twitterのrobots.txt変更の記録(2013年2月)

Twitterrobots.txt変更

変更を確認したので、旧新の比較用に保存しときます。

現段階ではまだリロードで変わる場合もありますし、変更途中かもしれません。前回の変更、2012年11月の変更でも、一週間後にもう一度変更しましたので。

大きいのは、「Allow: /search」から「Allow: /search?q=%23」への変更(%23は「#」)。以前は/search以下を全て許可した上でいくつかをブロックしていたものの、Twitter検索ページは/search/# 以下のみの許可+いくつかブロック。

11月からwitterの発リンクからnofollowが消えた事で、一部ハッシュ検索結果などは上位表示が見られていたんですが、それのさらなる改善&無駄クロール節約意図ですかね?

「Disallow: /*/followers」「Disallow: /*/following」といった追加は、確か以前からログイン必須なので無駄クロールにしかなっていなかったので、ブロックは価値があるかと。本来リンク自体が認識できなくなっていればいいのでしょうが。

一方「Disallow: /*/with_friends」ははずれているので今後クロールがかかるものの、canonicalでユーザのページ(私だと twitter.com/tsuj/)へ正規化しているページなので、意図はわからず。もともと内部リンクは無いもののこの規模のサイトだと相当クロールされるでしょうし、また次の更新でブロックが掛かる気もしますが。

あと、半分ネタの「# Crawl-delay: 10 -- Googlebot ignores crawl-delay ftl」も消えましたね。Googleは公式にCrawl-delayは無視すると言ってます。

普通はGoogleに任せるべきですが、多くてどうしようもないならGoogleウェブマスターツールの設定~クロール速度で制御するべき。

 http://support.google.com/webmasters/bin/answer.py?hl=ja&answer=48620

#ちなみに、この変化はTwitterの順位には影響するかもしれませんが、通常のサイトのSEOにはほとんど影響無しのはずですー。

変更内容

新(2013/2版)

#Google Search Engine Robot
User-agent: Googlebot
Allow: /?_escaped_fragment_

Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

#Yahoo! Search Engine Robot
User-Agent: Slurp
Allow: /?_escaped_fragment_

Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

#Yandex Search Engine Robot
User-agent: Yandex
Allow: /?_escaped_fragment_

Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

#Microsoft Search Engine Robot
User-Agent: msnbot
Allow: /?_escaped_fragment_

Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

# Every bot that might possibly read and respect this file.
User-agent: *
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following
Disallow: /oauth
Disallow: /1/oauth

# Wait 1 second between successive requests. See ONBOARD-2698 for details.
Crawl-delay: 1

# Independent of user agent. Links in the sitemap are full URLs using https:// and need to match
# the protocol of the sitemap.
Sitemap: https://twitter.com/sitemap.xml

 

 

旧(2012/11版)

#Google Search Engine Robot
User-agent: Googlebot
Allow: /?_escaped_fragment_

Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

#Yahoo! Search Engine Robot
User-Agent: Slurp
Allow: /?_escaped_fragment_

Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

#Yandex Search Engine Robot
User-agent: Yandex
Allow: /?_escaped_fragment_

Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

#Microsoft Search Engine Robot
User-Agent: msnbot
Allow: /?_escaped_fragment_

Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following

# Every bot that might possibly read and respect this file.
User-agent: *
Allow: /search?q=%23
Disallow: /search/realtime
Disallow: /search/users
Disallow: /search/*/grid

Disallow: /*?
Disallow: /*/followers
Disallow: /*/following
Disallow: /oauth
Disallow: /1/oauth

# Wait 1 second between successive requests. See ONBOARD-2698 for details.
Crawl-delay: 1

# Independent of user agent. Links in the sitemap are full URLs using https:// and need to match
# the protocol of the sitemap.
Sitemap: https://twitter.com/sitemap.xml