ZAPAnet総合情報局 > [Z]ZAPAブロ〜グ2.0 > プログラミングTIPS > Alexaの信頼性〜実際のサーバーログと比較して〜

Alexaの信頼性〜実際のサーバーログと比較して〜

このエントリーをはてなブックマークに追加
2007年06月26日 カテゴリ:プログラミングTIPS
全世界のWebサイトの訪問状況を調べ、訪問者数の多いページをランキングしている「Alexa」。
このAlexaのデータについて語っている人を分けるとすると、以下の2タイプに分けることができます。
Alexaのデータなんて信用できない!
と言う人と、
Alexaのデータは信用できる!
と言う人です。

個人的にはどっちもどっちだと思いますが、Alexaの信頼性について語っている人の多くは、その理論の元となるデータを示していません。
多くのデータを元にランキングしているから信頼できる
一部のサンプルからのデータだから信頼できない
と言っているだけでは、どちらも信頼できる発言とは言えません。

では、なぜ証拠にできるだけのデータを示せないのかというと、
1. 証拠となるデータはあっても、企業のアクセスログを公開するわけにいかないから
2. アクセス数が少なすぎて、まともなランキングデータを持つサイトを持っていないから
のどちらかの原因が元で、データを示せないからです。

Alexaのランキングの性質上、それなりのアクセス数がないとまともなデータが表示されません。
最低でも月間500万ページビューくらいはないと信頼のあるデータとは呼べないはずです。(この点については後述します)

だったら、うちのドメイン(zapanet.info)のAlexaデータと実際に運営しているサーバーのアクセスログを比較してみよう!

と思いついてしまったので、比較してみることにしました。

1. Alexaのデータについて

まず、「zapanet.info」のAlexaデータは、
Related Info for: zapanet.info/
のページで確認することができます。
今年も約半年が経過したと言うことで、2007年上半期のデータを元に考察してみます。

2. AlexaのReach

Reachとは、「Percent of global Internet users who visit this site」だそうです。
「zapanet.info」のReachは下図1になります。


図1. zapanet.infoのReach


このグラフを見て直感的に、
「3月からアクセス数が急激に増えたのではないか」
と思うのではないでしょうか?
実際のサーバーのアクセス数とはまだ比較しないことにして、次はTraffic Rankのグラフを見てみます。

3. AlexaのTraffic Rank

Traffic Rankとは、「Alexa traffic rank based on a combined measure of page views and users」だそうです。
「zapanet.info」のTraffic Rankは下図2になります。


図2. zapanet.infoのTraffic Rank


このグラフを見て、
「2月から5月くらいまでは、同じくらいアクセス数があったのではないか」
と思うのではないでしょうか?
上で見たReachのグラフとは違う印象を持つはずです。
次に、Page Viewsのグラフを見てみます。

4. AlexaのPage Views

Page Viewsとは、「The number of unique pages viewed per user per day for this site」だそうです。
「zapanet.info」のPage Viewsは下図3になります。


図3. zapanet.infoのPage Views


このグラフを見て、
「2月の初めに、アクセス数が急激に伸びたのではないか」
と思うのではないでしょうか?

5. Alexaのグラフ3つから読み取れたこと

今まで見てきた3つのグラフの感想を羅列してみると、
・3月からアクセス数が急激に増えたのではないか
・2月から5月くらいまでは、同じくらいアクセス数があったのではないか
・2月の初めに、アクセス数が急激に伸びたのではないか
となります。

ランキングデータである以上、周りのサイトとの関連性もあります。
関連性があるとは言え、3つのグラフから「実際のサーバーのデータ」を読み解くのは少し難しいと言えます。

みなさんは、以上3つのグラフから、一番ページビュー数が多かったのは何月で、一番ユニークユーザー数が多かったのは何月だと感じたでしょうか?
2月でしょうか?3月でしょうか?
・アクセス数が多かったのは何月?
・ユニークユーザー数が多かったのは何月?
では、次に「実際のサーバーのデータ」を公開します。

6. 実際のサーバーのデータ(Webalizerのアクセス解析データより)

以上Alexaのグラフを確認したところで、実際に「zapanet.info」のアクセスログを公開します。
アクセスログの解析には、apacheログ解析ソフト「Webalizer」を用いました。
去年の12月から今年の5月までの各月間データを下表に示します。

年月 ページビュー数
(Pages)
ユニークユーザー数
(Visits)
転送量
(KBytes)
2006年12月 7683482 1051515 214305505
2007年 1月 20556492 4537585 582919257
2007年 2月 16179686 5485717 518669129
2007年 3月 14252646 5055221 329808172
2007年 4月 10801620 3883759 89555142
2007年 5月 11891897 4245294 96289979

この表からわかる通り、「一番アクセス数が多かったのは、1月でした!」
実は月間2000万PVを越えていて、ダントツの結果でした。
ユニークユーザー数は、2月、3月、1月の順で多い結果でした。

上のAlexaのグラフを見て、1月が1番アクセス数が多いと予測できた人はどれくらいいたでしょうか?
1月以外の他の月と比べて、ページビュー数がこれほど多かったのにもかかわらず、Alexaのデータには反映されていませんでした。
Alexaのデータなんて信用できない!
という人の意見を信じたくなるような結果になりました。

7. 2007年4月から転送量が激減している点について

上の表を見て、2007年4月から転送量が激減していると気付いた人もいるかと思います。
転送量が減ったことについてはもちろん理由があって、「mod_deflate」を導入したからです。
ファイルを圧縮するmod_deflateの効果
3月23日から「mod_deflate」を導入したため、転送量が激減しました。

転送量とAlexaのデータを比較してみると、転送量が減ったからといって、Alexaのランキングが変動しているようには見えません。
ランキングと転送量はあまり関係ないようです。

8. ページビュー数が少ないと信頼性が低い理由

冒頭で、
Alexaのランキングの性質上、それなりのアクセス数がないとまともなデータが表示されません。
最低でも月間500万ページビューくらいはないと信頼のあるデータとは呼べないはずです。
と言ったのには理由があります。

「zapanet.info」の1年間のTraffic Rankを下図に示します。


図4. zapanet.info1年間のTraffic Rank


グラフを見てわかるとおり、100000位以下は、グラフが切れてしまっています。
また、80000〜100000位辺りでは同じくらいの規模のサイトが多いため、誤差も生まれやすくなっています。
それで、「ページビュー数が少ないと信頼性が低い」と冒頭に言いました。

9. 他のサイトと比べてみる

これまでの結果では、「Alexa信頼できない派」を助長するような結果になりました。
ここでは、自サーバーのデータの比較ではなく、他サーバーのデータとの比較を行ってみます。
比較をするには、「月間ページビュー数を公開しているサイト」でないと比較できません。
そこで今回は、約50台のサーバーで月間1000万ページビュー近くをさばく、「Weblio」と比較してみることにしました。
月間1000万ビュー近くのアクセスを自社内の40〜50台の中古パソコンでさばくWeblioのシステム
「月間1000万ページビュー」、「40〜50台のサーバー」と聞くと、それだけでなんだかすごい気になってしまいます。
しかし、少し冷静になって考えてみると、「zapanet.infoの2月のページビュー数の半分くらい」であることに気付きます。
このデータを元に、Alexaのグラフを比較してみます。

上から順に、Reach、Traffic Rank、Page Viewsの比較図5、6、7を示します。
青い線が「zapanet.info」、茶色い線が「weblio.jp」です。


図5. zapanet.infoとweblio.jpの比較(Reach)



図6. zapanet.infoとweblio.jpの比較(Traffic Rank)



図7. zapanet.infoとweblio.jpの比較(Page Views)


これらのグラフを見てみると、「相対的なランキング」については決して信頼度が低いとは言えない感じがします。(特に、2月以降のPage Viewsなど)
絶対的な指標としては、Alexaのサーバー状況やその他の要因などに影響を受けるため、イマイチ信頼性の低いデータになってしまうのかもしれません。
しかし、他のサイトと比較する相対的な指標としては、それなりに信頼度は高そうに感じます。
もちろん、ある程度アクセス数の多いサイトであるという前提付きではありますが。
Alexaのデータは信用できる!
と言っている人たちは、Alexaのデータを相対的に見て判断しているのかもしれません。

10. Alexaの仕組みについて

ここまでいろいろと調べてきたAlexaについてですが、Alexaの仕組みについては秋元@サイボウズラボ・プログラマー・ブログの秋元さんが詳しく記事にしています。

MarkeZine:◎Alexa(アレクサ)内部の仕組みとは?
結局、Alexaにデータを送っている人の統計でしかない

現在のAlexaは、主にアレクサ・ツールバーを配布し、そこから収集したアクセス先やアクセス回数のデータを集計することで、各ドメインへのアクセス数や頻度の統計を作っていることがわかりました。
秋元@サイボウズラボ・プログラマー・ブログ: Alexa ランキング―どれだけ信頼できるか―
MarkeZine:◎Alexa(アレクサ)とは何か - 第1回
MarkeZine:◎Alexa(アレクサ)の統計情報の読みかた
MarkeZine:◎Alexa(アレクサ)内部の仕組みとは?
MarkeZine:◎Alexa Toolbar(アレクサツールバー)をインストールしてみる
(追記:秋元@サイボウズラボ・プログラマー・ブログ: Alexaの統計とサーバ側統計を比較されている記事の紹介で、日本のネット業界とWeb 2.0が下り坂って本当?:ITproの記事もオススメされていました)

また、Alexaについていろいろ意見を述べているブログなどもあります。
Alexaのアクセス数評価を信用してはいけない - Nothing NEW - by itochan
Why You Should Completely Ignore Alexa Stats - PaulStamatiou.com
Matt Cutts: Gadgets, Google, and SEO ≫ Thoughts on Alexa data
Alexa - 世界のトラフィックランキングを表示 :: SEM R
Japan.internet.com Webテクノロジー - Alexa ランキング―どれだけ信頼できるか―

11. 最後に

今回の「Alexaデータと実際のサーバーログの比較」では、残念ながらそれほどAlexaの信頼性が高いとは言えない結果になりました。
相対的なランキングでは信頼性が高そうに感じましたが、今回比較したサイトはたった1サイトだけでした。
もし、他にもアクセス数を公開しているサイトがあったり、運営しているサイトのアクセス数と比べてみようと思ったたりしたときは、ぜひ今回の「zapanet.info」のデータも参考にしてみてください。
ただなんとなく「信頼できる!」、「信頼できない!」と言い合うのではなく、実際にデータを取って調べてみることが大事だと思います。


追記: Alexaの信頼性その2〜某ゲーム情報サイト運営者の見解〜