Readme for analog3.90beta2

Web の仕組み

この章は、誰かがあなたの web サイトに接続した時に何が起こるか、どのような統計を取れるか、取れないかについて説明します。これについては多くの誤解が生じています。実際には計算されずに、評価だけされたものを計算したと主張する統計プログラムによっては、助けは得られません。我々が知りたいと思い、知れると期待するある種のデータが、実際には無いというのが単純なる事実です。そして、他のプログラムが出力した評価というものが、単に外れているというだけではなく全く誤っています。例えば（理由は以下に見るでしょう）、もしあなたのホームページが10個の画像を含んでいるとして、AOL のユーザが訪れたとすると、大部分のプログラムは11人の異なる訪問者が来たと勘定します！

この章は割と長く書かれていますが、注意深く読むに値します。もし web の動作原理の基礎を理解すれば、web の統計が実際に意味するところを理解できるでしょう。

私は、この章がこれらの考えに対する幾つかの過去の説明依存していることを言うべきでしょう。特に、以下の4つの記事を読むことをお勧めします。 Doug Linder による WWW 統計の説明； Dana Noonan による Web 使用の統計の意味； Tim Stehle による使用の統計の実際の意味；そして最も否定的なのは、Jeff Goldberg による何故 Web の仕様統計は（悪いというより）意味が無いかです。

1. 基本モデル 私があなたの web サイトを訪れたとしよう。どこかのホームページからリンクを辿って、あなたの表のホームページにたどり着き、幾つかのページを読み、そしてリンクを辿ってあなたのサイトの外に出て行く。

これで何が分かったのだろうか。最初に、私はあなたの表紙に1つのリクエストをした。あなたは、リクエストの時刻と、（もちろん）どのページをリクエストしたのかと、私のコンピュータのインターネットアドレス（私の ホスト）を知る。私は、また通常、どのページからあなたのサイトを参照したかと、私のブラウザーの製造元とモデルを告げることになる。私のユーザー名と電子メールアドレスは告げない。

次に、そのページに画像があるかどうかを見る（むしろ私のブラウザーが行うのだが）。もし画像があり、私のブラウザーの画像取り込みを許可していたら、これらの画像の取り込みのため、別の接続を行う。私は、決してあなたのサイトにはログインはしない。私は、単に私がダウンロードしたい新しいファイルに会うたびに、一連のリクエストを行うだけである。これらの画像を参照しているのはあなたの表紙のページです。多分10枚位の画像があなたの表紙にあるでしょう。これで、私はあなたのサーバーに11個のリクエストを行った。

その後、あなたの他のページを訪問しに行き、私の望む各ページと画像に新しいリクエストを行う。最後に、リンクを辿ってあなたのサイトの外に出て行く。あなたは、これについては全く気がつかない。私は、あなたに何も告げずに、単に次のサイトに接続を行うだけである。

2. キャッシュ 上記の様にいつも必ずうまくいくとは限らない。一つの大きな問題は、キャッシュだ。キャッシュには大きく分けて2種類ある。最初に、ブラウザーはファイルをダウンロードすると、それらを自動的にキャッシュする。もしもう一度それらを見に行った場合、例えば翌日、全体のページを再びダウンロードする必要が無いことを意味する。ブラウザーの設定に依存するが、ページが変更されていないかどうかを確認するかもしれない。その場合には、あなたはそれを知るし、analog はそれをそのページに対する新しいリクエストとみなす。しかし、ブラウザーを再確認しないように設定するかもしれない。そのときには、あなたが知らない間に、私はそのページをもう一度読むでしょう。

他の種類のキャッシュはもっと大きなスケールのものである。私はイギリスに居る。大西洋を越えたリンクは、時には非常に混雑するので、国単位のキャッシュを設定している。（多くの個々の ISP も同じ事をしている。）あなたのページを直接見に行く代わりに、国別キャッシュからそのページを見に行くように、私のブラウザーを設定することができる。わが国の誰かが最近あなたのページを見るためにキャッシュを使ったならば、キャッシュはその情報を保存し、あなたにその事を告げずにそれらを私に与えるであろう。そのため、あなたのページが立った一度だけ送られたとしても、何百人もの人があなたのページを見たかもしれない。また、もし私の望むページがまだキャッシュに溜められていないときにも、キャッシュが私の代わりにあなたからそのページを要求するだろう。これは、リクエストが、私からではなくあたかもキャッシュから来たかのように見えている。もし何人かの人がこれを行えば、あなたには多くの異なるホストではなく、ただの一つのホストがキャッシュにアクセスしているように見える。

3. 確実に分かること 確実にあなたが分かることは、あなたのサーバーになされたリクエスト数、それらがいつ行われたか、どのファイルがリクエストされたか、それにそれらに対してどのホストがリクエストしたかだけである。

あなたは、ブラウザーの種類と参照ページが何であるかも知ることが出来る。しかし、多くのブラウザーは故意にブラウザーの種類を偽るか、ブラウザー名をユーザが設定できると言うことに注意すべきである。また、幾つかのブラウザーは誤った参照元を送り、そのページを参照したわけではないのに、最後に見たページがあたかもそれであるかのようにあなたに伝える。

4. あなたが知りえないこと

閲覧者を特定出来ない。あからさまにユーザにパスワードを要求しない限り、誰が接続したか、またかれらの電子メールアドレスを知ることは出来ない。
何人の訪問者が来たか分からない。リクエストした異なるホスト数を勘定すれば推測はできる。しかし、3つの理由からこれは常に良い評価とはいえない事がわかる。1番目の理由として、ユーザがあなたのページをキャッシュサーバから取って来た場合には、あなたにはそれを知るすべは無い。2番目に、時々、多くのユーザが同じホストから接続しているかのように見えることがある。同じ会社あるいは ISP からのユーザか、同じキャッシュサーバを使っているユーザである。最後に、時には一人のユーザが多くの異なるホストから接続しているように見えることがある。AOL は、今や 各リクエストに対して異なるホスト名を割り当てている。そのため、あなたのホームページが10個の画像を含み、AOL ユーザがそのページを閲覧した時には、大部分のプログラムはそれを11人の異なる訪問者が来たと勘定するでしょう。
閲覧の回数は分からない。広告企業からの圧力のもとで、多くのプログラムは、"訪問" （あるいは "セッション"）を30分立つまでは、同じホストからの一連のリクエストだと定義してしまう。これは幾つかの理由から健全な方法とはいえない。最初に、各アクセスするホストは異なる人物からのアクセスに相当すると、あるいは逆が成り立つと仮定している。これは、前の段落で議論されたように実際には全く正しくない。2つ目に、本当の訪問では30分の間隔がけっしてあるわけではないと仮定している。これも正しくはない。私の場合で言えば、しばしばリンクを辿ってサイトの外に行き、私のブラウザーに戻って、元居た最初のサイトを探索を続けることがある。私がこのようなことを29分か31分後に行うことが実際に問題となるのだろうか。最後に、計算を扱いやすいものとするために、そのようなプログラムは、またあなたのログファイルが時間通りに記録されていることを仮定している。これは常にそうとは限らないが、analog は、あなたが行をごちゃ混ぜにしても同じ結果を生成する。
クッキーはこれらの問題解決とはならない。幾つかのサイトでは、クッキーを使って訪問者の数を勘定しようとしている。しかし、クッキーを受け付けることができないか受け付けようとしないページを読者に読ませないようにするなら、このようなことは可能である。それにあなたは、次回のリクエストの時同じクッキーを訪問者が使うと仮定しなければならない。
あなたのサイトを通過する人のリンクを追うことは出来ない。たとえ、各人がホストに1対1に対応すると仮定しても、あなたのサイトを通過する人のリンクを知ることは出来ない。人が一度以前訪れたページを再度尋ねることは良くあることである。ブラウザーがそれらをキャッシュしているため、これらその後のそのページに対する訪問をあなたが知ることはないでしょう。そのため、あなたのサイトを訪れた彼らの足跡を正確に辿ることは出来ません。
しばしば、彼らがどこからあなたのサイトを訪れたか、またはどこからあなたのサイトを見つけたのかは分かりません。もしキャッシュサーバを使ったときには、キャッシュからあなたのホームページを捜し求めることは出来るでしょうが、それに引き続くページ全てを探すことはできません。従って、リクエストしていると分かっている最初のページは、真の訪問の中間に位置するでしょう。
彼らがどのようにしてあなたのサイトから去ったか、あるいは次にどこへ行ったかは分からない。彼らは、別のサイトへの接続については何もあなたには告げないので、それについてする術は無い。
各ページを読むのにどれくらい時間を掛けたかは分からない。もう一度繰り返すと、彼らが、一連のページのうちのどのページを読んでいるかはあなたには分からない。彼らは、以前ダウンロードした数ページを読んでいるかもしれない。彼らは、あなたのサイトからリンクを辿って外に行き、後に戻ってくるか、戻ってこないかもしれない。彼らは、マインスイーパのゲームをちょっとやってみるために、ページを読むのをやめているかもしれない。あなたには、それは分からない。

最低言えることは、HTTP は状態の無いプロトコルだということである。これは、人はログインせずに幾つかの文書を捜し求められることを意味する。彼らは、彼らの望む各ファイルに対し、個別に接続することが出来る。それに、大部分の時間、彼らは、一つのサイトにログインしたかのようには振舞わない。 これが、ユーザが何をしているか推測するよりも、analog がリクエスト、すなわちあなたのサーバに何が起きているかを報告している理由である。

私は、何をあなたが見つけられないかを強調しながら、ここでやや否定的な見方を紹介した。けれども、Web の統計は情報に満ちている。 "このぺーじは、30,000 件のリクエストを受けた" という事実から、 "30,000 人の人がこのページを読んだ" という間違いを犯さないと言う意味で重要である。ある意味でこれらの問題は、Web の世界では新しくない。 -- これらは、印刷媒体でも存在することである。例えば、販売された雑誌数を知っているだけで、何人の人がそれらを読んだかは分からない。印刷媒体では、手に入るデータを使って、これらの問題と向き合っている事を知っている。Web 上でも、架空の数字をでっち上げるよりも、同じ事をするほうが良いのは明らかである。

Stephen Turner
analog についての質問はanalog-help のメーリングリストを読んでください。

[ 先頭 | 上へ | 前へ | 次へ | 目次 | 索引 ]