大数の法則(弱法則)の仮定を無視したデータの標本平均
大数の弱法則とは
$n$個の確率変数について$X_1, ~X_2, \ldots, X_n, ~i.i.d. \sim (\mu,~\sigma^2)$であるとき、標本平均$\overline{X}_n := \frac{1}{n}\sum_{i=1}^{n}X_i$、$\mu$、$\forall \epsilon>0$に関して
$$\lim_{n \rightarrow \infty}\Pr \left (|\overline{X}_n – \mu| \geq \epsilon \right) = 0$$
が成り立ち、これを大数の法則といいます。
「あるデータが有限の母平均$\mu$と母分散$\sigma^2$を持つ分布に互いに独立に従っているなら、そのデータの標本平均はサンプルサイズを増やせばどんどん期待値(母平均)に近づく」ということです。
ポイントとなる仮定は以下の通りです。
- サンプルが互いに独立
- 同じ分布に従っている
- 有限の平均と分散を持つ
- サンプルサイズが莫大
しかし、仮定はありますが所詮は平均値。母平均が存在するのであれば、割とどんなデータでも標本平均はそこそこ母平均に近づくという思いが拭えません。
ということで、この記事では上記の仮定が満たされないときに標本平均はどのような挙動をするのかを数値実験で確認してみます。
確認:大数の弱法則の仮定を満たす場合の標本平均の可視化
互いに独立に指数分布に従う場合
$X_i, ~i=1, \ldots, n$は互いに独立にパラメータ$\lambda$の指数分布に従うとします。指数分布の確率密度関数は
\[
f(x) =
\begin{cases}
\frac{1}{\lambda} e^{-\frac{x}{\lambda}} & \mbox{$x \geq 0$}, \\
0 & \mbox{$x < 0$}
\end{cases}
\]
であり、平均は$\lambda$、分散は$\lambda^2$です。$\lambda = 5$として、$N=1$から$5000$まで徐々にデータを増やしたときに標本平均がどうなるかをみてみます。なお、サンプリングはランダムであるため、乱数シードを変えて100パターンのサンプリング結果を可視化します。
横点線は母平均$\mu$を表します。理論通りそれぞれ母平均に収束してそうです。ただ、ちょっと最初の値によって図が見づらいので、以降はy軸の範囲を適当な見やすい範囲に絞ります。さらに、「$N \rightarrow \infty$」の厳しさを確認するため、このグラフのみ$N=300,000$まで生成してみます。
着実に母平均に近づいてます。標本平均の標準偏差は$\frac{\sigma}{\sqrt{N}}$で表されるようにサンプルサイズの平方根の関数になっているため、最初は一気にばらつきが減って$N$が大きくなると緩やかになるという理論通りの挙動をしています。ちなみに、この図であるサンプルサイズに対応する標本平均の分布が正規分布に分布収束するというのが中心極限定理です。
母平均が存在するなら混合分布でもオッケー
互いに平均が5の正規分布と指数分布の混合分布(混合比率=0.5)で実験してみます、標本分布はこんな感じです。
指数分布は非負なので、0あたりで崖の様になっています。標本平均の推移は次のとおり。
こちらも理論通り、徐々に母平均に近づいてます。
仮定を満たさない時の挙動
1. 弱定常時系列(✖️サンプルが互いに独立)
ある時系列が以下の3つの性質を満たすとき、その時系列は弱定常であるといいます。
- 期待値が時点によらず一定
- 分散が時点によらず一定
- 自己共分散はラグ次数のみに依存する
期待値と分散が一定で、相関パターンが決まった周期である時系列です。自己回帰(AutoRegressive, AR)モデルはある条件のもと定常過程であり、例えばこんな系列です。
こちらの系列は、
\[y_t = 1 + 0.5 y_{t-1} + \epsilon_t, ~\epsilon_t \sim \mathcal{N}(0, ~1)\]
によって生成しています。弱定常の定義からも、明らかに「サンプルが互いに独立」ではないため、大数の法則は成り立たないように思えます。
定常なARモデルは母平均の期待値$\mu$と分散$\sigma^2$を計算でき、この場合だとそれぞれ$\mu=\frac{1}{1 – 0.5} = 2, ~\sigma^2 = \frac{1}{1 – 0.25} \approx 1.3 $と計算できます。よって、大数の法則が成り立つのであれば標本平均は2に近づいていくはずです。先ほどと同様、サンプルサイズと標本平均の関係をみてみます(時系列なので、毎日データを観測して全データの平均値を計算し直していくイメージ)。
標本平均が母平均に近づいているようです。ただし、仮定を満たす場合と比べて収束のスピードが遅く、標本平均自体もしばらくバラついているように見えます。サンプルサイズを増やしてみましょう。
$N=8000$辺りからいい感じに収束してそうですが、やはり仮定を満たした場合と比べるとバラついています。
実は、弱定常過程でも大数の法則が成り立つことや、(ちゃんとした文献は見つけられませんでしたが)収束速度もi.i.d 確率変数とは異なることが知られているそうです1。詳しくは Hamilton の “Time Series Analsis" の7.2をご参照ください。
2. 一部分散が異なるデータ(✖️同じ分布に従っている)
標本平均に関心があるため、この設定は前述の「母平均が存在するなら混合分布でもオッケー」とほとんど同じです(確率的に分散を大きくするか、ある時点から確定的に分散を大きくするかの違い)。したがって、この場合も標本平均は大数の法則により母平均に収束します。
試しに最初の15万サンプルは分散1、後半の15万サンプルは分散が5になるデータで標本平均を見てみましょう(使用している機械が老朽化して精度が落ちた、みたいな状況)。
3. 平均は存在するけど分散が発散する分布に従う確率変数(✖️有限の分散をもつ)
パレート分布で実験します。確率密度関数は次のとおり。
\[f(x) = \begin{cases}\theta k^\theta x^{-\theta-1} & \mbox{$x \geq k$}, \\0 & \mbox{$x < k$}.\end{cases}\]
この分布は$1 < \theta$の時に期待値が存在し、$2 < \theta$の時に分散が存在します。よって$1 < \theta \leq 2$の時に期待値は存在するが分散は存在しないという状態になります。この実験では$\theta = 1.5, ~k = 1$とし、期待値は$\frac{\theta}{theta – 1} = 3$で分散は存在しません。3000サンプル生成した時の分布はこんな感じ。
極端に1らへんに偏り、稀に莫大な外れ値が生じるという、モーメントが発散する分布にありがちな特徴です。では、サンプルサイズと標本平均の関係を見てみましょう。
稀に生じる正の莫大な外れ値によって、標本平均が正の方向に大きくジャンプしているのがわかります。全体としては母平均に向かってるように見えなくもないですが、サンプルサイズを大きくしてみましょう。
こうしてみると、多くの標本平均は母平均に近づいてはいますが、いつそれらが大きく乖離してもおかしくないということがわかります。単純に分散が大きいデータと異なり、このように「たまに大きく外れる」というのが大きな特徴です。
4. 平均も分散も持たない分布に従う確率変数(✖️有限の平均と分散をもつ)
平均を持たない場合はそもそも大数の法則の不等式を定義できないので、不都合が生じるか以前の問題ではありますが、一応標本平均がどんな挙動をするのかだけ確認してみます。
分布の中心が0である標準コーシー分布を例に挙げます。こちらの記事にコーシー分布の異常さは書きましたので、別途ご参照いただけたらと思います。サンプルサイズと標本平均の関係は以下の通りです。
パレート分布と異なり、正負どちらにも外れ値があるのでこのようなクリスマスツリーのような形になります。サンプルサイズを増やしてみます。
全然ダメですね、恐ろしい分布です。
まとめ
- 定常な時系列データや分散が時点によって異なるデータに対しても適用できる。大数の法則にはいろんなバージョンがある。
- 平均が発散する場合は大数の法則は使えない(というか定義できない)。ただし、現実的な使い方として、平均値が発散すると仮定されるような現象が少ないと考えられ、実用上はあまり問題として上がらない?
- 平均は存在するけど分散は発散するというデータでは、基本的に母平均に近づくが、外れ値によってたまに大きく外れる。言い方を変えると、標本平均が安定していてもいつ大きく乖離してもおかしくない。
参考
- KAKEN HP「定常過程の極限定理とそれらの統計学への応用」 https://kaken.nii.ac.jp/ja/report/KAKENHI-PROJECT-05640264/056402641993jisseki/ ↩︎