統計/機械学習 | データ分析な日々

統計学に関係するやつ全般

大数の法則（弱法則）の仮定を無視したデータの標本平均

2024/07/09統計/機械学習

大数の弱法則とは

$n$個の確率変数について$X_1, ~X_2, \ldots, X_n, ~i.i.d. \sim (\mu,~\sigma^2)$であるとき、標本平均$\overline{X}_n := \frac{1}{n}\sum_{i=1}^{n}X_i$、$\mu$、$\forall \epsilon ...

記事を読む

BREAKING DOWNは犯罪を増加させるのか？

2024/07/08統計/機械学習

はじめに

私は非公式でBREAKING DOWN のコンサルタント、通称BDコンサルをやっている者です。

今回は、「BREAKING DOWNは犯罪を増加させるのか？」という問いに対して、計量経済学の分野で用いられる時系列データ間の因果関係分析の手法を用いて検証してみました。「BREAKING DOWN ...

記事を読む

MMMの課題と展望

2024/05/09統計/機械学習

2024/05/22

はじめに

広告・マーケティング関係の仕事をされている方は、MarketingMixModeling(MMM)という手法を聞いたことがあるのではないでしょうか。重回帰ベースの手法を用いて広告の効果を計測し、よりよい広告出稿プランに繋げるためのソリューションです。

少し前には、Google×博報堂、Goog ...

記事を読む

因果推論の仮定について

2024/05/06統計/機械学習

2024/05/10

はじめに

本記事では、統計的因果推論を実行する際に置かれている仮定について書いていきます。

実務においても、傾向スコアやDIDなど、因果推論の手法が使われることはよく耳にしますし、利用されている方も多いと思います。

一方で、実務の現場では、これらの手法が利用できる条件や、因果効果を識別するた ...

記事を読む

栄養素の相関を分析して、お得な栄養素を見つけたかった

2024/03/28統計/機械学習

はじめに

健康のためにバランスの良い栄養素を摂る必要があるのはわかるんですが、必要な栄養素が多くてこの辺の知識に疎い私のような人間にとっては覚えるのはかなり厳しいです。例えば、厚生労働省作成の「日本人の食事摂取基準（2020年版）」は下図のような基準を出しています。

日本人の食事摂取基準（2020 年版）, ...

記事を読む

GoogleのMMM Meridianの特徴

2024/03/19統計/機械学習

2024/05/02

はじめに

2023年3月、GoogleからMeridianというMarketingMixModel（以下、MMM）のパッケージが一部公開されました。

Googleは以前からLight weight MMMというライブラリをオープンソースで公開していたので、それが更新された形になります。Meridianが ...

記事を読む

2023年 M1グランプリの考察 – ネタ中のボケは何回が適切か？ –

2024/01/01統計/機械学習

2024/07/07

はじめに

私は普段、M1コンサルタント・M1サイエンティストをやっている者です。
自分たちでM1優勝を目指す傍ら、M1に出場する芸人さんのコンサルもしています。

毎年やっているM1分析の連載も、早くも3年目となりました。過去には、審査員の評価の相関関係やクラスタリング分析の結果から、M1グランプ ...

記事を読む

尤度や情報量規準を使ったグラフィカルラッソ（glasso）に対するクロスバリデーション

2023/12/23統計/機械学習

2024/03/22

グラフィカルラッソのハイパーパラメータはクロスバリデーション（CV）でも決めることができます。

この辺は、例えば井出先生がサラッと言及1してたり、論文を漁ると普通に「CVで決めました」などと書かれていますが、日本語で具体的にどうやっているかを書いているものが見当たらなかったので紹介します。また、これを ...

記事を読む

Ridge, LASSO回帰の罰則パラメータはサンプルサイズが大きくなるとどうなるか

2023/12/22統計/機械学習

線型回帰モデルに対する正則化は、あえて回帰係数にバイアスを持たせることで汎化性能を高めたり、多重共線性の問題を回避したりすることができる技術です。正則化を用いる場合、最小化する損失関数は以下の形になります。

$$\frac{1}{n}\|\boldsymbol{y} – \boldsymb ...

記事を読む

目的変数は標準化する？標準化が予測精度と学習時間に与える影響

2023/12/18統計/機械学習

2024/06/25

回帰分析を題材に、特徴量と目的変数それぞれを標準化するかしないかでどのように結果が変わるかを確認してみます。

なお、標準化の定義は以下の式の通り、平均0分散1にスケーリングするものとします。また、テストデータに対する標準化には学習データで計算された統計量を使うものとします。

$$z_i = ...

記事を読む