BREAKING DOWNは犯罪を増加させるのか?

データサイエンス

はじめに

私は非公式でBREAKING DOWN のコンサルタント、通称BDコンサルをやっている者です。

今回は、「BREAKING DOWNは犯罪を増加させるのか?」という問いに対して、計量経済学の分野で用いられる時系列データ間の因果関係分析の手法を用いて検証してみました。「BREAKING DOWNは犯罪を増加させるのか?」という問いの答えのみ知りたい方は、まとめの節だけ読んでください。

背景と目的

まずはBREAKING DOWNについて簡単に説明します。BREAKING DOWNは格闘家の朝倉未来がプロデュースする格闘エンタメバラエティ(?)であり、Youtubeで公開されている人気コンテンツです。Wikipediaを見る限り、2021年2月から始まったもののようで、2024年6月現在では多くの日本人が知っている人気コンテンツです。

一方、その人気とは裏腹に、一部の方々からは批判を受けていることもあります。批判の大きな要因となっているのは、BREAKING DOWN出場者の中で逮捕者が続出していることではないでしょうか。暴力的なシーンが多いことから、"犯罪を助長している"、"子供の教育に良くない"、といった意見も出ているようです。

これに対し、CMOの溝口さんは次のように語ります。「BREAKINGDOWNが犯罪を増やしていると言われることがあるが、増やしていない。警察が出している統計では、令和2年と比較して脅迫・恐喝・暴行・傷害の件数は減っている。BREAKING DOWNからは逮捕者も発生したが、不起訴・示談になっていることが多い。印象で多くのレッテルを貼られるが、犯罪は増えていない。」
(一部修飾語など加筆していますが、意味は変えていません。ソースはこちらの20:57~あたり)

私はBDコンサルタントの立場として、「"世間の犯罪が減っている" → “BREAKING DOWNは犯罪を増やしていない"」という部分の議論に違和感を感じ、今回の検証実施を始めました。

本分析では、統計的・定量的な観点から、「BREAKING DOWNは犯罪を増加させるのか?」という問いに対して示唆を得ることを目的とします。

利用データ

利用するデータは下記です。

  • ブレイキングダウン" のYoutube検索回数データ
    Google trendからYoutube上の検索回数を入手し、利用しました。本来であれば視聴回数のデータを用いるのが良いと思いますが、時系列での視聴回数のデータを入手することができなかったので、Youtube上での検索回数のデータを用いています。
    “ブレイキングダウン" と “BREAKING DOWN"の日本国内での検索回数を比較した所、"ブレイキングダウン" の方が圧倒的に検索量が多かったので、今回はカタカナ表記の"ブレイキングダウン" の検索回数を変数として用いています。元データは週次レベルのデータだったので、月次に加工して分析に利用しました。
  • 犯罪数データ
    政府の統計 e-Statから取得しました。月次の粒度でしか取得できなかったので、他のデータも月次の粒度に合わせます。犯罪にも様々な種類がありますが、今回はBREAKING DOWNにより関連すると思われる「粗暴犯」の犯罪数のデータを利用しています。「粗暴犯」の定義には、暴行・傷害・脅迫・恐かつ、などが含まれており、本分析の対象として適切に考えます。

データは、2021/1 ~ 2024/3のデータを月次データを用います。データ点数は39点であり、かなり少なめです。

分析

時系列データから因果関係を考察する手法は、Granger因果性検定・インパルス応答分析・予測誤差分散分解、という3つの代表的な手法があります。
以下では、まずは簡易的な可視化を実行後、それぞれの手法について分析を進めていきます。

基礎分析

まずは、犯罪数と検索数の数値について、元データを可視化してみましょう。時系列データに対して相関係数を出力すること単体では大きな意味はありません(見せかけの回帰が発生してしまうため)が、相関係数も出力してみます。
ちなみに本分析では基本的に、統計解析ツールのRを用いていきます。

前述の通り相関係数は参考程度ですが、値は0.38となっています。また、BREAKING DOWNが盛り上がり始めた2022年以降の期間でみると、値は0.24になります。どちらも、相関があるとは言えません。単純に相関係数をみるだけだと、BREAKING DOWNと犯罪数には明確な関連があるとは言えません。

(仮に、BREAKING DOWNが犯罪を増加させるとすると、その影響は短期的なものだけではない可能性が高いです。そのため、しっかり計算するのであれば、ラグをとるなどして長期的な効果の発生を加味した相関係数を見るべきしょう。今回は相関係数は簡易的なチェックだけということもあり、そこまでは考慮していません。)

次節から、Granger因果性検定/インパルス応答推定/予測誤差分散分解、という順で、計量経済学的な分析に入っていきます。

Granger因果性検定

まず初めに、簡易的に時系列データ間の因果関係を考察する手法として、Granger因果性の検定があります。
Granger因果性検定の詳細は、例えば沖本本やwebだとこちらなどを参照頂きたいですが、簡単にいうと、「ブレイキングダウンの検索数のデータを用いることで、犯罪数の予測が向上するか(予測の残差が小さくなるか)」をみる考え方となります。予測が向上する場合、"Grangerの意味で"因果関係がある、と判断できる手法です。

今回は、犯罪数・ブレイキングダウン検索数、という2つの変数を用いて2変量VARモデルを構成し、そちらをベースにGranger因果性を検定する方針で進めます。2変量VARモデルのイメージは下記のとおりです。

\begin{cases}
Y_{t} = c_{1} + \sum_{i=1}^{p} a_{11,i} Y_{t-i} + \sum_{i=1}^{p} a_{12,i} X_{t-i} + \epsilon_{1,t} \\
X_{t} = c_{2} + \sum_{i=1}^{p} a_{21,i} Y_{t-i} + \sum_{i=1}^{p} a_{22,i} X_{t-i} + \epsilon_{2,t}
\end{cases}

重要なのは\( Y_t \), \( X_t \), \( a_{12,i}\), の部分であり、それぞれ、下記の意味合いです。

  • \( Y_t \): 時点 \( t \) における犯罪数
  • \( X_t \): 時点 \( t \) におけるブレイキングダウン検索数
  • \( a_{12,i}\): 犯罪数予測モデルでの、検索数の時点 \( i \) ごとの係数

犯罪数\( Y_t \)を予測するモデルで、検索数の係数 \( a_{12,i}\) が全時点で0になる場合に、"予測精度が向上しない"、即ち、"Grangerの因果関係がない"、と解釈することになります。

“Grangerの意味で"と強調しているのは、Granger因果性は、因果関係の必要条件であって十分条件ではないためです。
そのため、純粋な因果関係としては解釈できない点にご注意ください。

もう1つ、Granger因果性検定を用いる際の注意点として、「単位根過程同士からなるVARモデルについては、見せかけの回帰が発生してしまうため利用できない」、という点があります。
そのため、まずはADF検定という手法を用いて、それぞれの時系列データが単位根過程になっていないかどうか、確認してみましょう。

下記が、RでADF検定を実行した結果画面です。

# 犯罪数に対するADF検定
	Augmented Dickey-Fuller Test

data:  crime
Dickey-Fuller = -2.2796, Lag order = 3, p-value = 0.4639
alternative hypothesis: stationary


# ブレイキングダウンの検索数に対するADF検定
	Augmented Dickey-Fuller Test

data:  search
Dickey-Fuller = -0.98199, Lag order = 3, p-value = 0.9279
alternative hypothesis: stationary

どちらのデータについても、帰無仮説が棄却されず、単位根過程ではない(定常過程である)とはいえない結果になりました。
この場合、Grangerの因果性検定を実行することはできません。(差分をとったVARモデルであれば使えるようなのですが、共和分の検定など複雑になってきますので、今回はパスします。)

Granger因果性はイメージしやすい手法であり、できればこの手法を用いたかったですが、今回は別の手法を用いることにしましょう。せっかくGranger因果性の説明も記載したのに、、残念。

差分VARモデル

インパルス応答分析を実施するために、まずはVARモデルを構築します。前節で、各データが定常性を満たす仮定ができないことを確認しましたが、VARモデルは定常性を満たす仮定を置く必要があります。元のデータに対して時系列差分をとることにより、定常性を満たすデータに変換しましょう。

# 犯罪数データで差分をとってADF検定
	Augmented Dickey-Fuller Test

data:  diff_crime
Dickey-Fuller = -4.5925, Lag order = 3, p-value = 0.01
alternative hypothesis: stationary

# ブレイキングダウンの検索数で差分をとってADF検定
	Augmented Dickey-Fuller Test

data:  diff_search
Dickey-Fuller = -3.7181, Lag order = 3, p-value = 0.03726
alternative hypothesis: stationary

どちらも1階差分をとることで定常データに変換されたので、こちらを用いてVARモデルを実行します。次に示すのが、VARモデルの実行結果です。

Estimation results for equation diff_crime: 
=========================================== 
diff_crime = diff_crime.l1 + diff_search.l1 + diff_crime.l2 + diff_search.l2 + diff_crime.l3 + diff_search.l3 + diff_crime.l4 + diff_search.l4 + diff_crime.l5 + diff_search.l5 + diff_crime.l6 + diff_search.l6 + diff_crime.l7 + diff_search.l7 + diff_crime.l8 + diff_search.l8 + diff_crime.l9 + diff_search.l9 + diff_crime.l10 + diff_search.l10 + diff_crime.l11 + diff_search.l11 + const 

                 Estimate Std. Error t value Pr(>|t|)   
diff_crime.l1    -0.51371    0.24084  -2.133  0.09987 . 
diff_search.l1   -2.82845    1.33822  -2.114  0.10208   
diff_crime.l2     0.02670    0.15655   0.171  0.87286   
diff_search.l2   -5.27619    1.82228  -2.895  0.04432 * 
diff_crime.l3    -0.41032    0.14502  -2.829  0.04738 * 
diff_search.l3   -2.40164    2.00582  -1.197  0.29728   
diff_crime.l4    -0.75110    0.15799  -4.754  0.00894 **
diff_search.l4    1.75484    1.78471   0.983  0.38114   
diff_crime.l5    -0.06692    0.22271  -0.300  0.77879   
diff_search.l5    5.64624    1.73318   3.258  0.03115 * 
diff_crime.l6     0.01949    0.20877   0.093  0.93009   
diff_search.l6    5.31980    2.07138   2.568  0.06209 . 
diff_crime.l7    -0.96299    0.19402  -4.963  0.00769 **
diff_search.l7    3.21580    1.62695   1.977  0.11927   
diff_crime.l8    -0.91520    0.20996  -4.359  0.01207 * 
diff_search.l8    3.98103    1.74127   2.286  0.08420 . 
diff_crime.l9    -0.29748    0.18041  -1.649  0.17451   
diff_search.l9    5.29048    1.75125   3.021  0.03913 * 
diff_crime.l10   -0.74191    0.14598  -5.082  0.00707 **
diff_search.l10   3.18451    1.88781   1.687  0.16690   
diff_crime.l11   -0.91925    0.24610  -3.735  0.02020 * 
diff_search.l11  -1.36046    1.30846  -1.040  0.35718   
const           152.80686   43.89404   3.481  0.02532 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

犯罪数の予測モデルについて、ブレイキングダウンの検索数の係数は、正でも負でも有意になっているものがあります。
ただ、今回はサンプルサイズが小さいので、これらの係数をそのまま解釈して「BREAKING DOWNは、2か月後に犯罪を減らす影響を及ぼし、5か月後には増やす影響がある!」としてしまうのは危険でしょう。あくまでも参考値程度に、「犯罪数を増やすとした場合には5か月のラグがある」という程度の解釈で、別の分析に移るのが良いと思います。

インパルス応答推定

TJOさんの記事によると、インパルス応答推定も、「時系列ラグの前後関係に基づく見かけ上の因果性」でしかないそうです。

上で作成した差分VARモデルから、インパルス応答分析も実行してみましょう。

これは、"犯罪数" にショックを与えた(1単位動かした)場合に、"犯罪数" と"ブレイキングダウン検索数" の値にどのような影響が伝わるのかを可視化したグラフになっています。

これを見ると、"犯罪数" に影響を与えた場合、当然、"犯罪数" には影響が及んでいます。一方で、"ブレイキングダウン検索数" にショックを与えた場合でも、"犯罪数" は増加していません。統計的な信頼区間も常に0の値を含んでいます。

インパルス応答分析の結果からは、「ブレイキングダウンは、犯罪数増加に影響を及ぼしていない(及ぼしているとは言えない)」といって良いのではないでしょうか。

予測誤差分散分解

こちらもTJOさんの記事によると、「ある時系列データの予測できない変動を説明するために、どの他の時系列データが重要かor寄与しているか」を突き止めるための手法、とのことです。

上記の結果は、上のグラフが「犯罪数の予測誤差の分散の分解」、下のグラフが、「検索数の予測誤差の分散の分解」となっています。

上のグラフを見ると、時間が経過するにつれて、グレーの部分の割合が増加していることが見てとれます。これは、犯罪数の予測誤差の分散を、ブレイキングダウンの検索数で説明できる割合が増加している、という解釈ができます。

ただ、この予測誤差の分解結果も、予測に対する寄与をみているだけであり、因果関係と主張することはできないそう、、

計量時系列的な分析のみでは、因果関係の主張はなかなか難しそうであることがわかります。因果関係をより精緻に解明するためには、因果推論的な手法を取り入れることが重要でしょう。

まとめ

・インパルス応答推定の結果、ブレイキングダウンの検索数が変化しても、犯罪数には影響がないことが分かった。

・予測誤差分散分解の結果、「犯罪数の予測誤差の分散」は、検索数によってある程度説明ができそうなことがわかったものの、これを因果関係として解釈することはできない。

・上記の分析より、「BREAKING DOWNは犯罪を増加させるのか?」という問いに対して、因果関係を明確に示唆できるような結果は得られませんでした。今回は、「BREAKING DOWNは犯罪を増加させていない」と結論付けることにしましょう。

今後の課題

分析手法について

今回は、入手できるデータから現実的な分析方法として、計量時系列的な分析方法を選定しました。そのため、より現代的な因果推論の考え方は適用させられていません。

BREAKING DOWNを視聴しているユーザーと視聴していないユーザーに分けた群間比較的な分析などができれば、因果推論の手法も用いることができるので、もしやりたい方がいれば調査を実施のうえ検証してみても面白いと思います。

交絡因子の考慮

こちらでも言及されていましたが、VARモデルでは、交絡因子が考慮できていません。因果推論的に交絡因子を考慮したモデル化は、今後の課題だと考えています。例えば、そもそも人口が増加している場合は、犯罪数も検索数も増加する傾向があるでしょう。VARモデルを利用する際でも、こういった交絡因子の影響を無視してはいけないのではないかと考えています。

(とはいえ、VARモデル周辺の先行研究では、株価の分析や広告効果の分析など、交絡因子を考慮しきれていなそうな研究もありました。株価の分析では、各国の株価の変数しか用いておらず、当該国の国策の情報などを入れられていない分析があったこと、広告効果の分析では、広告の変数しか用いておらず、季節性などを考慮できていないこと、などが気になりました。計量経済学の分野ではこのような分析が一般的なのかもしれないと思いつつ、現代的な因果推論的な考え方に基づくと、交絡因子の考慮は必須だと考えています。)

利用データ

今回、視聴回数の時系列推移データを入手できなかったので、「Youtubeでの、"ブレイキングダウン"検索数」の数値で代替しています。より精緻な分析のためには、動画の視聴回数のデータを利用するべきでしょう

データ点数も、課題だと思います。月次のデータを利用したことによりデータ点数はかなり制限されてしまいましたが、週次のデータを用いること、または、エリア別のデータを用いることなどにより、データ点数を増やしてより精緻な分析が可能となります。

もしこの記事を読まれたBREAKING DOWN運営の方々がいらっしゃいましたら、データの手配のご相談をさせて頂けましたら、より精緻な分析を進めますので、ご連絡をお待ちしております。

参考文献

出典(「労働力調査結果」(総務省統計局))

計量時系列分析

https://www.e-stat.go.jp/stat-search/files?page=1&toukei=00130001

https://tjo.hatenablog.com/entry/2013/07/30/191853

https://tjo.hatenablog.com/entry/2020/11/27/180000

https://www.slideshare.net/slideshow/granger2015/51330641

https://user.keio.ac.jp/~nagakura/zemi/ts6_slide_2015.pdf

https://www.ieice.org/publications/conference-FIT-DVDs/FIT2019/data/pdf/O-020.pdf