おすすめ本
評価指標入門
精度があがってもビジネス貢献するとは限らない、というのが、納得のいく内容でした。
まず、評価指標とは、AUCやR2のようにモデルの精度計測のために使われる指標であり、モデルで最適化している関数(最小二乗法で言う所の残差)と事業のKPIを繋ぐ架け橋となる指標を指しています。
評価指標はモデルの精度を計りますが、モデルの評価指標を適切に定められていない場合は、精度の向上が事業貢献に直結しない事があります。実際、モデルの精度改善と事業貢献は、相関が高くない事が知られているそうです。
例えば、今考えているビジネスモデルが、正例の予測を当てた時の利得よりも、負例の予測を外した際の損失が桁違いに大きいような場合は、単純にAUCだけでモデルの精度を見れば良いわけではなさそうに思えますね。
既存の評価指標だけでは適切なモデリングができない場合もあり、時には自身で評価指標を作成する事も視野に入れて、モデリングをしなければなりません。
この本では、そういった状況を事例を踏まえて紹介し、各評価指標がどういったパターンに適しているのか、さらには、評価指標の設計方法について説明されていました。
データサイエンティストは、「モデルの精度改善をさせたら後はビジネス部門任せ」ではだめで、ビジネスモデルにも精通している必要があります。モデルの精度の評価指標と事業のKPIが強い相関を持つように、予測モデルの精度改善が事業貢献に直結するように、評価指標を設計する必要があります。
データアナリスト・データサイエンティスト・データエンジニア、データ/モデリングに関わるすべての職種の人にとって、一読の価値がある書籍だと思いました。
XAI(説明可能なAI)そのとき人工知能はどう考えたのか?
なぜAIの出力に対する説明が必要か→どんな説明方法があるか→実際にどう説明していくか、と非常に読みやすい流れでした。手法に関しても表形式データ、画像データ、テキストデータそれぞれに対して解説されており、その網羅性がとてもありがたいです。大局的説明、局所的説明について詳しく述べられている点も初学者が迷子にならないことに役立っていると思います。説明手法の解説だけにとどまらない、説明の必要性の背景的な話や、モデリングと説明の実際の流れなど丁寧に書かれており大変重宝しております、もはや機械学習に手を伸ばしたい初学者の方はこの本から入るのもいいのではと思いました。細かいですが、Python の環境構築の部分を conda 等ではなく pyenv + venv で説明している点も個人的には好きなポイントでした。これにケーススタディのようなものがあったらさらに良かったかと思います。
Python ではじめる数理最適化
簡単に Python で初歩的な数理最適化が使えるようになります。そもそも、アルゴリズムや最適性の条件等の議論に深く突っ込まなければ、数理最適化は非常に理解しやすく実用的なツールです。本書はこのような数理最適化のありがたさに気づかせてくれる良書です。もちろん、凝ったことをやろうとすればそれなりに使い方は難しくはなりますが(特に後半の難易度の急上昇には驚き)、解説も丁寧でケーススタディで話が進んでいくので頭に入ってきやすいです。特に3章は非常に学びがあり、実務でデータ分析を行う際に意識すべきことが多く書かれていました。物足りない点としては、ケーススタディで進んでいくので仕方のないことかもしれませんが、数理最適化の理論や手法の種類に関しての言及は最小限な部分です。なので、この本をきっかけにより深い理論や幅広い手法を他の書籍で学ぶのがいいのかなと思いました。
StanとRでベイズ統計モデリング
最低限の数式や統計学の知識で、R を使ってさまざまなケースを題材にベイズ統計モデリングを習得できる本です。本書は RStan を使っていますが、ベイズ統計モデリングを学ぶなら R を使ってなくても読むべき本だと思います。確率統計の基礎を紹介していざ実践、ではなく、データ分析を行うにあたって検討すべき事項を列挙し、目的達成のためにどのように分析を進め、モデルを構築していくかについても言及されています。いろんなケースに対するモデリング方法の紹介も参考になりますが、回帰モデルを構築する過程でのつまづきどころをピックアップし、それぞれに対策を述べている章は経験者としても大変参考になる部分だと思います。個人的には、「実践Data Scienceシリーズ RとStanではじめる ベイズ統計モデリングによるデータ分析入門」で網羅的に学んだり Rstan のコーディング力を向上させたりして、より深く学ぶためにこちらの本を読むのがいいかと思いました。