Kaggle系の分類問題コンペにおけるPython利用機械学習で初心者がつまづいたところのまとめ

この記事は別室に移転しました。3秒後に転送します。

最近、なんとなく機械学習をちょっとかじるか…と思い、教師あり2項分類問題のコンペに参加してみています（Kaggleと同じような枠組みのやつ）。

まったくの初心者かつ文系おじさんなので、基本的にはchatGPTくんに教えを乞うてコードを書いているのですが、まあchatGPTがあっても結構躓くところは躓くので、初心者が躓いたポイントを簡単に記録しておきます。コードはchatgptにきいてください。

（環境はGoogle上ではなく、ジュピターノートブックでやっています。環境構築は割愛します。よくわかってないし。あと、以下の記載について、誤っている記載がある可能性がありますので、その前提で読んでください。）

モデル作成の流れ
- 大まかなコードの組み方
- 意外と簡単なので、とりあえず組んでみるのが吉
特徴量エンジニアリングでやらないといけないこと
コンペ特有の注意点(テストデータと推察結果の提出周り)
全体

モデル作成の流れ

大まかなコードの組み方

だいたい、コードのおおまかな流れは以下の通りです。

必要なツールのインポート
トレーニングデータとテストデータのcsvファイルをデータフレーム化
特徴量エンジニアリング（データ整備）
トレーニングデータをモデルの学習用にトレーニングデータとバリデーションデータに分離
トレーニングデータでモデルを訓練
バリデーションデータでモデルの精度を検証
テストデータを検証
検証結果をcsvに出力

おそらく、途中途中でCSVファイルを打ち出して、別のブックで作業したほうが効率がいいような気がしますが、面倒なので、特徴量の分析以外は単一のブックで作業してしまっています。

意外と簡単なので、とりあえず組んでみるのが吉

上記の通り、そこそこのプロセスを経る必要はあるのですが、基本的には特徴量エンジニアリング部分以外はほぼ固定コードで行けます。
よって、ただモデルを一回作ってみるだけであれば、そこまで苦労はしないです。

モデルの訓練についても、データの整備さえいったん行えてしまえば、あとはツールをインポートして、適切にトレーニングデータとバリデーションデータを割り当てて、回していくだけです。

モデルには簡単に回せるモデル、回すまでのデータ加工に色々と留意が必要なモデルがありますが、一旦は色々な要件を無視してそこそこの精度が出るLightGBMがおすすめです。めちゃくちゃ動作が軽いですしね。
（ハイパーパラメータを調整しないと精度でないけど…）

LightGBMであれば、後述の特徴量エンジニアリング部分で最低限必要な加工だけ注意すれば回せるはずです。

特徴量エンジニアリングでやらないといけないこと

特徴量エンジニアリング部分で最低限やらないといけないことは、以下の2つです。
LightGBM使うなら前者は不要ですが、RandomForestやXGBoostなどを使用する場合は前者の加工が必要です。

欠損値の確認と加工
文字列型（object型）の数値化or削除

それぞれ、欠損値数の確認を行うコードと、データ型を一覧で確認するコードがあるので、chatGPTくんに出してもらって確認しましょう。

欠損値の確認と加工（放置可）

欠損値がある場合、LightGBMなど特定のモデル以外の場合、モデルの学習ができないため、欠損値を0や平均値、最頻値などに変更する必要があることがあります。

lightGBMなど、特に欠損値を気にする必要がない場合は放置しても問題ありません。（lightGBMの場合、欠損値の加工をしないほうが精度を保てたりします）
また、精度を度外視するのであれば欠損値ありの対象を全量削除しても問題ありません

感覚的には全体の５割以上欠損値みたいなデータは削除しちゃったほうがよさそうな感じです。

文字列型（object型）特徴量の加工・削除

次に、文字列型のカラムがデータに存在する場合ですが、文字列型のままではモデルで処理できないため、数値に変更するか、削除をする必要があります。
基本的に削除すると精度が下がるばかりなので、エンコーディングして、数値に置き換えたいところです。
なお、とりあえず動かしてみることを目的として、精度を度外視するのでれば、いったん削除してしまっても問題ありません。

文字列型特徴量のエンコーディングの方法

エンコーディングの代表的な方法としては、「ラベルエンコーディング」と「ワンホットエンコーディング」があります。
前者は１つのカラムの中でカテゴリ種類ごとに数値を割り当てる方法、後者はカテゴリ種類の数だけ0or1のカラムを作成する方法です。

「ラベルエンコーディング」の方がすっきりとしたデータフレームを維持できますし、モデルの学習でも軽く動作できるのですが、１つのカラムで連続的な数値を並べる関係もあり、数値の大小関係など、不要な関係性を捉えてしまう可能性があります。
一方で、「ワンホットエンコーディング」の場合はカラムが無尽蔵に増えてしまう反面、各カラムで該当有無を0or1で判定するため、数値の大小関係が生じず、間違った解釈をモデルが行ってしまう可能性がありません。

「ワンホットエンコーディング」のほうが汎用性が高いのですが、LightGBMやRandomForestであれば「ラベルエンコーディング」でも特段問題ありません。
（自動的に判別し、大小関係のないカテゴリカル変数としてとらえてくれるため。厳密に適用させるにはハイパーパラメータを調整する必要がある？）