MUFGデータサイエンスコンペとは
機械学習モデルの精度やレポーティングの優劣を競う
MUFGデータサイエンスコンペでは、与えられたビジネス課題に対する機械学習モデルの精度やレポーティングの優劣を競った。本コンペでは基礎的な理論を解説したe-ラーニングや、Slackを使った講師とのQ&A、中間段階でのセミナーなどもあり、データ分析未経験者でも取り組める環境が整っている。まず参加者は、事前学習としてe-ラーニングプログラムを受講後、機械学習モデルの精度を競う「モデリングコンペ」に参加。その後、モデリングコンペ各コース上位10名はデータ分析結果を基にしたレポーティングの優劣を競う、新設の「インサイトチャレンジ」に挑んだ。
第4回のテーマは、Basicが「ボリウッド映画の興行収入の予測」、Advancedが「レンタサイクルのステーションにおける利用可能な自転車数の予測」であった。幅広い部署から開催史上最多の参加者が集い、熾烈な戦いが繰り広げられた。
モデリングコンペBasic1位: 武津和孝
学習コンテンツが充実、コンペを通してスキルアップも実現
Q.本コンペに参加した理由を教えてください。
武津
スキルアップと腕試しのためです。
私はこれまで主にファンドマネージャー業務に従事しており、現在出向している三菱UFJ信託銀行でも、資産運用に関する分析業務を担当しています。業務の中でプログラミングを行うことはあるものの、今回のコンペで用いるPython(※1)は使用経験がほとんどありませんでした。しかし、資産運用業界の中でもPythonの普及が進む中で、将来役に立つスキルを身に付けたいと思ったのと、出向先の業務でPythonを使う必要が出てきたため、コンペを機に学習しようと思いました。
また、これまでは自分のプログラミングスキルを客観的に評価される機会がなかったため、腕試しも兼ねて参加を決めました。
※1…Python(パイソン):数値計算からWebアプリ開発、AI開発などの幅広い用途で利用できる高水準汎用プログラミング言語のこと。
Q.実際に参加してみて、いかがでしたか?
武津
学習コンテンツが非常に充実していて、データ処理の基礎からグラフ作成や機械学習モデルの構築まで、しっかりと学ぶことができました。コードの書き方が分からない部分はChatGPTに質問することで素早く問題を解決でき、生成AIのありがたみも感じました。コンペを通じて、何かに頼らず自分でコードを書ける部分や思いつく処理のレパートリーが増えていき、スキルアップを実感できました。
Q.本コンペを通じて困難だったこと・苦労したことを教えてください。
武津
業務外で取り組むため、時間を作るのが大変で、体力・精神力の勝負でもあると感じました。時間が許せば際限なくできてしまいますが、業務に支障が生じてはいけないので、時には自分の気持ちを抑えながら取り組んでいました。
Pythonは初学者であったため、書き方に慣れるのも大変で、一つずつ調べながらコーディングを進めていきました。Pythonは普及しているだけあって、非常に書きやすく、分からないことは調べればすぐに知りたい情報に辿り着けるため大変助かりました。クラスや関数がまとめられたライブラリも充実していて、やりたい処理や分析を実現しやすいと感じました。
技術面で苦労した点は、頑健性のあるモデル作りです。過学習を回避しながら効率よくモデルの学習を行えるように、細部にわたって納得いくまで作り込みました。コンペの終盤になるにつれて、何をすれば精度を改善できるか分からなくなっていきましたが、色々と試行錯誤したことで機械学習に関する知識や感覚を養うことができました。
Q.精度を上げるために工夫されたことを教えてください。
武津
モデルの予測値と実際の値の誤差が大きい箇所に着目して、改善を行った点です。
今回の課題では、主演俳優別平均興行収入で測ることのできる主演の人気度合いが映画の興行収入に強く影響していることが、比較的早い段階で分かっていました。一方で、主演回数が少ない俳優が主演している映画は、この特徴量を作ることができず、モデルの予測精度が著しく悪くなっていることに途中で気が付きました。そこで、そのような映画は異なる説明変数を用いたモデルで予測を行うようにしたところ、主演俳優の経験が浅い場合は音楽監督の経験が重要、といった傾向をうまく捉えられるようになり、コンペの終盤に精度を改善させることができました。
Q.今後の業務に今回の経験をどう活かしていきたいですか?
武津
主に日本株運用の分野で、良好なパフォーマンスを獲得できる運用モデルの検討に取り組みたいと思っています。モデルは人間の感覚の上に成り立つものなので、機械学習などの定量的な手法に頼り過ぎるのは好ましくないと認識していますが、試行錯誤しながら改善を試みるプロセスは、運用の分野でも役に立つものだと感じています。
(三菱UFJアセットマネジメント 戦略運用部 武津 和孝)
モデリングコンペAdvanced1位: 林翔太
予測する側の立場で考えることの重要性を再認識
Q.本コンペに参加した理由を教えてください。
林
私は普段、データサイエンス部で機械学習技術を活用したモデル構築、画像認識技術を活用した精度改善検証などを行っています。所属部署内には、コンペの運営に携わっている人がいることもあり、第3回に引き続き今回も参加しました。実際に参加してみると、これまで経験したことのない時系列データの扱い方を習得できたのでよかったですね。
Q.前回参加時との違いはありましたか?
林
前回は最後の2週間で作り、ギリギリの提出となったため、思うような結果を出すことができませんでした。今回はその反省を踏まえ、コンペ期間が2ヵ月弱ある中で、始まって1週間ほどで着手し、約1ヵ月半という時間をかけて取り組みました。その結果、納得できる成果物を提出することができました。
Q.本コンペを通じて困難だったこと・苦労したことを教えてください。
林
時系列データを今回初めて扱ったのですが、モデル予測をする際に入ってはいけないデータが入る「データリーク」が起きやすく、回避するプログラムを実装するのが大変でしたね。
Advancedの課題では「レンタサイクルのステーションにおける利用可能な自転車数の予測」で、0時までの情報を使って、その後の23時間分の自転車の台数予測をしてください、という問題設定がありました。その中で、たとえば2時の予測をするときに1時までの情報が紛れ込みやすくデータリークが発生しやすい状況でしたので、予測に利用できるデータを整理して対応しました。
また、スコアを上げることも大変でした。予測したい変数、いわゆる物事の結果ともいわれる「目的変数」を、最初は「台数そのもの」で試して提出しました。しかし、周囲の人よりもスコアが非常に悪かったんです。目的変数の作り方が悪いのかなと思い、パターン2「0時からの増減」と、パターン3「1時間前からの増減」を思いつきました。実際に試したところパターン3がいい傾向であったので採用しました。
Q.精度を上げるために工夫されたことを教えてください。
林
自分が自転車の増減を予測する立場になったら何を意識するかを考え、説明変数に落とし込みました。実際にそれが効いたので、予測する側の立場で考えることの重要性を再認識しました。
またモデルが出力した値を後処理する際に、誤差が大きい箇所を見つけ、どう補正したらいいかを考え工夫していくことで、最終的に精度が上がっていきました。
Q.今後の業務に今回の経験をどう活かしていきたいですか?
林
私は業務で、マーケティングのAIモデルを作っています。多くの方に「使いたい」と思っていただけるモデル作りができるように、適切な目的変数の設定を業務の中でも意識し続けていきたいと考えています。
(三菱UFJインフォメーションテクノロジー データサイエンス部 林 翔太)
Profile
※所属・肩書は取材当時のものです。

三菱UFJアセットマネジメント 戦略運用部
武津 和孝
2018年に三菱UFJ国際投信(現三菱UFJアセットマネジメント)に入社。同年からファンドマネージャー業務を担当。現在は三菱UFJ信託銀行に出向し、資産運用に関する分析業務を担当。

三菱UFJインフォメーションテクノロジー データサイエンス部
林 翔太
大学院修士課程修了後、2021年にソフトウェア開発の会社に入社。その後、2023年に三菱UFJインフォメーションテクノロジーに入社し、主に機械学習技術を活用したモデル構築、画像認識技術を活用した精度改善検証を行う施策のプロジェクトマネージャーを担当。