[ ここから本文です ]

  • SHARE
第4回MUFGデータサイエンスコンペ受賞者インタビュー コンペを通して得た学びと今後(後編)

第4回MUFGデータサイエンスコンペ受賞者インタビュー
コンペを通して得た学びと今後(後編)

MUFGは、2024年9月から4ヵ月にわたり、デジタル人材・データサイエンティストの発掘・育成を目的とした第4回「MUFGデータサイエンスコンペ」を開催した。MUFGグループ横断で17社が参加し、Basicコース(初中級)866名、Advancedコース(上級)136名の総勢1002名での熱戦が繰り広げられた。
前編ではモデリングコンペ各コース1位の二人に話を聞いたが、後編ではインサイトチャレンジ Basic1位 西田有延、Advanced1位 水谷浩路のインタビューを紹介する。

(写真左から)
三菱UFJインフォメーションテクノロジー GCMS部 水谷 浩路
三菱UFJ銀行 融資企画部 西田 有延
三菱UFJインフォメーションテクノロジー データサイエンス部 林 翔太
三菱UFJアセットマネジメント 戦略運用部 武津 和孝

・関連記事
第4回MUFGデータサイエンスコンペ受賞者インタビュー(前編)
第4回MUFGデータサイエンスコンペ開催

インサイトチャレンジBasic1位: 西田有延

「何のためにやるのか」を考え、次のアクションへつなげる

Q.本コンペに参加した理由を教えてください。

西田
私は普段、融資企画部という部署でバーゼル規制業務を担当しており、その中でも主に信用リスク測定を目的として、企業がデフォルト(債務不履行)する確率の計算やデフォルト債券からの回収率算出等のパラメータ推計業務を担当しています。
コンペと業務内容では直接的な関係はないのですが、以前から機械学習に興味があったこともあり、書籍などで知識を得ていました。しかし、実際に機械学習のモデリングについてどのような点に苦労するのか、何が難しいのか疑問に感じるときがありました。頭で考えていても実際にやってみないとわからないことも多いですし、やるなら一人でやるよりも、競争しながらの方が楽しく続けられると思い、コンペに応募しました。

Q.本コンペを通じて困難だったこと・苦労したことを教えてください。

西田
コンペではパラメータやモデルを変えて試行錯誤しつつ、精度を上げていくことが求められますが、期限がある中でいかに効率良く進めていけるかが重要だと思いました。そのため、ある程度分析や学習がしやすいフレームワークを作成したほうが良いと思い都度実装していたのですが、一方で精度を上げるために必要な知識も得る必要があり、それらを限られた時間で同時並行で実施するのは大変でした。
また、自身で精度が上がると思って試した結果なかなかスコアが向上しないことも何度もあり、「もうこれ以上は精度は良くならないのでは」と思ったこともあります。そんなときは違う視点からの気づきを得るため、本を読むなど別のことをやって気持ちをリセットしていました。そうすることで新しいアイデアが出てくることもあり、なるべく根を詰めないことは意識していました。

Q.精度を上げるために工夫されたことを教えてください。

西田
はじめはインサイトチャレンジを考慮して説明しやすい線形モデルでの精度向上に取り組んでいました。しかし、なかなか精度が上がらず悩んでいました。そこである本を読んだところ「目的や手段に応じて選択する適切なモデルは異なる」という旨が書いてありました。それ以降は一旦モデリングコンペ期間中ではインサイトチャレンジのことを忘れ、モデルの精度を上げることが目的ということをより意識するようにして、コンペでよく使用される非線形モデルでの学習も進めていきました。
一方で技術的に工夫した点についてですが、本コンペはオリジナルデータの他に、アディショナルデータがあります。私はもとのデータにどれだけ多くの情報を正確に紐付けられるかが精度向上のために重要であると考え、最終的には映画名と監督名をキーにしてデータを結合しました。その際、海外向けと国内向けの映画名が異なったり、片方のデータに略称が使われていたりしましたので、表記揺れに気を付けながら、従来の文字列のままでは結合できなかったデータを紐づけられるようデータの前処理を進めました。関連付けをしたあとの特徴量を使用し学習させたところ精度が向上したので、多くの情報の紐付けがより精度を上げることにつながったと感じています。

Q.今後の業務に今回の経験をどう活かしていきたいですか?

西田
信用リスクは企業や商品等のリスク特性に応じたデフォルト確率やデフォルト時損失率等のパラメータが割り当てられて計算されます。そのリスク特性の分類を機械学習で実現することで、より実態に合った分類がなされリスク管理の高度化につながるのであれば、信用リスク分野でも機械学習が応用できるかもしれません。
また、コンペに臨むにあたってたくさんの試行錯誤がありました。迷ったときは、精度を上げるために工夫したことでも触れたように「何のためにやっているか」を立ち止まって考え目的を持って進むと、次のアクションも取りやすいと本コンペを通じて改めて感じましたし、精度向上やインサイトチャレンジの結果にもつながったのだと思います。
「何のためにやるかを考え、次のアクションにつなげる」ことは、コンペに限らず業務でも重要なので、今後もより意識していきたいと思っています。

三菱UFJ銀行 融資企画部 西田 有延
(三菱UFJ銀行 融資企画部 西田 有延)

インサイトチャレンジAdvanced1位: 水谷浩路

誰でも「データサイエンティスト」になれる

Q.本コンペに参加した理由を教えてください。

水谷
参加した理由として1番大きいのは、新設されたインサイトチャレンジに興味を持ったことです。日常業務でのシステムログ分析や、データ分析ができるようになりたい人たち向けの勉強会、施策の推進を通して、簡単な分析ができるメンバーは増えてきました。ただ、データから次のアクションのきっかけになる業務課題を見つけられるレベルには至っていません。今回、インサイトチャレンジに向けた新たな取り組みの中で、次のステップに進むヒントを見いだせると思ったのが、今回参加させていただいた理由です。

Q.前回のコンペとの違いなどがあれば教えてください。

水谷
前回のコンペでBasicに参加していたこともあり、今回、技術面での苦労はあまりなく、気持ち的に余裕を持てました。前回実装したデータの前処理や予測のプログラムをそのまま利用でき、あまり大変さを感じずにすみました。
eラーニングは、データの利活用、戦略領域のコンテンツや、昨年は取り組めなかったデータの可視化に関するコンテンツが非常に充実していました。インサイトチャレンジの最後にレポートがあることが判っていたので、レポートをどう構成するか、どう見せるかなどを意識しつつ、コンペが始まる前に必要な知識を補完してから臨むことができました。

Q.精度を上げるために工夫されたことを教えてください。

水谷
データ全体を見ると複雑に見えますが、うまく分解していけば単純化できることがあります。今回は、この単純化が精度向上につながり、結果的には機械学習のアルゴリズムを使わず、線形の予測モデルだけで十分な精度を出すことができました。どのように分解すればデータの特徴を浮き彫りにすることができるか、様々な角度からデータを分析し、クラスタリングを繰り返したことが良かったと感じています。

Q.今後の業務に今回の経験をどう活かしていきたいですか?

水谷
データサイエンティストになるきっかけを作る活動を継続していきたいです。今回のコンペでは、生成AIやデータ分析ツールを使用しましたが、とても高度化しており、専門的な知識や技術がなくてもデータサイエンスに取り組める環境があることを再認識しました。
データサイエンティストになるのはハードルが高く思われがちですが「一歩踏み出せさえすれば誰でもデータサイエンティストになれる」ということを伝えていきたいですね。
最近、非IT人材の社員の方がシステム開発を行う「市民開発」という言葉をよく聞くようになりました。同様に、データサイエンティストにもキャッチーなフレーズができたら、より身近に感じてもらえる気がします。そういった一歩踏み出す企画を立てることで、データサイエンスの魅力を伝えていきたいです。

三菱UFJインフォメーションテクノロジー GCMS部 水谷 浩路
(三菱UFJインフォメーションテクノロジー GCMS部 水谷 浩路)

Profile

※所属・肩書は取材当時のものです。

三菱UFJ銀行 融資企画部 西田 有延

三菱UFJ銀行 融資企画部

西田 有延

博士(理学)取得後、2017年に三菱UFJ銀行のコース別採用(フィナンシャル・エンジニアリングコース)にて入行。融資企画部・市場企画部でデリバティブの信用リスクに係るシステム開発やクレジットデリバティブの時価評価システム開発を経て、現在融資企画部でバーゼル規制業務を担当。

三菱UFJインフォメーションテクノロジー GCMS部 水谷 浩路

三菱UFJインフォメーションテクノロジー GCMS部

水谷 浩路

SIerを経て2013年に三菱UFJ銀行に入行後、三菱UFJインフォメーションテクノロジーに出向。国内・海外法人向けのキャッシュマネジメントシステムを開発するグループのマネージャーを担当。