医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

新時代の新卒データサイエンティスト研修の全貌

新卒研究

ブレインパッドという受託分析企業に入社してから、気づけば5ヶ月が経ちました。優秀な同期や、聡明な先輩などに恵まれ、日々多くのことを学びながら毎日を過ごしています。

そんな中で今回は、ブレインパッドの新卒研修の全貌を振り返りとともに書いていきます。特に今回はほぼすべてのカリキュラムがフルリモートで行われるという新時代の新卒研修でした。研修で使われた素晴らしい技術資料も、いくつか外部に公開されていますので、記事内で紹介させていただきます(^^)

そもそも受託分析企業の新卒ってどんな人?

機械学習、情報工学の専攻はもちろん、他にも様々な分野出身の多様性のある同期が今年の新卒です。5月のGWには自身の興味関心のままにテーマを決めて、発表する企画も行われました。(ちなみに私は、院時代の研究領域である人間工学の観点から、健康に過ごすための在宅環境整備について発表しました。)ユニークで、本当に優秀な同期にいつも助けられています。

note.com

新卒研修概要

新卒研修は毎年4〜6月までの3ヶ月間で実施され、主にビジネスパート、技術パート、実戦演習パートの3部構成になっています。総勢60名以上の先輩社員の方々が関わり、半年以上前から準備を進めます。さらに、急遽リモート研修に切り替わったため、運営の方々は多大なご苦労があったようです、、、ありがとうございます。

研修は、ビジネス職、技術職関係なく全てのカリキュラムをこなすという、まさにビジネス、データサイエンス、エンジニアリングの総合力を身に付けることができる内容になっています。

blog.brainpad.co.jp

ビジネスパート

ビジネスパートは、ビジネススキルに関する様々なカリキュラムから構成されています。

  • 自社分析

    その名の通り、自社分析を行い現状会社の課題と施策を、社長、会長、役員の方々に直々にプレゼンします。(おそろしい、、)トップの方々から直接フィードバックを貰える機会はそうそうありません。

  • ビジネスマナー、コンプライアンス

    簡単なビジネスマナーや基本的なコンプライアンスを学びます。自宅でひとりカメラに向かって名刺を渡す光景は、客観的に見てシュールでした、、

  • ロジカルシンキング、プレゼンテーション

    物事をロジカルに整理し、プレゼン資料に落とし込むとことを学びます。 課題に対して、要因をMECE(「モレなく、ダブりなく」)に書き出す研修では、「〜の視点が足りないよね?」「〜の階層構造はおかしい」などプロの指摘は”キレ”が違いました、、 ここで、パワーポイント資料を秒速で作成するスキルも伝授されます。(まだまだ修行中です。)

  • ミーティングマネジメント、議事録作成

    "議事録を制するものはプロジェクトを制する"とも言われるほど大切な議事録、ただの会議の文字起こしではないことを知ります。パーキングロットをはじめとする(かっこいい名前の)ミーティングマネジメントスキルも教わります。

    優先度の低いタスクに振り回されない「パーキングロット(Parking-lot)」とは? | Backlogブログ

他にも様々なコンテンツがあり、データサイエンス職にとっては、ビジネススキルを学べる貴重な研修でした。

技術パート

技術パートでは、エンジニアリング、データサイエンスに関する基礎知識を1ヶ月で習得します。もちろんプロのエンジニア、データサイエンティストの方々から講義を受けるので、ボリューミーかつ濃厚な内容になっています。

  • エンジニアリング、コンピュター基礎

    システム設計やコード管理、テスティングなどエンジニアリングの基礎教養から、コマンドを使ったディレクトリ 、テキスト操作、サーバー接続等々のハンズオンなど、私にとってはついていくのに精一杯な内容でした、、この辺り今後の課題です、、

  • Python、R

    データハンドリングと可視化手法が中心の内容で、Pythonのコンテンツは外部サービス、Rのコンテンツは社内資料を利用します。疑問点や応用例などを気軽に質問することができ、 独学では1日が溶けてしまう疑問点も、先輩方にかかれば、数秒で解決します。

  • SQL

    配属によっては大規模データベースを扱うこともあるため、SQLの研修もあります。データベースへの接続から、データの抽出、集計、加工などSQLでの基本操作をみっちりと学ぶため、研修後には息をするようにSQLを書くことができるぐらいになります。さらに、研修で使われた資料は公開されています!

  • Git

    今年から新たに始まったのがGit研修です。Gitは実際に使ってみないと覚えられないツールの上位ランキングに入りそうですが、ブランチの切り方、コンフリクトの解消、プル・プッシュ時の注意点など、チームを組んで全てハンズオンで行うため、現在の実案件においてもスムーズに活用することができています! こちらの研修資料も公開されています。

  • ディープラーニング

    こちらも今年初のコンテンツ、異常検知の実案件を元に、要件定義から運用までの流れ(苦労話や裏話、、など)をトレースするという内容です。理論や実装だけでなく、ディープラーニング を社会実装するイメージを膨らませながら、2日間みっちりと学ぶことができました。事故は起きておりません!

  • 分析基礎・分析総合演習

    教師あり、教師なし、統計モデル、機械学習モデルなどの基礎的な分析手法をハンズオン形式で網羅的に学びます。この世に存在する分析手法の8割ぐらいはカバーできるのでは?と思うほど、分析のエッセンスが詰まっている濃い内容でした。

    分析総合演習では、Kaggleのようなコンペ形式で仮想のニュース記事レコメンドの精度を競いました。シンプルなモデルから試す大切さが身に染みました、、

marupippi.hatenablog.jp

技術パートの研修では、その他にもExcel、Tableauなどの研修や、データ可視化のポイント、プロジェクトマネジメントなどデータサイエンティストとしての分析スキルの基礎部分が網羅された内容になっていました。

実務演習パート

2ヶ月の基礎研修を終えると、最後の1ヶ月は2~4名のチームを組んだ実務演習パートとなります。先輩社員がクライアント役となり、課題の設定、分析、施策の提案までの一連の流れを実データを使って行います。最終発表では、社長、会長、役員を含めた全社員が視聴可能な状態でプレゼンを行うというまさに、研修の集大成です。

この1ヶ月で学んだことは数多ありますが、一番はデータ分析を社会実装する難しさです。受託分析の会社だからこそ、やりっぱなしで終わらないクライアントの課題を真に解決するための提案が重視され、的確かつ厳しいコメントもありました、、経験を積む中で、学んでいくところですね!

データ分析の社会実装については、先輩社員が発表された資料も公開されており、様々なところから反響があったようです!

まとめ

社内に蓄積された知見を余すところなく伝授された3ヶ月の新卒研修、フルリモートという想定外の自体にも関わらず、個人的には大変学びが多い濃密な研修だったと感じています。研修に関わっていただいた方々、本当にありがとうございました。

もちろん学ぶだけでは、3ヶ月間投資いただいた分が不良債権になるので、研修の内容を糧に価値を出していけるように日々学んでゆきます。今後、現場レベルでのデータサイエンスに関する内容も発信できればと思います。

現場からは以上です!

※本記事は筆者が個人的に学んだこと感じたことをまとめた記事になります。所属する組織の意見・見解とは無関係です。

参考

Platinum Data Blog by BrainPad

OpenBrainPad Project

白金鉱業.FM