Red Hat OpenShift Data Science を好きになる4つの理由

Red Hatで API & インテグレーションのスペシャリストとしてソリューションアーキテクトをしている杉本拓です。

Red Hat Application Servicesのマネージドクラウドサービスとして、既に OpenShift API Management や OpenShift Streams for Apache Kafka が提供されていますが、今回は新しいマネージドクラウドサービスである OpenShift Data Science について、Red Hat Developerのブログ記事 4 reasons you'll love using Red Hat OpenShift Data Science の翻訳を通じて紹介をしたいと思います。なお2021年12月23日時点では、OpenShift Data Scienceはまだベータ版となっております。

Red Hat OpenShift Data Science は、アップストリームの Open Data Hub プロジェクトから選りすぐりのコンポーネントで構成されたマネージドクラウドサービスです。Red Hat OpenShift Data Scienceが目指しているのは、データサイエンティストが機械学習 (ML) のワークロードを開発、トレーニング、テストし、その結果をコンテナとしてデプロイできるようにするための安定したサンドボックスを提供することです。この記事では、機械学習プロジェクトでOpenShift Data Scienceを使用する利点をまとめています。

コンテナでデータサイエンスが簡単に

JupyterLab（図1）のようなツールは、すでにデータサイエンティストが自分のマシン上でモデルを開発する直感的な方法を提供していますが、コラボレーションや作業の共有には常に固有の複雑さが伴います。さらに、強力なGPUなどの特殊なハードウェアを使用する場合、自分で購入して維持しなければならないとなると、非常に高価になります。OpenShift Data Scienceに含まれるJupyterHubを使えば、データサイエンティストは開発環境をクラウド上に持っていくことができます。すべてのワークロードはコンテナとして実行されるため、チームメンバーとイメージを共有したり、チームメンバーが使用できるデフォルトのコンテナのリストに追加するだけで、簡単にコラボレーションを行うことができます。GPUや大容量のメモリが急に必要になったとしても、ノートパソコンがサポートできる範囲に制限されませんので、簡単にアクセスできるようになります。そして、これまでと同じUXと開発ワークフローを維持することができるのです。

f:id:tsugimot:20211223133557p:plain — 図1: JupyterLabノートブック

セキュアに構築されたノートブックのイメージ

ソフトウェアスタックは複雑になる傾向がありますが、機械学習に関わるものは特に複雑です。Pythonのエコシステムには、使用できるモジュールやライブラリが数多く存在するため、どのライブラリのどのバージョンを使用するかを決定するのは非常に困難な場合があります。図2が示すように、OpenShift Data Scienceには、データサイエンティストや Thoth adviser などのレコメンデーションエンジンからの知見をもとに構築されたノートブックのイメージが付属しています。これにより、データサイエンティストは、ランダムなアップストリームリポジトリから検証されていないイメージや安全でない可能性のあるイメージをダウンロードする心配をすることなく、新しいプロジェクトを素早く間違いのないやり方で開始することができます。

f:id:tsugimot:20211223133656p:plain — 図2: JupyterHubで利用可能なノートブックのイメージ

サードパーティーの機械学習ツールとの連携

お気に入りのツールやサービスをうまく連携させることができない状況に陥ったことは誰でもあるでしょう。OpenShift Data Scienceは、柔軟性を念頭に置いて設計されています。図3が示すように、幅広いオープンソースおよびサードパーティのAI/ML ツールをOpenShift Data Scienceで使用することができます。これらのツールは、データエンジニアリングや特徴抽出からモデルのデプロイや管理まで、機械学習のライフサイクルを完全にサポートします。お気に入りをそのまま使うことができるようになります。

f:id:tsugimot:20211223133720p:plain — 図3: OpenShift Data Scienceで使用可能なサードパーティーツールとの連携

Operate First で蓄積された運用ノウハウ

Open Data Hubは、あらゆる機械学習イニシアチブに必要と考えられるライフサイクル全体をカバーする30以上のAI/MLツールで構成されるオープンソースコミュニティプロジェクトです。Operate First イニシアチブは、最も使用されているコンポーネントのサブセットをオープンな環境にデプロイし、さらなる運用ノウハウを獲得して、アップストリームのプロジェクトを堅牢なものにすることを目的としています。OpenShift Data Science は、最もよく使用され安定しているコンポーネントのコアセットを取り上げ、Red Hat OpenShift Dedicated および Red Hat OpenShift Service on AWS 上でマネージドクラウドサービスとして提供されます。つまり、データサイエンティストは、Red Hat OpenShift 上で複雑なワークロードを動かしているレッドハットの経験を活用しながら、迅速なイテレーションと検証に集中することができます。

まとめ

ぜひOpenShift Data Scienceの詳細を確認して、こちらのデモ動画で実際の動きを見てみてください。アップストリームのOpen Data Hubプロジェクトは、https://opendatahub.io/ から自分で試すことができます。