myAlteraアカウントへログイン

myAlteraユーザーネーム、パスワードを忘れた場合

myAlteraアカウントをお持ちでない方

クラウドに生まれる新たなレイヤーの形

1つの巨大な雲として現れる気団(air mass)は、風や温度、気圧、湿度の複雑な相互作用の下で、異なる特性を持つ幾つかの別個の層に分かれることがあります。

同様に、現在の一見すると均一なクラウドデータセンターも、ビッグデータ・コンピューティングやIoTの新たな圧力により、データセンターの中心から現実の世界に分散された無数のセンサーやアクチュエータに至るまで、複数の別個のコンピューティング、ネットワーキング、ストレージレイヤーに変容しつつあります。このクラウドスタックの開発については、2016年4月にカリフォルニア州サンタクララで開催されたOpen Server Summitで発表された論文で独自の断面図が示されています(図 1)。

図1. 大気条件によっては、雲は複数の独立した層に分かれることがある

cloud

この「層化」とも呼べる現象の特徴は、通常、アーキテクチャー変化の背後に存在するコンピューティング能力の集中化ではなく、データの移動に対する制約が原動力となっていると思われることです。そのため、単純な計算能力より、帯域幅やレイテンシーがますますクラウドの全体構造を決定する要因となってきています。

自己再調整するストレージ

最も急激な変化の幾つかは、データセンターの奥深くにあるメモリやストレージの領域で生じています。単純なアーカイブテープの階層として始まり、大量のディスクアレイ、そしてDRAMのバンクと発展してきましたが、デバイスタイプ、配置、インターコネクト技術は霧のように細かく細分化されてきました。現在、その混沌とした霧は、幾つかの別個のレイヤーとして再び凝結しつつあります。

その原動力となっているニーズは、なるべく多くのデータを可能な限りサーバCPUの近くに置くことです。memcachedの重要性までさかのぼることができるこの流れは、SparkやRedisなど、データセット全体をディスク常駐ではなくメモリー常駐にしようとするソフトウェアからの強力な後押しを受けています。こうした圧力の下、集中型RAIDアレイをイーサネット経由でサーバに接続するというレガシー構成は、サーバカード上の小型高速ドライブをSATAによってDRAMアレイにリンクするという構成に取って代わられました。

同様に、これらのドライブはサーバーカード上の大容量かつ高速なSSDに取って代わられようとしています。つまり、今やNVMeプロトコルを介してPCIe経由でCPUクラスタに接続された高密度NANDフラッシュのアレイを実装するか、あるいはサーバーカードのDRAMバス上のDIMMに常駐させているのです。

MicronのRob Pelgar氏(アドバンスト・ストレージ担当バイスプレジデント)は、Open Server Summitの基調講演にて、同社の3D XPointメモリーが将来、最善の選択肢になるとしています。不揮発性、NAND フラッシュの数千倍のスピード、そしてDRAMをはるかに超える高密度を持つ3D XPointは、ラック内の大容量共有SSDとブレード上のDRAMの間に最適であると述べています(図 2)。

図 2. インテル® とMicronの3D XPointメモリは、メモリー/ストレージ階層内のSSDとDRAMの中間に新たなレイヤーを生み出している

3d_xpoint

実装された3D XPointは、Sparkのようなシステムにとって、ブレード上のローカルメモリーをDRAMに似た1つの大容量プールへ拡大するのに役立つだけでなく、その他にも幅広い影響をもたらします。

不揮発性メモリーによるCPU内の広大なアドレス空間は、デバイスの仮想化やIoTによって生み出されているレイテンシーを重視するアプリケーションへの対応に大いに役立つ可能性がある、とPelgar氏は指摘しています。

また、不揮発性メモリーを採用すれば、OSカーネルの基本原則も変わります。つまり、ファイルシステム、メタデータ、キー値ストア、アプリケーション・データなどの構造は、プロセスを新たに呼び出すごとにリロードするのではなく、常駐型にすることが可能になります。

接続

データセンター内のサーバーブレード、ディスクアレイ、バルクストレージをまとめる構造はイーサネットです。

現在、多くの場合にこれは銅配線バックプレーンを介したレガシーな10Gbpsイーサネットを意味しますが、サーバーカードとトップオブラック(ToR)スイッチ間のスピードは40Gbpsに移行しつつあります。その後、ToRスイッチは、データセンター全体に広がる上位ネットワークを定義する中央イーサネットスイッチに、通常はファイバー経由でリンクされます。しかし、Open Server Summitにて講演したMicrosoftの2人の技術者は、この従来の構成の分解と進化が進んでいると述べています。

まず、ネットワークは、コントロール・プレーンとデータプレーンという、実装が大きく異なる2つの別個の層に分離しつつあります。このコントロールとデータの区別は、ネットワーク・スイッチ内では一般的に行われてきたことです。しかし、今やスイッチやネットワーク・インターフェース・カード(NIC)には、いわば「市場開放」が進んでおり、コントロール・プレーン機能を汎用コンピューティング・ハードウェア、つまりサーバーCPUとハードウェア・アクセラレータに移行できるようになっています。一方、データ・プレーンは純粋なトランスポート・メディアになっています。

MicrosoftのAzureサーバー・ハードウェア・エンジニアリング担当のKushagra Vaid氏は、「ネットワーキングはサーバーの問題になりつつあります。当社では、ポリシーベースのコントロール・プレーンをサーバーに実装し、データ・プレーンは単なるパイプにする方向に進んでいます。それにより、サーバー上に実装されたネットワーク・アプライアンスやセキュリティーによるルーティングが可能なRDMAのためのフラットな空間が得られます」と述べています。

しかし、この構想には問題があります。パイプのスピードが上がるにつれて、たとえフルスピードでデータを処理しない場合でも、サーバーCPUは対応が困難になります。そこで、Microsoftはイーサネットとサーバカードの接続点であるNICに、コンピューティング・レイヤーとしてハードウェア・アクセラレーションを追加しています。

MicrosoftがSmart NICと呼ぶこのコンフィグレーション可能なプロセッサーは、カードを出入りするイーサネットのパケットストリームにアクセスし、ストリーム指向のタスクをサーバーCPUと連携して処理することができます。「例えば40Gbpsの速度であっても、エンドツーエンドでの暗号化が可能です」とVaid氏は説明します。

この種の処理能力が使用可能になれば、新たなコードを呼び込むことになりがちです。Vaid氏は、「重要な点は、Smart NICがコンフィグレーション可能であることです。FPGAの更新はほぼ毎週行っています」と述べています。しかし、同氏はこれはトレンドの始まりにすぎないと見ています。

「機械学習、ネットワーク機能仮想化、ストレージ処理など、多くの新たなワークロードは並列性が非常に高く、CPUの命令セットにうまく対応しませんが、CPUとのやりとりを最小限に抑えながらI/Oコンプレックス内で実行することが可能です。サーバーとI/Oの分解が進み、レガシーコードは引き続きCPU上で実行され、新しいアプリケーションはI/O内で実行されるようになることも考えられます。現在、あらゆる種類の並列アーキテクチャーによる実験が進んでいます」(Vaid氏)。

ファイバーの追加

ネットワークに処理能力を追加すると、パイプの性質が変わることも考えられます。MicrosoftのAzure担当主席ネットワーク・アーキテクトのBrad Booth氏によると、同社は2016年にサーバーカードのネットワーク接続を40Gbpsから50Gbps に移行しました。さらに、2018年には100Gbpsまで到達したいと考えていますが、それには根本的な変更が必要になるでしょう。

現在、ブレード上のトランシーバーは、ToRスイッチに到達するまでに2~3mの銅配線バックプレーンをドライブしています。「しかし、100G PAM4は長い銅配線をドライブできません」とBooth氏は警告します。そのため、ラック内部のネットワークを光ファイバーに移行する必要があるでしょう。その移行を行えば、伝送可能距離は20m以上に延びます。しかも、ToRスイッチを完全に取り除き、サーバーカードからデータセンターの中央スイッチまで直接ファイバー接続すれば、ネットワーク階層内の1つのレイヤー全体をなくすことが可能です。

銅配線の終わり

その結果、データセンターは根底から変化することになります。新しい種類のサーバーメモリー、インネットワーク・コンピューティング、新たなネットワーク・トポロジーは、いずれも今後2~3年の間に登場し、各イノベーションにより、データがタスクに呼び出されるのではなく、タスクがデータに歩み寄る単一のフラットなアドレス空間に次第に近づいていくことが考えられます。

それに対し、同じくOpen Server Summitで講演を行ったHPのバイスプレジデント兼ゼネラル・マネジャーのTom Bradicich氏は異議を唱えています。つまり、IoTが重大な変化をもたらすのは、分厚いコンクリートの壁で覆われたデータセンターの内側ではなく、インターネットのエッジであるというのです。

IoTとは、簡単に言えば、ビッグデータ解析によって定期的に誘導または制御指示を伝えるため、クラウドにデータを流し込んでいる「モノ」の集合です。「最後には、操作は直接ITにつながります」とBradicich氏は熱く語った後、そう簡単には実現しない理由について説明しました。

まず挙げたのは、関連するデータの量です。Bradicich氏は、「エンベデッドシステムの極端な例を挙げると、CERNの粒子加速器であるSuper Colliderは毎秒40TBのデータを生成します。一般的な自動車1台でも毎分500MB のデータを生成する可能性があります」と説明しました。

そのデータ全てをデータセンターに集めることは、たとえ将来実現される5Gネットワークを用いても簡単なことではないでしょう。さらにセキュリティーの問題もあります。いずれにせよ、膨大な帯域幅要件と厳格なセキュリティの問題は共に、ネットワーク・エッジにローカル処理層を設ける必要性を示しています。レイテンシーも同様です。

システムによっては、収集しているデータの解析と既知のレイテンシー内での応答の両方に依存する制御ループやファンクショナル・セーフティー・オーバーライドを備えています。そうしたシステムの場合、ベストエフォート型のインターネット間では決して実現できないレイテンシーおよびジッタ要件を達成するため、ある程度のローカル・コンピューティングが必要になるでしょう。

さらに、Bradicich氏は、そのローカル処理リソースをアプリケーションに合わせて調整する必要があると主張します。IoTのエッジ環境は、膨大なセンサーデータ、割り込み、そして即時性の高いデッドラインを伴い、データセンターとは全く異なると指摘します。では、データセンター・クラスのサーバーラックを設置することで、エッジ・コンピューティングの要件を満たそうとするのでしょうか。

Bradicich氏は、幾つかの例を示しています。一例として、Airbusは組立作業員にスマートグラスを配備しています。ユーザーがネジの取り付け準備をする際、スマートグラスによって穴の位置が表示され、正しいドライバーがその特定のネジおよび位置の規定トルクに設定されます。作業が完了すると、作業中に取得したデータが記録され、機体の完全な組立ログが作成されます。

これは、実質的に拡張現実(AR)のアプリケーションです。作業員の作業ペースを落とさないよう、これらの作業の多くは即時性を保たねばならないため、ローカル処理でなければなりません。作業員が反応しないシステムを待てないからといって、誤ったドライバーを持ったり、誤ったトルクを設定したりしてほしくないからです。

もう1つの例は、電気フォーミュラー・カー世界選手権シリーズに参戦しているVirgin Racing Formula E チームです。レースのスケジュールは過密で、練習走行から予選が始まるまで2~3時間しかありません。課題は、練習走行中に遠隔測定器や映像、音声などをマシンから収集してビッグデータ解析を実行し、最適なモーター、シャーシ、タイヤ設定とバッテリー管理が得られるようにマシンを調整することです。

同チームは、2台のHP Enterprise Moonshotサーバーラックを使用しており、1 台は本社のラボ、もう1台はピットエリアに置かれています。どちらもそれぞれのタスクの負荷に合わせて構成されています。同チームは当初、ラボのMoonshotをプライベート・クラウドとして使用し、全ての処理をそこで行うつもりでした。しかし、世界選手権シリーズのレース開催地によっては、コンピューティングのデッドラインに対応するのに十分なインターネット帯域幅がないことがすぐに分かりました。そこでエッジ―クラウド手法を考案しました。

別個の層

コンピューティング・クラウド、インターネット、そして「モノ」に溢れた世界という当初の単純なイメージは、はるかに複雑な概念に変化しています。データセンター内のストレージ、コンピューティング、そしてネットワーキングは、複数の(時として重複する)レイヤーに分離しつつあります。

データンターの外では、ネットワークのエッジに新たなリアルタイム・コンピューティング・レイヤーが凝縮されようとしています。これらの新たな形成は全て、アプリケーション・データフローと実際の帯域幅およびレイテンシーの制約という競合する課題への対応です。今後の展開が楽しみです。


CATEGORIES : All, Data Center, IoT/ AUTHOR : Ron Wilson

Write a Reply or Comment

Your email address will not be published.