BladeLLM

BladeLLMは、大規模言語モデル (LLM) の最適化と高性能モデルの展開に合わせた推論エンジンです。 BladeLLMは高度な技術アーキテクチャを備えており、LLM分野の新しい機会と課題に対処するためのユーザーフレンドリーなインターフェイスと優れたパフォーマンスを提供します。これにより、BladeLLMは、LLMをデプロイし、LLMを使用して推論を実行する企業に適しています。

技術アーキテクチャ

次の図は、BladeLLMの技術アーキテクチャを示しています。

展開プラットフォーム

BladeLLMは、NVIDIA、AMD、およびその他のGPUを含むさまざまなGPUアーキテクチャと互換性があります。 BladeLLMは、リソースのスケジューリングと管理のためにElastic Algorithm Service (EAS) とも深く統合され、効率的で信頼性の高いワンストップモデルの展開を提供します。

モデル計算
- BladeLLMは、高性能演算子とAIコンパイルを備えています。 BladeLLMには、柔軟なLLMオペレーターライブラリBlaDNNが搭載されており、機能のカバレッジとパフォーマンスにおいて主流のライブラリを上回っています。 FlashNNは、自動生成用のBladeLLMのAIコンパイル済みオペレータライブラリです。 FlashNNは、手動で最適化された演算子のパフォーマンスに合わせて、複数のハードウェアプラットフォームに拡張できます。
- 量子化圧縮は、LLM推論シナリオにおける最も重要なモデル最適化方法の1つである。 BladeLLMは、GPTQ、AWQ、SmoothQuant、SmoothQuant + などの高度なアルゴリズムをサポートしており、スループットを大幅に向上させ、レイテンシを削減します。
- BladeLLMは、複数のGPUにわたる分散推論をサポートし、テンソル並列処理およびパイプライン並列処理戦略を提供し、LLMのGPUメモリボトルネックの問題に対処するために任意の程度の並列処理をサポートします。
世代エンジン
- BladeLLMは、モデル計算の最適化に加えて、実際のアプリケーションシナリオでの同時実行性の高いサービス要求に対処するために、LLMシナリオ専用の完全非同期ランタイムを設計しました。ユーザ要求は、最初にバッチ・スケジューリング・モジュールに非同期的に送信され、生成エンジンに非同期的に転送され、最後に非同期復号を使用して処理される。
- BladeLLMは、連続バッチ処理方式をサポートしているため、スループットと最初のパケットの応答速度が向上します。
- Prompt Cacheを使用すると、BladeLLMは、繰り返しまたは同様のクエリのキャッシュから以前の計算結果を取得できます。これにより、応答時間が短縮される。
- デコード中、BladeLLMは、投機的デコードやルックヘッドデコードなどの効率的なデコード方法を使用して、後続のトークンを事前に予測します。これは、精度を犠牲にすることなくトークンの生成を加速する。
サービスフレームワーク
- モデルの規模が大きくなると、単一のインスタンスのリソースが要件を満たすことができず、モデルを複数のインスタンスにデプロイする必要があります。 BladeLLMは、効率的な分散スケジューリング戦略を実装し、EASのインテリジェントLLMルーティングと組み合わせます。このようにして、BladeLLMは動的なリクエスト分散と分散負荷分散を実現し、クラスターの使用率を最大化できます。

シナリオ

BladeLLMは、チャット、RAG (Retrieval-Augmented Generation) 、マルチモーダル、JSONモードなどのさまざまなシナリオをサポートし、効率的なモデル展開ソリューションを提供します。

ユーザー体験

BladeLLMは、ユーザーフレンドリーなエクスペリエンスを優先して、LLMの展開と使用を簡素化します。

シンプルで便利な起動: BladeLLMは、事前に設定されたイメージ、起動コマンド、および共通パラメータを使用して、EASでのシナリオベースの展開を提供します。このように、ユーザーは、モデルサービスのワンクリックデプロイを実現するために、オープンソースまたはカスタムモデルと適切なインスタンスタイプのみを選択する必要があります。
柔軟で簡単な呼び出し: BladeLLMは、HTTPサーバー送信イベント (SSE) を使用して、ストリーミングおよび非ストリーミング応答インターフェイスをサポートします。レスポンスインターフェイスは、迅速なビジネスシステム統合のためのOpenAIインターフェイスプロトコルと互換性があります。
強力で豊富なモデル互換性: BladeLLMモデル形式は、Hugging FaceやModelScopeなどのコミュニティの標準と互換性があります。これにより、ユーザーは追加の変換なしで既存のモデル重みを直接使用できます。
既成の最適化オプション: BladeLLMは、量子化圧縮、投機的サンプリング、プロンプトキャッシュなどの最適化機能をサポートしています。これにより、ユーザーは簡単にパラメータを設定できます。
安定した、広範囲の生産サポート: BladeLLMは顧客のビジネスの安定した、信頼できる操作を保障するためにEASの生産準備ができたイメージおよび実時間監視および性能のテスト用具を提供します。

性能比較

次のセクションでは、BladeLLM v0.8.0と主流のオープンソースフレームワークのパフォーマンスの違いについて説明します。

TTFT-QPS曲線: BladeLLMは、通常の負荷シナリオで最初のトークン時間 (TTFT) を2〜3倍に大幅に増加させ、TTFTに通常のレイテンシ要件があるシナリオでは1秒あたりのクエリ (QPS) を2倍にします。
TBT-QPS曲線: BladeLLMは、典型的な負荷シナリオでは、トークン間時間 (TBT) を約2〜3.3倍増加させ、TTFTの典型的な待ち時間要件を有するシナリオでは、QPSを1.6倍増加させる。