Apple が NVIDIA と協力して、より高速な LLM パフォーマンスを研究

今日のブログ投稿Apple のエンジニアは、大規模な言語モデルでより高速なテキスト生成パフォーマンスを実装するための NVIDIA とのコラボレーションに関する新たな詳細を共有しました。

りんご 出版された そして オープンソースの 今年初めにその Recurrent Drafter (ReDrafter) テクニックが登場しました。これは、LLM を使用してテキストを生成する新しい方法であり、大幅に高速化され、「最先端のパフォーマンスを実現」します。これは、ビーム検索 (複数の可能性を探索する) と動的ツリー アテンション (選択を効率的に処理する) という 2 つの技術を組み合わせたものです。

その研究では強力な結果が実証されましたが、Apple は NVIDIA と協力して ReDrafter を本番環境に適用しました。このコラボレーションの一環として、ReDrafter は、NVIDIA GPU で LLM をより高速に実行するのに役立つツールである NVIDIA TensorRT-LLM に統合されました。

結果は次のとおりです。

ReDrafter の統合を可能にするために、NVIDIA は新しい演算子を追加するか、既存の演算子を公開しました。これにより、洗練されたモデルとデコード手法に対応する TensorRT-LLM の機能が大幅に向上しました。 NVIDIA GPU を使用する ML 開発者は、TensorRT-LLM を使用した実稼働 LLM アプリケーションに対する ReDrafter の高速化されたトークン生成の恩恵を簡単に受けられるようになりました。

NVIDIA TensorRT-LLM 推論アクセラレーション フレームワークと ReDrafter を使用して、NVIDIA GPU で数百億のパラメーター生成モデルのベンチマークを行ったところ、貪欲なデコードで 1 秒あたりの生成トークンの速度が 2.7 倍向上したことがわかりました。これらのベンチマーク結果は、この技術により、ユーザーが経験する可能性のある遅延を大幅に削減できると同時に、使用する GPU の数と消費電力も削減できることを示しています。

Apple の機械学習研究者は、「実稼働アプリケーションを強化するために LLM が使用されることが増えており、推論効率の向上は計算コストに影響を与え、ユーザーのレイテンシを短縮することができます」と結論付けています。 「ReDrafter の投機的デコードに対する新しいアプローチが NVIDIA TensorRT-LLM フレームワークに統合されたことで、開発者は本番 LLM アプリケーション用に NVIDIA GPU でのより高速なトークン生成の恩恵を受けることができるようになりました。」

この取り組みの詳細については、Apple の Web サイトおよび NVIDIA の Web サイトのブログ投稿でご覧いただけます。

フォローチャンス: スレッドブルースカイインスタグラム、 そして マストドン

FTC: 当社は収入を得る自動アフィリエイト リンクを使用しています。 もっと。



出典

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください