Yandex Researchの社員が「通常のコンピュータ」で大規模言語モデルLlama 3.1を実行するサービスを開発 Yandex Researchの社員が「通常のコンピュータ」で大規模言語モデルLlama 3.1を実行するサービスを開発

モデル圧縮: モデルを 8倍まで圧縮 し、複数のGPUではなく単一のGPUで実行できるようにします。
エラー修正: 圧縮中に発生するエラーを軽減し、 ニューラルネットワークの応答の高品質 を保証します。

ヤンデックスの科学部門の研究者であるウラジミール・マリノフスキー氏は、通常のコンピュータやスマートフォンで、ウェブブラウザを通じて直接8億パラメータの大規模言語モデルを実行できる画期的なサービスを開発しました。この革新的な技術の概要を以下に示します。

モデルの速度はデバイスの処理能力に依存します。
- 例えば、M1プロセッサを搭載したMacBook Proでは、モデルは約1秒あたり3〜4文字を生成します。

高度な圧縮技術

このサービスは、以下の機関と共同で開発された最先端の方法を採用しています。
- ヤンデックス研究所
- オーストリア科学技術研究所（ISTA）
- キング・アブドゥラ科学技術大学（KAUST）