ヤンデックスの科学部門の研究者であるウラジミール・マリノフスキー氏は、通常のコンピュータやスマートフォンで、ウェブブラウザを通じて直接8億パラメータの大規模言語モデルを実行できる画期的なサービスを開発しました。この革新的な技術の概要を以下に示します。
標準デバイスでの利用可能性
- このサービスは、Llama 3.1-8Bを使用しています。これは、サイズが20GBから2.5GBに8倍縮小された大規模言語モデルです。
- ユーザーは、専用のウェブページでこのサービスを試すことができ、モデルはオフラインで使用するためにデバイスにダウンロードされます。
オフライン機能
- ダウンロード後、モデルはインターネット接続を必要とせずに完全に動作し、プライバシーとクラウドサービスからの独立性を確保します。
パフォーマンス
- モデルの速度はデバイスの処理能力に依存します。
- 例えば、M1プロセッサを搭載したMacBook Proでは、モデルは約1秒あたり3〜4文字を生成します。
最新技術で構築
- RustとWebAssembly:
- このサービスはRustで記述されており、WebAssemblyを活用しています。これは、複数のプラットフォームや言語で効率的にウェブブラウザ内でアプリケーションを実行する技術です。
高度な圧縮技術
- このサービスは、以下の機関と共同で開発された最先端の方法を採用しています。
- ヤンデックス研究所
- オーストリア科学技術研究所(ISTA)
- キング・アブドゥラ科学技術大学(KAUST)
2つの主要ツール
- モデル圧縮:
- モデルを8倍まで圧縮し、複数のGPUではなく単一のGPUで実行できるようにします。
- エラー修正:
- 圧縮中に発生するエラーを軽減し、ニューラルネットワークの応答の高品質を保証します。