ヤンデックスの科学部門の研究者であるウラジミール・マリノフスキー氏は、通常のコンピュータやスマートフォンで、ウェブブラウザを通じて直接8億パラメータの大規模言語モデルを実行できる画期的なサービスを開発しました。この革新的な技術の概要を以下に示します。

標準デバイスでの利用可能性

  • このサービスは、Llama 3.1-8Bを使用しています。これは、サイズが20GBから2.5GBに8倍縮小された大規模言語モデルです。
  • ユーザーは、専用のウェブページでこのサービスを試すことができ、モデルはオフラインで使用するためにデバイスにダウンロードされます。

オフライン機能

  • ダウンロード後、モデルはインターネット接続を必要とせずに完全に動作し、プライバシーとクラウドサービスからの独立性を確保します。

パフォーマンス

  • モデルの速度はデバイスの処理能力に依存します。
    • 例えば、M1プロセッサを搭載したMacBook Proでは、モデルは約1秒あたり3〜4文字を生成します。

最新技術で構築

  • RustとWebAssembly:
    • このサービスはRustで記述されており、WebAssemblyを活用しています。これは、複数のプラットフォームや言語で効率的にウェブブラウザ内でアプリケーションを実行する技術です。

高度な圧縮技術

  • このサービスは、以下の機関と共同で開発された最先端の方法を採用しています。
    • ヤンデックス研究所
    • オーストリア科学技術研究所(ISTA)
    • キング・アブドゥラ科学技術大学(KAUST)

2つの主要ツール

  1. モデル圧縮:
    • モデルを8倍まで圧縮し、複数のGPUではなく単一のGPUで実行できるようにします。
  2. エラー修正:
    • 圧縮中に発生するエラーを軽減し、ニューラルネットワークの応答の高品質を保証します。

ローンチとオープンソース

  • このプロジェクトは2024年夏に初めて発表され、その後一般に公開されました。
  • ソースコードGitHubで公開されており、開発者がこの革新を探求し、発展させることができます。