Bit-TTT-Engine

Bit-TTT Engine アーキテクチャ

1. Core Philosophy (設計思想)

Bit-TTT は、「超高効率な推論」と「適応的な学習」の融合を目指すプロジェクトです。 以下の2つの技術を統合しています:

  1. 1.58-bit 量子化: パラメータを三値 {-1, 0, 1} にし、計算効率を極限まで高めます。
  2. Test-Time Training (TTT): 静的なKVキャッシュの代わりに、文脈をその場で「学習」するFast Weightsを用います。

2. System Overview (システム構成)

Rust-First, Python-Compatible アーキテクチャを採用しています。

graph TD
    A["Python (PyO3)"] -->|Direct Bindings| B["Rust Core Engine"]
    B -->|Candle (SIMD/AVX)| C["CPU / GPU"]
    
    subgraph Rust Core
    D["BitLlama (Model)"]
    E["TTT Layer (Fast Weights)"]
    F["BitLinear (Ternary Weights)"]
    end
    
    B --> D
    D --> E
    D --> F

コンポーネント詳細

コンポーネント詳細

Module Role Tech Stack
crates/core_engine 推論・学習ロジック Candle フレームワーク。CPU/CUDA両対応。
crates/cortex_rust Python インターフェース PyO3BitLlama クラスをPythonに直接公開。
legacy 旧実装(非推奨) 古い extern "C" / ndarray 実装(互換性のため隔離)。

3. Data Flow (データフロー)

推論ステップ

  1. Input: PythonからトークンIDを受け取る。
  2. Zero-Copy: PyO3のバッファプロトコルにより、コピーなしでRustへデータ転送。
  3. Forward Pass:
    • Embedding: ベクトル変換。
    • TTT Update: 勾配降下法により W_state (短期記憶) を更新。
    • Projection: 1.58bit 行列演算。
  4. Output: 計算結果(Logits)をPythonへ返す。

4. Safety & Build Options