JEPA Framework Documentation

Welcome to the JEPA (Joint-Embedding Predictive Architecture) framework documentation. JEPA is a powerful self-supervised learning framework that learns representations by predicting parts of the input from other parts.

🚀 Quick Start

import torch
from torch.utils.data import DataLoader, TensorDataset

from jepa.models import JEPA
from jepa.models.encoder import Encoder
from jepa.models.predictor import Predictor
from jepa.trainer import create_trainer

dataset = TensorDataset(torch.randn(64, 16, 128), torch.randn(64, 16, 128))
train_loader = DataLoader(dataset, batch_size=8, shuffle=True)

encoder = Encoder(hidden_dim=128)
predictor = Predictor(hidden_dim=128)
model = JEPA(encoder=encoder, predictor=predictor)

trainer = create_trainer(model)
trainer.train(train_loader, num_epochs=1)

Or use the CLI:

jepa-train --config config/default_config.yaml

Action-Conditioned JEPA

If actions influence transitions, use JEPAAction to condition predictions on actions:

from jepa import JEPAAction
import torch.nn as nn

state_encoder = ...  # outputs state_dim
action_encoder = ... # outputs action_dim
predictor = nn.Sequential(nn.Linear(state_dim + action_dim, state_dim))
model = JEPAAction(state_encoder, action_encoder, predictor)

📖 Documentation Sections

User Guide

API Reference

Examples

Examples

🎯 Key Features

🔧 Modular Design

Flexible encoder-predictor architecture
Support for any PyTorch model as encoder/predictor
Easy to extend and customize

🌍 Multi-Modal Support

Computer Vision (images, videos)
Natural Language Processing (text)
Time Series (sequential data)
Audio processing
Multimodal learning

⚡ High Performance

Mixed precision training
Distributed training support
Triton kernel optimization
Memory-efficient implementations

📊 Comprehensive Logging

Weights & Biases integration
TensorBoard support
Console logging
Multi-backend logging system

🎛️ Production Ready

CLI interface for easy deployment
Flexible configuration system
Comprehensive testing
Docker support

🏗️ Architecture Overview

JEPA follows a simple yet powerful architecture:

Input Data → [Context/Target Split] → Encoder → Joint Embedding Space
                                         ↓
Target Embedding ← Predictor ← Context Embedding

The model learns by:

Splitting input into context and target regions
Encoding both context and target separately
Predicting target embeddings from context embeddings
Learning representations that capture meaningful relationships

🎨 Use Cases

Computer Vision

Image classification pretraining
Object detection backbone
Medical image analysis
Satellite imagery processing

Natural Language Processing

Language model pretraining
Document understanding
Code representation learning
Cross-lingual embeddings

Time Series

Forecasting model pretraining
Anomaly detection
Financial data analysis
IoT sensor data processing

Multimodal Learning

Vision-language models
Audio-visual learning
Cross-modal retrieval
Multimodal reasoning

🔗 Quick Links

Installation Guide - Get started in 5 minutes
Quick Start - Your first JEPA model
API Reference - Complete API documentation
Examples - Real-world use cases
GitHub Repository - Source code and issues

📄 Citation

If you use JEPA in your research, please cite:

@article{jepa2024,
  title={Joint-Embedding Predictive Architecture for Self-Supervised Learning},
  author={Dilip Venkatesh},
  year={2025}
}

📝 License

This project is licensed under the MIT License - see the LICENSE file for details.

Built with ❤️ by the Dilip Venkatesh