> For the complete documentation index, see [llms.txt](https://docs.clore.ai/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.clore.ai/guides/guides_v2-de/video-generierung/cubecomposer-360-video.md).

# CubeComposer 4K 360°-Video

> **CubeComposer** (CVPR 2026) ist ein spatio-temporales autoregressives Diffusionsmodell, das **nativen 4K-360°-Panoramavideo** aus standardmäßigem perspektivischem Videoeingang erzeugt. Auf dem Wan-Video-Foundation-Model aufgebaut, trainiert mit 11.832 hochauflösenden Clips. Dies ist das erste offene Modell, das native 4K-360°-Generierung beherrscht — und damit VR-Content-Erstellung, virtuelle Rundgänge und immersive Medien auf Consumer-GPU-Hardware ermöglicht.

## Warum das wichtig ist

360°-Video erforderte traditionell spezialisierte Aufnahme-Setups (mehrere Kameras, Stitching-Software, teure Nachbearbeitung). CubeComposer ändert das:

* **Eingabe**: beliebiges Standard-Kamera-Video (Einzellinse, Smartphone-Kamera, Dashcam)
* **Ausgabe**: natives 4K-360°-equirektanguläres Video
* **Methode**: zerlegt Panoramen in Cubemap-Flächen und erzeugt jede Fläche autoregressiv mit räumlicher Konsistenz
* **Qualität**: übertrifft frühere Stitching- und Outpainting-Ansätze deutlich

## Hardware-Anforderungen

| Konfiguration | VRAM | Auflösung            | Geschwindigkeit |
| ------------- | ---- | -------------------- | --------------- |
| RTX 4090 24GB | 24GB | 4K 360° (30 Frames)  | \~8 Min./Clip   |
| RTX 5090 32GB | 32GB | 4K 360° (60 Frames)  | \~6 Min./Clip   |
| 2× RTX 4090   | 48GB | 4K 360° (120 Frames) | \~9 Min./Clip   |
| A100 80GB     | 80GB | 4K 360° (240 Frames) | \~12 Min./Clip  |

**Minimum**: RTX 4090 24GB (oder äquivalente GPU mit 24GB+ VRAM)

> Auf Clore.ai: RTX 4090 ab **\~1,20 $/Std. Spot-Preis** — ein 2-Minuten-Clip kostet \~0,40 $.

## Installation

```bash
# Repository klonen
git clone https://github.com/TencentARC/CubeComposer
cd cubecomposer

# Abhängigkeiten installieren (Python 3.10+, CUDA 12.1+)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt

# Modellgewichte herunterladen (~18GB)
python scripts/download_weights.py --model cubecomposer-4k-v1
```

### Docker (empfohlen für Clore.ai)

```bash
# Kein offizielles Docker-Image — aus dem Quellcode installieren:
git clone https://github.com/TencentARC/CubeComposer /workspace/CubeComposer
cd /workspace/CubeComposer
pip install -r requirements.txt
python app.py --share --listen 0.0.0.0 --port 7860
```

## Schnellstart

### CLI: Perspektivisches Video → 4K 360°

```bash
# Grundlegende Nutzung: perspektivisches Eingabevideo, 4K-equirektangulares Ausgabevideo
python generate_360.py \
  --input /workspace/input_video.mp4 \
  --output /workspace/output_360.mp4 \
  --resolution 4096x2048 \
  --frames 30 \
  --fps 30

# Höhere Qualität: mehr Schritte, längerer Clip
python generate_360.py \
  --input /workspace/walk_through_park.mp4 \
  --output /workspace/park_360_4k.mp4 \
  --resolution 4096x2048 \
  --frames 60 \
  --num_inference_steps 50 \
  --guidance_scale 7.5
  --fps 30
```

### Python-API

```python
from cubecomposer import CubeComposerPipeline
import torch

# Pipeline laden
pipe = CubeComposerPipeline.from_pretrained(
    "cubecomposer/cubecomposer-4k-v1",
    torch_dtype=torch.bfloat16
).to("cuda")

# 360°-Video aus perspektivischer Eingabe erzeugen
output = pipe(
    input_video_path="input.mp4",
    num_frames=30,
    resolution=(4096, 2048),  # 4K-equirektangulär
    num_inference_steps=50,
    guidance_scale=7.5,
    cubemap_size=1024  # Größe jeder Cubemap-Fläche
)

# Als standardmäßiges equirektangulares MP4 speichern
output.save("output_360.mp4", fps=30)
print(f"Generiertes 4K-360°-Video: output_360.mp4")
```

### Gradio-WebUI

```python
import gradio as gr
from cubecomposer import CubeComposerPipeline
import torch

pipe = CubeComposerPipeline.from_pretrained(
    "cubecomposer/cubecomposer-4k-v1",
    torch_dtype=torch.bfloat16
).to("cuda")

def generate_360(video, frames, steps):
    output = pipe(
        input_video_path=video,
        num_frames=int(frames),
        resolution=(4096, 2048),
        num_inference_steps=int(steps)
    )
    output.save("/tmp/output_360.mp4", fps=30)
    return "/tmp/output_360.mp4"

demo = gr.Interface(
    fn=generate_360,
    inputs=[
        gr.Video(label="Perspektivisches Eingabevideo"),
        gr.Slider(10, 120, value=30, label="Anzahl der Frames"),
        gr.Slider(20, 80, value=50, label="Inferenzschritte (Qualität)")
    ],
    outputs=gr.Video(label="4K-360°-Ausgabe"),
    title="CubeComposer — 4K-360°-Video-Generierung",
    description="Beliebiges Perspektivvideo hochladen → natives 4K-360°-Panoramavideo erhalten"
)

demo.launch(server_name="0.0.0.0", server_port=7860, share=True)
```

## Bereitstellung auf Clore.ai: Schritt für Schritt

### 1. Eine RTX 4090 mieten

1. Gehen Sie zu [clore.ai/marketplace](https://clore.ai/marketplace)
2. Filter: GPU mit **24GB+ VRAM** (RTX 4090 empfohlen)
3. Spot-Preis: \~1,20–2,50 $/Std. je nach Verfügbarkeit
4. Wählen Sie **benutzerdefiniertes Docker** oder **Ubuntu** Image

### 2. Einrichtung per SSH

```bash
# Mit Ihrem Clore-Server verbinden
ssh root@<server-ip>

# Einzeilige Einrichtung
git clone https://github.com/TencentARC/CubeComposer && \
  cd cubecomposer && \
  pip install -r requirements.txt && \
  python scripts/download_weights.py && \
  python app.py --port 7860 --host 0.0.0.0
```

### 3. Auf die UI zugreifen

Öffnen Sie `http://<server-ip>:7860` in Ihrem Browser, um die Gradio-Oberfläche zu verwenden.

## Workflow: Telefonvideo → VR-taugliches 4K 360°

```bash
# Schritt 1: Telefonvideo auf den Server hochladen
scp ~/my_video.mp4 root@<server-ip>:/workspace/

# Schritt 2: 4K-360°-Version erzeugen
ssh root@<server-ip> "cd cubecomposer && python generate_360.py \
  --input /workspace/my_video.mp4 \
  --output /workspace/my_video_360_4k.mp4 \
  --resolution 4096x2048 --frames 60"

# Schritt 3: 360°-Metadaten für YouTube/VR-Headsets hinzufügen
ffmpeg -i my_video_360_4k.mp4 \
  -c copy \
  -metadata:s:v:0 spherical=equirectangular \
  my_video_360_4k_vr.mp4

# Schritt 4: Ergebnis herunterladen
scp root@<server-ip>:/workspace/my_video_360_4k_vr.mp4 ~/
```

## Spectrum-Integration: 4,79× Beschleunigung auf Wan2.1

Der **Spectrum-Beschleuniger** (CVPR 2026) — ein trainingsfreier spektraler Diffusions-Feature-Forecaster mit Tschebyscheff-Polynomen — kann auf CubeComposers zugrunde liegendes Wan2.1-Basis-Modell angewendet werden, um erhebliche Beschleunigungen zu erzielen:

```python
from cubecomposer import CubeComposerPipeline
from spectrum_accelerator import SpectrumAccelerator
import torch

pipe = CubeComposerPipeline.from_pretrained(
    "cubecomposer/cubecomposer-4k-v1",
    torch_dtype=torch.bfloat16
).to("cuda")

# Spectrum anwenden für 4,79× Beschleunigung ohne Qualitätsverlust
accelerator = SpectrumAccelerator(pipe.unet, order=8)  # Tschebyscheff-Ordnung
pipe.unet = accelerator

# Generiert jetzt mit ~4,79× der ursprünglichen Geschwindigkeit
output = pipe(
    input_video_path="input.mp4",
    num_frames=30,
    resolution=(4096, 2048),
    num_inference_steps=50  # Effektive Qualität von ~240 Schritten
)
output.save("output_fast_360.mp4")
```

## Tipps zur Qualität

1. **Die Qualität des Eingabevideos ist wichtig** — höhere Eingabeauflösung = bessere 360°-Ausgabe
2. **Stabiles Bildmaterial** — Verwackeln aus der Hand verringert die Konsistenz zwischen den Cubemap-Flächen
3. **Gute Beleuchtung** — extreme Kontraste vermeiden (überbelichteter Himmel + dunkles Innere)
4. **Längere Clips** — 30+ Frames sorgen für bessere zeitliche Konsistenz
5. **Flächenauflösung** — `--cubemap_size 1024` ist der Sweet Spot (2048 für kritische Arbeit, kostet 4× mehr VRAM)

## Anwendungsfälle

* **Erstellung von VR-Inhalten** — beliebiges Material für Meta Quest, Apple Vision Pro konvertieren
* **Virtuelle Immobilienrundgänge** — Begehungsvideos in 360°-Touren umwandeln
* **Reiseinhalte** — immersive Reiseerlebnisse teilen
* **Architekturvisualisierung** — 360°-Rundgänge innen/außen
* **Event-Dokumentation** — Eventaufnahmen in immersive Replays umwandeln
* **Gaming-Assets** — 360°-Umgebungsreferenzen erzeugen

## Kostenschätzung für den Produktionsworkflow

| Aufgabe                           | Kosten auf Clore.ai      |
| --------------------------------- | ------------------------ |
| 5-Sekunden-Clip (30 Frames, 4K)   | \~0,30 $ (RTX 4090 Spot) |
| 10-Sekunden-Clip (60 Frames, 4K)  | \~$0.50                  |
| 30-Sekunden-Clip (180 Frames, 4K) | \~$1.20                  |
| Batch: 100 Clips (je 5 s)         | \~$30                    |

## Verwandte Anleitungen

* [Wan2.1-Video-Generierung](/guides/guides_v2-de/video-generierung/wan-video.md) — das Foundation Model unter CubeComposer
* [FramePack](/guides/guides_v2-de/video-generierung/framepack.md) — effiziente Langzeit-Videoerzeugung (6GB VRAM!)
* [LTX-2 Video](/guides/guides_v2-de/video-generierung/ltx-video-2.md) — schnelle latente Videoerzeugung
* [ComfyUI](/guides/guides_v2-de/bildgenerierung/comfyui.md) — node-basierter Workflow für Video + Bild
* [RIFE Video Interpolation](/guides/guides_v2-de/videoverarbeitung/rife-interpolation.md) — generiertes Video glätten

***

*Zuletzt aktualisiert: 16. März 2026 | Paper: arXiv:2603.04291 (CVPR 2026) | Basierend auf dem Wan2.1-Foundation-Model*


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://docs.clore.ai/guides/guides_v2-de/video-generierung/cubecomposer-360-video.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.