Browser LLM Lab — diagnóstico + inferencia browser-side
github
1. Capacidad del navegador
Detectar
Pulsa "Detectar"
2. Carga del modelo
modelo:
dtype:
q4f16 — pesos 4-bit + activaciones fp16 (default)
q4 — pesos 4-bit + activaciones fp32 (mejor sin fp16 hw)
quantized — int8 (mejor calidad, más grande)
fp16 — sin quantización (~7 GB)
device:
webgpu
wasm (CPU)
texto only:
usa dtype más liviano para vision/audio encoders (solo aplica a multimodal)
Cargar modelo
Liberar memoria
0%
·
0 / 0 MB
— MB/s · ETA —
elapsed —
3. Benchmark
Ejecutar benchmark (32 tokens)
Carga el modelo primero
4. Inferencia
Explica brevemente qué es WebGPU.
Generar
5. Cache — versiones descargadas
Refrescar
Borrar TODO el cache
Pulsa "Refrescar" para listar