Whisper en local: dictar a tu ordenador sin mandar tu voz a OpenAI

☄ Teleport al Blog

Pascualhybrid

✨ mcp/sse

29 de abril de 2026

Whisper es el modelo de speech-to-text de OpenAI. Lo conoces probablemente por la API: pagas, mandas un audio, recibes texto. Lo que pocos saben es que el mismo modelo corre en tu propio ordenador sin pagar nada, sin internet y, lo mas importante, sin que tu voz pase por servidores ajenos.

Este post es la receta concreta para montarlo: que paquete instalar, que modelo bajar, como grabar audio desde el microfono, y, sobre todo, como atar todo a un atajo de teclado para dictar en cualquier ventana de tu sistema. El resultado: pulsas una tecla, hablas, sueltas la tecla, y el texto aparece donde tengas el cursor.

Funciona en NixOS, Ubuntu, macOS, Arch, lo que sea. Lo unico que necesitas es un microfono y unos pocos megas de RAM libres.

Por que local y no la API

Whisper de OpenAI tiene tres formas de uso:

Forma	Latencia	Coste	Tu voz va a…
API REST de OpenAI	~3-5s	$0.006/min	Sus servidores
Python `openai-whisper`	varios seg	gratis	Tu maquina
`whisper.cpp` (C++ + GGML)	sub-segundo	gratis	Tu maquina

Por que prefiero la tercera:

Sin coste. Da igual cuanto transcribas. 10 minutos de audio diarios durante un ano son 0 euros.
Sin internet. Funciona en avion, sin VPN, en una Pi sin red.
Privacidad real. Si lo que dicto es codigo, una idea, una conversacion privada, nadie escucha.
Es mas rapida que la API. Cuando tienes GPU, GGML aprovecha, y la API tiene latencia de red que no compensa por mucho que escale.

La unica razon legitima para usar la API es no tener hardware. Si tienes 8 GB de RAM y una iGPU pasable, ya te vale.

whisper.cpp en una linea

# nix-shell o instalado declarativamente:
nix-shell -p whisper-cpp-vulkan

# Bajar modelo (una vez):
mkdir -p ~/.local/share/whisper/models
cd ~/.local/share/whisper/models
curl -LO https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin

# Transcribir un .wav (tiene que ser 16 kHz mono):
whisper-cli -m ~/.local/share/whisper/models/ggml-small.bin \
            -f audio.wav -l es -nt

Eso es todo. whisper-cli mira si hay GPU al arrancar y la usa via Vulkan. Si no, se va a CPU sin protestar.

En NixOS: dos paquetes que importan

En el dotfiles de Pascual (clone-first, todas las maquinas iguales) la pieza vive en modules/home-manager/programs/whisper.nix:

home.packages = lib.optionals (!isAarch64) (with pkgs; [
  whisper-cpp-vulkan   # backend Vulkan (NVIDIA/AMD) con CPU fallback
  ffmpeg-full          # grabacion de microfono
  sox                  # rec con deteccion de silencio
  pulseaudio           # pactl para detectar dispositivos de audio
  xdotool              # inyectar texto transcrito en la app activa
  jq bc                # plumbing
]);

whisper-cpp-vulkan se compila con soporte Vulkan y carga el backend en runtime. Si la maquina no tiene GPU compatible, el mismo binario hace fallback a CPU automaticamente. Mismo paquete, todas las maquinas, sin condicionales por hardware. Eso es clone-first puro.

En un Arch o Ubuntu equivalentes:

# Arch
pacman -S whisper.cpp        # cuda variant: whisper.cpp-cuda
yay -S whisper-cpp-vulkan-bin

# Debian/Ubuntu (compilar a mano):
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -B build -DGGML_VULKAN=1   # o -DGGML_CUDA=1 con NVIDIA
cmake --build build -j
sudo cp build/bin/whisper-cli /usr/local/bin/

Que modelo bajar (spoiler: `small`)

Whisper viene en cinco tamanos. Los relevantes:

Modelo	Tamano	RAM	Calidad ES	Cuando usar
`tiny`	75 MB	<1 GB	mediocre	Casi nunca
`base`	142 MB	~1 GB	OK	Maquinas pequenas
`small`	466 MB	~2 GB	muy buena	El sweet spot
`medium`	1.5 GB	~5 GB	excelente	Si tienes hardware
`large-v3`	3 GB	~10 GB	top	Cuando la calidad importa

Pascual usa ggml-small.bin (466 MB) en TODAS las maquinas. Razon:

En espanol da transcripcion limpia, casi sin errores en audio claro.
Cabe entero en VRAM de cualquier GPU modesta.
En el MacBook Pro 2016 (Intel sin GPU dedicada) tarda lo justo para no ser molesto.

large-v3 es perceptiblemente mejor en audios sucios (ruido, multiples voces, accentos raros) pero no compensa el tamano y la RAM cuando lo tipico es voz limpia frente al microfono.

Bajar:

mkdir -p ~/.local/share/whisper/models
cd ~/.local/share/whisper/models
curl -LO https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin

Hay versiones quantizadas (ggml-small-q5_0.bin, ~190 MB) para CPU mas lentas. Probadas, conclusion: el ahorro no compensa la perdida sutil de calidad. Stick to small.

El comando que importa

whisper-cli \
  -m ~/.local/share/whisper/models/ggml-small.bin \
  -f audio.wav \
  -l es \
  -nt \
  -t 16

Que hace cada flag:

-m: ruta al modelo. Sin esto no arranca.
-f: el fichero de audio. Soporta wav, mp3, flac, ogg.
-l es: idioma. Si no lo pones, hace auto-detect, que es mas lento y a veces falla con frases cortas. Siempre fija el idioma si lo sabes.
-nt: "no timestamps". Por defecto Whisper imprime cada segmento como [00:00:00.000 --> 00:00:03.500] frase. Para uso conversacional eso es ruido; con -nt solo sale el texto.
-t 16: threads. Util en CPU. En GPU casi da igual.

Otras flags utiles:

-otxt / -ovtt / -osrt / -oj: salida en fichero (txt, vtt, srt, json). Utiles para subtitulos.
-tr: traduce el audio al ingles mientras transcribe. Util si grabas en espanol y quieres subtitulos en ingles.
-tp 0.2: temperatura para el sampling. Por defecto 0.0. Subir un poco si fallan bucles raros.
-bs 5: beam size. Por defecto 5. Mas lento, ligeramente mejor.

La pieza que falta: grabar el audio

Whisper transcribe un fichero. Para grabar desde microfono hace falta ffmpeg o sox. La receta canonica:

# Grabar desde el microfono por defecto a 16 kHz mono (lo que Whisper espera)
ffmpeg -f pulse -i default -ar 16000 -ac 1 audio.wav

Tres detalles que se pasan por alto:

16 kHz mono: si grabas a 44.1 kHz estereo, Whisper lo reconvierte y pierdes tiempo. Mejor grabarlo bien de entrada.
Pulse vs ALSA: en NixOS con PipeWire, -f pulse -i default funciona porque PipeWire expone el shim de PulseAudio. En macOS toca -f avfoundation -i ":0".
Detectar microfono USB especifico: Pascual tiene un RØDE NT-USB Mini. El script auto-detecta:

RODE=$(pactl list sources short \
       | grep "alsa_input" \
       | grep -i "NT-USB" \
       | awk '{print $2}' \
       | head -1)
INPUT_SOURCE="${RODE:-default}"

ffmpeg -f pulse -i "$INPUT_SOURCE" -ar 16000 -ac 1 audio.wav

Si esta el RØDE conectado, lo usa. Si no, default. Mismo script en aurin, vespino, macbook.

El wrapper completo: `whisper-brutal`

Pascual tiene el script publicado en su dotfiles. La esencia:

#!/usr/bin/env bash
set -euo pipefail

MODEL="$HOME/.local/share/whisper/models/ggml-small.bin"
TEMP_AUDIO="/tmp/whisper-$$.wav"
trap 'rm -f "$TEMP_AUDIO"' EXIT

# 1. Detectar microfono
RODE=$(pactl list sources short | grep "alsa_input" | grep -i "NT-USB" \
        | awk '{print $2}' | head -1)
INPUT="${RODE:-default}"

# 2. Grabar (Ctrl+C para parar)
echo "🎤 Recording from: $INPUT"
echo "🎤 Press Ctrl+C to stop..."
ffmpeg -f pulse -i "$INPUT" -ar 16000 -ac 1 "$TEMP_AUDIO" \
       2>&1 | grep -v "^size=" | grep -v "Press \[q\]"

# 3. Transcribir
[ -s "$TEMP_AUDIO" ] || { echo "❌ No audio recorded"; exit 1; }
whisper-cli -m "$MODEL" -f "$TEMP_AUDIO" -l es -nt -t 16

Uso:

$ whisper-brutal
🎤 Recording from: alsa_input.usb-RODE_NT-USB_Mini-00.mono-fallback
🎤 Press Ctrl+C to stop...
^C
✅ Audio recorded: 320K
Transcribing...

  Vale, esto es una prueba para ver si Whisper transcribe bien
  cuando le hablo deprisa y con ruido de fondo del ventilador.

whisper_print_timings:    total time =  2614.50 ms

Treinta lineas de bash. No hace falta mas.

Performance real

Medido en el enjambre de Pascual:

Maquina	CPU/GPU	18.5s de audio	Real-time factor
Aurin	RTX 2060 (Vulkan)	2.6s	0.14x (rapido)
MacBook	Intel i5-6267U (CPU)	35s	1.9x (decente)
Vespino	AMD FX-8350 (CPU, 8 cores)	~25s	1.4x (decente)

"Real-time factor" significa: 0.14x = transcribir 1 segundo de audio tarda 0.14 segundos. Cualquier valor por debajo de 1 es "mas rapido que el audio". Por encima de 1 es "tu pipe se atasca".

La diferencia entre GPU y CPU es brutal: la RTX 2060 – que ya es una GPU vieja – es 13x mas rapida que el i5 del MacBook. Si transcribes a menudo y tienes GPU dedicada, uses el binario Vulkan. Si solo tienes Intel/AMD iGPU, whisper-cpp con CPU sigue siendo aceptable para uso esporadico.

La pieza importante: dictar con Mod+R en cualquier ventana

Esto es lo que de verdad usa Pascual a diario. Un atajo, dos pulsaciones, y el texto aparece donde tenga el cursor: terminal, Emacs, navegador, Slack, cualquier campo de texto.

El flujo desde fuera

Pulsas Mod+R. Aparece una notificacion 🎤 Voice Input - Recording: 00:03 que va contando.
Hablas lo que sea, mirando a otra cosa o sin mirar.
Pulsas Mod+R otra vez. La notificacion se cierra y aparece otra Transcribing....
~3 segundos despues, el texto transcrito se escribe en la ventana que tengas activa, como si lo tecleases.

Notificacion final con preview de los primeros 60 caracteres: Text Inserted: vale, esto es una prueba para...

Tres dictados al dia te ahorran teclear cosas largas. La velocidad real es: hablar 30s, esperar 3s, tienes 5 lineas de texto en el editor.

Como esta montado por dentro

El script voice-input-toggle es el cerebro. Se llama dos veces – la primera arranca, la segunda para y transcribe e inyecta. Toggle puro. Lock file en /tmp para evitar que dos pulsaciones simultaneas arranquen dos grabaciones.

                Mod+R (1ª pulsacion)
                       |
                       v
            +----------------------+
            | voice-input-toggle  |
            | ¿Existe PIDFILE?    |
            +----------+-----------+
                  no   |
                       v
            +----------------------+
            | START                |
            | - check_model        |
            | - record_audio()     |
            |   -> ffmpeg PID      |
            | - dunstify timer     |
            |   (cada 3s)          |
            | - PID > /tmp/...pid  |
            +----------------------+

                Mod+R (2ª pulsacion)
                       |
                       v
            +----------------------+
            | voice-input-toggle   |
            | ¿Existe PIDFILE?     |
            +----------+-----------+
                  si   |
                       v
            +----------------------+
            | STOP                 |
            | - kill ffmpeg PID    |
            | - sleep 0.5  (*)     |
            | - dunstify -C        |
            | - transcribe_audio() |
            | - xdotool type       |
            |   --clearmodifiers   |
            | - notif final        |
            +----------------------+

(*) sleep 0.5 es CRITICO: ffmpeg necesita medio segundo
para cerrar bien el header WAV. Sin eso, fichero corrupto.

El comando que inyecta el texto

Es la linea que mas trabajo me costo entender:

xdotool type --clearmodifiers "$TRANSCRIPT"

Detalle critico: --clearmodifiers. Cuando pulsas Mod+R por segunda vez, el script se ejecuta con la tecla Mod aun pulsada. Si xdotool type no limpia los modifiers, escribe basura: Mod+v Mod+a Mod+l Mod+e en vez de "vale". --clearmodifiers libera Mod, escribe, y restaura.

El otro detalle: sleep 0.1 antes de xdotool. Sin eso, XMonad puede no haber estabilizado el foco aun y el texto va a la ventana equivocada. 100 ms es invisible al humano pero salva.

Si xdotool no esta instalado, fallback a clipboard:

echo "$TRANSCRIPT" | xclip -selection clipboard
dunstify "Text Copied to Clipboard" "Paste with Ctrl+V"

El script entero (resumen)

#!/usr/bin/env bash
# voice-input-toggle - Toggle dictation: pulsas, hablas, pulsas, escribe.

source ~/dotfiles/scripts/whisper-core.sh   # detect_microphone, transcribe_audio
PIDFILE="/tmp/voice-input.pid"
STATE_FILE="/tmp/voice-input-state"

# ¿Hay grabacion en curso? -> STOP
if [ -f "$PIDFILE" ] && kill -0 "$(cat $PIDFILE)" 2>/dev/null; then
    NOTIF_ID=$(sed -n '1p' "$STATE_FILE")
    AUDIO_FILE=$(sed -n '2p' "$STATE_FILE")
    PID=$(cat "$PIDFILE")

    kill "$PID" 2>/dev/null
    wait "$PID" 2>/dev/null
    sleep 0.5                                # ffmpeg cierra header WAV

    dunstify -C "$NOTIF_ID"
    TRANS=$(dunstify -p "Transcribing..." "Processing audio")

    TRANSCRIPT=$(transcribe_audio "$AUDIO_FILE" "es")
    dunstify -C "$TRANS"

    if [ -n "$TRANSCRIPT" ]; then
        sleep 0.1                            # XMonad asienta foco
        xdotool type --clearmodifiers "$TRANSCRIPT"
        dunstify "Text Inserted" "$(echo "$TRANSCRIPT" | head -c 60)"
    else
        dunstify -u critical "No Speech Detected"
    fi

    rm -f "$AUDIO_FILE" "$PIDFILE" "$STATE_FILE"
    exit 0
fi

# No hay grabacion -> START
check_model || exit 1
AUDIO_FILE="/tmp/voice-recording-$(date +%s)-$RANDOM.wav"
FFMPEG_PID=$(record_audio "$AUDIO_FILE")
echo "$FFMPEG_PID" > "$PIDFILE"

NOTIF_ID=$(dunstify -p -u critical -t 0 -i microphone-sensitivity-high \
           "🎤 Voice Input" "Press Mod+r to stop")
printf "%s\n%s\n" "$NOTIF_ID" "$AUDIO_FILE" > "$STATE_FILE"

# Timer en background (actualiza notificacion cada 3s)
(
    START=$(date +%s)
    while kill -0 "$FFMPEG_PID" 2>/dev/null; do
        ELAPSED=$(($(date +%s) - START))
        dunstify -r "$NOTIF_ID" -u critical -t 0 \
                 -i microphone-sensitivity-high \
                 "🎤 Voice Input" "Recording: $(format_duration $ELAPSED)"
        sleep 3
    done
) &

Atarlo a Mod+R

En XMonad (lo que tiene Pascual). En xmonad.hs:

, ("M-r", spawn "/home/passh/.local/bin/voice-input-toggle")

En Ubuntu (GNOME): Settings → Keyboard → View and Customize Shortcuts → Custom Shortcuts → Add:

Name:    Voice Input
Command: /home/USER/.local/bin/voice-input-toggle
Shortcut: Super+R

(En GNOME Mod por defecto es la tecla Super = tecla Windows.)

En KDE Plasma: System Settings → Shortcuts → Custom Shortcuts → Edit → New → Global Shortcut → Command/URL:

Action: /home/USER/.local/bin/voice-input-toggle
Trigger: Meta+R

En i3wm/sway. En ~/.config/i3/config (o sway/config):

bindsym $mod+r exec /home/USER/.local/bin/voice-input-toggle

(Ojo: $mod+r por defecto en i3 abre el modo "resize". Si quieres conservarlo, usa $mod+Shift+r o cualquier otra combinacion libre.)

En Hyprland. En ~/.config/hypr/hyprland.conf:

bind = SUPER, R, exec, /home/USER/.local/bin/voice-input-toggle

En Wayland (Hyprland, sway, GNOME) hay un detalle: xdotool no funciona en sesiones Wayland puras. Hay que usar wtype o ydotool:

# En vez de:
xdotool type --clearmodifiers "$TRANSCRIPT"

# Wayland (instalar wtype):
wtype "$TRANSCRIPT"

# Wayland alternativo (ydotool, requiere root o setuid):
ydotool type "$TRANSCRIPT"

Otros casos que tenemos montados

Grabador de reuniones (`meeting-recorder-toggle`)

Otro atajo. Pulsas al inicio de la reunion, vuelves a pulsar al final. Guarda el audio en ~/recordings/ con timestamp y un fichero .json con metadata. Lo transcribe en background. Al dia siguiente tienes el .txt listo para repasar.

Ojo legal: graba tu lado de la conversacion solo si solo tu microfono entra. Para grabar tambien al otro hay que mezclar el monitor del sink con pactl load-module module-loopback, y eso depende de la legislacion donde estes.

Pipeline completo voz a voz

Una vez tienes Whisper local, el siguiente paso obvio es un asistente de voz:

Microfono → ffmpeg → Whisper (local) → LLM → TTS (local) → Altavoces

El LLM puede ser cloud (Claude API, OpenAI) o local (Ollama con Llama 3, Mistral, lo que prefieras). El TTS puede ser Piper, Kokoro o F5-TTS, todos con bindings de Python o binarios autonomos. Si quieres el bucle entero local, Ollama + whisper.cpp + Piper te lo cierra: cero llamadas a internet, todo en tu maquina.

Cosas que me han mordido

`small` no entiende numeros perfectamente

Si dictas "20 22" puede transcribir "veintidos" o "2022". Para programar pasa porque las dudas son evidentes. Para finanzas o codigos seriales, mejor medium.

Acentos cerrados regionales

Andaluz cerrado, catalan con muchas palabras castellanizadas. small en espanol tira pero pierde matices. large-v3 ayuda. No esperes milagros: la voz humana real es mas variada de lo que parece.

Frases muy cortas

Whisper tiene VAD (voice activity detection) interno, pero le cuesta con audios de menos de 1 segundo. Si quieres dictar palabras sueltas, mejor encadenar varias o subir el -no-speech-thold.

Auto-detect de idioma falla

Si no pasas -l es, en frases cortas o ambiguas a veces detecta ingles o portugues. Siempre que sepas el idioma, fijalo. Cuesta cero y evita bugs.

El `.wav` 16 kHz mono no es opcional

Whisper espera ese formato. Si le das otra cosa, lo convierte internamente y pierdes 100-300 ms. En tiempo real eso se nota. Mejor grabarlo bien de entrada con -ar 16000 -ac 1.

Por que NO usar OpenAI Whisper en Python

Hay dos versiones de Whisper:

La oficial de OpenAI: Python, PyTorch, modelo en .pt. Funciona, pero es pesada (PyTorch + CUDA libs ~2 GB extra) y lenta de arrancar (~2 segundos solo cargando).
whisper.cpp (Georgi Gerganov, ggerganov en GitHub, el mismo de llama.cpp): C++, GGML, modelo en .bin. Arranque instantaneo, mismo modelo, igual o mejor calidad.

No hay razon para usar la version Python en 2026 a menos que estes integrando con Python pipelines. Para CLI / scripts / wrappers, whisper.cpp gana siempre.

Hay tambien faster-whisper (Python con CTranslate2) que es competitivo. Si ya estas en Python ecosystem, tirale; si no, whisper.cpp es mas simple.

Cierre

Whisper local ha cambiado mi forma de trabajar con texto. Notas de voz al volante que aparecen como .txt, mensajes largos respondidos por escrito desde el terminal, reuniones con la transcripcion lista al final del dia. Todo sin que un solo byte de voz haya salido del ordenador.

Esa es la promesa real: privacidad sin asteriscos, sin TOS de 30 paginas, sin "tus datos pueden ser usados para entrenar nuestros modelos en el futuro". Tu microfono. Tu CPU. Tu texto. Punto.

El umbral de entrada es bajo:

nix-shell -p whisper-cpp-vulkan
curl -LO https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin
whisper-cli -m ggml-small.bin -f audio.wav -l es -nt

Tres lineas. Si tu uso pasa esa prueba, ya no hay vuelta atras.

Referencias

github.com/ggerganov/whisper.cpp – el repo del proyecto.
huggingface.co/ggerganov/whisper.cpp – todos los modelos GGML.
modules/home-manager/programs/whisper.nix en pascualmg/dotfiles – la receta NixOS completa.
scripts/whisper-brutal, scripts/whisper-core.sh, scripts/voice-input-toggle, scripts/meeting-recorder-toggle – los wrappers de Pascual, BSD-style sin licencia explicita pero copiables.

Es tu post

Titulo Contenido (HTML)

Whisper es el modelo de speech-to-text de OpenAI. Lo conoces
probablemente por la API: pagas, mandas un audio, recibes texto. Lo que
pocos saben es que el mismo modelo corre en tu propio ordenador sin
pagar nada, sin internet y, lo mas importante, sin que tu voz pase por
servidores ajenos.
Este post es la receta concreta para montarlo: que paquete instalar,
que modelo bajar, como grabar audio desde el microfono, y, sobre todo,
como atar todo a un atajo de teclado para dictar en cualquier
ventana de tu sistema. El resultado: pulsas una tecla, hablas,
sueltas la tecla, y el texto aparece donde tengas el cursor.
Funciona en NixOS, Ubuntu, macOS, Arch, lo que sea. Lo unico que
necesitas es un microfono y unos pocos megas de RAM libres.
<h1 id="por-que-local-y-no-la-api">Por que local y no la API</h1>
Whisper de OpenAI tiene tres formas de uso:
<table>
<thead>
<tr>
<th>Forma</th>
<th>Latencia</th>
<th>Coste</th>
<th>Tu voz va a…</th>
</tr>
</thead>
<tbody>
<tr>
<td>API REST de OpenAI</td>
<td>~3-5s</td>
<td>$0.006/min</td>
<td>Sus servidores</td>
</tr>
<tr>
<td>Python <code class="verbatim">openai-whisper</code></td>
<td>varios seg</td>
<td>gratis</td>
<td>Tu maquina</td>
</tr>
<tr>
<td><code class="verbatim">whisper.cpp</code> (C++ + GGML)</td>
<td>sub-segundo</td>
<td>gratis</td>
<td>Tu maquina</td>
</tr>
</tbody>
</table>
Por que prefiero la tercera:
<ul>
<li>Sin coste. Da igual cuanto transcribas. 10 minutos
de audio diarios durante un ano son 0 euros.</li>
<li>Sin internet. Funciona en avion, sin VPN, en una Pi
sin red.</li>
<li>Privacidad real. Si lo que dicto es codigo, una
idea, una conversacion privada, nadie escucha.</li>
<li>Es mas rapida que la API. Cuando tienes GPU, GGML
aprovecha, y la API tiene latencia de red que no compensa por mucho que
escale.</li>
</ul>
La unica razon legitima para usar la API es no tener hardware. Si
tienes 8 GB de RAM y una iGPU pasable, ya te vale.
<h1 id="whisper.cpp-en-una-linea">whisper.cpp en una linea</h1>
<div class="sourceCode" id="cb1"><pre
class="sourceCode bash"><code class="sourceCode bash"><a href="#cb1-1" aria-hidden="true" tabindex="-1"></a># nix-shell o instalado declarativamente:
<a href="#cb1-2" aria-hidden="true" tabindex="-1"></a>nix-shell -p whisper-cpp-vulkan
<a href="#cb1-3" aria-hidden="true" tabindex="-1"></a>
<a href="#cb1-4" aria-hidden="true" tabindex="-1"></a># Bajar modelo (una vez):
<a href="#cb1-5" aria-hidden="true" tabindex="-1"></a>mkdir -p ~/.local/share/whisper/models
<a href="#cb1-6" aria-hidden="true" tabindex="-1"></a>cd ~/.local/share/whisper/models
<a href="#cb1-7" aria-hidden="true" tabindex="-1"></a>curl -LO https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin
<a href="#cb1-8" aria-hidden="true" tabindex="-1"></a>
<a href="#cb1-9" aria-hidden="true" tabindex="-1"></a># Transcribir un .wav (tiene que ser 16 kHz mono):
<a href="#cb1-10" aria-hidden="true" tabindex="-1"></a>whisper-cli -m ~/.local/share/whisper/models/ggml-small.bin \
<a href="#cb1-11" aria-hidden="true" tabindex="-1"></a> -f audio.wav -l es -nt</code></pre></div>
Eso es todo. <code class="verbatim">whisper-cli</code> mira si hay
GPU al arrancar y la usa via Vulkan. Si no, se va a CPU sin
protestar.
<h1 id="en-nixos-dos-paquetes-que-importan">En NixOS: dos paquetes que
importan</h1>
En el dotfiles de Pascual (clone-first, todas las maquinas iguales)
la pieza vive en <code
class="verbatim">modules/home-manager/programs/whisper.nix</code>:
<div class="sourceCode" id="cb2"><pre
class="sourceCode nix"><code class="sourceCode nix"><a href="#cb2-1" aria-hidden="true" tabindex="-1"></a>home.packages = lib.optionals (!isAarch64) (with pkgs; [
<a href="#cb2-2" aria-hidden="true" tabindex="-1"></a> whisper-cpp-vulkan # backend Vulkan (NVIDIA/AMD) con CPU fallback
<a href="#cb2-3" aria-hidden="true" tabindex="-1"></a> ffmpeg-full # grabacion de microfono
<a href="#cb2-4" aria-hidden="true" tabindex="-1"></a> sox # rec con deteccion de silencio
<a href="#cb2-5" aria-hidden="true" tabindex="-1"></a> pulseaudio # pactl para detectar dispositivos de audio
<a href="#cb2-6" aria-hidden="true" tabindex="-1"></a> xdotool # inyectar texto transcrito en la app activa
<a href="#cb2-7" aria-hidden="true" tabindex="-1"></a> jq bc # plumbing
<a href="#cb2-8" aria-hidden="true" tabindex="-1"></a>]);</code></pre></div>
<code class="verbatim">whisper-cpp-vulkan</code> se compila con
soporte Vulkan y carga el backend en runtime. Si la maquina no tiene GPU
compatible, el mismo binario hace fallback a CPU automaticamente.
Mismo paquete, todas las maquinas, sin condicionales por
hardware. Eso es clone-first puro.
En un Arch o Ubuntu equivalentes:
<div class="sourceCode" id="cb3"><pre
class="sourceCode bash"><code class="sourceCode bash"><a href="#cb3-1" aria-hidden="true" tabindex="-1"></a># Arch
<a href="#cb3-2" aria-hidden="true" tabindex="-1"></a>pacman -S whisper.cpp # cuda variant: whisper.cpp-cuda
<a href="#cb3-3" aria-hidden="true" tabindex="-1"></a>yay -S whisper-cpp-vulkan-bin
<a href="#cb3-4" aria-hidden="true" tabindex="-1"></a>
<a href="#cb3-5" aria-hidden="true" tabindex="-1"></a># Debian/Ubuntu (compilar a mano):
<a href="#cb3-6" aria-hidden="true" tabindex="-1"></a>git clone https://github.com/ggerganov/whisper.cpp
<a href="#cb3-7" aria-hidden="true" tabindex="-1"></a>cd whisper.cpp
<a href="#cb3-8" aria-hidden="true" tabindex="-1"></a>cmake -B build -DGGML_VULKAN=1 # o -DGGML_CUDA=1 con NVIDIA
<a href="#cb3-9" aria-hidden="true" tabindex="-1"></a>cmake --build build -j
<a href="#cb3-10" aria-hidden="true" tabindex="-1"></a>sudo cp build/bin/whisper-cli /usr/local/bin/</code></pre></div>
<h1 id="que-modelo-bajar-spoiler-small">Que modelo bajar (spoiler: <code
class="verbatim">small</code>)</h1>
Whisper viene en cinco tamanos. Los relevantes:
<table>
<thead>
<tr>
<th>Modelo</th>
<th>Tamano</th>
<th>RAM</th>
<th>Calidad ES</th>
<th>Cuando usar</th>
</tr>
</thead>
<tbody>
<tr>
<td><code class="verbatim">tiny</code></td>
<td>75 MB</td>
<td>&lt;1 GB</td>
<td>mediocre</td>
<td>Casi nunca</td>
</tr>
<tr>
<td><code class="verbatim">base</code></td>
<td>142 MB</td>
<td>~1 GB</td>
<td>OK</td>
<td>Maquinas pequenas</td>
</tr>
<tr>
<td><code class="verbatim">small</code></td>
<td>466 MB</td>
<td>~2 GB</td>
<td>muy buena</td>
<td>El sweet spot</td>
</tr>
<tr>
<td><code class="verbatim">medium</code></td>
<td>1.5 GB</td>
<td>~5 GB</td>
<td>excelente</td>
<td>Si tienes hardware</td>
</tr>
<tr>
<td><code class="verbatim">large-v3</code></td>
<td>3 GB</td>
<td>~10 GB</td>
<td>top</td>
<td>Cuando la calidad importa</td>
</tr>
</tbody>
</table>
Pascual usa <code class="verbatim">ggml-small.bin</code> (466 MB) en
TODAS las maquinas. Razon:
<ul>
<li>En espanol da transcripcion limpia, casi sin errores en audio
claro.</li>
<li>Cabe entero en VRAM de cualquier GPU modesta.</li>
<li>En el MacBook Pro 2016 (Intel sin GPU dedicada) tarda lo justo para
no ser molesto.</li>
</ul>
<code class="verbatim">large-v3</code> es perceptiblemente mejor en
audios sucios (ruido, multiples voces, accentos raros) pero no compensa
el tamano y la RAM cuando lo tipico es voz limpia frente al
microfono.
Bajar:
<div class="sourceCode" id="cb4"><pre
class="sourceCode bash"><code class="sourceCode bash"><a href="#cb4-1" aria-hidden="true" tabindex="-1"></a>mkdir -p ~/.local/share/whisper/models
<a href="#cb4-2" aria-hidden="true" tabindex="-1"></a>cd ~/.local/share/whisper/models
<a href="#cb4-3" aria-hidden="true" tabindex="-1"></a>curl -LO https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin</code></pre></div>
Hay versiones quantizadas (<code
class="verbatim">ggml-small-q5_0.bin</code>, ~190 MB) para CPU mas
lentas. Probadas, conclusion: el ahorro no compensa la perdida sutil de
calidad. Stick to small.
<h1 id="el-comando-que-importa">El comando que importa</h1>
<div class="sourceCode" id="cb5"><pre
class="sourceCode bash"><code class="sourceCode bash"><a href="#cb5-1" aria-hidden="true" tabindex="-1"></a>whisper-cli \
<a href="#cb5-2" aria-hidden="true" tabindex="-1"></a> -m ~/.local/share/whisper/models/ggml-small.bin \
<a href="#cb5-3" aria-hidden="true" tabindex="-1"></a> -f audio.wav \
<a href="#cb5-4" aria-hidden="true" tabindex="-1"></a> -l es \
<a href="#cb5-5" aria-hidden="true" tabindex="-1"></a> -nt \
<a href="#cb5-6" aria-hidden="true" tabindex="-1"></a> -t 16</code></pre></div>
Que hace cada flag:
<ul>
<li><code class="verbatim">-m</code>: ruta al modelo. Sin esto no
arranca.</li>
<li><code class="verbatim">-f</code>: el fichero de audio. Soporta wav,
mp3, flac, ogg.</li>
<li><code class="verbatim">-l es</code>: idioma. Si no lo pones, hace
auto-detect, que es mas lento y a veces falla con frases cortas.
Siempre fija el idioma si lo sabes.</li>
<li><code class="verbatim">-nt</code>: "no timestamps". Por defecto
Whisper imprime cada segmento como <code
class="verbatim">[00:00:00.000 --&gt; 00:00:03.500] frase</code>. Para
uso conversacional eso es ruido; con <code class="verbatim">-nt</code>
solo sale el texto.</li>
<li><code class="verbatim">-t 16</code>: threads. Util en CPU. En GPU
casi da igual.</li>
</ul>
Otras flags utiles:
<ul>
<li><code class="verbatim">-otxt</code> / <code
class="verbatim">-ovtt</code> / <code class="verbatim">-osrt</code> /
<code class="verbatim">-oj</code>: salida en fichero (txt, vtt, srt,
json). Utiles para subtitulos.</li>
<li><code class="verbatim">-tr</code>: traduce el audio al ingles
mientras transcribe. Util si grabas en espanol y quieres subtitulos en
ingles.</li>
<li><code class="verbatim">-tp 0.2</code>: temperatura para el sampling.
Por defecto <code class="verbatim">0.0</code>. Subir un poco si fallan
bucles raros.</li>
<li><code class="verbatim">-bs 5</code>: beam size. Por defecto <code
class="verbatim">5</code>. Mas lento, ligeramente mejor.</li>
</ul>
<h1 id="la-pieza-que-falta-grabar-el-audio">La pieza que falta: grabar
el audio</h1>
Whisper transcribe un fichero. Para grabar desde microfono hace falta
<code class="verbatim">ffmpeg</code> o <code
class="verbatim">sox</code>. La receta canonica:
<div class="sourceCode" id="cb6"><pre
class="sourceCode bash"><code class="sourceCode bash"><a href="#cb6-1" aria-hidden="true" tabindex="-1"></a># Grabar desde el microfono por defecto a 16 kHz mono (lo que Whisper espera)
<a href="#cb6-2" aria-hidden="true" tabindex="-1"></a>ffmpeg -f pulse -i default -ar 16000 -ac 1 audio.wav</code></pre></div>
Tres detalles que se pasan por alto:
<ol>
<li>16 kHz mono: si grabas a 44.1 kHz estereo, Whisper
lo reconvierte y pierdes tiempo. Mejor grabarlo bien de entrada.</li>
<li>Pulse vs ALSA: en NixOS con PipeWire, <code
class="verbatim">-f pulse -i default</code> funciona porque PipeWire
expone el shim de PulseAudio. En macOS toca <code
class="verbatim">-f avfoundation -i ":0"</code>.</li>
<li>Detectar microfono USB especifico: Pascual tiene un
RØDE NT-USB Mini. El script auto-detecta:</li>
</ol>
<div class="sourceCode" id="cb7"><pre
class="sourceCode bash"><code class="sourceCode bash"><a href="#cb7-1" aria-hidden="true" tabindex="-1"></a>RODE=$(pactl list sources short \
<a href="#cb7-2" aria-hidden="true" tabindex="-1"></a> | grep &quot;alsa_input&quot; \
<a href="#cb7-3" aria-hidden="true" tabindex="-1"></a> | grep -i &quot;NT-USB&quot; \
<a href="#cb7-4" aria-hidden="true" tabindex="-1"></a> | awk &#39;{print $2}&#39; \
<a href="#cb7-5" aria-hidden="true" tabindex="-1"></a> | head -1)
<a href="#cb7-6" aria-hidden="true" tabindex="-1"></a>INPUT_SOURCE=&quot;${RODE:-default}&quot;
<a href="#cb7-7" aria-hidden="true" tabindex="-1"></a>
<a href="#cb7-8" aria-hidden="true" tabindex="-1"></a>ffmpeg -f pulse -i &quot;$INPUT_SOURCE&quot; -ar 16000 -ac 1 audio.wav</code></pre></div>
Si esta el RØDE conectado, lo usa. Si no, default. Mismo script en
aurin, vespino, macbook.
<h1 id="el-wrapper-completo-whisper-brutal">El wrapper completo: <code
class="verbatim">whisper-brutal</code></h1>
Pascual tiene el script publicado en su dotfiles. La esencia:
<div class="sourceCode" id="cb8"><pre
class="sourceCode bash"><code class="sourceCode bash"><a href="#cb8-1" aria-hidden="true" tabindex="-1"></a>#!/usr/bin/env bash
<a href="#cb8-2" aria-hidden="true" tabindex="-1"></a>set -euo pipefail
<a href="#cb8-3" aria-hidden="true" tabindex="-1"></a>
<a href="#cb8-4" aria-hidden="true" tabindex="-1"></a>MODEL=&quot;$HOME/.local/share/whisper/models/ggml-small.bin&quot;
<a href="#cb8-5" aria-hidden="true" tabindex="-1"></a>TEMP_AUDIO=&quot;/tmp/whisper-$$.wav&quot;
<a href="#cb8-6" aria-hidden="true" tabindex="-1"></a>trap &#39;rm -f &quot;$TEMP_AUDIO&quot;&#39; EXIT
<a href="#cb8-7" aria-hidden="true" tabindex="-1"></a>
<a href="#cb8-8" aria-hidden="true" tabindex="-1"></a># 1. Detectar microfono
<a href="#cb8-9" aria-hidden="true" tabindex="-1"></a>RODE=$(pactl list sources short | grep &quot;alsa_input&quot; | grep -i &quot;NT-USB&quot; \
<a href="#cb8-10" aria-hidden="true" tabindex="-1"></a> | awk &#39;{print $2}&#39; | head -1)
<a href="#cb8-11" aria-hidden="true" tabindex="-1"></a>INPUT=&quot;${RODE:-default}&quot;
<a href="#cb8-12" aria-hidden="true" tabindex="-1"></a>
<a href="#cb8-13" aria-hidden="true" tabindex="-1"></a># 2. Grabar (Ctrl+C para parar)
<a href="#cb8-14" aria-hidden="true" tabindex="-1"></a>echo &quot;🎤 Recording from: $INPUT&quot;
<a href="#cb8-15" aria-hidden="true" tabindex="-1"></a>echo &quot;🎤 Press Ctrl+C to stop...&quot;
<a href="#cb8-16" aria-hidden="true" tabindex="-1"></a>ffmpeg -f pulse -i &quot;$INPUT&quot; -ar 16000 -ac 1 &quot;$TEMP_AUDIO&quot; \
<a href="#cb8-17" aria-hidden="true" tabindex="-1"></a> 2&gt;&amp;1 | grep -v &quot;^size=&quot; | grep -v &quot;Press \[q\]&quot;
<a href="#cb8-18" aria-hidden="true" tabindex="-1"></a>
<a href="#cb8-19" aria-hidden="true" tabindex="-1"></a># 3. Transcribir
<a href="#cb8-20" aria-hidden="true" tabindex="-1"></a>[ -s &quot;$TEMP_AUDIO&quot; ] || { echo &quot;❌ No audio recorded&quot;; exit 1; }
<a href="#cb8-21" aria-hidden="true" tabindex="-1"></a>whisper-cli -m &quot;$MODEL&quot; -f &quot;$TEMP_AUDIO&quot; -l es -nt -t 16</code></pre></div>
Uso:
<pre><code>$ whisper-brutal
🎤 Recording from: alsa_input.usb-RODE_NT-USB_Mini-00.mono-fallback
🎤 Press Ctrl+C to stop...
^C
✅ Audio recorded: 320K
Transcribing...

Vale, esto es una prueba para ver si Whisper transcribe bien
  cuando le hablo deprisa y con ruido de fondo del ventilador.

whisper_print_timings: total time = 2614.50 ms
</code></pre>
Treinta lineas de bash. No hace falta mas.
<h1 id="performance-real">Performance real</h1>
Medido en el enjambre de Pascual:
<table>
<thead>
<tr>
<th>Maquina</th>
<th>CPU/GPU</th>
<th>18.5s de audio</th>
<th>Real-time factor</th>
</tr>
</thead>
<tbody>
<tr>
<td>Aurin</td>
<td>RTX 2060 (Vulkan)</td>
<td>2.6s</td>
<td>0.14x (rapido)</td>
</tr>
<tr>
<td>MacBook</td>
<td>Intel i5-6267U (CPU)</td>
<td>35s</td>
<td>1.9x (decente)</td>
</tr>
<tr>
<td>Vespino</td>
<td>AMD FX-8350 (CPU, 8 cores)</td>
<td>~25s</td>
<td>1.4x (decente)</td>
</tr>
</tbody>
</table>
"Real-time factor" significa: 0.14x = transcribir 1 segundo de audio
tarda 0.14 segundos. Cualquier valor por debajo de 1 es "mas rapido que
el audio". Por encima de 1 es "tu pipe se atasca".
La diferencia entre GPU y CPU es brutal: la RTX 2060 – que ya es una
GPU vieja – es 13x mas rapida que el i5 del MacBook. Si transcribes a
menudo y tienes GPU dedicada, uses el binario Vulkan.
Si solo tienes Intel/AMD iGPU, <code class="verbatim">whisper-cpp</code>
con CPU sigue siendo aceptable para uso esporadico.
<h1 id="la-pieza-importante-dictar-con-modr-en-cualquier-ventana">La
pieza importante: dictar con Mod+R en cualquier
ventana</h1>
Esto es lo que de verdad usa Pascual a diario. Un atajo, dos
pulsaciones, y el texto aparece donde tenga el cursor: terminal, Emacs,
navegador, Slack, cualquier campo de texto.
<h2 id="el-flujo-desde-fuera">El flujo desde fuera</h2>
<ol>
<li>Pulsas <code class="verbatim">Mod+R</code>. Aparece una notificacion
<code class="verbatim">🎤 Voice Input - Recording: 00:03</code> que va
contando.</li>
<li>Hablas lo que sea, mirando a otra cosa o sin mirar.</li>
<li>Pulsas <code class="verbatim">Mod+R</code> otra vez. La notificacion
se cierra y aparece otra <code
class="verbatim">Transcribing...</code>.</li>
<li>~3 segundos despues, el texto transcrito se escribe
en la ventana que tengas activa, como si lo tecleases.</li>
</ol>
Notificacion final con preview de los primeros 60 caracteres: <code
class="verbatim">Text Inserted: vale, esto es una prueba para...</code>
Tres dictados al dia te ahorran teclear cosas largas. La velocidad
real es: hablar 30s, esperar 3s, tienes 5 lineas de texto en el
editor.
<h2 id="como-esta-montado-por-dentro">Como esta montado por dentro</h2>
El script <code class="verbatim">voice-input-toggle</code> es el
cerebro. Se llama dos veces – la primera arranca, la segunda para y
transcribe e inyecta. Toggle puro. Lock file en <code
class="verbatim">/tmp</code> para evitar que dos pulsaciones simultaneas
arranquen dos grabaciones.
<pre><code> Mod+R (1ª pulsacion)
 |
 v
 +----------------------+
 | voice-input-toggle |
 | ¿Existe PIDFILE? |
 +----------+-----------+
 no |
 v
 +----------------------+
 | START |
 | - check_model |
 | - record_audio() |
 | -&gt; ffmpeg PID |
 | - dunstify timer |
 | (cada 3s) |
 | - PID &gt; /tmp/...pid |
 +----------------------+

(*) sleep 0.5 es CRITICO: ffmpeg necesita medio segundo
para cerrar bien el header WAV. Sin eso, fichero corrupto.
</code></pre>
<h2 id="el-comando-que-inyecta-el-texto">El comando que inyecta el
texto</h2>
Es la linea que mas trabajo me costo entender:
<div class="sourceCode" id="cb11"><pre
class="sourceCode bash"><code class="sourceCode bash"><a href="#cb11-1" aria-hidden="true" tabindex="-1"></a>xdotool type --clearmodifiers &quot;$TRANSCRIPT&quot;</code></pre></div>
Detalle critico: <code class="verbatim">--clearmodifiers</code>.
Cuando pulsas <code class="verbatim">Mod+R</code> por segunda vez, el
script se ejecuta con la tecla Mod aun pulsada. Si
<code class="verbatim">xdotool type</code> no limpia los modifiers,
escribe basura: <code class="verbatim">Mod+v Mod+a Mod+l Mod+e</code> en
vez de "vale". <code class="verbatim">--clearmodifiers</code> libera
Mod, escribe, y restaura.
El otro detalle: <code class="verbatim">sleep 0.1</code> antes de
<code class="verbatim">xdotool</code>. Sin eso, XMonad puede no haber
estabilizado el foco aun y el texto va a la ventana equivocada. 100 ms
es invisible al humano pero salva.
Si <code class="verbatim">xdotool</code> no esta instalado, fallback
a clipboard:
<div class="sourceCode" id="cb12"><pre
class="sourceCode bash"><code class="sourceCode bash"><a href="#cb12-1" aria-hidden="true" tabindex="-1"></a>echo &quot;$TRANSCRIPT&quot; | xclip -selection clipboard
<a href="#cb12-2" aria-hidden="true" tabindex="-1"></a>dunstify &quot;Text Copied to Clipboard&quot; &quot;Paste with Ctrl+V&quot;</code></pre></div>
<h2 id="el-script-entero-resumen">El script entero (resumen)</h2>
<div class="sourceCode" id="cb13"><pre
class="sourceCode bash"><code class="sourceCode bash"><a href="#cb13-1" aria-hidden="true" tabindex="-1"></a>#!/usr/bin/env bash
<a href="#cb13-2" aria-hidden="true" tabindex="-1"></a># voice-input-toggle - Toggle dictation: pulsas, hablas, pulsas, escribe.
<a href="#cb13-3" aria-hidden="true" tabindex="-1"></a>
<a href="#cb13-4" aria-hidden="true" tabindex="-1"></a>source ~/dotfiles/scripts/whisper-core.sh # detect_microphone, transcribe_audio
<a href="#cb13-5" aria-hidden="true" tabindex="-1"></a>PIDFILE=&quot;/tmp/voice-input.pid&quot;
<a href="#cb13-6" aria-hidden="true" tabindex="-1"></a>STATE_FILE=&quot;/tmp/voice-input-state&quot;
<a href="#cb13-7" aria-hidden="true" tabindex="-1"></a>
<a href="#cb13-8" aria-hidden="true" tabindex="-1"></a># ¿Hay grabacion en curso? -&gt; STOP
<a href="#cb13-9" aria-hidden="true" tabindex="-1"></a>if [ -f &quot;$PIDFILE&quot; ] &amp;&amp; kill -0 &quot;$(cat $PIDFILE)&quot; 2&gt;/dev/null; then
<a href="#cb13-10" aria-hidden="true" tabindex="-1"></a> NOTIF_ID=$(sed -n &#39;1p&#39; &quot;$STATE_FILE&quot;)
<a href="#cb13-11" aria-hidden="true" tabindex="-1"></a> AUDIO_FILE=$(sed -n &#39;2p&#39; &quot;$STATE_FILE&quot;)
<a href="#cb13-12" aria-hidden="true" tabindex="-1"></a> PID=$(cat &quot;$PIDFILE&quot;)
<a href="#cb13-13" aria-hidden="true" tabindex="-1"></a>
<a href="#cb13-14" aria-hidden="true" tabindex="-1"></a> kill &quot;$PID&quot; 2&gt;/dev/null
<a href="#cb13-15" aria-hidden="true" tabindex="-1"></a> wait &quot;$PID&quot; 2&gt;/dev/null
<a href="#cb13-16" aria-hidden="true" tabindex="-1"></a> sleep 0.5 # ffmpeg cierra header WAV
<a href="#cb13-17" aria-hidden="true" tabindex="-1"></a>
<a href="#cb13-18" aria-hidden="true" tabindex="-1"></a> dunstify -C &quot;$NOTIF_ID&quot;
<a href="#cb13-19" aria-hidden="true" tabindex="-1"></a> TRANS=$(dunstify -p &quot;Transcribing...&quot; &quot;Processing audio&quot;)
<a href="#cb13-20" aria-hidden="true" tabindex="-1"></a>
<a href="#cb13-21" aria-hidden="true" tabindex="-1"></a> TRANSCRIPT=$(transcribe_audio &quot;$AUDIO_FILE&quot; &quot;es&quot;)
<a href="#cb13-22" aria-hidden="true" tabindex="-1"></a> dunstify -C &quot;$TRANS&quot;
<a href="#cb13-23" aria-hidden="true" tabindex="-1"></a>
<a href="#cb13-24" aria-hidden="true" tabindex="-1"></a> if [ -n &quot;$TRANSCRIPT&quot; ]; then
<a href="#cb13-25" aria-hidden="true" tabindex="-1"></a> sleep 0.1 # XMonad asienta foco
<a href="#cb13-26" aria-hidden="true" tabindex="-1"></a> xdotool type --clearmodifiers &quot;$TRANSCRIPT&quot;
<a href="#cb13-27" aria-hidden="true" tabindex="-1"></a> dunstify &quot;Text Inserted&quot; &quot;$(echo &quot;$TRANSCRIPT&quot; | head -c 60)&quot;
<a href="#cb13-28" aria-hidden="true" tabindex="-1"></a> else
<a href="#cb13-29" aria-hidden="true" tabindex="-1"></a> dunstify -u critical &quot;No Speech Detected&quot;
<a href="#cb13-30" aria-hidden="true" tabindex="-1"></a> fi
<a href="#cb13-31" aria-hidden="true" tabindex="-1"></a>
<a href="#cb13-32" aria-hidden="true" tabindex="-1"></a> rm -f &quot;$AUDIO_FILE&quot; &quot;$PIDFILE&quot; &quot;$STATE_FILE&quot;
<a href="#cb13-33" aria-hidden="true" tabindex="-1"></a> exit 0
<a href="#cb13-34" aria-hidden="true" tabindex="-1"></a>fi
<a href="#cb13-35" aria-hidden="true" tabindex="-1"></a>
<a href="#cb13-36" aria-hidden="true" tabindex="-1"></a># No hay grabacion -&gt; START
<a href="#cb13-37" aria-hidden="true" tabindex="-1"></a>check_model || exit 1
<a href="#cb13-38" aria-hidden="true" tabindex="-1"></a>AUDIO_FILE=&quot;/tmp/voice-recording-$(date +%s)-$RANDOM.wav&quot;
<a href="#cb13-39" aria-hidden="true" tabindex="-1"></a>FFMPEG_PID=$(record_audio &quot;$AUDIO_FILE&quot;)
<a href="#cb13-40" aria-hidden="true" tabindex="-1"></a>echo &quot;$FFMPEG_PID&quot; &gt; &quot;$PIDFILE&quot;
<a href="#cb13-41" aria-hidden="true" tabindex="-1"></a>
<a href="#cb13-42" aria-hidden="true" tabindex="-1"></a>NOTIF_ID=$(dunstify -p -u critical -t 0 -i microphone-sensitivity-high \
<a href="#cb13-43" aria-hidden="true" tabindex="-1"></a> &quot;🎤 Voice Input&quot; &quot;Press Mod+r to stop&quot;)
<a href="#cb13-44" aria-hidden="true" tabindex="-1"></a>printf &quot;%s\n%s\n&quot; &quot;$NOTIF_ID&quot; &quot;$AUDIO_FILE&quot; &gt; &quot;$STATE_FILE&quot;
<a href="#cb13-45" aria-hidden="true" tabindex="-1"></a>
<a href="#cb13-46" aria-hidden="true" tabindex="-1"></a># Timer en background (actualiza notificacion cada 3s)
<a href="#cb13-47" aria-hidden="true" tabindex="-1"></a>(
<a href="#cb13-48" aria-hidden="true" tabindex="-1"></a> START=$(date +%s)
<a href="#cb13-49" aria-hidden="true" tabindex="-1"></a> while kill -0 &quot;$FFMPEG_PID&quot; 2&gt;/dev/null; do
<a href="#cb13-50" aria-hidden="true" tabindex="-1"></a> ELAPSED=$(($(date +%s) - START))
<a href="#cb13-51" aria-hidden="true" tabindex="-1"></a> dunstify -r &quot;$NOTIF_ID&quot; -u critical -t 0 \
<a href="#cb13-52" aria-hidden="true" tabindex="-1"></a> -i microphone-sensitivity-high \
<a href="#cb13-53" aria-hidden="true" tabindex="-1"></a> &quot;🎤 Voice Input&quot; &quot;Recording: $(format_duration $ELAPSED)&quot;
<a href="#cb13-54" aria-hidden="true" tabindex="-1"></a> sleep 3
<a href="#cb13-55" aria-hidden="true" tabindex="-1"></a> done
<a href="#cb13-56" aria-hidden="true" tabindex="-1"></a>) &amp;</code></pre></div>
<h2 id="atarlo-a-modr">Atarlo a Mod+R</h2>
En XMonad (lo que tiene Pascual). En <code
class="verbatim">xmonad.hs</code>:
<div class="sourceCode" id="cb14"><pre
class="sourceCode haskell"><code class="sourceCode haskell"><a href="#cb14-1" aria-hidden="true" tabindex="-1"></a>, (&quot;M-r&quot;, spawn &quot;/home/passh/.local/bin/voice-input-toggle&quot;)</code></pre></div>
En Ubuntu (GNOME): Settings → Keyboard → View and
Customize Shortcuts → Custom Shortcuts → Add:
<pre><code>Name: Voice Input
Command: /home/USER/.local/bin/voice-input-toggle
Shortcut: Super+R
</code></pre>
(En GNOME <code class="verbatim">Mod</code> por defecto es la tecla
Super = tecla Windows.)
En KDE Plasma: System Settings → Shortcuts → Custom
Shortcuts → Edit → New → Global Shortcut → Command/URL:
<pre><code>Action: /home/USER/.local/bin/voice-input-toggle
Trigger: Meta+R
</code></pre>
En i3wm/sway. En <code
class="verbatim">~/.config/i3/config</code> (o <code
class="verbatim">sway/config</code>):
<pre><code>bindsym $mod+r exec /home/USER/.local/bin/voice-input-toggle
</code></pre>
(Ojo: <code class="verbatim">$mod+r</code> por defecto en i3 abre el
modo "resize". Si quieres conservarlo, usa <code
class="verbatim">$mod+Shift+r</code> o cualquier otra combinacion
libre.)
En Hyprland. En <code
class="verbatim">~/.config/hypr/hyprland.conf</code>:
<pre><code>bind = SUPER, R, exec, /home/USER/.local/bin/voice-input-toggle
</code></pre>
En Wayland (Hyprland, sway, GNOME) hay un detalle:
<code class="verbatim">xdotool</code> no funciona en sesiones Wayland
puras. Hay que usar <code class="verbatim">wtype</code> o <code
class="verbatim">ydotool</code>:
<div class="sourceCode" id="cb19"><pre
class="sourceCode bash"><code class="sourceCode bash"><a href="#cb19-1" aria-hidden="true" tabindex="-1"></a># En vez de:
<a href="#cb19-2" aria-hidden="true" tabindex="-1"></a>xdotool type --clearmodifiers &quot;$TRANSCRIPT&quot;
<a href="#cb19-3" aria-hidden="true" tabindex="-1"></a>
<a href="#cb19-4" aria-hidden="true" tabindex="-1"></a># Wayland (instalar wtype):
<a href="#cb19-5" aria-hidden="true" tabindex="-1"></a>wtype &quot;$TRANSCRIPT&quot;
<a href="#cb19-6" aria-hidden="true" tabindex="-1"></a>
<a href="#cb19-7" aria-hidden="true" tabindex="-1"></a># Wayland alternativo (ydotool, requiere root o setuid):
<a href="#cb19-8" aria-hidden="true" tabindex="-1"></a>ydotool type &quot;$TRANSCRIPT&quot;</code></pre></div>
<h2 id="otros-casos-que-tenemos-montados">Otros casos que tenemos
montados</h2>
<h3 id="grabador-de-reuniones-meeting-recorder-toggle">Grabador de
reuniones (<code class="verbatim">meeting-recorder-toggle</code>)</h3>
Otro atajo. Pulsas al inicio de la reunion, vuelves a pulsar al
final. Guarda el audio en <code class="verbatim">~/recordings/</code>
con timestamp y un fichero <code class="verbatim">.json</code> con
metadata. Lo transcribe en background. Al dia siguiente tienes el <code
class="verbatim">.txt</code> listo para repasar.
Ojo legal: graba tu lado de la conversacion solo si
solo tu microfono entra. Para grabar tambien al otro hay que mezclar el
monitor del sink con <code
class="verbatim">pactl load-module module-loopback</code>, y eso depende
de la legislacion donde estes.
<h3 id="pipeline-completo-voz-a-voz">Pipeline completo voz a voz</h3>
Una vez tienes Whisper local, el siguiente paso obvio es un asistente
de voz:
<pre><code>Microfono → ffmpeg → Whisper (local) → LLM → TTS (local) → Altavoces
</code></pre>
El LLM puede ser cloud (Claude API, OpenAI) o local (Ollama con Llama
3, Mistral, lo que prefieras). El TTS puede ser Piper, Kokoro o F5-TTS,
todos con bindings de Python o binarios autonomos. Si quieres el bucle
entero local, <code class="verbatim">Ollama + whisper.cpp + Piper</code>
te lo cierra: cero llamadas a internet, todo en tu maquina.
<h1 id="cosas-que-me-han-mordido">Cosas que me han mordido</h1>
<h2 id="small-no-entiende-numeros-perfectamente"><code
class="verbatim">small</code> no entiende numeros perfectamente</h2>
Si dictas "20 22" puede transcribir "veintidos" o "2022". Para
programar pasa porque las dudas son evidentes. Para finanzas o codigos
seriales, mejor <code class="verbatim">medium</code>.
<h2 id="acentos-cerrados-regionales">Acentos cerrados regionales</h2>
Andaluz cerrado, catalan con muchas palabras castellanizadas. <code
class="verbatim">small</code> en espanol tira pero pierde matices. <code
class="verbatim">large-v3</code> ayuda. No esperes milagros: la voz
humana real es mas variada de lo que parece.
<h2 id="frases-muy-cortas">Frases muy cortas</h2>
Whisper tiene <code class="verbatim">VAD</code> (voice activity
detection) interno, pero le cuesta con audios de menos de 1 segundo. Si
quieres dictar palabras sueltas, mejor encadenar varias o subir el <code
class="verbatim">-no-speech-thold</code>.
<h2 id="auto-detect-de-idioma-falla">Auto-detect de idioma falla</h2>
Si no pasas <code class="verbatim">-l es</code>, en frases cortas o
ambiguas a veces detecta ingles o portugues. Siempre que sepas
el idioma, fijalo. Cuesta cero y evita bugs.
<h2 id="el-.wav-16-khz-mono-no-es-opcional">El <code
class="verbatim">.wav</code> 16 kHz mono no es opcional</h2>
Whisper espera ese formato. Si le das otra cosa, lo convierte
internamente y pierdes 100-300 ms. En tiempo real eso se nota. Mejor
grabarlo bien de entrada con <code
class="verbatim">-ar 16000 -ac 1</code>.
<h1 id="por-que-no-usar-openai-whisper-en-python">Por que NO usar OpenAI
Whisper en Python</h1>
Hay dos versiones de Whisper:
<ol>
<li>La oficial de OpenAI: Python, PyTorch, modelo en
<code class="verbatim">.pt</code>. Funciona, pero es pesada (PyTorch +
CUDA libs ~2 GB extra) y lenta de arrancar (~2 segundos solo
cargando).</li>
<li>whisper.cpp (Georgi Gerganov, <code
class="verbatim">ggerganov</code> en GitHub, el mismo de <code
class="verbatim">llama.cpp</code>): C++, GGML, modelo en <code
class="verbatim">.bin</code>. Arranque instantaneo, mismo modelo, igual
o mejor calidad.</li>
</ol>
No hay razon para usar la version Python en 2026 a menos que estes
integrando con Python pipelines. Para CLI / scripts / wrappers, <code
class="verbatim">whisper.cpp</code> gana siempre.
Hay tambien <code class="verbatim">faster-whisper</code> (Python con
CTranslate2) que es competitivo. Si ya estas en Python ecosystem,
tirale; si no, <code class="verbatim">whisper.cpp</code> es mas
simple.
<h1 id="cierre">Cierre</h1>
Whisper local ha cambiado mi forma de trabajar con texto. Notas de
voz al volante que aparecen como <code class="verbatim">.txt</code>,
mensajes largos respondidos por escrito desde el terminal, reuniones con
la transcripcion lista al final del dia. Todo sin que un solo byte de
voz haya salido del ordenador.
Esa es la promesa real: privacidad sin asteriscos, sin TOS de 30
paginas, sin "tus datos pueden ser usados para entrenar nuestros modelos
en el futuro". Tu microfono. Tu CPU. Tu texto. Punto.
El umbral de entrada es bajo:
<div class="sourceCode" id="cb21"><pre
class="sourceCode bash"><code class="sourceCode bash"><a href="#cb21-1" aria-hidden="true" tabindex="-1"></a>nix-shell -p whisper-cpp-vulkan
<a href="#cb21-2" aria-hidden="true" tabindex="-1"></a>curl -LO https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-small.bin
<a href="#cb21-3" aria-hidden="true" tabindex="-1"></a>whisper-cli -m ggml-small.bin -f audio.wav -l es -nt</code></pre></div>
Tres lineas. Si tu uso pasa esa prueba, ya no hay vuelta atras.
<h1 id="referencias">Referencias</h1>
<ul>
<li><a
href="https://github.com/ggerganov/whisper.cpp">github.com/ggerganov/whisper.cpp</a>
– el repo del proyecto.</li>
<li><a
href="https://huggingface.co/ggerganov/whisper.cpp">huggingface.co/ggerganov/whisper.cpp</a>
– todos los modelos GGML.</li>
<li><code
class="verbatim">modules/home-manager/programs/whisper.nix</code> en <a
href="https://github.com/pascualmg/dotfiles">pascualmg/dotfiles</a> – la
receta NixOS completa.</li>
<li><code class="verbatim">scripts/whisper-brutal</code>, <code
class="verbatim">scripts/whisper-core.sh</code>, <code
class="verbatim">scripts/voice-input-toggle</code>, <code
class="verbatim">scripts/meeting-recorder-toggle</code> – los wrappers
de Pascual, BSD-style sin licencia explicita pero copiables.</li>
</ul>

Estas seguro? Esto no se puede deshacer.

Comentarios (0)

Sin comentarios todavia. Se el primero!