Dictando a la computadora

Muestro primero un video dónde se ve una pequeña prueba del dictado (speech to text), todo con software libre

Es la primera prueba de dictado que realizo en una computadora con el sistema operativo Linux kde Neon, base Ubuntu, usando el motor de voz a texto vosk, el mismo que utiliza el editor de videos kdenlive para generar los subtítulos, sobre el cual he comentado el año pasado, el software nerd-dictation (cuyo autor es https://github.com/ideasman42), con este conjunto de softwares libres que ayudan a la accesibilidad, es posible dictarle con nuestra voz a través de un micrófono a editores de texto online como google docs, la suite cryptpad aún usando el Firefox, al LibreOffice Writer, a cualquier editor de texto sencillo, a whatsappweb, a telegram desktop, funciona sin necesidad de internet.

Basándome en lo que dicen en esta página

https://bigl.es/tuesday-tooling-nerd-dictation/
les comparto mí primera prueba con vosk (kit de herramientas software libre de reconocimiento de voz), trataré de ordenar lo necesario para instalarlo.

En mi carpeta Personal y dentro de la carpeta Programas ejecuto en terminal los siguientes comandos:

sudo apt install xdotool
sudo apt install python3-setuptools
sudo apt install python3-pip
pip3 install -U Pip
pip3 install vosk
sudo apt install git
git clone https://github.com/ideasman42/nerd-dictation.git
cd nerd-dictation

dentro de la carpeta nerd-dictation creo una carpeta llamada model, luego me dirijo a la siguiente web y descargo el archivo del modelo vosk español (spanish), inglés etc. o el idioma que querramos:

https://alphacephei.com/vosk/models

Al contenido de dicho  archivo comprimido , lo extraigo en la carpeta model

abrimos una terminal en la carpeta nerd-dictation y colocamos el siguiente comando para iniciar el software el cual a partir de ese momento todo el sonido que ingrese por el micrófono interno o conectado lo pasará a texto, en el lugar dónde hayamos hecho clic, como se ve en el primer video:

./nerd-dictation begin --vosk-model-dir=./model &

Para finalizar la aplicación de dictado por voz en la terminal colocamos :

./nerd-dictation end

Notas : Siempre estoy reescribiendo, corrigiendo o actualizando partes de las entradas del blog.

Hay un programa que facilitaría el inicio y fin del dictado, se llama elograf, el cual interactúa con los ya mencionados en forma gráfica, pero al día de hoy  no he logrado configurarlo bien.

Son las primeras pruebas que hago con estos softwares, espero te sean de utilidad.

He notado que al dictar (usando el modelo de voz español) los números los anota en palabras, y no como dígitos numéricos, en cambio al utilizar el modelo en el idioma inglés sí lo puede hacer si le pasamos el siguiente comando:

./nerd-dictation begin --numbers-as-digits

A %d blogueros les gusta esto: