Etiqueta: verbio

  • Whisper: el reconocedor de audio local definitivo

    Whisper: el reconocedor de audio local definitivo

    Whisper es una herramienta gratuita y software libre que utiliza inteligencia artificial local de nuestros sistemas para reconocer palabras en un archivo de audio y convertirlas a texto (lo que se conoce normalmente como ASR: Automatic Speech Recognizer) y que ha sido desarrollada por los creadores de Dall-E2 y ChatGPT: OpenAI.

    Ya conocéis VOSK y vimos sus ventajas y sus inconvenientes, en la mayoría de los casos esta herramienta es más que suficiente para lo que necesita la mayoría que no tenga muchos requisitos. No obstante, cuando apareció Whisper decidimos echarle un vistazo y su resultado nos sorprendió más de lo que pudieramos imaginar. Reconoce nombres, fechas, matrículas, números de ID, y prácticamente cualquier cosa que se dijera, incluso puede reconocer a distintas personas y escribir la conversación como si fuera un guión de una película. Whisper de OpenAI había vuelto a hacerlo aunque no tuviera mucha publicidad de los grandes medios, es una herramienta fabulosa y que merecía la pena probarla en serio.

    Whisper utiliza como «motor de inteligencia artificial» la librería PyTorch, una librería muy conocida y que, aunque lleva muchos años funcionando, es una de las mejores, aunque como tal, requiere de hardware especial.

    Whisper requiere una GPU compatible

    Ahí es donde empezamos a pensar en probarla en local y nos encontramos con algo que ya esperábamos: al trabajar con inteligencia artificial requiere de una gran potencia de cálculo, lo que implica que allá donde queramos ejecutarla necesitaba de una GPU (una tarjeta gráfica potente) que soporte CUDA porque sin esto, reconocer 1 minuto de conversación podía llevar más de 2 horas de cómputo.

    No obstante, entramos en su web e instalamos Whisper para probarlo en un ordenador con una tarjeta gráfica con CUDA y vemos qué tal funciona y los resultados son espectaculares, además de que, a diferencia de otros servicios de OpenAI, Whisper no requiere de conexiones remotas a servidores externos, por lo que el reconocimiento es local.

    Reconocimiento multi-idioma y diferentes modelos

    Reconoce prácticamente cualquier idioma: Español, Inglés, Francés, Catalán, Gallego, y 50 idiomas más.
    Tiene varios modelos separados en función de la calidad del reconocimiento:

    SizeParametersEnglish-only modelMultilingual modelRequired VRAMRelative speed
    tiny39 Mtiny.entiny~1 GB~32x
    base74 Mbase.enbase~1 GB~16x
    small244 Msmall.ensmall~2 GB~6x
    medium769 Mmedium.enmedium~5 GB~2x
    large1550 MN/Alarge~10 GB1x

    Como veis, un reconocimiento mínimo apenas consume 39Mb y 1Gb de RAM, además de ser muy rápido, pero en este caso Vosk es incluso mejor.
    Para que Whisper reconozca medianamente bien, el modelo recomendado es small o medium, y con esto, una conversación telefónica podría ser perfectamente reconocida y procesada, mucho mejor que Vosk.

    Demo gratuito de Whisper

    Como lo mejor es una demo para que lo probéis, aquí hay una web que tiene un procesador especial para probar Whisper remotamente: https://huggingface.co/spaces/anzorq/openai_whisper_stt

  • Sistemas Text To Speech, para todos los gustos

    Un sistema Text To Speech (Texto a Conversación), también llamado TTS, es una aplicación que convierte un texto escrito a audio, permitiendo a un invidente visual escuchar un documento, un email o incluso llamar a un número de teléfono y poder escuchar una información que previamente alguien ha escrito.

    Los Text To Speech son muy complejos de desarrollar, ya que se basan en crear la «onda de audio» correspondiente a cada fonema, de forma que hay que generar audio en tiempo real utilizando únicamente ecuaciones matemáticas bastante complejas y que requieren de un gran uso de procesador.

    Por este motivo, un TTS utiliza unas ecuaciones completamente diferentes en función del idioma que vayamos a utilizar, ya que en diferentes idiomas, las letras se pronuncian de una forma completamente distinta, es por eso por lo que un TTS que funciona muy bien en inglés, no tiene porqué funcionar igual de bien en español o en francés.

    En este artículo vamos a ver algunos TTS que funcionan en español.

    (más…)

  • Cómo utilizar el ASR de Google en Asterisk

    En un anterior artículo, enseñamos cómo utilizar el servicio TextToSpeech de Google (que esta empresa utiliza en su servicio de traducción), y se nos quedó en el tintero escribir cómo configurar otro servicio «interno» de Google para nuestro propio beneficio y, si podemos conectarlo a nuestro Asterisk, mejor que mejor.

    En este caso, el servicio «interno» a utilizar llamará mucho la atención, ya que es un servicio muy útil y no precisamente económico: Reconocimiento de Voz (ASR)

    El reconocedor de voz de Google es, en mi opinión, uno de los mejores que existen (no únicamente por ser gratuito) si no porque es capaz de reconocer una gramática abierta (no limitada a ciertas palabras), varios idiomas y prácticamente con cualquier acento. Sin duda, lo que lo hace un firme candidato a ser uno de los mejores, es que «es gratis» (mientras no se abuse y Google lo permita).

    Vamos a ver cómo podemos hacer uso de este ASR gratuito en Google para un Asterisk «personal» o «no profesional«, ya que al depender de un servicio no oficial de Google, no podemos asegurar que vaya a funcionar dentro de unas horas, unos días o unas semanas… por lo que no sirve para ofrecerlo como un servicio de cara a una empresa, ya que para eso, yo recomendaría otros servicios más profesionales como el ASR de Verbio que ya ha demostrado su valía en cientos de instalaciones.

    (más…)

  • Asterisk SIMO ’07: Día del Call Center

    Hola a todos! Hoy comienza el SIMO 07, el segundo evento sobre nuevas tecnologías más importante de Europa y Asterisk está en un destacado lugar.

    Este año, las principales compañías de VoIP y Asterisk han organizado un stand de más de 200 metros cuadrados donde mostrarán bastantes productos y conferencias muy interesantes.

    SinoLogic va a retransmitir estas conferencias en directo, únicamente hay que hacer click en el escenario de arriba y así podrás ver sentirte tan inmerso en este evento como si estuvieras allí mismo.

    Las conferencias de hoy están basadas en la temática Call Centers:
    11.30 – 12.00: David Duffett (DIGIUM)
    12.00 – 13.00: Eduardo Malpica (ALTITUDE SOFTWARE)
    13.00 – 14.00: Emilio Gallego (BINAREA)
    15.00 – 15.30: David Duffet (DIGIUM)
    16.30 – 17.30: Francesc Massana y David Font (VERBIO TECHNOLOGIES)
    17.30 – 18.00: Jose María Rodríguez (BOXIP)
    18.00 – 18.30: Andrés Gorostidi (EUROPESIP)

    Desde Sinologic, esperamos que te guste esta retransmisión y disfrutes charlando en el chat del canal.

    Así que, ponte cómodo y disfruta de las conferencias.

  • Text-to-Speech y reconocedor de voz para Asterisk

    Verbio acaba de lanzar el soporte para conectar su sistema de Text-to-Speech y reconocimiento de voz a Asterisk en Español (España y Latino América) como ayer anunció LumenVox.

    Una de las diferencias con LumenVox es quizá que Verbio es una empresa de habla española, por lo que será bastante más crítica para este idioma y por lo tanto creo que de mejor calidad.

    Pero la principal diferencia es que, por fín existen estos servicios para nuevos idiomas:

    – Español de España
    – Español de México
    – Catalán (Català)
    – Gallego
    – Portugués (Portugûes)
    – Euskera
    – Valenciano (Valencià)
    Otro factor importante es su «speech recognizer» reconocedor de voz, de manera que por fín se puede integrar con Asterisk, algo que estaba en pañales.

    Ya comentaré algo más sobre esto cuando lo pruebe.

    Enlace: http://www.verbio.com