Etiqueta: tts

Google ofrece por fin su Text-to-Speech de forma oficial para desarrolladores
Hace algún tiempo descubrimos que, utilizando el servicio de traducción de Google, podíamos utilizar el TTS de Google pasando un texto en una URL y Google nos devolvía un archivo de audio que podíamos reproducir en Asterisk. Era un TTS (Text-To-Speech) muy bueno y, utilizando este sistema, gratuito. Desde entonces Google ha ido cambiando este servicio poco a poco, lo que ha requerido que muchos servicios TTS integrados con distintos software tuvieran que ser modificados cuando dejaba de funcionar. Era una especie de hack que permitía tener un TTS profesional de forma prácticamente gratis. El problema era que no había forma oficial de utilizar el TTS de Google, ni pagando, ni sin pagar. Si te gustaba su TTS, solo podías buscar la última manera de obtener el archivo de audio y confiar en que este sistema se mantuviese estable el mayor tiempo posible.
Un sistema Text To Speech (TTS), es una aplicación que convierte un texto escrito a audio, permitiendo escuchar cualquier texto: un documento, un email o incluso llamar a un número de teléfono y poder escuchar una información que previamente alguien ha escrito.
Ocho años después, Google por fin publica de forma oficial en su nube Google Cloud, su servicio de TTS aprovechando la integración con un sistema llamado WaveNet que permite crear audio en bruto partiendo de texto gracias a la tecnología DeepMind de aprendizaje automático, lo que permite crear un audio mucho más realista en un tiempo mínimo (apenas 50ms.). El inconveniente es que esta nueva tecnología por el momento únicamente está disponible en Inglés, así que si queremos utilizar el TTS en español tendremos que utilizar el de toda la vida, aunque al menos ya disponemos de una API para facilitarnos la vida a los que programamos.
No obstante, y como viene siendo habitual, ahora que Google ofrece esta herramienta para integrarlo con nuestros desarrollos, ya tiene un coste: $4 el primer millón de caracteres, por lo que si escribimos un ejemplo en plan:
Gracias por llamar a EMPRESA, en este momento no podemos atenderle, nuestro horario de atención al cliente es de lunes a jueves de nueve treinta a diecinueve horas y los viernes de nueve treinta a quince horas, deje su mensaje y su teléfono después de oir la señal y nos pondremos en contacto con usted.
Que son unos 300 caracteres, nos costaría unos $0,0012.
Seguramente no parezca un precio excesivo si la idea es grabar ese audio en un archivo y poder reproducirlo tantas veces como deseemos, pero suponiendo que queremos personalizar el audio cada vez que llama una persona, tendríamos que generar ese audio en tiempo real por cada llamada, con lo que el precio seguramente algo mayor.
Por supuesto, si entrar en el ecosistema de Google y su Google Cloud no te interesa, siempre puedes mirar otros sistemas.
Aquí tenéis el enlace al servicio de Text-to-Speech de Google: https://cloud.google.com/text-to-speech/

2018-03-28
Sistemas Text To Speech, para todos los gustos
Un sistema Text To Speech (Texto a Conversación), también llamado TTS, es una aplicación que convierte un texto escrito a audio, permitiendo a un invidente visual escuchar un documento, un email o incluso llamar a un número de teléfono y poder escuchar una información que previamente alguien ha escrito.
Los Text To Speech son muy complejos de desarrollar, ya que se basan en crear la «onda de audio» correspondiente a cada fonema, de forma que hay que generar audio en tiempo real utilizando únicamente ecuaciones matemáticas bastante complejas y que requieren de un gran uso de procesador.
Por este motivo, un TTS utiliza unas ecuaciones completamente diferentes en función del idioma que vayamos a utilizar, ya que en diferentes idiomas, las letras se pronuncian de una forma completamente distinta, es por eso por lo que un TTS que funciona muy bien en inglés, no tiene porqué funcionar igual de bien en español o en francés.
En este artículo vamos a ver algunos TTS que funcionan en español.
(más…)
2012-06-21
Cómo utilizar gratis el Text-to-Speech de Google, en español
Como usuario de Google, siempre me ha gustado mucho la filosofía de esta empresa que crea servicios gratuitos y funcionales para sus usuarios sin obtener prácticamente nada a cambio salvo ver algo de publicidad de una forma poco intrusiva y en mucho casos, interesante. El diseño cuidado de todas las páginas que desarrolla y el cuidado y simplicidad con que crea cualquier servicio es algo que me hace sospechar que por cada programador que trabaja en Google, deben tener a diez psicólogos que los asesoran para obtener servicios útiles, sencillos de manejar y atractivos. Uno de esos servicios es el traductor de idiomas, no es que sea perfecto, pero he de reconocer que ayuda en muchos casos donde el idioma es un problema.
El traductor de idiomas de Google recientemente ha modificado su aspecto y no únicamente eso, si no que ha incorporado una característica que permite a alguien que quiere traducir una frase, poder escucharla para así aprender cómo se pronuncia, algo que desde un punto de vista objetivo tampoco es imprescindible, pero sí bastante interesante.
Lo que sí es interesante es que aprovechando esta característica de transformar una palabra o una frase a audio para poder escucharla, se puede conseguir que Google nos lea un texto cualquiera si sabemos cómo.
Vamos a ver cómo se hace…
(más…)
2010-03-18
i6net ofrecerá el motor VoiceXML para Asterisk
i6net es una empresa española que desarrolla el navegador VXI* VoiceXML para ofrecer a desarrolladores, operadores y proveedores de servicios basados en Asterisk la capacidad desarrollar rápidamente aplicaciones controladas por voz y vídeo utilizando tanto VoIP, como redes telefónicas e incluso redes 3G.
Para los que no sepan muy bien qué es esto del VoiceXML, tan solo contar que esta tecnología permite especificar dialogos entre personas y el sistema, lo que permite desarrollar gracias a un sistema TTS y ASR manejar una conversación algo a lo que actualmente no estamos aún muy acostumbrados salvo cuando llamamos a algún soporte técnico de alguna empresa de telefonía donde nos pregunta los datos, la consulta y busca entre sus sistemas la mejor respuesta (claro que generalmente, la consulta suele ser: -«Quiero hablar con un operador!»).
Un ejemplo muy básico sobre un sistema VoiceXML podeis verlo aquí:
http://www.w3c.es/Presentaciones/2005/0314-estandares-JA/26.html
El navegador VXI* cumple completamente con el estandar W3C VoiceXML 2.0 y algunas especificaciones 2.1, y puede ser fácilmente integrada en sistemas de reconocimiento de voz (ASR) y text-to-speech (TTS).
Podeis ver la nota oficial aquí:
http://www.i6net.com/
2008-03-13
Vodafone inaugura su servicio ASR + SMS
ASR son las siglas de automatic speech recognition o reconocimiento automático del habla, y Vodafone acaba de lanzar un servicio que permite a un cliente, dejar un mensaje en un buzón de voz y el servicio reconocerá lo que ha dicho, lo convertirá a texto y lo enviará por SMS al destinatario.
La verdad es que este mecanismo es bastante sencillo de implementar en Asterisk siempre que utilicemos un software ASR de calidad y algún sistema de envío de SMS.
Que sea sencillo de implementar no quita que la idea es curiosa aunque no sé si tendrá mucho éxito, quizá en las personas mayores…
Más información: http://www.vodafone.es/
2008-02-27
Librerado Festival en Català
SilviaTeleco nos anuncia en Asterisk-ES lo siguiente:
Ya se han liberado las voces en catalán para festival.
Podeis encontrarlas aquí:
http://gps-tsc.upc.es/veu/festcat/
Hay dos tipos HTS o Cluntis, con varios locutores para cada tipo, los
resultados son bastante buenos para ser la primera versión, a ver que
os parecen. Próximamente colgaré un manual de como instalarlas y
usarlas con Asterisk+Festival.
Un gran paso más para popularizar el software libre para el tratamiento de voz sin duda. nEn lugar de esperar a su suerte máquina, sólo tendrás que acceder y desempeñar.
2007-12-18