Google lanza su API para convertir audio en texto: características para desarrolladores

4 min lectura
Google lanza su API para convertir audio en texto: características para desarrolladores
Google lanza su API para convertir audio en texto: características para desarrolladores

BBVA API Market

Uno de los últimos lanzamientos de Google es un ejemplo perfecto de las carrera de las grandes tecnológicas por la economía API y por el uso de las interfaces de desarrollo de aplicaciones para conquistar a la comunidad de desarrolladores, facilitar la creación de productos y servicios y expandir su influencia más allá de las cuatros paredes de sus sedes centrales. La Cloud Speech API de la compañía de Mountain View permite convertir audio en texto en más de 80 idiomas.

Lo que permite esta API es la transcripción del audio que se recibe a través del micrófono del teléfono, o de una aplicación, o facilitar el control del dispositivo a través de la voz. Esto es posible gracias a que la herramienta aplica modelos de redes neuronales de gran alcance enfocados al procesamiento del lenguaje natural. La primera pregunta evidente es… ¿Qué es una red neuronal y para qué sirve?

Existen muchas definiciones de lo que es una red neuronal, algunas de ellas extremadamente complejas. Posiblemente una de las más accesibles sea la del Dr. Simon Haykin, en su libro Neural Networks: A comprehensive foundation: “Una red neuronal es un procesamiento distribuido masivamente paralelo que tiene una tendencia natural para almacenar conocimiento empírico y hacerlo disponible para el uso”.

¿Cómo consigue conocimiento y almacenarlo después una red neuronal artificial (Artificial Neural Network – ANN)? Mediante un proceso de aprendizaje y de interconexiones neuronales conocida como paso sináptico que almacena toda esa información y produce un estímulo de salida. En cierto sentido, el procedimiento por el que aprende y procesa es similar a un cerebro humano.

Para que una red neuronal adquiera conocimiento, es necesario la participación de un algoritmo de aprendizaje, cuyo proceso se basa en la administración aleatoria y secuencial de una serie de datos de entrenamiento a partir de los cuales la red adquiere información y aprende de la misma. Es una cuestión de patrones.

Los tipos de aprendizaje son tres:

●      Aprendizaje supervisado: se introducen unos valores de entrada que dan origen a unos valores de salida. Esos resultados se comparan con los valores correctos y se corrige la desviación para que la red ajuste el proceso.

●      Aprendizaje de refuerzo: se introducen valores de entrada en la red y, una vez obtenidos unos valores de salida, se confirma sin son correctos o no. 

●      Aprendizaje no supervisado: la red neuronal crea patrones de clasificación a partir de los cuales es capaz de ordenar la información suministrada. 

Las características fundamentales de cualquier red neuronal son:

●      Auto-organización y adaptabilidad: algoritmo de aprendizaje adaptativo.

●      Procesado no lineal: permite aumentar la capacidad de la red neuronal artificial a la hora de extraer y clasificar patrones frente al ruido.

●      Procesado paralelo: gran número de nodos para mayor interconectividad. 

Cloud Speech API: características

La nueva API de Google cuenta con algunas de las funcionalidades más interesantes cuando se necesita una interfaz de desarrollo de aplicaciones vinculada al procesamiento de lenguaje natural, reconocimiento de voz y obtención de resultados en tiempo real. Esto es importante porque exige una velocidad de procesamiento lo suficientemente elevada como para dar respuesta inmediata.

●      Reconocimiento de voz automático (Automatic Speech Recognition – ASR): usa una red neuronal de aprendizaje profundo para el reconocimiento de voz, aportar funcionalidades de búsqueda por habla y su transcripción.

●      Reconocimiento en streaming: a medida que la API va procesando y reconociendo la voz del usuario va devolviendo resultados en tiempo real, sin tiempos de espera. Es lo que facilita que la aplicación pueda ofrecer al cliente todas las funcionalidades en torno a ese procesamiento.

●      Soporte búfer de audio: la API es capaz de procesar el sonido procedente del micrófono de una aplicación o del dispositivo móvil y empaquetarlo en distintos tipos de formatos de compresión: FLAC, AMR, PCMU y linear-16. Esa compresión es necesaria para el tratamiento posterior del sonido.

●      Reconocimiento de voz en más de 80 idiomas distintos. Esta es una características que ofrece una gran ventaja competitiva con otros proveedores de servicios similares a terceros desarrolladores. 

●      API integrada.

●      Filtro de contenido inapropiado.

Nuance, el gran rival en el mercado

Durante mucho tiempo, cuando los desarrolladores necesitaban incorporar a sus aplicaciones funcionalidades de reconocimiento de voz y procesamiento de lenguaje natural, el proveedor más habitual era Nuance. Su tecnología está presente en muchos de los productos que hoy en día son una referencia dentro del sector de la interpretación del lenguaje: los asistentes de voz Siri, de Apple, y S-Voice, de Samsung, son dos buenos ejemplos. Hay más, por ejemplo los fabricantes de coches suelen necesitar este tipo de recursos para sus ordenadores de abordo, son el caso de BMW o Chrysler.

La idea de Google con la apertura de Cloud Speech API es que los grandes fabricantes de dispositivos móviles y de automóviles muevan ficha y cambien de proveedor. No solo tiene la ventaja de que el procesamiento del habla y la respuesta en tiempo real se produce a través de la nube, sino que soporta un mayor número de idiomas: de los 80 de Speech API a los 40 que actualmente soportan los SDK móviles de Nuance (tanto para Android e iOS como para navegadores).  

A día de hoy, el acceso a la nube de Google Speech API es limitado, aunque la compañía no ha anunciado aún en qué medida. Cualquier desarrollador puede rellenar un sencillo formulario para comenzar a probar la interfaz de desarrollo de aplicaciones, que es previsible que imponga a medio plazo una política de precios por su acceso y su uso por parte de los desarrolladores. 

 

Si te interesa el mundo de las APIs, ya puedes probar el Sandbox manager de BBVA.

También podría interesarte