Así funciona el nuevo Skype translator

Skype lanzará la primera etapa del programa preliminar Skype Translator. El pasado mes de mayo, Satya Nadella y Gurdeep Pall realizaron una demostración de Skype Translator en la Code Conference. Prometimos que entregaríamos una versión preliminar antes de que finalizara el año, y hoy cumplimos esa promesa. Se trata de una versión preliminar de Skype Translator, disponible para los usuarios de Windows 8.1, que brinda a la gente la oportunidad de probar el producto y de proporcionar su retroalimentación.

El programa preliminar iniciará con dos idiomas hablados, español e inglés, así como con más de 40 idiomas para mensajes instantáneos.

Cómo funciona Skype Translator

Como mencionó Gurdeep Pall en su publicación, anunciamos la primera fase del programa de versión previa de Skype Translator que arrancará con inglés y español como los primeros dos idiomas. No podíamos estar más emocionados; Skype Translator es el resultado de décadas de investigación en reconocimiento del habla, traducción automatizada y tecnologías generales de aprendizaje de máquina, combinados con un intenso enfoque en la experiencia de usuario. Esta siguiente fase en la jornada de Skype Translator es un logro muy emocionante y no podemos esperar para compartirlo con las personas que utilizan Windows 8.1 y se han registrado para el idioma español a través de la página de registro de Skype Translator.

Microsoft fue uno de los primeros que escarbó en el reto del reconocimiento del habla. Las mejoras recientes en este ámbito, que fueron posibles por la introducción de redes neurales profundas combinadas con la probada tecnología estadística de traducción de máquina de Microsoft, permitieron mejores resultados en la traducción, lo que permitió significativas conversaciones uno a uno. Skype busca ayudar a la gente a que se comunique – mente a mente, corazón a corazón. Skype Translator es la más reciente evolución de esto.

El programa de versión previa de Skype Translator está disponible para los clientes de Skype de habla española y habla inglesa que utilizan Windows 8.1 o Windows 10 Technical Preview en su escritorio o tableta. Además, la aplicación también traduce conversaciones de texto de mensajería instantánea entre más de 40 idiomas. La etapa de versión previa es crítica para el desarrollo y avance de Skype Translator ya que permite a los clientes utilizar el producto y proveer valiosa retroalimentación que nos permitirá mejorar el producto y al final, ayudar a que la tecnología se vuelva más inteligente y aprenda

El aprendizaje de máquinas es la capacidad que tiene el software de aprender de ejemplos de datos de entrenamiento y Skype Translator está construido en una robusta plataforma de Aprendizaje de Máquina. Al aprender de los datos de entrenamiento durante su etapa de versión previa, junto con todos sus matices, el software puede aprender a reconocer y traducir mejor la diversidad de temas, acentos y variaciones del idioma de los actuales usuarios de Skype Translator.

Los protocolos de aprendizaje de máquina de Skype Translator entrenan y optimizan el reconocimiento del habla (SR, por sus siglas en inglés) y las tareas de aprendizaje de máquina (MT, por sus siglas en inglés), y funcionan como el pegamento que mantiene juntos a estos elementos. Este “pegamento” transforma el texto reconocido para facilitar la traducción. Este proceso incluye la remoción de fluidez de habla (por ejemplo: ‘ahs’ y ‘umms’ así como re-fraseos), la división de texto entre enunciados, así como la adición de puntuación y uso de mayúsculas.

Los datos de entrenamiento para reconocimiento de habla y traducción de máquina vienen de una gran variedad de fuentes entre las que se encuentran páginas web traducidas, videos con subtítulos, así como conversaciones uno a uno previamente traducidas y transcritas. Skype Translator graba las conversaciones para analizar los diálogos y entrenar al sistema para aprender de mejor manera cada idioma. También hemos tenido donaciones de datos de muchas personas de conversaciones previas, que también analizamos y utilizamos para crear material de entrenamiento para los modelos estadísticos que enseñan a los motores de SR y MT cómo mapear la fuente de audio que ingresa a texto, y luego el texto a otro idioma. Los participantes en Skype Translator han sido notificados de manera clara cuando inicia la llamada de que su conversación será grabada y utilizada para mejorar la calidad de los servicios de traducción y reconocimiento de voz de Microsoft.

Después de que los datos han sido preparados e ingresados al sistema de aprendizaje de máquina, el software de aprendizaje de máquina construye un modelo estadístico de las palabras en esas conversaciones y su contexto. Cuando ustedes dicen algo, el software puede encontrar algo similar en su modelo estadístico y aplicar la transformación aprendida de manera previa de audio a texto y de texto a un idioma extranjero.

Mientras que el reconocimiento del habla ha sido un importante tópico de investigación por décadas, la amplia adopción de la tecnología ha sido obstaculizada por altas tasas de error y sensibilidad a la variación del orador, condiciones de ruido, etc. La llegada de la Redes Neurales Profundas (DNN por sus siglas en inglés) para reconocimiento del habla, liderada por Microsoft Research, redujo de manera dramática las tasas de error y mejoró su fortaleza, para al final, permitir el uso de esta tecnología en contextos más amplios como Skype Translator. Al mismo tiempo, el sueño de una comunicación global de humano a humano fue un gran factor de motivación y la fuerza que lideró a los investigadores de MSR para trabajar en esta tecnología.

La porción de MT de Skype Translator traduce texto de un idioma a otro. Utilizamos la misma tecnología que da fuerza a Bing Translator en la web, que fue la primera en combinar el uso de modelos estadísticos y de sintaxis, pero que fue entrenada en específico para un tipo de lenguaje conversacional. Este es en particular un gran reto, pues los datos típicos de entrenamiento utilizados para construir los sistemas de traducción de texto hoy en día están optimizados para un idioma limpio y de escritura bien formada. Nuestro sistema combina el amplio conocimiento del idioma de Bing Translator, y una extensa capa de palabras y frases que son utilizadas en conversaciones habladas.

Adicional a esto, hemos creado un bot personalizado que dirige la experiencia entera. El bot es responsable de crear la llamada y enviar transmisiones de audio a los motores de habla a cambio de traducción y transcripción. El bot traductor actúa como un tercer participante en la llamada que traduce lo que ustedes dijeron cuando terminaron de hablar y traduce lo que dijo la persona a la que llamaron cuando esta terminó de hablar.

La creación del bot requirió de la combinación de experiencias y habilidades de ingeniería de los equipos de Microsoft Research y Skype, lo que dio como resultado una compleja arquitectura pero a la vez, esperamos, una experiencia simple y directa para la gente.

Los retos por venir

El lenguaje es una bestia salvaje. Cambia todo el tiempo, viene en muchos sabores y variedades y hay una sorprendente y gran diferencia entre cómo la gente escribe el idioma y cómo lo habla. Para proveer la mejor experiencia, debemos superar varios retos referentes al lenguaje.

Los humanos son, bueno, humanos y cometen errores, piensan y cambian su forma de pensar. Estos procesos de pensamiento aparecen en el idioma hablado como falta de fluidez. Como se mencionó con anterioridad, cuando la gente habla, hace pausas y repite cosas, y agrega rellenos como ‘um’ y ‘ah’. De manera ideal, ninguno de estos matices debería aparecer en la transcripción o en la traducción. Nuestros modelos de aprendizaje de máquina toman en cuenta esas pausas. En la versión previa verán cómo algunos de esos rellenos son eliminados, y cómo algunos no – esperamos mejorar nuestras capacidades a través de la retroalimentación de los usuarios.

Los humanos son únicos y nuestro lenguaje hablado refleja nuestras identidades regionales, nacionales y culturales a través de coloquialismos y jerga. Microsoft Translator fue construido para ser más fuerte en traducción coloquial, desde sus años de trabajo con sitios de medios sociales como Facebook por ejemplo. Esta fuerza existente nos ayudó con Skype Translator al mejorar nuestra habilidad de traducir frases casuales y terminología. La versión previa de Skype Translator ayudará al sistema a observar y aprender niveles adicionales de conversaciones casuales para traer más cerca al sistema a una compatibilidad con una verdadera habla conversacional.

Adicional a esto, hay retos específicos inherentes en la experiencia de usuario de la traducción del lenguaje. El traductor automatizado en Skype Translator aparece casi como un tercer hablante. Hemos visto que los clientes que acostumbran hablar a través de un intérprete humano se sienten cómodos con la situación. Otros requieren acostumbrarse a esta nueva manera de interacción.

Mientras este momento es un logro muy grande para nuestro equipo, vemos la versión previa tan solo como otro paso en la creación de la mejor experiencia posible de traducción. Nos apoyaremos en la etroalimentación y datos que nuestros usuarios de la versión previa compartan con nosotros para que nos ayuden a mejorar nuestra tecnología y optimizar la experiencia única que crea Skype Translator. Aún son los primeros días de esta tecnología, y aunque tenemos unas bases sólidas, sabemos que en algunos aspectos nuestro trabajo apenas comienza.

Hasta ahora, esta ha sido nuestra jornada. Estamos emocionados de que se unan a nosotros en la búsqueda de facilitar la manera en que la gente se conecta, comunica y colabora a través de Skype Translator. Para comenzar, por favor regístrense a través de la página de Skype Translator Preview.

 

Por: Mo Ladha, Gerente de Grupo de Programa de Skype Real Time Media; y Chris Wendt, Gerente de Grupo de Programa de Microsoft Translator.

 

  Share: