Debilidad de Windows que nadie menciona: reconocimiento de voz

0
122

Windows tiene una característica que no le gusta hablar. Mientras que el sistema operativo le permite scrawl notas con un stylus, inicie la sesión con cara (o seguro de la Web) a través de Windows Hola, incluso orden y Cortana para establecer un recordatorio, lo que no es tan ansioso por hacer, al parecer, es usar su motor de reconocimiento de voz para emitir comandos o tomar dictado de voz.

La razón de su silencio puede ir hacia atrás de 10 años, a cuando el Gerente de producto de Microsoft demostró Shanen Boettcher voz dictado dentro de Windows Vista y lo flubbed. La tecnología mantiene un perfil bajo después de eso, y hoy en día, pocos usuarios saben que pueden dictar un documento dentro de Windows.

Si alguna vez hubo un tiempo para que Windows vuelva a intentarlo, sin embargo, parece ser ahora, cuando los avances en inteligencia artificial y computadoras proporcionan una mucho mejor base para la tecnología. “

“Esta es una gran pregunta,” dijo Harry Shum, Vicepresidente Ejecutivo supervisa investigación de reconocimiento de voz de Microsoft, así como de Cortana y Bing, cuando le preguntaron sobre el futuro de dictado dentro de Microsoft Office. “No es realmente necesario por qué no es jugar un papel mucho más importante aún.”

Hemos decidido darle otra oportunidad: profundizó en funciones de dictado de voz de Windows para ver cómo en comparación con tecnologías más recientes de discurso.

Debilidad de Windows que nadie menciona: reconocimiento de voz

Pedir palabra 2016 sobre dictado, y es como la aplicación ni siquiera ha escuchado el término. Word muestra una respuesta similar para “reconocimiento de voz.”

Por qué el reconocimiento de voz no puede ser demasiado perfecto

Algunos de nosotros todavía pensar dictado de voz de la misma manera que Doonesbury lampooned la Newton de Apple, convirtiendo “Estoy escribiendo una frase de prueba” en “Siam lucha a atómica centinela.” Y usted sería perdonado por pensar así, también: reconocimiento de voz de Windows funciona con Microsoft discurso reconocedor 8.0, que ha cambiado literalmente desde Vista. Shum llamó una tecnología de “abuelo”.

Sin embargo, lo que ha cambiado, es el hardware: para escuchar e interpretar el discurso requieren menos potencia de procesamiento que hace una década. La calidad de los micrófonos de matriz integrado dentro de PC como el libro de superficie decir que auriculares dedicados no necesariamente requiere para lograr una precisión superior. ¿Dictado de voz para las masas es aquí, a la derecha?

Cuando he probado las capacidades de discurso de Windows, sin embargo, experimenté personalmente la perfección sin piedad que se requiere para que el sistema sea utilizable. Esta historia tiene 1.028 palabras, incluyendo las subpartidas. Si utiliza software de dictado de voz para escribir, una tasa de precisión de 95.0% significaría que tendría que corregir los errores de más de cincuenta. Que consigue rápido viejo.

En mis pruebas, en base a una metodología que desarrollé para otro producto de reconocimiento de voz que yo lo estoy probando, Windows produce una tasa de exactitud del 93,6%, que es bastante mala en el papel, y algo detrás del software dedicado estoy tratando. Windows también tenía un extraño hábito de interponer la palabra “coma” cuando yo estaba dictando el signo de puntuación. La comunidad de discurso parece dividida sobre si errores relativamente de menor importancia como éste son importantes.

, Por supuesto, era la línea de base. Como alguien que ha utilizado el software de dictado puede decir, la clave para la precisión es formación. Con el tiempo, un programa de dictado de voz aprende su acento, si se pronuncia la “a” en Damasco como “malo” o “mono” y cómo filtrar nuestros tics verbales inconscientes. He visto a empleados de Microsoft afirman que, debidamente entrenado, reconocimiento de voz de Windows era 99% exacta. Diez errores más o menos por 1.000 palabras no está nada mal.

Muy pocos de nosotros, sin embargo, probablemente desean pasar el tiempo el software de entrenamiento. Reconocimiento de voz de Windows requiere hasta 10 minutos para correr a través de unas oraciones de práctica, y se siente como toda la vida. Cortana y Siri no requieren cualquiera del mismo tiempo de configuración, como ya ha sido entrenados a millones de muestras de voz. Hay algo que decir de gratificación inmediata.

Debilidad de Windows que nadie menciona: reconocimiento de voz

Formación de discurso dentro de Windows es un proceso largo. El tiempo de instalación asociado con Dragon software de Nuance es mucho más corto, tal vez un minuto o tan. Pero asistentes digitales modernos reconocen tus palabras instantáneamente.

Cortana (que se puede utilizar en su PC o teléfono) mucho mejor que sistemas de dictado de voz antigua de Windows es su enlace con el enorme poder computacional de la nube de Microsoft. Microsoft puede crunch y correlacionar su entrada de voz junto con cualesquiera otros datos que Microsoft sabe de ti, generación de la inteligencia que es el alma de Cortana.

Conversaciones de Microsoft por reconocimiento de voz

Teniendo en cuenta habilidades probadas de Cortana, crees que discurso habría tomado protagonismo en el show de Ignite de Microsoft la semana pasada. Pero prender exactamente cero sesiones de dictado de voz y al parecer sola en reconocimiento de voz. Mientras tanto, discurso del CEO Satya Nadella pintado reconocimiento de discurso como un componente crítico de Microsoft del futuro.

Tomar Skype Translator, por ejemplo. Traductor universal de Star Trek-como de Microsoft depende de tres líneas diferentes de investigación, según Nadella: reconocimiento de voz, síntesis de voz y traducción automática. “Para que llevar las tres tecnologías, aplicar profundo aprendizaje reforzado y redes de los nervios y los datos de Skype y la magia sucede”, dijo.

“Incluso dentro de Word o Outlook cuando estás escribiendo un documento que ahora no tiene corrección simple hechizo basado en el tesauro,” agregó Nadella, agregando que la oficina ahora puede compensar incluso de dislexia. “Tenemos comprensión lingüística computacional completa de lo que está construyendo. O lo que estás escribiendo.

Pero no lo que estás diciendo, aparentemente.

Debilidad de Windows que nadie menciona: reconocimiento de voz Microsoft

Ejecutivo de Microsoft Satya Nadella se encuentra junto a la NFL estrellas Deion Sanders en Conferencia de Ignite de Microsoft. ¿Ha Microsoft soltó su oportunidad de dictado?

Durante el mismo discurso, Nadella se jactó que algoritmos de voz de Microsoft alcanzó una tasa de error de palabra de 6,9% con la prueba del NIST centralita. Que suena mal: que es exactitud del 93.1 por ciento. Pero la prueba del panel de control utiliza velocidades de muestreo de sólo 8KHz, sobre la calidad de una conversación telefónica en el año 2000. Windows Media Audio 10, el códec en OneNote, puede capturar el audio a 48KHz, proporcionando muestras mucho más precisas.

Creo que es bastante obvio que las piezas del rompecabezas están ahí, técnicamente. Si hay cualquier obstáculo, sea organizacional: a partir del jueves, aplicaciones de Office de Microsoft eran hecho girar hacia fuera en su propio grupo, de Cortana y Bing. Shum, sin embargo, dijo que la inteligencia sigue siendo parte integrante de las ofertas de Microsoft. “Aseguro que estamos infundiendo tecnología AI en todos los productos de Microsoft,” él dijo.

Es posible que Microsoft cree que las oficinas no quieren espacios de trabajo con el clamor de los trabajadores que dictan sobre uno otro. O tal vez Microsoft realmente cree que sus capacidades de reconocimiento de voz existentes dentro de Windows están suficientes para permitir el dictado de las masas.

Si Microsoft cree verdaderamente en la productividad, sin embargo, el futuro del reconocimiento de discurso dentro de su PC probablemente no usando Skype para reservar un hotel en Bangladesh. Está escribiendo acerca de la experiencia, pero con su voz en lugar de los dedos.


Debilidad de Windows que nadie menciona: reconocimiento de voz

Crédito: DragonImages / iStock


LEAVE A REPLY