-
Los humanos se adaptan para tener un hueso hioides.
-
Todo comenzó cuando los humanos desarrollaron por primera vez la habilidad de hablar y formar idiomas alrededor del 300.000 AC. Después de años de formalizar el habla humana en palabras, los humanos crearon los idiomas escritos como las primeras formas de grabación y reproducción de sonido. Esta información se almacenaba a menudo en medios como tabletas de piedra o papiro. No fue hasta 1439 que las imprentas permitieron la distribución masiva de libros y periódicos en todo el mundo.
-
Los jeroglíficos egipcios de la tumba de SethPeribsen (2ª Dinastía), Umm el-Qa'ab permitía a los humanos transmitir la información del habla a través de las generaciones.
-
Escrito en una tablilla cuneiforme en Sumeria (el actual Irak).
-
Al igual que los fonemas y las lenguas escritas, la música fue una de las primeras formas de sonido que se registró. Las culturas antiguas inscribían la música en tablillas cuneiformes para almacenar melodías y notas. Luego, de manera similar a como las imprentas permitían la distribución masiva de los lenguajes escritos, se inventaron las cajas de música para distribuir masivamente las melodías a los hogares a través de discos de cajas de música (1800s).
-
Permitió la distribución masiva del conocimiento a través del lenguaje.
-
Dio lugar a futuros trabajos en el estudio de la fonética y el reconocimiento del habla; gran parte de este trabajo se continuó sólo décadas después.
-
Condujo a un mayor interés en buscar en la biología la inspiración para innovaciones de voz; específicamente, con los músculos de la garganta y los patrones eléctricos que los activaron para reproducir los medios de sonido.
-
Llevó a un amplio interés de los hogares comunes en la tecnología de reproducción de música en el hogar.
-
Luego vino la era de la exploración científica para grabar sonidos análogos en el aire y reproducirlos a través de instrumentos mecánicos.
-
Condujo a un mayor interés científico en el área de cómo se propagan las ondas sonoras en el aire.
-
Estimuló el trabajo adicional en los instrumentos de grabación de voz.
-
Alentó el trabajo comercial y científico para perfeccionar las formas de automatizar la reproducción de música.
-
Dirigido a la Compañía de Teléfonos Bell, que proporcionó acceso telefónico a más de 150.000 en los EE.UU.
-
Llevado a trabajar más en la grabación de audio. Este invento, sin embargo, no era comercialmente viable.
-
Proporcionó otra opción y medio para grabar y reproducir el audio.
-
Dio origen a los primeros dispositivos analógicos para grabar voces en entornos corporativos.
-
Basado en discos planos, ranuras en espiral y materiales especiales (por ejemplo, vidrio, zinc y plástico). Estas fueron las primeras grabaciones de sonido que pudieron ser producidas en masa; sin embargo, sólo capturaron un estrecho segmento del espectro de sonido audible (250 Hz hasta unos 2.500 Hz).
-
Las exploraciones científicas condujeron entonces a innovaciones comerciales para grabar, almacenar y reproducir sonidos dentro de medios analógicos (mecánicos y eléctricos).
-
Proponiendo que el movimiento de las células ciliadas hace que los potenciales eléctricos caigan en cascada y envíen la información auditiva de vuelta al córtex del cerebro a través del nervio auditivo.
-
Permitió grabaciones de audio más largas; por primera vez, se pudieron hacer múltiples grabaciones desde el mismo dispositivo.
-
Hizo populares las películas de sonido, lo que llevó a los cineastas a ser más innovadores en el uso del sonido en las películas.
-
Dirigido a un trabajo comercial adicional en el área de diseño de micrófonos; este fue el primer micrófono de trabajo
-
Creó un movimiento para dispositivos de reproducción privados y muchos otros diseños de auriculares en los años siguientes.
-
Permitido para grabaciones de audio de bajo costo y alta fidelidad. Los micrófonos de condensador son los micrófonos estándar presentes en la mayoría de los PCs de hoy en día
-
Abrió la oportunidad de grabar una mayor gama de sonidos en los discos para su reproducción (por ejemplo, órganos eléctricos).
-
Creó una forma económica de reproducir el sonido; los altavoces de bobina móvil se utilizan comúnmente hoy en día para reproducir el sonido en los PC.
-
Condujo a una explosión de otras películas "habladas" a finales de los años 20 y principios de los 30 en toda América y a nivel internacional.
-
Condujo a grabaciones de sonido mucho más largas, de mayor fidelidad y más editables (en comparación con las grabaciones en disco)
-
Difundir la radio de difusión de forma viral a través de América, liderando con una fascinación por el medio de la voz para absorber las noticias y otros tipos de información.
-
Condujo a grabaciones de sonido mucho más largas, de mayor fidelidad y más editables (en comparación con las grabaciones en disco)
-
Reconoció los dígitos hablados con una precisión del 90% (sólo con el inventor), lo cual era lo más avanzado. Condujo a trabajar más en la tecnología de reconocimiento de voz
-
Hizo los auriculares accesibles a las masas y el interés comercial en la zona
-
Entendió 16 palabras inglesas, que rompieron todos los récords anteriores. Dirigido a seguir trabajando en la tecnología de reconocimiento de voz.
-
Ayudó a facilitar la adopción de formatos de grabación analógicos (por ejemplo, ~30-40 minutos por casete).
-
Llevado a micrófonos de bajo costo que podrían ser colocados en dispositivos electrónicos. Casi todos los micrófonos modernos para teléfonos celulares y auriculares son micrófonos de electreto (por ejemplo, ~ 1.000 millones se producen en todo el mundo cada año).
-
Se permite una menor sensibilidad al sonido y grabaciones de sonido más claras
-
La codificación digital del sonido (DSE) fue inventada por Sony en la década de 1970, permitiendo que el sonido analógico (por ejemplo, los amplificadores) grabado a través de una serie de tipos de micrófonos (por ejemplo, un micrófono de condensador) se convierta en representaciones digitales (por ejemplo, números).
-
Permitió la creación y distribución de nuevos contenidos de voz de forma portátil, ya que el formato de CD era considerablemente más pequeño que el formato de LP predecesor.
-
Permitió la adopción masiva de tecnologías de grabación y reproducción de audio a través de tarjetas de sonido habilitadas para PC, micrófonos y altavoces.
-
Proporcionó más opciones para grabar audio de alta fidelidad (alta SNR y alta sensibilidad) y bajo consumo de energía.
-
Produjo una incursión de nuevas innovaciones en el espacio de texto a voz, cultivando una cultura para que otras compañías tecnológicas (por ejemplo, Microsoft) construyan o concedan licencias de tecnologías TTS.
-
Condujo a modelos de transcripción que podían reconocer hasta 1.000 palabras, lo que hizo que las aplicaciones de voz fueran relevantes en toda una gama de industrias.
-
Aceleró el uso de modelos de reconocimiento de voz basados en HMM por parte de clientes corporativos
-
Se esbozó el marco para un enfoque de red neuronal para construir modelos de reconocimiento del habla (junto con otros casos de uso)
-
Trajo la tecnología de reconocimiento de voz al hogar y a una nueva generación.
-
Facilitó el paso de la grabación analógica a la digital, sustituyendo los casetes analógicos.
-
Condujo a la infraestructura que permitió el uso comercial de la tecnología de voz (por ejemplo, voz sobre IP). También, condujo al desarrollo de comunidades editoriales para medios de voz (por ejemplo, iTunes / podcasts).
-
Puso la tecnología de reconocimiento de voz a disposición del mercado masivo (para uso doméstico en PCs).
-
Facilitó la construcción de aplicaciones informáticas de voz en los ordenadores personales.
-
Permitió a los desarrolladores manipular con flexibilidad los archivos de audio con interfaces de línea de comandos (CLI).
-
Permitió reducir enormemente el tamaño de los archivos mediante los códecs de audio y la compresión; impulsó la invención de una serie de otros códecs de audio
-
Desarrollado en PocketSphinx, que es una biblioteca de transcripción de código abierto muy utilizada en Python
-
Permitió el almacenamiento de más datos en una unidad de disco (reemplazando a los CDs); la tecnología era accesible para cualquiera con una grabadora de DVD.
-
Reducción del tamaño de los archivos (½) sin sacrificar la calidad del audio
-
Hizo una poderosa herramienta para la conversión y manipulación de archivos de audio abierta a los desarrolladores de Python.
-
El decenio de 2000 fue la época dorada de la grabación y publicación de grabaciones digitales de voz de alta calidad en Internet.28 Se inventaron los códecs de voz sin pérdidas (por ejemplo, 2001 - .FLAC), que redujeron considerablemente el tamaño de los archivos de audio sin sacrificar su calidad general.
-
Permitió a los desarrolladores de Python construir aplicaciones abiertas relacionadas con el procesamiento del lenguaje natural.
-
Permitió que cualquiera con un PC grabara y reprodujera audio fácilmente con micrófonos y altavoces.
-
Permitió a muchos entusiastas del bricolaje publicar sus propios podcasts y monetizarlos, lo que ayudó enormemente a facilitar la adopción de los formatos de grabación de voz basados en la tecnología digital (por ejemplo, .MP3).
-
Hizo que la voz sobre IP (VoIP) fuera relevante para las llamadas internacionales.
-
Poner video y audio de alta definición en las manos de los consumidores (~50GB / disco).
-
Hizo modelos de aprendizaje profundo para la traducción disponible para el público. Ahora tiene 200 millones de usuarios diarios activos.
-
Creó nuevos fondos para la investigación de la tecnología de reconocimiento de voz, lo que condujo a nuevos avances.
-
Creó un rico conjunto de datos para las aplicaciones de voz de Google.
-
Hizo muy simple la construcción de modelos de aprendizaje de máquinas (por ejemplo, modelos SVM) en Python.
-
Se ha iniciado una nueva era en la que se utilizan los teléfonos inteligentes para transmitir datos de voz a través de redes celulares y de VoIP (por ejemplo, Skype).
-
Permitió una recopilación más fluida de datos de voz a través de los navegadores, con códecs de audio y vídeo incorporados
-
Comenzó el proceso de construcción de modelos de transcripción y búsqueda por voz
-
Facilitó el desarrollo de proyectos de reconocimiento de voz de código abierto
-
Alrededor de 2011, Siri surgió en los iPhones de Apple como el primer asistente de voz accesible para los consumidores. Esta innovación llevó a un cambio dramático en la construcción de arquitecturas de computación con voz primero.
-
Presentó asistentes de voz al público en general. Siri es el asistente de voz más utilizado por los hogares americanos.
-
Facilitó una transmisión más eficiente de los datos de voz a través de redes celulares y de VoIP.
-
Hizo que la computación de voz fuera relevante para las consolas de juegos (74 millones de unidades vendidas).
-
Trajo asistentes de voz a la cultura dominante, como los primeros smartphones (por ejemplo, Apple - iPhones).
-
Abrió el campo de la computación de voz a miles de millones de usuarios de Windows.
-
Permitió construir rápidamente modelos de aprendizaje profundo; aceleró las innovaciones en el reconocimiento del habla, la traducción y el texto a voz (por ejemplo, los modelos de WaveNet).
-
Alcanzó una tasa de error de palabras de aproximadamente el 5% a partir de 2018, que es aproximadamente la misma que la del oído/entendimiento humano.
-
Se han puesto a disposición herramientas de código abierto para la caracterización, manipulación, autosimilitud, filtrado y distorsión dinámica del tiempo.
-
Puso a disposición herramientas de código abierto para la caracterización del audio, la diarización de los altavoces, la anotación de archivos de audio y el modelado de HMM.
-
Facilitó el despliegue de los modelos de aprendizaje profundo con TensorFlow como back-end.
-
Consumó la adopción de auriculares basados en Bluetooth, abriendo nuevas interfaces para que las computadoras de voz graben y reproduzcan audio.
-
Hizo de Google un actor importante en el mercado de los asistentes de voz.
-
Produjo el contenido de texto a voz con una precisión casi humana.
-
Ampliado sobre el dominio de Apple en la computación de la voz (por ejemplo, con Siri incorporada en los teléfonos inteligentes / portátiles).