-
30,000 BCE
Permitió que los humanos hablaran
Los humanos se adaptan para tener un hueso hioides. -
Period: 30,000 BCE to 2000 BCE
El periodo de la lengua
Todo comenzó cuando los humanos desarrollaron por primera vez la habilidad de hablar y formar idiomas alrededor del 300.000 AC. Después de años de formalizar el habla humana en palabras, los humanos crearon los idiomas escritos como las primeras formas de grabación y reproducción de sonido. Esta información se almacenaba a menudo en medios como tabletas de piedra o papiro. No fue hasta 1439 que las imprentas permitieron la distribución masiva de libros y periódicos en todo el mundo. -
2690 BCE
El primer lenguaje es inventado
Los jeroglíficos egipcios de la tumba de SethPeribsen (2ª Dinastía), Umm el-Qa'ab permitía a los humanos transmitir la información del habla a través de las generaciones. -
2000 BCE
La primera forma de notación musical se inventa
Escrito en una tablilla cuneiforme en Sumeria (el actual Irak). -
Period: 2000 BCE to
Periodo de la música
Al igual que los fonemas y las lenguas escritas, la música fue una de las primeras formas de sonido que se registró. Las culturas antiguas inscribían la música en tablillas cuneiformes para almacenar melodías y notas. Luego, de manera similar a como las imprentas permitían la distribución masiva de los lenguajes escritos, se inventaron las cajas de música para distribuir masivamente las melodías a los hogares a través de discos de cajas de música (1800s). -
1439
La imprenta es inventada por Johannes Gutenberg
Permitió la distribución masiva del conocimiento a través del lenguaje. -
Wolfgang Kempelen inventa la máquina acústico-mecánica del habla modelada a partir del tracto vocal humano
Dio lugar a futuros trabajos en el estudio de la fonética y el reconocimiento del habla; gran parte de este trabajo se continuó sólo décadas después. -
Luigi Galvani (Italia) demuestra que la electricidad es el medio por el cual las señales pasan a y desde los músculos de las ranas.
Condujo a un mayor interés en buscar en la biología la inspiración para innovaciones de voz; específicamente, con los músculos de la garganta y los patrones eléctricos que los activaron para reproducir los medios de sonido. -
Las cajas de música se fabrican para reproducir melodías simples de discos de cajas de música.
Llevó a un amplio interés de los hogares comunes en la tecnología de reproducción de música en el hogar. -
Period: to
Periodo científico
Luego vino la era de la exploración científica para grabar sonidos análogos en el aire y reproducirlos a través de instrumentos mecánicos. -
Sir Charles Wheatsone, un científico inglés, acuña el término "micrófono".
Condujo a un mayor interés científico en el área de cómo se propagan las ondas sonoras en el aire. -
El fonautograma es inventado como el primer dispositivo que podría grabar sonidos a su paso por el aire por el inventor parisino Édouard-Léon Scott de Martinville. El primer sonido grabado ("fonautograma") fue una persona cantando.
Estimuló el trabajo adicional en los instrumentos de grabación de voz. -
Se inventa el primer piano del mundo que puede grabar y reproducir música con hojas de papel.
Alentó el trabajo comercial y científico para perfeccionar las formas de automatizar la reproducción de música. -
Alexander Graham Bell inventa un telégrafo acústico para transmitir frecuencias de audio a través de cables eléctricos.
Dirigido a la Compañía de Teléfonos Bell, que proporcionó acceso telefónico a más de 150.000 en los EE.UU. -
El fonógrafo es inventado por Thomas Edison, que puede grabar el sonido y reproducirlo. Utilizó un cilindro de metal acanalado envuelto en papel de aluminio, produciendo "grabaciones de colinas y valles".
Llevado a trabajar más en la grabación de audio. Este invento, sin embargo, no era comercialmente viable. -
El micrófono de carbono es inventado por David Edward Hughes (posteriormente mejorado en 1920).
Proporcionó otra opción y medio para grabar y reproducir el audio. -
Thomas Edison inventa la máquina de dictado.
Dio origen a los primeros dispositivos analógicos para grabar voces en entornos corporativos. -
Emile Berliner patenta un sistema de grabación de sonido basado en discos planos, ranuras en espiral y materiales especiales
Basado en discos planos, ranuras en espiral y materiales especiales (por ejemplo, vidrio, zinc y plástico). Estas fueron las primeras grabaciones de sonido que pudieron ser producidas en masa; sin embargo, sólo capturaron un estrecho segmento del espectro de sonido audible (250 Hz hasta unos 2.500 Hz). -
Period: to
Período analógico
Las exploraciones científicas condujeron entonces a innovaciones comerciales para grabar, almacenar y reproducir sonidos dentro de medios analógicos (mecánicos y eléctricos). -
Ramón y Cajal (España) dibuja algunos de los primeros dibujos anatómicos del oído humano (oído externo, medio, interno)
Proponiendo que el movimiento de las células ciliadas hace que los potenciales eléctricos caigan en cascada y envíen la información auditiva de vuelta al córtex del cerebro a través del nervio auditivo. -
El primer dispositivo analógico de grabación por cable magnético es inventado por Valdemar Poulsen.
Permitió grabaciones de audio más largas; por primera vez, se pudieron hacer múltiples grabaciones desde el mismo dispositivo. -
La primera película sonora (un vídeo con sonido sincronizado) se estrena en París.
Hizo populares las películas de sonido, lo que llevó a los cineastas a ser más innovadores en el uso del sonido en las películas. -
Alexander Graham Bell inventa el micrófono líquido, que utiliza ácido sulfúrico y agua desplazada para producir señales eléctricas
Dirigido a un trabajo comercial adicional en el área de diseño de micrófonos; este fue el primer micrófono de trabajo -
El primer par de auriculares mono fue desarrollado por Nathaniel Baldwin en su cocina y fue comprado por la Marina de los Estados Unidos.
Creó un movimiento para dispositivos de reproducción privados y muchos otros diseños de auriculares en los años siguientes. -
El micrófono de condensador es inventado por E.C. Wente (Western Electric).
Permitido para grabaciones de audio de bajo costo y alta fidelidad. Los micrófonos de condensador son los micrófonos estándar presentes en la mayoría de los PCs de hoy en día -
Los sellos discográficos adoptan los micrófonos de condensador de Western Electric, los amplificadores de señales eléctricas y los grabadores electromecánicos.
Abrió la oportunidad de grabar una mayor gama de sonidos en los discos para su reproducción (por ejemplo, órganos eléctricos). -
Chester W. Rice y Edward W. Kellogg inventan el primer altavoz de bobina móvil.
Creó una forma económica de reproducir el sonido; los altavoces de bobina móvil se utilizan comúnmente hoy en día para reproducir el sonido en los PC. -
El primer largometraje sonoro (también conocido como "talkie"), el Cantante de Jazz, se lanza. Después de un gran éxito, el sonido en el cine se convierte en un estándar en el negocio del cine.
Condujo a una explosión de otras películas "habladas" a finales de los años 20 y principios de los 30 en toda América y a nivel internacional. -
La cinta magnética fue inventada por Alemania en 1928, lo que permitió que los dispositivos de grabación y reproducción de audio (grabadoras) y video (videograbadoras)
Condujo a grabaciones de sonido mucho más largas, de mayor fidelidad y más editables (en comparación con las grabaciones en disco) -
El micrófono de cinta se inventó para la radiodifusión.
Difundir la radio de difusión de forma viral a través de América, liderando con una fascinación por el medio de la voz para absorber las noticias y otros tipos de información. -
La cinta magnética se convierte en el medio estándar para dominar las grabaciones de audio en las industrias de la radio y la música, sustituyendo al disco.
Condujo a grabaciones de sonido mucho más largas, de mayor fidelidad y más editables (en comparación con las grabaciones en disco) -
Los laboratorios Bell liberan a Audrey para que reconozca los dígitos hablados
Reconoció los dígitos hablados con una precisión del 90% (sólo con el inventor), lo cual era lo más avanzado. Condujo a trabajar más en la tecnología de reconocimiento de voz -
John C. Koss (músico de jazz) produce el primer par de auriculares estéreo, que lleva a la Corporación Koss (sede en Milwaukee, WI).
Hizo los auriculares accesibles a las masas y el interés comercial en la zona -
IBM Shoebox se inventó para entender las palabras.
Entendió 16 palabras inglesas, que rompieron todos los récords anteriores. Dirigido a seguir trabajando en la tecnología de reconocimiento de voz. -
El cassette compacto es inventado por Phillips
Ayudó a facilitar la adopción de formatos de grabación analógicos (por ejemplo, ~30-40 minutos por casete). -
El micrófono electret (o micrófono eléctrico de lámina) es inventado por Gerhard Sessler (Alemania) y Jim West (Virginia) en BellLaboratories con la patente nº 3.118.022.
Llevado a micrófonos de bajo costo que podrían ser colocados en dispositivos electrónicos. Casi todos los micrófonos modernos para teléfonos celulares y auriculares son micrófonos de electreto (por ejemplo, ~ 1.000 millones se producen en todo el mundo cada año). -
Se inventa el micrófono dinámico
Se permite una menor sensibilidad al sonido y grabaciones de sonido más claras -
Period: to
Período digital
La codificación digital del sonido (DSE) fue inventada por Sony en la década de 1970, permitiendo que el sonido analógico (por ejemplo, los amplificadores) grabado a través de una serie de tipos de micrófonos (por ejemplo, un micrófono de condensador) se convierta en representaciones digitales (por ejemplo, números). -
Los discos compactos (CD) son inventados por Sony y Philips, usando un rayo láser para reproducir música. Los CDs podían ser reproducidos muchas veces sin perder la fidelidad; las grabaciones podían tener hasta 80 minutos de duración.
Permitió la creación y distribución de nuevos contenidos de voz de forma portátil, ya que el formato de CD era considerablemente más pequeño que el formato de LP predecesor. -
El ordenador personal (PC) se lanza como un producto producido por IBM y Microsoft.
Permitió la adopción masiva de tecnologías de grabación y reproducción de audio a través de tarjetas de sonido habilitadas para PC, micrófonos y altavoces. -
El micrófono de silicio, o micrófono MEMS, es inventado por Gerhard Sessler (Alemania) y D. Hohm.
Proporcionó más opciones para grabar audio de alta fidelidad (alta SNR y alta sensibilidad) y bajo consumo de energía. -
Apple integra el texto a voz (MacInTalk) en sus ordenadores personales, con licencia de Joseph Katz y Mark Barton.
Produjo una incursión de nuevas innovaciones en el espacio de texto a voz, cultivando una cultura para que otras compañías tecnológicas (por ejemplo, Microsoft) construyan o concedan licencias de tecnologías TTS. -
La Inteligencia Aplicada de Kurzweil (adquirida por Lernout & Hauspie) lanza el primer programa de voz a texto construido con un Modelo Oculto de Markov (HMM)
Condujo a modelos de transcripción que podían reconocer hasta 1.000 palabras, lo que hizo que las aplicaciones de voz fueran relevantes en toda una gama de industrias. -
BM Tangora es lanzado por IBM que usa HMMs para predecir fonemas en el habla.
Aceleró el uso de modelos de reconocimiento de voz basados en HMM por parte de clientes corporativos -
Procesamiento Distribuido Paralelo (un libro) es publicado por James L. McClelland, David E. Rumelhart y el Grupo de Investigación del PDP.
Se esbozó el marco para un enfoque de red neuronal para construir modelos de reconocimiento del habla (junto con otros casos de uso) -
La muñeca Julie del Mundo de las Maravillas, un juguete que los niños podrían entrenar para responder a sus voces, se lanza públicamente.
Trajo la tecnología de reconocimiento de voz al hogar y a una nueva generación. -
Los casetes compactos digitales son inventados por Philips y Matsushita.
Facilitó el paso de la grabación analógica a la digital, sustituyendo los casetes analógicos. -
La Internet se hace accesible al público por primera vez
Condujo a la infraestructura que permitió el uso comercial de la tecnología de voz (por ejemplo, voz sobre IP). También, condujo al desarrollo de comunidades editoriales para medios de voz (por ejemplo, iTunes / podcasts). -
Dragon (ahora Nuance) lanza Dragon Dictate, el primer sistema de reconocimiento de voz fuera de línea para los consumidores.
Puso la tecnología de reconocimiento de voz a disposición del mercado masivo (para uso doméstico en PCs). -
El lenguaje de programación Python es inventado por Guido van Rossum
Facilitó la construcción de aplicaciones informáticas de voz en los ordenadores personales. -
El software de intercambio de sonido (SoX) es lanzado por Chris Bagwell.
Permitió a los desarrolladores manipular con flexibilidad los archivos de audio con interfaces de línea de comandos (CLI). -
El formato de archivo de audio digital .WAV es inventado por Microsoft e IBM.
Permitió reducir enormemente el tamaño de los archivos mediante los códecs de audio y la compresión; impulsó la invención de una serie de otros códecs de audio -
El paquete Esfinge es desarrollado y lanzado por el Grupo Esfinge de la Universidad Carnegie Mellon.
Desarrollado en PocketSphinx, que es una biblioteca de transcripción de código abierto muy utilizada en Python -
El formato DVD es inventado por Phillips y Sony
Permitió el almacenamiento de más datos en una unidad de disco (reemplazando a los CDs); la tecnología era accesible para cualquiera con una grabadora de DVD. -
Se inventa el códec de audio sin pérdidas FLAC
Reducción del tamaño de los archivos (½) sin sacrificar la calidad del audio -
FFmpeg es lanzado como un software de código abierto
Hizo una poderosa herramienta para la conversión y manipulación de archivos de audio abierta a los desarrolladores de Python. -
Period: to
Período de Internet
El decenio de 2000 fue la época dorada de la grabación y publicación de grabaciones digitales de voz de alta calidad en Internet.28 Se inventaron los códecs de voz sin pérdidas (por ejemplo, 2001 - .FLAC), que redujeron considerablemente el tamaño de los archivos de audio sin sacrificar su calidad general. -
La biblioteca de Herramientas de Lenguaje Natural (NLTK) es publicada por Steven Bird, Edward Loper, Ewan Klein.
Permitió a los desarrolladores de Python construir aplicaciones abiertas relacionadas con el procesamiento del lenguaje natural. -
Las modernas tarjetas de sonido3 de las computadoras portátiles y de escritorio permiten grabar el sonido analógico a través de un micrófono y producirlo en un formato de archivo digital (por ejemplo, .WAV).
Permitió que cualquiera con un PC grabara y reprodujera audio fácilmente con micrófonos y altavoces. -
La tienda de iTunes se abre al público.
Permitió a muchos entusiastas del bricolaje publicar sus propios podcasts y monetizarlos, lo que ayudó enormemente a facilitar la adopción de los formatos de grabación de voz basados en la tecnología digital (por ejemplo, .MP3). -
Skype (acq. Microsoft) anuncia el lanzamiento de la primera versión de su software
Hizo que la voz sobre IP (VoIP) fuera relevante para las llamadas internacionales. -
Los discos Blue Ray son inventados por Sony.
Poner video y audio de alta definición en las manos de los consumidores (~50GB / disco). -
Google translate se lanza como un producto comercial de traducción automática.
Hizo modelos de aprendizaje profundo para la traducción disponible para el público. Ahora tiene 200 millones de usuarios diarios activos. -
La NSA comienza a usar el reconocimiento de voz para aislar las palabras clave en el habla.
Creó nuevos fondos para la investigación de la tecnología de reconocimiento de voz, lo que condujo a nuevos avances. -
Google introduce GOOG-411, un servicio de directorio telefónico. Esto servirá como base para el futuro producto de búsqueda por voz de la compañía.
Creó un rico conjunto de datos para las aplicaciones de voz de Google. -
La biblioteca de aprendizaje de la ciencia es lanzada por David Cournapeau.
Hizo muy simple la construcción de modelos de aprendizaje de máquinas (por ejemplo, modelos SVM) en Python. -
Apple lanza el primer modelo de iPhone con conectividad celular GSM cuatribanda con soporte GPRS y EDGE para la transferencia de datos.
Se ha iniciado una nueva era en la que se utilizan los teléfonos inteligentes para transmitir datos de voz a través de redes celulares y de VoIP (por ejemplo, Skype). -
Google lanza Chrome, un nuevo navegador web.
Permitió una recopilación más fluida de datos de voz a través de los navegadores, con códecs de audio y vídeo incorporados -
Google lanza la aplicación Búsqueda por voz.
Comenzó el proceso de construcción de modelos de transcripción y búsqueda por voz -
El software de Kaldi es lanzado por Daniel Povey y otros.
Facilitó el desarrollo de proyectos de reconocimiento de voz de código abierto -
Period: to
Primer período de voz
Alrededor de 2011, Siri surgió en los iPhones de Apple como el primer asistente de voz accesible para los consumidores. Esta innovación llevó a un cambio dramático en la construcción de arquitecturas de computación con voz primero. -
Apple lanza Siri, un asistente de voz personal para iPhones.
Presentó asistentes de voz al público en general. Siri es el asistente de voz más utilizado por los hogares americanos. -
El formato de archivo .OPUS se lanza como la forma más moderna de códec de voz, reemplazando a .VORBIS y .SPEEX como el estándar de oro para la grabación de archivos de audio basados en la voz.
Facilitó una transmisión más eficiente de los datos de voz a través de redes celulares y de VoIP. -
PS4 se lanza al público a través de Sony
Hizo que la computación de voz fuera relevante para las consolas de juegos (74 millones de unidades vendidas). -
Amazon libera a Alexa, un altavoz controlado por voz.
Trajo asistentes de voz a la cultura dominante, como los primeros smartphones (por ejemplo, Apple - iPhones). -
Microsoft anuncia a Cortana, un asistente de voz para Microsoft Windows.
Abrió el campo de la computación de voz a miles de millones de usuarios de Windows. -
TensorFlow es de código abierto de Google.
Permitió construir rápidamente modelos de aprendizaje profundo; aceleró las innovaciones en el reconocimiento del habla, la traducción y el texto a voz (por ejemplo, los modelos de WaveNet). -
El Google Speech API entra en modo Beta, con un precio de 0,024 dólares por minuto de audio transcrito y un precio por 15 segundos de grabación.
Alcanzó una tasa de error de palabras de aproximadamente el 5% a partir de 2018, que es aproximadamente la misma que la del oído/entendimiento humano. -
La biblioteca LibROSA es lanzada en la conferencia de SciPy por Brian McFee.
Se han puesto a disposición herramientas de código abierto para la caracterización, manipulación, autosimilitud, filtrado y distorsión dinámica del tiempo. -
La biblioteca de pitones de pyAudioAnalysis es publicada por Theodoros Giannakopoulos en una publicación de PloS One (Grecia).
Puso a disposición herramientas de código abierto para la caracterización del audio, la diarización de los altavoces, la anotación de archivos de audio y el modelado de HMM. -
La biblioteca de Keras se publica en Python por François Chollet.
Facilitó el despliegue de los modelos de aprendizaje profundo con TensorFlow como back-end. -
Apple lanza AirPods, auriculares inalámbricos, para su uso con smartphones.
Consumó la adopción de auriculares basados en Bluetooth, abriendo nuevas interfaces para que las computadoras de voz graben y reproduzcan audio. -
Google Assistant está formalmente liberado.
Hizo de Google un actor importante en el mercado de los asistentes de voz. -
El modelo WaveNet es publicado por DeepMind (adquirido por Google en 2014).
Produjo el contenido de texto a voz con una precisión casi humana. -
Apple lanza el HomePod.
Ampliado sobre el dominio de Apple en la computación de la voz (por ejemplo, con Siri incorporada en los teléfonos inteligentes / portátiles).