Timeline: Historia de la Computación por Voz

30,000 BCE

Permitió que los humanos hablaran

Los humanos se adaptan para tener un hueso hioides.

Period: 30,000 BCE to 2000 BCE

El periodo de la lengua

Todo comenzó cuando los humanos desarrollaron por primera vez la habilidad de hablar y formar idiomas alrededor del 300.000 AC. Después de años de formalizar el habla humana en palabras, los humanos crearon los idiomas escritos como las primeras formas de grabación y reproducción de sonido. Esta información se almacenaba a menudo en medios como tabletas de piedra o papiro. No fue hasta 1439 que las imprentas permitieron la distribución masiva de libros y periódicos en todo el mundo.

2690 BCE

El primer lenguaje es inventado

Los jeroglíficos egipcios de la tumba de SethPeribsen (2ª Dinastía), Umm el-Qa'ab permitía a los humanos transmitir la información del habla a través de las generaciones.

2000 BCE

La primera forma de notación musical se inventa

Escrito en una tablilla cuneiforme en Sumeria (el actual Irak).

Period: 2000 BCE to 1800

Periodo de la música

Al igual que los fonemas y las lenguas escritas, la música fue una de las primeras formas de sonido que se registró. Las culturas antiguas inscribían la música en tablillas cuneiformes para almacenar melodías y notas. Luego, de manera similar a como las imprentas permitían la distribución masiva de los lenguajes escritos, se inventaron las cajas de música para distribuir masivamente las melodías a los hogares a través de discos de cajas de música (1800s).

1439

La imprenta es inventada por Johannes Gutenberg

Permitió la distribución masiva del conocimiento a través del lenguaje.

1784

Wolfgang Kempelen inventa la máquina acústico-mecánica del habla modelada a partir del tracto vocal humano

Dio lugar a futuros trabajos en el estudio de la fonética y el reconocimiento del habla; gran parte de este trabajo se continuó sólo décadas después.

1791

Luigi Galvani (Italia) demuestra que la electricidad es el medio por el cual las señales pasan a y desde los músculos de las ranas.

Condujo a un mayor interés en buscar en la biología la inspiración para innovaciones de voz; específicamente, con los músculos de la garganta y los patrones eléctricos que los activaron para reproducir los medios de sonido.

1800

Las cajas de música se fabrican para reproducir melodías simples de discos de cajas de música.

Llevó a un amplio interés de los hogares comunes en la tecnología de reproducción de música en el hogar.

Period: 1800 to 1886

Periodo científico

Luego vino la era de la exploración científica para grabar sonidos análogos en el aire y reproducirlos a través de instrumentos mecánicos.

1827

Sir Charles Wheatsone, un científico inglés, acuña el término "micrófono".

Condujo a un mayor interés científico en el área de cómo se propagan las ondas sonoras en el aire.

1857

El fonautograma es inventado como el primer dispositivo que podría grabar sonidos a su paso por el aire por el inventor parisino Édouard-Léon Scott de Martinville. El primer sonido grabado ("fonautograma") fue una persona cantando.

Estimuló el trabajo adicional en los instrumentos de grabación de voz.

1876

Se inventa el primer piano del mundo que puede grabar y reproducir música con hojas de papel.

Alentó el trabajo comercial y científico para perfeccionar las formas de automatizar la reproducción de música.

1876

Alexander Graham Bell inventa un telégrafo acústico para transmitir frecuencias de audio a través de cables eléctricos.

Dirigido a la Compañía de Teléfonos Bell, que proporcionó acceso telefónico a más de 150.000 en los EE.UU.

1877

El fonógrafo es inventado por Thomas Edison, que puede grabar el sonido y reproducirlo. Utilizó un cilindro de metal acanalado envuelto en papel de aluminio, produciendo "grabaciones de colinas y valles".

Llevado a trabajar más en la grabación de audio. Este invento, sin embargo, no era comercialmente viable.

1878

El micrófono de carbono es inventado por David Edward Hughes (posteriormente mejorado en 1920).

Proporcionó otra opción y medio para grabar y reproducir el audio.

1879

Thomas Edison inventa la máquina de dictado.

Dio origen a los primeros dispositivos analógicos para grabar voces en entornos corporativos.

1887

Emile Berliner patenta un sistema de grabación de sonido basado en discos planos, ranuras en espiral y materiales especiales

Basado en discos planos, ranuras en espiral y materiales especiales (por ejemplo, vidrio, zinc y plástico). Estas fueron las primeras grabaciones de sonido que pudieron ser producidas en masa; sin embargo, sólo capturaron un estrecho segmento del espectro de sonido audible (250 Hz hasta unos 2.500 Hz).

Period: 1887 to 1970

Período analógico

Las exploraciones científicas condujeron entonces a innovaciones comerciales para grabar, almacenar y reproducir sonidos dentro de medios analógicos (mecánicos y eléctricos).

1888

Ramón y Cajal (España) dibuja algunos de los primeros dibujos anatómicos del oído humano (oído externo, medio, interno)

Proponiendo que el movimiento de las células ciliadas hace que los potenciales eléctricos caigan en cascada y envíen la información auditiva de vuelta al córtex del cerebro a través del nervio auditivo.

1898

El primer dispositivo analógico de grabación por cable magnético es inventado por Valdemar Poulsen.

Permitió grabaciones de audio más largas; por primera vez, se pudieron hacer múltiples grabaciones desde el mismo dispositivo.

1900

La primera película sonora (un vídeo con sonido sincronizado) se estrena en París.

Hizo populares las películas de sonido, lo que llevó a los cineastas a ser más innovadores en el uso del sonido en las películas.

1903

Alexander Graham Bell inventa el micrófono líquido, que utiliza ácido sulfúrico y agua desplazada para producir señales eléctricas

Dirigido a un trabajo comercial adicional en el área de diseño de micrófonos; este fue el primer micrófono de trabajo

1910

El primer par de auriculares mono fue desarrollado por Nathaniel Baldwin en su cocina y fue comprado por la Marina de los Estados Unidos.

Creó un movimiento para dispositivos de reproducción privados y muchos otros diseños de auriculares en los años siguientes.

1916

El micrófono de condensador es inventado por E.C. Wente (Western Electric).

Permitido para grabaciones de audio de bajo costo y alta fidelidad. Los micrófonos de condensador son los micrófonos estándar presentes en la mayoría de los PCs de hoy en día

1925

Los sellos discográficos adoptan los micrófonos de condensador de Western Electric, los amplificadores de señales eléctricas y los grabadores electromecánicos.

Abrió la oportunidad de grabar una mayor gama de sonidos en los discos para su reproducción (por ejemplo, órganos eléctricos).

1925

Chester W. Rice y Edward W. Kellogg inventan el primer altavoz de bobina móvil.

Creó una forma económica de reproducir el sonido; los altavoces de bobina móvil se utilizan comúnmente hoy en día para reproducir el sonido en los PC.

1927

El primer largometraje sonoro (también conocido como "talkie"), el Cantante de Jazz, se lanza. Después de un gran éxito, el sonido en el cine se convierte en un estándar en el negocio del cine.

Condujo a una explosión de otras películas "habladas" a finales de los años 20 y principios de los 30 en toda América y a nivel internacional.

1928

La cinta magnética fue inventada por Alemania en 1928, lo que permitió que los dispositivos de grabación y reproducción de audio (grabadoras) y video (videograbadoras)

Condujo a grabaciones de sonido mucho más largas, de mayor fidelidad y más editables (en comparación con las grabaciones en disco)

1942

El micrófono de cinta se inventó para la radiodifusión.

Difundir la radio de difusión de forma viral a través de América, liderando con una fascinación por el medio de la voz para absorber las noticias y otros tipos de información.

1950

La cinta magnética se convierte en el medio estándar para dominar las grabaciones de audio en las industrias de la radio y la música, sustituyendo al disco.

Condujo a grabaciones de sonido mucho más largas, de mayor fidelidad y más editables (en comparación con las grabaciones en disco)

1952

Los laboratorios Bell liberan a Audrey para que reconozca los dígitos hablados

Reconoció los dígitos hablados con una precisión del 90% (sólo con el inventor), lo cual era lo más avanzado. Condujo a trabajar más en la tecnología de reconocimiento de voz

1958

John C. Koss (músico de jazz) produce el primer par de auriculares estéreo, que lleva a la Corporación Koss (sede en Milwaukee, WI).

Hizo los auriculares accesibles a las masas y el interés comercial en la zona

1962

IBM Shoebox se inventó para entender las palabras.

Entendió 16 palabras inglesas, que rompieron todos los récords anteriores. Dirigido a seguir trabajando en la tecnología de reconocimiento de voz.

1963

El cassette compacto es inventado por Phillips

Ayudó a facilitar la adopción de formatos de grabación analógicos (por ejemplo, ~30-40 minutos por casete).

1964

El micrófono electret (o micrófono eléctrico de lámina) es inventado por Gerhard Sessler (Alemania) y Jim West (Virginia) en BellLaboratories con la patente nº 3.118.022.

Llevado a micrófonos de bajo costo que podrían ser colocados en dispositivos electrónicos. Casi todos los micrófonos modernos para teléfonos celulares y auriculares son micrófonos de electreto (por ejemplo, ~ 1.000 millones se producen en todo el mundo cada año).

1970

Se inventa el micrófono dinámico

Se permite una menor sensibilidad al sonido y grabaciones de sonido más claras

Period: 1970 to 2000

Período digital

La codificación digital del sonido (DSE) fue inventada por Sony en la década de 1970, permitiendo que el sonido analógico (por ejemplo, los amplificadores) grabado a través de una serie de tipos de micrófonos (por ejemplo, un micrófono de condensador) se convierta en representaciones digitales (por ejemplo, números).

1980

Los discos compactos (CD) son inventados por Sony y Philips, usando un rayo láser para reproducir música. Los CDs podían ser reproducidos muchas veces sin perder la fidelidad; las grabaciones podían tener hasta 80 minutos de duración.

Permitió la creación y distribución de nuevos contenidos de voz de forma portátil, ya que el formato de CD era considerablemente más pequeño que el formato de LP predecesor.

1981

El ordenador personal (PC) se lanza como un producto producido por IBM y Microsoft.

Permitió la adopción masiva de tecnologías de grabación y reproducción de audio a través de tarjetas de sonido habilitadas para PC, micrófonos y altavoces.

1983

El micrófono de silicio, o micrófono MEMS, es inventado por Gerhard Sessler (Alemania) y D. Hohm.

Proporcionó más opciones para grabar audio de alta fidelidad (alta SNR y alta sensibilidad) y bajo consumo de energía.

1984

Apple integra el texto a voz (MacInTalk) en sus ordenadores personales, con licencia de Joseph Katz y Mark Barton.

Produjo una incursión de nuevas innovaciones en el espacio de texto a voz, cultivando una cultura para que otras compañías tecnológicas (por ejemplo, Microsoft) construyan o concedan licencias de tecnologías TTS.

1985

La Inteligencia Aplicada de Kurzweil (adquirida por Lernout & Hauspie) lanza el primer programa de voz a texto construido con un Modelo Oculto de Markov (HMM)

Condujo a modelos de transcripción que podían reconocer hasta 1.000 palabras, lo que hizo que las aplicaciones de voz fueran relevantes en toda una gama de industrias.

1986

BM Tangora es lanzado por IBM que usa HMMs para predecir fonemas en el habla.

Aceleró el uso de modelos de reconocimiento de voz basados en HMM por parte de clientes corporativos

1986

Procesamiento Distribuido Paralelo (un libro) es publicado por James L. McClelland, David E. Rumelhart y el Grupo de Investigación del PDP.

Se esbozó el marco para un enfoque de red neuronal para construir modelos de reconocimiento del habla (junto con otros casos de uso)

1987

La muñeca Julie del Mundo de las Maravillas, un juguete que los niños podrían entrenar para responder a sus voces, se lanza públicamente.

Trajo la tecnología de reconocimiento de voz al hogar y a una nueva generación.

1988

Los casetes compactos digitales son inventados por Philips y Matsushita.

Facilitó el paso de la grabación analógica a la digital, sustituyendo los casetes analógicos.

1989

La Internet se hace accesible al público por primera vez

Condujo a la infraestructura que permitió el uso comercial de la tecnología de voz (por ejemplo, voz sobre IP). También, condujo al desarrollo de comunidades editoriales para medios de voz (por ejemplo, iTunes / podcasts).

1990

Dragon (ahora Nuance) lanza Dragon Dictate, el primer sistema de reconocimiento de voz fuera de línea para los consumidores.

Puso la tecnología de reconocimiento de voz a disposición del mercado masivo (para uso doméstico en PCs).

1990

El lenguaje de programación Python es inventado por Guido van Rossum

Facilitó la construcción de aplicaciones informáticas de voz en los ordenadores personales.

1991

El software de intercambio de sonido (SoX) es lanzado por Chris Bagwell.

Permitió a los desarrolladores manipular con flexibilidad los archivos de audio con interfaces de línea de comandos (CLI).

1993

El formato de archivo de audio digital .WAV es inventado por Microsoft e IBM.

Permitió reducir enormemente el tamaño de los archivos mediante los códecs de audio y la compresión; impulsó la invención de una serie de otros códecs de audio

1993

El paquete Esfinge es desarrollado y lanzado por el Grupo Esfinge de la Universidad Carnegie Mellon.

Desarrollado en PocketSphinx, que es una biblioteca de transcripción de código abierto muy utilizada en Python

1997

El formato DVD es inventado por Phillips y Sony

Permitió el almacenamiento de más datos en una unidad de disco (reemplazando a los CDs); la tecnología era accesible para cualquiera con una grabadora de DVD.

2000

Se inventa el códec de audio sin pérdidas FLAC

Reducción del tamaño de los archivos (½) sin sacrificar la calidad del audio

2000

FFmpeg es lanzado como un software de código abierto

Hizo una poderosa herramienta para la conversión y manipulación de archivos de audio abierta a los desarrolladores de Python.

Period: 2000 to 2010

Período de Internet

El decenio de 2000 fue la época dorada de la grabación y publicación de grabaciones digitales de voz de alta calidad en Internet.28 Se inventaron los códecs de voz sin pérdidas (por ejemplo, 2001 - .FLAC), que redujeron considerablemente el tamaño de los archivos de audio sin sacrificar su calidad general.

2001

La biblioteca de Herramientas de Lenguaje Natural (NLTK) es publicada por Steven Bird, Edward Loper, Ewan Klein.

Permitió a los desarrolladores de Python construir aplicaciones abiertas relacionadas con el procesamiento del lenguaje natural.

2002

Las modernas tarjetas de sonido3 de las computadoras portátiles y de escritorio permiten grabar el sonido analógico a través de un micrófono y producirlo en un formato de archivo digital (por ejemplo, .WAV).

Permitió que cualquiera con un PC grabara y reprodujera audio fácilmente con micrófonos y altavoces.

2003

La tienda de iTunes se abre al público.

Permitió a muchos entusiastas del bricolaje publicar sus propios podcasts y monetizarlos, lo que ayudó enormemente a facilitar la adopción de los formatos de grabación de voz basados en la tecnología digital (por ejemplo, .MP3).

2003

Skype (acq. Microsoft) anuncia el lanzamiento de la primera versión de su software

Hizo que la voz sobre IP (VoIP) fuera relevante para las llamadas internacionales.

2006

Los discos Blue Ray son inventados por Sony.

Poner video y audio de alta definición en las manos de los consumidores (~50GB / disco).

2006

Google translate se lanza como un producto comercial de traducción automática.

Hizo modelos de aprendizaje profundo para la traducción disponible para el público. Ahora tiene 200 millones de usuarios diarios activos.

2006

La NSA comienza a usar el reconocimiento de voz para aislar las palabras clave en el habla.

Creó nuevos fondos para la investigación de la tecnología de reconocimiento de voz, lo que condujo a nuevos avances.

2007

Google introduce GOOG-411, un servicio de directorio telefónico. Esto servirá como base para el futuro producto de búsqueda por voz de la compañía.

Creó un rico conjunto de datos para las aplicaciones de voz de Google.

2007

La biblioteca de aprendizaje de la ciencia es lanzada por David Cournapeau.

Hizo muy simple la construcción de modelos de aprendizaje de máquinas (por ejemplo, modelos SVM) en Python.

2007

Apple lanza el primer modelo de iPhone con conectividad celular GSM cuatribanda con soporte GPRS y EDGE para la transferencia de datos.

Se ha iniciado una nueva era en la que se utilizan los teléfonos inteligentes para transmitir datos de voz a través de redes celulares y de VoIP (por ejemplo, Skype).

2008

Google lanza Chrome, un nuevo navegador web.

Permitió una recopilación más fluida de datos de voz a través de los navegadores, con códecs de audio y vídeo incorporados

2008

Google lanza la aplicación Búsqueda por voz.

Comenzó el proceso de construcción de modelos de transcripción y búsqueda por voz

2009

El software de Kaldi es lanzado por Daniel Povey y otros.

Facilitó el desarrollo de proyectos de reconocimiento de voz de código abierto

Period: 2010 to 2018

Primer período de voz

Alrededor de 2011, Siri surgió en los iPhones de Apple como el primer asistente de voz accesible para los consumidores. Esta innovación llevó a un cambio dramático en la construcción de arquitecturas de computación con voz primero.

2011

Apple lanza Siri, un asistente de voz personal para iPhones.

Presentó asistentes de voz al público en general. Siri es el asistente de voz más utilizado por los hogares americanos.

2012

El formato de archivo .OPUS se lanza como la forma más moderna de códec de voz, reemplazando a .VORBIS y .SPEEX como el estándar de oro para la grabación de archivos de audio basados en la voz.

Facilitó una transmisión más eficiente de los datos de voz a través de redes celulares y de VoIP.

2013

PS4 se lanza al público a través de Sony

Hizo que la computación de voz fuera relevante para las consolas de juegos (74 millones de unidades vendidas).

2014

Amazon libera a Alexa, un altavoz controlado por voz.

Trajo asistentes de voz a la cultura dominante, como los primeros smartphones (por ejemplo, Apple - iPhones).

2014

Microsoft anuncia a Cortana, un asistente de voz para Microsoft Windows.

Abrió el campo de la computación de voz a miles de millones de usuarios de Windows.

2015

TensorFlow es de código abierto de Google.

Permitió construir rápidamente modelos de aprendizaje profundo; aceleró las innovaciones en el reconocimiento del habla, la traducción y el texto a voz (por ejemplo, los modelos de WaveNet).

2015

El Google Speech API entra en modo Beta, con un precio de 0,024 dólares por minuto de audio transcrito y un precio por 15 segundos de grabación.

Alcanzó una tasa de error de palabras de aproximadamente el 5% a partir de 2018, que es aproximadamente la misma que la del oído/entendimiento humano.

2015

La biblioteca LibROSA es lanzada en la conferencia de SciPy por Brian McFee.

Se han puesto a disposición herramientas de código abierto para la caracterización, manipulación, autosimilitud, filtrado y distorsión dinámica del tiempo.

2015

La biblioteca de pitones de pyAudioAnalysis es publicada por Theodoros Giannakopoulos en una publicación de PloS One (Grecia).

Puso a disposición herramientas de código abierto para la caracterización del audio, la diarización de los altavoces, la anotación de archivos de audio y el modelado de HMM.