Proyecto D02I1089

INVESTIGACION APLICADA EN TECNOLOGIAS PARA INTERFASES HOMBRE-MAQUINA POR VOZ
Proyecto Número:
D02I1089
Año:2002
Concurso: DECIMO CONCURSO NACIONAL DE PROYECTOS I+D
Tipo de Proyecto:
INVESTIGACION Y DESARROLLO C&T
Area Prioritaria:
TECNOLOGÍA DE LA INFORMACIÓN Y COMUNICAC
Duración:
46 (meses)
Monto Fondef Asignado: 180
(en millones de pesos del año de adjudicación)
Sitio Web: http://


AREAS SECUNDARIAS
MANUFACTURA
DISCIPLINAS ASOCIADAS
INGENIERIA EN COMPUTACION
INGENIERIA ELECTRONICA
INGENIERIA EN TELECOMUNICACIONES

DIRECTOR GENERAL
Nombre: NESTOR JORGE BECERRA YOMA
Dirección: DEPT. DE ING. ELECTRICA. AV.TUPPER 2007, 5 PISO. SANTIAGO CE
SANTIAGO
Teléfono: 9784205-9784095

INSTITUCION PRINCIPAL
Nombre: UNIVERSIDAD DE CHILE
Dirección: ALAMEDA 1058
SANTIAGO
Teléfono: 9782000

OTRAS INSTITUCIONES
Instituciones Ejecutoras NO CONSIDERA
Otras Contrapartes ATCOM TELECOMUNICACIONES S.A.
EMPRESA NACIONAL DE TELECOMUNICACIONES
CSLR, UNIVERSITY OF COLORADO
SOC. EDUC. SAINT LAWRENCE SCHOOL
INDECS LTDA.

RESUMEN

RESUMEN

En este proyecto cuatro tópicos de investigación serán abordados: a) tecnología de voz (speech technology); b) interfaces conversacionales con la arquitectura Gallaxy II; c) implementación de tecnología de voz en procesadores DSP (Digital Signal Processing); y, d) evaluación de Usabilidad de tecnologías, aplicaciones y servicios de interfaces hombre-máquina conversacionales.

A lo largo del proyecto se desarrollarán varios prototipos los que servirán para tener una visión del grado de avance del proyecto, y discutir con las empresas asociadas posibles aplicaciones y formas de transferencia tecnológica. Por otro lado, este es el primer proyecto Fondef en el área de tecnologías para interfaces hombre-maquina conversacionales y es la primera vez que se realiza investigación aplicada avanzada con el español de Chile apuntando a productos en la frontera de la tecnología. También es interesante mencionar que este proyecto trata de componer toda la cadena de desarrollo tecnológico incorporando el elemento que no existía. Esta cadena estaría formada por la investigación aplicada de punta e implementación de la tecnología (Universidad de Chile/Fondef), pasando por la integración de estas tecnologías (ATCOM), y terminando en el desarrollo de las aplicaciones, servicios y negocios (ENTEL). En este sentido, las posibilidades de transferencia tecnológico son muchas. Por último, el proyecto también se le puede ver como una manera de apoyo a las PYMES buscando mejorar la competitividad de la industria nacional, y gana una dimensión interesante en el marco del acuerdo firmado con la Comunidad Europea.
En tecnología de voz, la investigación está enfocada en reconocimiento de voz (RV), verificación de locutor (SV), y síntesis de voz o TTS(Text-to-Speech). Los problemas de RV y VL en aplicaciones reales serán abordados con la técnica del algoritmo ponderado de Viterbi estocástico (Stochastic Weighted Viterbi, SWV) recientemente publicada por el director del proyecto en la revista "IEEE Transactions on Speech and Audio Processing" (la más prestigiosa del área). SWV ha probado ser efectiva en cuanto a aumentar la robustez de un sistema de VL y existen fuertes evidencias de que también puede conducir a resultados muy interesantes en RV. El sistema TTS para el español de Chile será desarrollado utilizando la plataforma Festival propuesta por la Universidad de Edinburgh, UK.

La arquitectura Gallaxy II fue propuesta por el MIT y está siendo utilizada en el proyecto "Communicator" financiado por DARPA, USA. En este proyecto, MIT, Carnegie Mellon, la Universidad de Colorado desarrollan interfaces conversacionales de estado del arte con Gallaxy II. Esta arquitectura es empleada por varios laboratorios en todo el mundo y es la base de los sistemas de diálogos avanzados hoy en día. En otras palabras, Gallaxy/Communicator se está convirtiendo en el estándar para la investigación de interfaces hombre-máquina conversacionales a nivel mundial. En este sentido, el CSLR (Center for Spoken Language Research) de la Universidad de Colorado colaborará con esta propuesta FONDEF mediante un programa de colaboración internacional que ya resultó en la implementación de un prototipo del sistema Communicator en la Universidad de Chile.

Uno de los propósitos de esta investigación es el de incluir procesadores DSP en PCs que funcionen como plataformas de interfaces hombre-máquina conversacionales para aumentar la capacidad de procesamiento y reducir los costos de estos sistemas. Estos componentes operarían en la base Master(PC)-Slave(DSP). Además, esta propuesta considera la implementación de al menos una de las tecnologías desarrolladas aquí en tarjetas DSP como prototipo para mercados potenciales. Como consecuencia, nuevos mercados serán abiertos para la industria de DSP en Chile y la competitividad de empresas nacionales será mejorada.
Finalmente, las aplicaciones implementadas con la arquitectura Gallaxy II y la tecnología de procesamiento de voz que resulten de esta investigación serán probadas en aplicaciones reales con metodología de Usabilidad. Esta misma metodología también será utilizada para evaluar servicios y tecnologías propuestos por proveedores extranjeros que son del interés de empresas nacionales.