HACIA UN ORDENADOR QUE DESCRIBE LO QUE VE, EL PROYECTO COGVISYS


"Hasta ahora, las personas se han comunicado mediante el habla o por signos, pero la conversión se realizaba en el cerebro. Ahora queremos que se produzca en una máquina". Así es como describe el coordinador alemán del proyecto CogViSys, Hans-Hellmut Nagel (recuadro), su trabajo para desarrollar un comentarista virtual capaz de transformar la información visual en una descripción textual.

El proyecto se puso en marcha en 2001 y reúne a equipos de investigación de Alemania, Francia, Bélgica, Reino Unido y Suiza. Está financiado en el marco del apartado tecnologías de la sociedad de la información (IST) del Quinto Programa Marco (V PM).

Ya se han dado pasos importantes en el camino para conseguir que los ordenadores imiten la capacidad humana de reconocer y clasificar. Ya disponemos de cámaras digitales que pueden filmar videos, procesadores digitales y medios de almacenamiento de gran capacidad. Muchos ordenadores también son capaces de reconocer objetos a efectos del control de calidad en un entorno de fabricación. La investigación realizada en el campo de la visión cognitiva - el procesamiento de la información visual sensorial para actuar y reaccionar en un entorno dinámico - realiza cada vez tareas más ambiciosas para lograr imitar las actividades y las habilidades humanas lo mejor posible.

Las posibilidades de un comentarista virtual, un ordenador que describe lo que ve, son ilimitadas, como se refleja por la cantidad de aplicaciones que el consorcio del proyecto CogViSys ha investigado - reconocer y traducir el ASL a palabras; proporcionar una descripción textual de las condiciones del tráfico con ayuda de la información obtenida con cámaras de vigilancia; ofrecer descripciones textuales de las comedias mediante el aprendizaje de las interacciones convertidas en ritual dentro de un grupo pequeño de personas; y aprender las representaciones descriptivas de los objetos a partir de videos, facilitando así la búsqueda por ordenador en grandes videotecas de la incidencia de determinadas personas, objetos o configuraciones espacio-temporales de los mismos.

En resumen, se podría idear un tipo de Google basado en imágenes, señaló el Profesor Nagel refiriéndose al servicio de búsqueda en la videoteca. La ventaja de estas propuestas es que no resulta obligatorio describir con todo detalle lo que se está buscando (lo que reduciría el volumen de respuestas redundantes pero aumentaría al mismo tiempo el porcentaje de errores porque las diferencias semánticas irrelevantes entre distintas imágenes las excluiría de las respuestas.)

Se ha avanzado de forma considerable en la traducción del ASL, según comentaba el Profesor Nagel a CORDIS Noticias. Para funcionar correctamente, una máquina debería reconocer aproximadamente el 95 por ciento de los movimientos de la persona en cuestión, para que los usuarios de ese sistema se pudieran comunicar sin tener que interrumpirse mutuamente demasiado a menudo, según explicó el Profesor Nagel. CogViSys ha avanzado bastante hacia la consecución de este objetivo, en parte gracias al acceso a ordenadores potentes.

El Profesor Nagel comentó que esa tecnología permitiría a la gente percibir cada vez mejor su entorno a través de una máquina, y añadió que le gustaría seguir investigando cómo afectaría esto a las percepciones.

Otra aplicación posible es un sistema de alerta y observación para los ancianos y los enfermos. Una cámara situada en cada habitación observaría los movimientos y un algoritmo entendería las imágenes - tendría tiempo de habituarse al habitante de la casa, a sus movimientos y al entorno. Si sucediera algo fuera de lo normal, se desencadenaría una alarma. No obstante, en circunstancias normales el habitante mantendría su intimidad porque solamente existiría un ordenador controlando las imágenes obtenidas por la cámara, y no una persona.

Para que cualquiera de estas aplicaciones pueda funcionar, previamente deben alcanzarse otros objetivos relacionados con la concepción, por ejemplo en el campo de la clasificación - la tecnología no sólo debe ser capaz de reconocer determinadas texturas, objetos o movimientos, sino fragmentos de los mismos. "Es difícil hacer entender a la gente lo que están recibiendo a cambio de su dinero", reconoció el profesor Nagel.

Sin embargo, el Profesor Nagel considera que ese dinero está bien invertido. El consorcio ha logrado entender los problemas existentes en el desarrollo de un comentarista virtual. Nagel no puede prometer que la tecnología que ha descrito esté disponible pronto en el mercado - No he dicho que estemos ahí. No quiero prometer más de lo que podemos ofrecer. Yo mismo he sufrido el perjuicio que producen las formulaciones inoportunas - pero señala que no es inconcebible que las aplicaciones estén disponibles próximamente.

Sobre el futuro del Consejo Europeo de Investigación, el Profesor Nagel afirmó categóricamente que "realmente no puedo decir cuándo estará disponible. Nunca se sabe cuáles pueden ser las ideas de los demás, por eso hacemos investigación elemental - nunca se sabe qué utilidad podrá tener una solución en el futuro".

Para más información, consulte la siguiente dirección de Internet:
Proyecto CogViSys

Fuente: Minoriasorda

Imprimir