10.1 Teoría de la visión de D. Marr

La obra y programa de investigación desarrollada entre 1973-80 por el neurofisiólogo D. Marr puede considerarse prototípica de la investigación en Ciencia Cognitiva por varias razones, entre las que destacamos:

  1. Asume la metáfora computacional (mente-ordenador) hasta el extremo de disenar un modelo informático de visión artificial que opere según los procedimientos utilizados por el sistema visual humano.
  2. Acepta el nivel explicativo representacional, en cuanto recurre a descripciones simbólicas de los objetos que componen las escenas.
  3. Concibe un abordaje, de los problemas relativos a la percepción, desde una perspectiva interdisciplinaria, que considera tanto las aportaciones de la neurofisiología y psicología como los algoritmos computacionales, integrando sus hallazgos en un modelo de la percepción visual.

          David Marr se formó como neurofisiólogo en Cambridge (Inglaterra), terreno en el que publicó un trabajo sobre el funcionamiento del cerebelo en 1969. No tardó mucho tiempo en reconocer que con el enfoque parcial de la neurofisiología no podían explicarse los procesos básicos del comportamiento humano, por lo que en 1973 inició sus investigaciones en el AI Lab. of  M.I.T. (Laboratorio de Inteligencia Artificial del Instituto de Tecnologia de Massachusset) ininterrumpidamente durante los siete anos que precedieron a su temprano fallecimiento por leucemia en 1980.
La necesidad de un enfoque multidisciplinar, así como el enfoque adoptado y las metas que pretende nos la explica Marr (1975) en los siguientes términos:

          "La situación de la neurofisiología moderna es que la gente está intentando entender cómo un mecanismo particular ejecuta una computación que ni siquiera es capaz de formular, mucho menos de suministrar, un conciso resumen de las maneras de hacerla. Para rectificar la situación, necesitamos invertir un esfuerzo considerable en el estudio del fondo computacional para las cuestiones que pueden ser abordadas en los experimentos neurofisiológicos. Por consiguiente, aunque [mi obra] se origina en un profundo compromiso con los fines de la neurofisiología, la obra no versa directamente sobre la neurofisiología, ni sobre la simulación de mecanismos neurofisiológicos: versa sobre el estudio de la visión. Equivale a una serie de experimentos computacionales, inspirados en algunos hallazgos de la neurofisiología visual. La necesidad de ellos surge de que, hasta que no intentamos procesar una imagen o hacer que un brazo artificial enhebre una aguja, tenemos poca idea de los problemas que realmente se originan al intentar estas cosas. Los experimentos computacionales nos permiten estudiar con detalle qué combinación de factores causa que un método, o un grupo de métodos, tenga éxito o fracase en una variedad de circunstancias particulares que originan los datos del mundo real. La fuerza de este enfoque es que el conocimiento obtenido se refiere a hechos que son inherentes a la tarea, no a los detalles estructurales del mecanismo que la realiza".

En la concepción de la visión se muestra partidario de un lisis de las imágenes que, en las primeras fases del procesamiento avanza de lo particular a lo general (procesamiento de abajo-arriba o guiado por los datos sensoriales), existiendo una gran cantidad de procesamiento y numerosas representaciones simbólicas; sin embargo, en las etapas finales el lisis va de lo general, conocimientos almacenados, a lo particular, datos informacionales (procesamiento de arriba-abajo o guiado conceptualmente).

Los fundamentos de la teoría de la visión de Marr (1982) parten de la necesidad de abordar la comprensión sobre los requerimientos de la descripción de escenas.

 Consideró ineludibles tres planos de lisis:

  1. Nivel Computacional. Una teoría computacional de la visión que pretenda extraer las propiedades de los objetos a partir de las imágenes debe de clarificar: ?Qué función cumple?, "qué hace", qué es lo que computa (imagen, descripción, etc.), y "por qué" razón lo hace. Es decir, dada una información contenida en una imagen bidimensional, que propiedades permiten interpretarla como si fuera una imagen tridimensional. A la pregunta de qué función cumple, Marr responde: transformar entradas (inputs) en forma de imágenes en salidas (outputs) en forma descriptiva.
  2. Nivel Algorítmico. Debe establecer "cuáles son las operaciones fundamentales encargadas de realizar las funciones de transformadoras", "cómo" realizará las operaciones, esto es, que formato representacional utilizará cada una de las entidades significativas. Marr responde a esta cuestión que el cálculo se produce mediante procesos y representaciones, los cuales deben ser especificados.
  3. Nivel Instrumental (hardware). Especificar en qué dispositivo tendrá lugar el proceso: máquina mecánica, ordenador, o cerebro. Es decir, si tendrá lugar sobre los mecanismos neuronales del sistema visual o sobre los mecanismos electrónicos de un ordenador. Este nivel senalará el alcance y los límites, es decir, las restricciones, del soporte físico en el que tiene lugar el procesamiento.

Marr se hallaba interesado en la realización de programas de ordenador que fueran capaces de analizar escenas de modo eficaz, haciendo uso de los procedimientos que se supone utiliza el sistema visual humano. La teoría de la visión que postula tiene como meta explicar mediante un modelo computacional de lisis de escenas qué etapas tienen lugar para lograr reconocer una imagen o interpretar una escena.
Desde el punto de vista computacional de D. Marr, la visión es el cálculo (realizado por diversos módulos del S.V.) de representaciones simbólicas sucesivas de la escena presentada al observador. Dichas representaciones deben entenderse en el sentido de descripciones explícitas de la imagen en cuestión.
Según la Teoría de la visión de D. Marr y colaboradores (Marr, 1982) el cálculo (procesamiento) se realiza a través de dos etapas sucesivas y sólo en la segunda etapa intervienen los sistemas de conocimiento (memoria, razonamiento, etc.). Estas son:

  1. Procesamiento inicial o temprano, que consiste en un conjunto de procesos que intentan recuperar las propiedades físicas de la escena 3-D visible a partir de la matriz de intensidades de luminancia de la imagen digitalizada. [ Obsérvese cierta analogía con el concepto de 'validez ecológica' de Brunswik (1956): correlación entre el estímulo proximal y el estímulo distal]. En esta etapa se producen dos tipos de representaciones:



    FIGURA 1.- Imagen original (a la izquierda). Y la imagen de
    bordes físicos (a la derecha).
    • Esbozo primario (o bosquejo primario). Consiste en lograr una descripción constituida por un amplio número de características (líneas, bordes, manchas) tal como harían los analizadores descubiertos por Hubel y Wiesel (1959). Véase Figura 1.
       

  • FIGURA 2.- Esbozo 2 y ? D de un cubo (a) y de dos cilindros acoplados (b).
    • Esbozo 2 ?-D (o cuasi tridimensional), obtenido mediante lisis del bosquejo primario, agrupando los elementos de éste (líneas, puntos, bordes, manchas) a fin de descubrir las propiedades de las superficies que forman la imagen o escena. Véase Figura 2a y 2b.
       

FIGURA 3.- Representación 3D de una figura humana. (Tomado de Marr y Nishihara, 1978, figura 3).
  1. Procesamiento tardío, que transforma el bosquejo 2 ? D en una representación identificable del objeto y sus partes constitutivas. El  objetivo de esta etapa es la obtención de un modelo 3-D (Representación 3D) de la imagen bidimensional original, haciendo uso del procesamiento de alto nivel. Véase Figura 3.
     

          Veamos, a continuación, como sintetiza Marr el proceso de lisis de escenas en sus propias palabras:
          "En un principio, el sujeto selecciona elementos más o menos similares [de la imagen] y los agrupa y reúne formando líneas, curvas, manchas mayores, grupos y pequenos fragmentos, en la medida en que lo permite la estructura inherente de la imagen. Repitiendo esto una y otra vez, se van creando indicadores o elementos primitivos en cada una de las escalas, que captan la estructura espacial de esa escala. Así, si la imagen es la de un gato en primer plano, el bosquejo primario en bruto dará fundamentalmente descripciones en la escala de los pelos del gato. En el nivel siguiente podrán aparecer las marcas de su pelaje -que también pueden ser detectadas en forma directa por los cambios de intensidad, y en un nivel todavía superior, aparecerá la estructura en forma de franjas paralelas de dichas marcas (...) En cada etapa, los elementos primitivos utilizados son símbolos cualitativamente similares -bordes, trazos, manchas, terminaciones o discontinuidades, pero todos ellos se refieren a propiedades cada vez más abstractas de la imagen" (1982, pag.91).

Mediante su enfoque del estudio de los fenómenos perceptivos, D. Marr estableció los fundamentos de una metodología de trabajo, cimentada en el pluralismo teórico integrado, sentando las bases para orientar futuras investigaciones, o incluso, desplegar el esfuerzo investigador para someter a prueba sus presupuestos teóricos, especialmente el que sostiene que en las etapas tempranas del procesamiento no intervienen los conocimientos de alto nivel. En otros términos, el modelo teórico propuesto por Marr, para el lisis de escenas parece partir de un procesamiento guiado por los datos (bottom-up) en sus fases iniciales, para finalmente admitir el procesamiento guiado conceptualmente (top-down), premisa que 'a priori' no parece universal a algunos autores.

Aquí vamos a centrarnos en el procesamiento inicial, cuyo fin es obtener el esbozo primario en bruto de la imagen estimular. En dicho esbozo se representan los bordes físicos y su geometría, mediante la localización y caracterización de los cambios bruscos y significativos de luminancia presentes en la imagen. Pero primero definamos operacionalmente qué es una imagen.