Què atrau la nostra atenció visual?
Els éssers humans constantment perceben i reaccionen davant els estímuls del món visual. Una regió d'una escena pot atraure l'atenció mentre extenses regions són completament ignorades. L'escena pot provocar emocions plaents o sentiments de repulsió, de forma implícita. Pot deixar un record durador en l'observador, o pot no ser recordada mai més. Sembla raonable plantejar la hipòtesi que algunes d'aquestes reaccions, per exemple l'atenció que donem als estímuls visuals i la manera com aquests estímuls ens fan sentir, poden tenir mecanismes percentuals en comú.
Aquesta tesi presenta el nostre intent d'avaluar aquesta hipòtesi, adaptant un model estatdelart de la percepció visual en els humans, i adaptant aquesta versió modificada a diferents tasques visuals. Específicament, investiguem dos aspectes diferents sobre com un observador veu una imatge natural: (i) on mirem o, concretament, què ens atreu l'atenció, i (ii) què ens agrada, per exemple, si una imatge és estèticament agradable, o no.
Aquestes dues experiències són objecte de creixents esforços de la recerca en visió per computador. L'habilitat de predir l'atenció visual té moltes aplicacions, des del reconeixement d'objectes al màrqueting. La predicció de la qualitat estètica també ha vist augmentada la seva importància, sobretot per a l'organització i navegació del contingut visual en línia, el volum es troba constantment en expansió.
Tant l'atenció visual com l'estètica visual poden ser modelades com a conseqüència de múltiples mecanismes en interacció, alguns involuntaris (bottomup), i altres guiats per tasques (topdown). En aquest treball ens concentrem en una perspectiva involuntària, bottomup, usant mecanismes visuals i característiques de baix nivell, ja que és aquí on els vincles entre estètica i atenció són més evidents, o fàcilment analitzables. Primer investiguem l'atenció visual bottomup, que normalment s'anomena "saliency".
Plantegem la hipòtesi que les regions d'una imatge que atreuen o no l'atenció poden ser predites com les regions on color i contrast està accentuat o suprimit pel sistema visual humà. Demostrem aquesta hipòtesi usant un model de percepció de color de baix nivell i adaptant-lo a un model d'estimació de l'atenció. El model proposat millora l'estatdelart en la tasca de predir quines parts de la imatge atreuen més l'atenció.
A continuació, vam investigar el problema de l'anàlisi estètica visual. Contemplem la hipòtesi que informació de baix nivell en el nostre model d'atenció pot també ser usada per predir estètica visual, capturant característiques locals de la imatge com contrast, agrupacions o aïllament, que estan relacionades amb la lleis universals de l'estètica. Vam demostrar que aquestes característiques visuals extretes del nostre model d'atenció, aconsegueixen obtenir resultats de l'estatdelart, pel que fa a classificació de qualitat estètica.
Una contribució prometedora d'aquesta tesi és demostrar que diverses experiències de la visió -percepció de color a baix nivell, atenció visual, i estimació de l'estètica visual- poden ser satisfactòriament modelades usant un marc de treball unificat. Això suggereix una arquitectura similar en el sistema visual humà de baix nivell, tant per percepció de color i atenció visual, i afegeix evidències sobre la hipòtesi que l'apreciació estètica està influenciada, en part, per mecanismes bottomup.
Referències
"Predicting Saliency and Aesthetics in Images: A Bottom-up Perspective", tesi doctoral de Naila Murray dirigida per Xavier Otazu Porter i Maria Vanrell Martorell.