Cuando tenemos una imagen delante nuestra tendemos a
descomponerla en elementos más pequeños. Es decir, los objetos que aparecen
ante nuestros ojos. Un proceso natural para el ser humano pero no tanto para la
tecnología de reconocimiento de imágenes que si bien ha evolucionado mucho
reconociendo caras tiene el retos para identificar cosas y personas.
Este año un equipo de Google se ha llevado el primer premio
en el ImageNet large-scale visual recogniticion challenge (ILSVRC a partir de
ahora). Un reto en el que se proponía a diferentes equipos de investigación
crear sistemas de reconocimientos de objetos en la imagen y localizarlos dentro
de la misma.
Detectar, categorizar y localizar
El reto del ILSVRC se basa en tres objetivos. Primero la
clasificación de los objetos (qué tenemos delante), segundo la clasificación
por localización (dónde está) y por último la detección de los mismos de forma
automática. Para superar el primer punto se utiliza un algoritmo capaz de
asignar al objeto una categoría en concreto tras haberlo reconocido. Su
posición en el espacio se saca con otro algoritmo capaz de diferenciar entre
objeto y fondo y delimitar su espacio en la imagen.
Por último, y la parte más complicada, un algoritmo de
detección que es similar al segundo pero es mucho más estricto a la hora de
identificar los objetos. El resto que proponen es difícil porque los objetos
que aparecen en las imágenes no son solo grandes y fáciles de identificar sino
que también hay elementos muy pequeños.
El sistema empieza a leer diferentes imágenes y debe ser
capaz de identificar y etiquetar correctamente todo lo que ve. Para nosotros es
una tarea fácil pero como podemos ver en la imagen que encabeza el artículo no
se trata de una tarea sencilla. La clave del triunfo de Google está en la
simplificación de la tecnología de entrenamiento que se utiliza en este tipo de
redes neuronales artificiales.
Se reduce el número de parámetros en cada análisis por capa
de tal modo que se hacen menos lecturas pero se asegura que cada una de ellas
sea más eficiente y al final el sistema no se satura con demasiadas
interpretaciones de lo que está viendo. Esto se traduce en una mayor
efectividad y en un menor consumo de memoria.
Lo más interesante de todo el trabajo que ha hecho Google
con esta tecnología es que es de acceso libre y cualquier investigador puede
acceder a la documentación del proyecto para replicar y modificar a su gusto el
código para mejorar su rendimiento y ver por su propia cuenta cómo funciona.
Desde una perspectiva más práctica: ¿cómo se va a
implementar? En principio es pronto para sacar conclusiones pero teniendo en
cuenta que muchos servicios de Google se basan en imágenes es fácil pensar que
podría tener mucho uso para su sistema de mapas, la búsqueda por fotos a través
de Google Imágenes, YouTube o incluso su sistema de conducción automática de
coches para detectar qué tiene delante, leer las señales de tráfico, etc.
0 Comentarios