La imagen es un todo complejo que se compone de gran cantidad de elementos, todos ellos reducidos a la morfología, es decir, al punto, la línea, la forma y la textura.

Es difícil pararnos a pensar que detrás de una imagen está todo investigado y estudiado: su colocación,  su color, la dirección de las líneas, la forma, la textura o apariencia que ofrece… y todo ello para apelar de una manera muy determinada y premeditada al espectador.

El procesamiento de imágenes y la visión por ordenador se han convertido en un área de investigación importante debido al rápido desarrollo de las nuevas tecnologías. Sus aplicaciones se extienden desde la visión industrial a las imágenes médicas, las imágenes satelitales, el vídeo y el cine digitales y el arte.

Al igual que la tecnología de reconocimiento de voz y la traducción automática, el reconocimiento de imágenes funciona mediante el aprendizaje automatizado basado en ejemplos. Afortunadamente para nosotros, la web tiene una infinidad de imágenes de distintas cosas, y la mayoría cuenta con información acerca de lo que se puede ver en la imagen. Por otro lado, mientras más popular sea algo, digamos un monumento, o una obra de arte, más imágenes habrá en la web y tendremos una mayor probabilidad de que la reconozca.

La transformada de Fourier sirve para resolver ecuaciones diferenciales con mayor facilidad y, por consiguiente, se usa para el diseño de controladores clásicos de sistemas realimentados, si conocemos la densidad espectral de un sistema y la entrada podemos conocer la densidad espectral de la salida.

Todo comienza identificando puntos de interés en una imagen – los puntos, líneas y patrones que contrastan o hacen sobresalir a algo del fondo del la imagen. Funciona de

forma similar al modo en que el ojo humano identifica los contornos mediante el contraste que generan con el fondo.

Lo siguiente es identificar cómo estos puntos se relacionan entre sí – la geometría de los puntos en conjunto. Lo podemos imaginar como una constelación de estrellas, solo que en este caso el modelo matemático que analiza estos puntos y su relación es mucho más complejo.

Por último, el sistema compara ese modelo con otros modelos dentro de una enorme base de datos. Esos otros modelos provienen de imágenes en la web que ya fueron analizadas. Entonces, busca y coteja la base de datos en busca de un modelo con el que corresponda, sin que sea necesario que empalmen perfectamente. De hecho, es importante que el sistema sea flexible, para que no importe tanto si la imagen está volteada, reducida o ligeramente torcida – tomando en cuenta que diferentes fotos de un mismo objeto serán distintas.

Por ejemplo, el Taj Mahal seguirá teniendo la misma geometría básica, sin importar que lo hayan fotografiado desde ángulos ligeramente distintos. Cuando Google detecta al modelo que mejor corresponde con la imagen, puede adivinar que probablemente se trate del Taj Mahal.

Referencias:

  • http://www.bbc.com/mundo/noticias/2015/11/151126_adele_shazam_records_finde_dv
  • https://tecnologiayproductosgoogle.blogspot.mx/2011/11/la-tecnologia-de-reconocimiento-de.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed:+LatinAmericaProductBlog+(Latin+America+Product+Blog)http://www.cromo.com.uy/como-funciona-el-reconocimiento-fotos-google-n863452
  • http://www.xataka.com/espaciolumia/asi-funcionan-los-algoritmos-que-saben-que-musica-te-gusta-antes-que-tu
  • http://www.tecnoxplora.com/internet/escuchas-musica-streaming-gracias-esta-formula-matematica-siglo-xix_2015052657f794a50cf2fd8cc6aaaa3d.html