Saltar al contenido

Cómo funciona la tecnología de visión artificial y dónde se utiliza

Cómo funciona la tecnología de visión artificial y dónde se utiliza

¿Quién crees que ve mejor: tú o la computadora? Realmente depende de lo que espere de la visión por computadora. Por ejemplo, se puede utilizar para reconocer a un visitante en la línea de pago, leer un código de barras o determinar qué tipo de amigo está a tu lado en la siguiente foto de Facebook

La visión por computadora crea sentimientos encontrados. Por un lado, no mucha gente quiere que las máquinas y los sistemas robóticos los reconozcan en la calle, en un supermercado o en el lugar de trabajo. Por otro lado, es una poderosa herramienta en el mundo empresarial y del entretenimiento, al que cada vez se dirige más a raíz del interés por los algoritmos de inteligencia artificial.

Por primera vez, empezaron a hablar de visión artificial en los años 60 del siglo pasado. Entonces Oliver Selfridge publicó un artículo «Los ojos y oídos de una computadora», en el que predijo el futuro, nuestro presente. Pero solo en la última década ha progresado tanto el desarrollo de los científicos que se ha vuelto disponible para todos.

¿Qué es la visión por computadora?

Wikipedia afirma que esta es la teoría y la tecnología para crear máquinas que puedan detectar, rastrear y clasificar objetos. Pero la visión por computadora puede hacer más: reconocer texto, identificar objetos y personas, evaluar movimientos, restaurar imágenes, resaltar estructuras y elementos homogéneos en ellos y analizar flujos ópticos.

La visión artificial a menudo se denomina visión artificial, pero no existe un punto de vista único. Algunos insisten en que son sinónimos, mientras que otros ven diferencias obvias. Presumiblemente, la visión artificial combina tanto la teoría como las tecnologías que la sustentan, mientras que la visión artificial se trata más de una aplicación práctica. Desde el punto de vista de una persona común, la diferencia es insignificante, por lo que ambos nombres se usan por igual en este artículo.

De que está hecha la visión artificial

Automatix fue el primero en utilizar sistemas de visión por computadora en el mundo empresarial. En la década de 1980 en Estados Unidos desarrolló varias máquinas para soldar microcircuitos. Las cámaras conectadas a las máquinas tomaron las fotos y las enviaron al procesador, que las evaluó y dio las instrucciones oportunas a los manipuladores involucrados en la producción.

Incluso con este simple ejemplo, es posible distinguir varios componentes de la visión por computadora.

Adquisición de imágen. Para ello, se utilizan cámaras, sensores e incluso objetos 2D o 3D prefabricados.

Procesamiento de imágenes. Un sistema inteligente divide los datos en importantes y no tan importantes; elimine el segundo y continúe trabajando con el primero: ayudarán a identificar el objeto en el futuro.

Resalta los detalles. Se trata de protuberancias, líneas, curvas y puntos de interés individuales.

Segmentación. El sistema vuelve a seleccionar los fragmentos más importantes para seguir trabajando.

Procesamiento de alto nivel. En esta fase, los parámetros clave del objeto se evalúan y luego se clasifican según las características principales.

Similitudes y diferencias con la visión humana

El sistema informático toma una decisión a la velocidad de la luz, en una fracción de segundo, como es el caso del cerebro humano. Pero en los humanos, todo está organizado de manera ligeramente diferente: nuestros ojos no son perfectos y la tarea principal del procesamiento de imágenes la realiza un órgano más avanzado: el cerebro. No existen tales limitaciones en la visión por computadora. Se pueden instalar sensores o cámaras simples para recopilar información y la enviarán para su procesamiento a un potente procesador. Alternativamente, puede usar cámaras inteligentes que se hacen cargo de parte del trabajo de análisis de objetos y luego descargan el procesador. Lo que será el sistema de visión artificial depende de las tareas específicas.

La gente no solo ve los objetos y sus especies «aquí y ahora». Los recuerdan, analizan y utilizan la experiencia adquirida en el futuro. Esta información se acumula gradualmente y la persona aprende continuamente. En cualquier momento puede recordar cómo era este o aquel objeto. La visión por computadora también aprende de los ejemplos, pero no tiene en cuenta el contexto (entorno), como una persona, y no los evalúa en términos de experiencia de vida. Hace unos años, las computadoras no podían ver más del 70% de los objetos que caían en su campo de visión, pero ahora esta cifra se acerca al 100%. Las máquinas no solo entienden lo que se avecina, sino que también deciden qué hacer a continuación.

¿Dónde se usa la visión por computadora?

A continuación, se muestra una lista de las áreas principales en las que se utiliza con más frecuencia la visión por computadora, aunque en realidad hay muchas más:

  • sistemas de videovigilancia en oficinas, en producción, en centros comerciales, en las calles;
  • sistemas de control del vehículo para evitar colisiones con un obstáculo;
  • sistemas de análisis de imágenes médicas;
  • clasificación, búsqueda de chatarra y otras operaciones en la producción por lotes;
  • tecnologías de realidad aumentada y virtual;
  • sistemas de geolocalización y sistemas cartográficos;
  • sistemas de control de precisión en construcción y reconstrucción;
  • análisis del estado emocional de una persona;
  • lectura de códigos de barras en complejos comerciales y almacenes;
  • convertir libros y documentos en papel a formatos digitales.

De las esferas abstractas pasamos a casos más reales, a partir de los cuales queda claro cómo exactamente una persona utiliza la visión por computadora en tareas aplicadas.

Face ID y Microsoft Kinect

Apple iPhone X es el primer teléfono inteligente con cámara frontal TrueDepth y compatibilidad con Face ID. Se trata del desbloqueo facial, cuando un dispositivo móvil reconoce a su propietario sin más acción de su parte: no es necesario introducir un código, dibujar un patrón o colocar el dedo sobre el sensor. Este complejo sistema emplea dos cámaras (frontal e infrarroja) y un proyector, que crea un mapa del rostro del usuario punto por punto. La visión por computadora y una red neuronal entrenada son responsables de procesar el software, que primero guarda el modelo facial y luego lo compara punto por punto con lo que «ve» durante el proceso de autorización. Por cierto, si miras a la cámara con los ojos cerrados o simplemente miras hacia otro lado, la identificación no funcionará.

Face ID y Microsoft Kinect tienen mucho en común. Kinect es un sensor (controlador) desarrollado originalmente para la consola de juegos Xbox 360. Te permite interactuar con la base sin contacto, a través de movimientos, posturas y otros comandos no verbales. Una cámara RGB se encarga de reconocer el rostro y los movimientos del usuario, quien primero toma fotos y videos, luego los analiza y envía los comandos apropiados al procesador. En la práctica, Kinect se usa no solo en juegos, sino también en otras áreas. Por ejemplo, durante las operaciones y en el diagnóstico médico, para el escaneo 3D, durante las actividades deportivas, la preparación de contenido digital único en publicidad.

Opere con el ejemplo del comercio minorista ruso

Aquí muchos se han encontrado con la visión artificial, aunque no siempre lo hayan adivinado. Por ejemplo, en la cadena de tiendas Perekrestok, se han probado con éxito tecnologías para reconocer secuencias de fotos y videos. Hacen que los productos en los estantes sean más accesibles y ayudan a controlar la longitud de las colas en la caja durante las horas pico. Se basa en el desarrollo ruso Intelligence Retail, que analiza la exactitud de la visualización de los productos y cuenta el número de personas en la cola. Para reconocer la mercancía, el sistema tiene en cuenta su forma, tamaño, embalaje, logotipos e inscripciones en la misma. En promedio, se necesitan hasta 30 segundos para procesar un rack. Los empleados de la tienda ordinaria no pueden presumir de tal velocidad, aunque la precisión del trabajo es idéntica, alrededor del 93%.

X5 Retail Group, propietario de las cadenas minoristas Pyaterochka, Perekrestok y Karusel, utiliza visión por computadora, balizas iBeacon y cámaras de reconocimiento de imágenes para analizar la navegación de los visitantes en las tiendas. Le ayudan a encontrar áreas visitadas con frecuencia y a crear los llamados «mapas de calor». Con esta información, puede organizar con mayor precisión, diseñar nuevas zonas y ofrecer a los clientes productos que necesitan vender más rápido.

Otras redes rusas utilizan la visión por computadora para «reconocer» a los clientes que ven en la caja cuando realizan una compra. Asimismo, puede reconocer a los ladrones y estafadores previamente incluidos en la lista negra de la tienda. Otra aplicación interesante de la visión por computadora es el conteo de visitantes. Esta información ayuda a obtener datos de conversión, es decir, cuántos visitantes se han convertido en verdaderos compradores de la tienda.

Calidad del producto y seguridad laboral

Imagine una gran fábrica que produce cientos de miles de piezas pequeñas todos los días. La visión artificial simplifica las tareas asociadas con tener en cuenta las piezas ya codificadas con barras o reconocer objetos extraños en un paquete. Pero es más conveniente verificar la calidad de los productos terminados de esta manera: para encontrar defectos (discrepancias en los parámetros físicos, elementos faltantes, color, etc.) o casos de mano de obra incorrecta. Además, la visión por computadora se utiliza con fines de seguridad. Ayuda a determinar la presencia de cascos y otros equipos de protección en los empleados de la empresa o revisar el perímetro para que esos mismos empleados no carguen nada fuera del área protegida.

Análisis de mapas satelitales

Orbital Insights está procesando imágenes de satélite. La visión por computadora ayuda a ver edificios residenciales, transporte, infraestructura, cualquier cosa que pueda ayudar a una empresa o servicios sociales. Por ejemplo, analizar la ocupación de un estacionamiento cerca de un gran centro comercial permite encontrar la relación entre el número de autos y los ingresos diarios para predecir los ingresos y la carga en las tiendas en los días previos a las vacaciones.

Utilizando un programa desarrollado por Orbital Insights, las compañías de seguros estadounidenses determinan automáticamente la cantidad de daño causado por accidentes de tráfico y también luchan contra actividades fraudulentas en esta área. Varios otros países utilizan sistemas de visión artificial para estimar el volumen de petróleo comprado en China. El satélite captura imágenes de los campos petroleros desde arriba y los algoritmos determinan con precisión su tamaño y volumen gracias a una sombra de tamaño variable según el tiempo de medición.

Control de la situación en la carretera

En los países occidentales, la visión artificial se ha utilizado durante varios años para evaluar situaciones de tráfico: atascos, congestión del tráfico. Se analizan escenas y situaciones enteras relacionadas con la lectura de señales viales y la velocidad de su reconocimiento. Cuando las tecnologías de aprendizaje automático están vinculadas a dichos sistemas, los resultados son más impresionantes. Los sensores del automóvil «ven» cuando se acercan objetos extraños y monitorean la situación, evitando colisiones. Por ejemplo, en una emergencia, si el conductor intenta cambiar de carril pero no activa la señal de giro, el automóvil continuará conduciendo en el mismo carril.

Medicina y diagnóstico

Las resonancias magnéticas, los ECG y otras exploraciones ayudan a los médicos a realizar diagnósticos correctos. Pero se pueden enseñar exactamente las mismas habilidades a una máquina. Arterys ha desarrollado una plataforma de software basada en visión por computadora que muestra y analiza con éxito imágenes médicas para diagnosticar enfermedades cardiovasculares. Arterys es uno de esos servicios en la nube, una red neuronal de autoaprendizaje que tarda 15 segundos en «leer» una instantánea. Para hacer una comparación: un especialista hace lo mismo y con la misma precisión mucho más tiempo, de 30 minutos a media hora.

Promedio

La visión por computadora es muy utilizada en sistemas de análisis de video pertenecientes a grandes portales multimedia. Procesan grandes cantidades de datos para encontrar historias interesantes y que se ajusten a los parámetros dados. Por ejemplo, la visión por computadora le ayuda a encontrar rápidamente imágenes del discurso de un político famoso o la escena de un accidente.