«Los humanos conducen con ojos y redes neuronales biológicas, por lo que las cámaras y las redes neuronales de silicio son la única forma de lograr una solución universal para la conducción autónoma», tuiteó Elon Musk en octubre de 2021. El problema con su razonamiento fue que los ojos humanos son mucho mejores que las cámaras RGB para detectar objetos que se mueven rápidamente y estimar distancias. Nuestros cerebros también han superado a todas las redes neuronales artificiales por un amplio margen en el procesamiento general de la información visual.
Para llenar este vacío, un equipo de científicos de la Universidad de Zurich ha desarrollado un nuevo sistema para detectar objetos en automóviles, acercando el rendimiento de las cámaras digitales mucho más al ojo humano. “Fuentes no oficiales dicen que Tesla está utilizando varias cámaras Sony IMX490 de 5,4 megapíxeles. [capture] Hasta 45 fps, lo que se traduce en una latencia de percepción de 22 ms. comparación [these] «Gracias únicamente a las cámaras de nuestra solución, ya hemos visto una reducción de 100 veces la latencia cognitiva», afirma Daniel Gehrig, investigador de la Universidad de Zurich y autor principal del estudio.
Imitación de la visión humana.
Cuando un peatón salta repentinamente frente a su automóvil, deben suceder varias cosas antes de que el sistema de asistencia al conductor pueda aplicar el frenado de emergencia. En primer lugar, los peatones deben ser capturados en imágenes de las cámaras. El tiempo que esto lleva se llama latencia perceptiva, que es un retraso entre la presencia de estímulos visuales y su aparición en la lectura del sensor. A continuación, la lectura debe llegar a la unidad de procesamiento, lo que añade una latencia de red de aproximadamente 4 milisegundos.
Procesar la clasificación de una imagen de un peatón requiere preciosos milisegundos. Una vez hecho esto, la detección pasa al algoritmo de toma de decisiones, que tarda algún tiempo en decidir pisar el freno; todo este procesamiento se conoce como latencia computacional. En general, el tiempo de reacción oscila entre 0,1 y medio segundo. Si un peatón circula a una velocidad de 12 km/h, recorrerá una distancia de entre 0,3 y 1,7 metros en este tiempo. Tu coche, si circulas a 50 km/h, recorrerá entre 1,4 y 6,9 metros. En un encuentro a corta distancia, esto significa que es más probable que los golpees.
Gehrig y David Scaramuzza, profesor de la Universidad de Zurich y coautor del estudio, pretenden acortar los tiempos de reacción reduciendo el tiempo de respuesta cognitiva y computacional.
La forma más directa de reducir lo primero era utilizar cámaras estándar de alta velocidad que simplemente graban más fotogramas por segundo. Pero incluso con una cámara de 30 a 45 fps, un coche autónomo generaría aproximadamente 40 terabytes de datos por hora. Instalar algo que reduzca drásticamente la latencia cognitiva, como una cámara de 5.000 cuadros por segundo, abrumaría la computadora a bordo del automóvil en un instante, ya que la latencia computacional se dispararía.
Por ello, el equipo suizo utilizó la llamada «cámara de eventos», que imita el funcionamiento de los ojos biológicos. «En comparación con una cámara de vídeo basada en cuadros, que graba imágenes densas a una frecuencia fija (cuadros por segundo), las cámaras de eventos tienen píxeles inteligentes independientes que solo miden los cambios de brillo», explica Gehrig. Cada uno de estos píxeles comienza con un nivel de brillo específico. Cuando el cambio de brillo excede un cierto umbral, el píxel registra un evento y establece un nuevo nivel de brillo base. Todos los píxeles de la cámara de eventos hacen esto continuamente y cada evento grabado aparece como Punto en la imagen.
Esto hace que las cámaras de eventos sean particularmente buenas para detectar movimientos a alta velocidad y les permite hacerlo utilizando muchos menos datos. El problema al colocarlos en automóviles era que tenían dificultades para detectar objetos que se movían lentamente o no se movían en absoluto en relación con la cámara. Para solucionar este problema, Gehrig y Scaramuzza eligieron un sistema híbrido, en el que se combinaba una cámara de eventos con una cámara tradicional.