Los vehículos autónomos actualmente dependen de una combinación de cámaras, radares y LiDAR para garantizar que tengan todos los datos que necesitan para navegar de forma segura. Sin embargo, Tesla tiene la intención de depender en última instancia únicamente de las cámaras mediante el uso de una red neuronal para lograr una conducción autónoma con solo la vista.
Un sistema de este tipo es muy deseable por varias razones. Lo más obvio es que reduce la cantidad de tecnología por vehículo, lo que reduce tanto el costo como el peso. Y como el CEO de Tesla, Elon Musk, enfatizó en Twitter en abril: "La visión tiene mucha más precisión, por lo que es mejor duplicar la visión que la fusión de sensores".
Sin embargo, el uso de solo visión requiere mucho entrenamiento, y aquí es donde entra en juego el dojo. Como informa TechCrunch, Dojo es una computadora de entrenamiento de redes neuronales que Tesla planea usar para procesar las "enormes cantidades de datos de video" requeridas para entrenar un sistema de conducción de búsqueda automática de este tipo. El problema es que Dojo aún no existe, pero Tesla acaba de presentar la supercomputadora que planea usar como prototipo de dojo. Según Andrej Karpathy, Director de IA de Tesla, la supercomputadora consta de 5.760 GPU que entregan 1.8 EFLOPS (exaFLOPS) y son compatibles con 10 petabytes de almacenamiento NVMe con una velocidad de conexión de 1.6 TBps.
Durante una conferencia de taller sobre conducción autónoma en CVPR 2021, Karpathy explicó cómo el enfoque LiDAR se basa en crear un mapa HD por adelantado y luego ubicarlo en ese mapa mientras se conduce. El enfoque de Tesla hace todo localmente y se basa en la transmisión de video de ocho cámaras montadas en el vehículo. Karpathy dice que este es el enfoque mucho más difícil, pero también mucho más escalable que la alternativa de la tarjeta LiDAR + HD porque simplemente no puede actualizar los datos del mapa lo suficientemente rápido.
La solución de Tesla ya es lo suficientemente avanzada como para que las cámaras hagan la mayor parte del trabajo pesado y Karpathy confirmó que los autos comenzaron a enviarse hace tres semanas sin radar. El video del taller (comience a mirar en la marca de las ocho horas) muestra imágenes de las ocho cámaras en las que Tesla confía para el sistema autónomo. Ahora todo lo que Tesla necesita hacer es grabar muchos videos de conducción, almacenar petabytes de datos y entrenar su sistema para ser lo suficientemente competente y seguro para todos los vehículos.