Guida autonoma: perché Tesla non userà nè Lidar nè radar ma solo telecamere

Il vantaggio competitivo di Tesla rispetto alla concorrenza sta nella flotta e nell'ecosistema che ha ha saputo creare, analizziamolo insieme

0

Ha sempre fatto scalpore la stroncatura del Lidar (Laser Imaging Detection and Ranging, il sistema di telerilevamento basato su laser) fatta da Elon Musk nel 2019, nel Tesla Autonomy Day, parlando di sensori per la guida autonoma (con informazioni apodittiche quali “They’re all going to dump Lidar” e “Anyone relying on Lidar is doomed“). All’epoca l’argomentazione era legata a considerazioni di costo (vedere dal minuto 1:41:10 del filmato). Andrej Kalparthy, nella stessa occasione, aveva rincarato la dose, affermando che il Lidar è una scorciatoia che bypassa una vera soluzione ai problemi fondamentali di riconoscimento visivo, che devono essere affrontati e risolti per arrivare alla guida autonoma, e fornisce quindi una falsa sensazione di progresso ma è in ultima analisi una “stampella“, non la vera soluzione, anche se si rivela utile per fare delle dimostrazioni.

Ma in sensoristica, e in elettronica in generale, spesso i costi di produzione calano esponenzialmente, quindi se i Lidar fossero stati scartati da Tesla solo per ragioni di costo, quella decisione oggi potrebbe essere riconsiderata. E in effetti, dato che di recente sono state avvistate su strada delle Tesla con installate sul tetto delle strutture che hanno subito fatto pensare a dei supporti per dei Lidar, non pochi avevano pensato che effettivamente fosse imminente una inversione a U da parte di Tesla su questa scelta di progetto.

E invece no. Probabilmente i sistemi Lidar su quel prototipo servivano a fare dei confronti e delle calibrazioni, ma non preludevano a un cambio di filosofia. Le Tesla continuano a puntare tutto sulla visione e non sul Lidar; ma non basta: ancora più clamorosamente, Tesla ha annunciato che farà a meno del radar: non solo nelle nuove auto in consegna da questo periodo (apparentemente solo per il mercato nordamericano) il radar non è più presente, ma è stato perfino detto che nelle auto in circolazione, che il radar ce l’hanno, il software nelle prossime versioni smetterà di usarlo, e sarà come se non ci fosse!

In un primo tempo la notizia aveva indotto l’ente americano sulla sicurezza del traffico (Nhtsa), e l’ente americano delle assicurazioni per la sicurezza sulle autostrade (Iihs), oltre a Consumer Reports, a rivedere il loro giudizio sulla sicurezza delle Tesla, in attesa di saperne di più. Nhtsa al suo giudizio a 5 stelle aveva aggiunto una nota specificando che era da intendersi riferito alle vetture prodotte prima del 27 aprile 2021; indicazione con discriminante sulla data anche per Iihs, mentre Consumer Reports aveva revocato per la Model 3 l’indicazione “Top Pick”.

I test positivi sul sistema Tesla Vision e la beta del Fsd

Poi sono stati ripetuti i test con il nuovo sistema basato esclusivamente sulle telecamere (Tesla Vision), e le prove avrebbero dimostrato che anche il nuovo sistema è efficace nelle situazioni oggetto di test (frenata di emergenza e avviso di collisione frontale); quindi alcuni giorni fa Consumer Reports ha ripristinato l’indicazione di “Top Pick” e Iihs quella di “Top Safety Pick+” per la Model 3 (il massimo livello).

Sembra quindi che fare a meno del radar non impedisca alle Tesla di offrire funzioni come Aeb (Automatic Emergency Braking), Pmm (Pedal Misapplication Mitigation), Traffic Control Warning (frenata automatica al semaforo) e così via. Nel frattempo, al recentissimo Cvpr 2021 Workshop on Autonomous Driving, tenutosi lo scorso 20 giugno, è intervenuto nuovamente Andrej Karpathy di Tesla, per mostrare sia i progressi dell’implementazione del Full Self Driving, sia per ribadire la posizione di Tesla sul Lidar.

In particolare è stato mostrato un video (pubblicato da un cliente beta tester, non da un tecnico Tesla) che mostra una Model 3 percorrere un itinerario da San Francisco a Fremont senza alcuna auto-disattivazione del sistema Fsd. Questa beta è in uso da parte di circa 2.000 clienti e molti di loro stanno liberamente uploadando filmati su Youtube.

Nella presentazione è stato mostrato anche un filmato di Waymo (la società di Google che sta facendo test con il Lidar) riferito allo stesso tipo di scena, ma è stato sottolineato che quel che sta avvenendo è molto diverso. In un caso, sfruttando il Lidar ci si posiziona su una mappa conosciuta; ciò richiede necessariamente che esista la mappa del percorso che si deve seguire.

Nell’approccio seguito con decisione da Tesla, si rinuncia a Lidar e mappe ad alta risoluzione del “mondo fisico”; invece, si decide al momento, in base solamente a quel che si vede con le 8 telecamere, che cosa è rilevante, come comportarsi, che traiettoria tenere, che manovre fare, ecc.; in principio quindi, una volta messo a punto adeguatamente, questo approccio potrebbe funzionare ovunque nel mondo, anche su strade nuove che nessuno ha ancora mappato, o su strade modificate (ad es. da crolli, frane, cantieri) rispetto a come risultano sulla mappa.

Le nuove auto prodotte non hanno il sensore radar anteriore

Come abbiamo già detto, da alcune settimane Tesla ha iniziato a consegnare vetture senza il sensore radar anteriore e che si basano esclusivamente sulla percezione visiva fornita dalle telecamere. Si è infatti visto che nei casi in cui il radar e le telecamere forniscono indicazioni discordanti, se si analizza la situazione, è la percezione visiva che risulta avere molto maggior precisione; al punto che nella percezione complessiva, il contributo fornito dal sensore radar è considerato rumore, più che informazione utile! Per esempio si è notato che il radar fornisce una stima generalmente precisa (anche se non priva di oscillazioni) della distanza nella maggior parte dei casi, ma occasionalmente (sporadicamente) può fornire all’improvviso una stima completamente anomala. Non si può prevedere quando questo accadrà, e quando capita è anche molto difficile conciliare quel che “dice” il radar con quel che si sta capendo dalle telecamere.

Quindi la scelta è stata di concentrare gli sforzi non sulla “sensor fusion” per ricostruire la percezione della scena basandosi su una molteplicità di tipi e tecnologie di sensori, bensì sul massimo perfezionamento possibile del solo sistema di visione. Al punto che tutte le risorse R&D sono state concentrate sul vision stack, abbandonando il radar stack e il sensor fusion stack: su questa attività dunque c’è attualmente un unico team (apparentemente composto da una ventina di ingegneri). La cosa è stata confermata da Elon Musk in un tweet che ha fatto molto discutere:

Come funziona il riconoscimento video sulle Tesla con la “flotta” a disposizione delle reti neuronali

I feed video su cui si basa la ricostruzione della scena fatta dal computer di bordo di Tesla sfrutta 8 feed video da 1280×960, 3×8=24 bit di profondità colore, 36 FPS. Da questi flussi, che tutti insieme rappresentano uno stream continuo di circa 1 Gigabit al secondo, si ricavano circa 8 Megabit al secondo di vincoli e informazioni sul modello e lo stato dell’ambiente circostante.

Quel che si punta a fare è far ricavare dalla rete neurale, con la massima accuratezza possibile, basandosi sui soli feed video, stime precise e stabili di distanza, velocità, accelerazione e traiettoria dei vari oggetti nella scena. Si tratta di un problema di supervised learning di reti neurali, per il quale si possono avere risultati migliori avendo a disposizione per il training una grande quantità di dati, possibilmente riferiti a una grande varietà di situazioni e scenari di guida. In questo senso Tesla, con la sua flotta circolante di oltre 1 milione di auto, e con la possibilità tecnica di uploadare, dai veicoli in circolazione, piccoli spezzoni di video riferiti a scene che interessa studiare, è chiaramente in vantaggio su chi ha su strada solo una piccola flotta di veicoli-laboratorio.

Uno dei problemi del machine learning sta nel fatto che il dataset utilizzato per il training necessita di essere “etichettato” e “ripulito” prima di essere somministrato al processo di training vero e proprio. Solitamente questa attività è svolta pazientemente da umani, ma questo richiede risorse e soprattutto tempo (a maggior ragione se il dataset è enorme, di milioni di situazioni).

Per velocizzare questa indispensabile fase, Tesla ha adottato un approccio in cui i video clip raccolti per il training vengono sottoposti, offline, a delle potenti reti neurali (in esecuzione su dei supercomputer, molto più potenti di quelle che potrebbero essere messe in funzione sull’Fsd computer che si trova a bordo del veicolo, e senza il bisogno di reagire in pochi millisecondi) per un primo labeling predittivo; grazie al “senno di poi”, dato che dei video è conosciuto anche il seguito e quindi, rispetto alla scena che si sta analizzando, è noto anche il futuro, la predizione viene poi confrontata con la realtà (e qui possono ancora avere un ruolo gli altri tipi di sensori di bordo, radar compreso, di cui c’è il tempo eventualmente di analizzare le già citate discordanze sporadiche), usando tutto il tempo e il tempo-macchina necessario, allo scopo di misurare di quanto era sbagliata la predizione, e per migliorare le reti neurali di auto-labeling. In una minoranza di casi che lo richiedono, si possono ancora far intervenire esperti umani a giudicare la situazione, ma il loro ruolo diventa occasionale e non costituisce più un collo di bottiglia nel processo di video labeling, che risulta in larga misura automatizzato e auto-apprendente, con miglioramento continuo.

Il labeling 4D delle scene video porta a una elevata stabilità dei bounding box e delle etichette stesse, anche in presenza di momentanei disturbi della visione, come nuvole di polvere, detriti, spruzzi, neve, improvvisi riflessi, e così via. Gli oggetti continuano a essere ben identificati, per esempio in base alla loro storia (e traiettoria) precedente, anche se in un fotogramma, o per un istante, non risultassero perfettamente visibili.

Il problema della stabilità e accuratezza percettiva del modello del mondo ricostruito in base alla visione raccolta dalle 8 telecamere è cruciale. Il team di Tesla al lavoro su questo tema ha identificato negli ultimi 4 mesi una serie di ben 221 aspetti a cui prestare particolare attenzione nelle fasi di training delle reti neurali FSD. Si va da tremolii negli ingombri percepiti per i vari oggetti, a incoerenze fra la percezione delle due telecamere frontali, al momentaneo “accecamento” di una o più telecamere, a incoerenze fra quel che dice il radar e quel che risulta dal sistema visivo, incoerenze fra ingombri percepiti a un dato istante e ingombri previsti/estrapolati per quello stesso istante in base alla traiettoria precedente e futura (il futuro è noto in sede di training delle reti neurali, ovviamente non durante la guida), oggetti sul tetto dei veicoli che ne possono alterare la percezione degli ingombri, improvvise frenate in presenza di persone che attraversano fuori dalle strisce pedonali, entrate e uscite da tunnel, improvvisi cambi di corsia o rapidi spostamenti laterali dei veicoli vicini, incoerenza fra l’accendersi delle luci di stop e i valori di accelerazione rilevati, mancata frenata del guidatore umano in presenza di veicolo frontale che sta rallentando vistosamente, alterazioni della percezione della scena in corrispondenza di dossi e cunette, e così via.

Molto interessante è la possibilità, che ancora una volta è peculiarità di Tesla grazie alla sua flotta ampia e “connessa”, di trasmettere una nuova rete neurale a un veicolo che sta circolando con Autopilot attivato sotto il controllo della “attuale” rete neurale, e far eseguire, in affiancamento, anche la nuova rete neurale candidata, in “shadow mode”, ossia non collegata ai controlli della vettura, solo per verificare se sarebbe capace di guidare meglio o peggio dell’attuale versione di rete neurale.

Questo approccio permette di avere delle rapide retroazioni del ciclo di training, verificate sul campo e non solo in astratto, velocizzando il training della prossima versione di rete neurale che potrà essere candidata ad aggiornamento software per le vetture. Nel frattempo le vetture guidano sotto il controllo della versione attuale di rete neurale, ma il processo di training trae enorme vantaggio dal confronto fra il comportamento dell’attuale rete neurale e della nuova candidata, potendo oltretutto contare sulla conoscenza non solo di passato e presente, ma anche del futuro, di quegli eventuali momenti in cui uno dei 221 trigger ha segnalato agli ingegneri del machine learning Tesla una qualche discrepanza da approfondire. Apportate le correzioni eventualmente necessarie, si può fare un nuovo loop trasmettendo alla flotta una nuova iterazione di rete neurale candidata, sempre da eseguire in shadow mode senza alcun riflesso sulla guida, solo per raccogliere nuove indicazioni sulla sua bontà o meno, e così via per numerosi loop di training, raccolta dati, revisione, e così via.

Ancora più interessante è la possibilità, implementata da Tesla, per “chiedere alla flotta circolante” ulteriori esempi di una scena “speciale” o anomala, rispetto alla quale interessa addestrare maggiormente la rete neurale. In una precedente presentazione (l’Autonomy Day del 2019), Karpathy aveva mostrato un esempio in cui un’auto con un portabici posteriore causava un doppio riconoscimento da parte della rete neurale: nella stessa posizione venivano infatti rilevati una bici e un’auto; tuttavia sarebbe sbagliato in questo caso frenare perché nella scena è presente una bici, dato che la bici viaggia in modo solidale con l’auto e non è un ostacolo che si rischia di investire (..almeno finchè il portabici regge..).

Per addestrare la rete neurale a riconoscere e gestire correttamente questo tipo di situazione servono, come sempre, molti esempi; e qui entra in gioco il vantaggio ineguagliabile di cui dispone Tesla, la quale, avendo oltre un milione e mezzo di auto in circolazione in varie parti del mondo, tutte connesse e tutte con 8 telecamere a bordo, permanentemente attive (anche se non si sta usando Autopilot), può “chiedere alla flotta” immagini “simili” a quella dell’auto che trasporta una bicicletta, e dopo un po’ comincia a riceverne a volontà:

Il vantaggio competitivo di Tesla nei numeri

Per la prima versione di reti neurali Fsd sono stati fatti 7 round di esecuzioni shadow mode (complessivamente equivalenti a 1.000 anni di guida!), e raccolti/analizzati 1 milione di gruppi di 8 flussi video da 10 secondi di durata in varie situazioni, producendo 6 miliardi di oggetti individuati, etichettati e caratterizzati accuratamente per velocità e distanza. In totale i dati raccolti ammontano a 1.5 petabyte (1 petabyte = 1.000 Terabyte). Ogni nuova evoluzione della rete neurale viene sottoposta a 6.000 situazioni di guida appositamente scelte per essere casi “difficili”, a 10mila scenari di simulazione e a un totale di prove equivalente a 10 anni-guida complessivi.

L’architettura della rete neurale per l’Fsd di Tesla prevede l’entrata di 8 feed video, che vengono innanzitutto sottoposti a un primo stadio di elaborazione per riconoscere gli oggetti nelle scene; stessi oggetti visti da più telecamere vengono poi correlati nello spazio e, in fase successiva, il loro movimento viene correlato nel tempo.

Le successive elaborazioni, per esempio quella per stimare la velocità degli oggetti, sono eseguite in parte da sottoreti neurali separate dal resto; questo approccio permette ove necessario di modificare/migliorare, ad esempio, solo la sottorete neurale che si occupa della stima della velocità, senza toccare il resto. La rete neurale è cioè stata “modularizzata”, per meglio gestirne l’evoluzione.

Il supercomputer e il computer a bordo delle Tesla

Il training della rete neurale effettuato offline (cioè non sui veicoli e non durante la guida) da Tesla richiede una enorme capacità di calcolo, dato che il dataset attuale è di 1,5 Petabyte e la sua elaborazione richiede tempo e risorse. Per questo Tesla utilizza un potente supercomputer (non capacità di calcolo affittata sul cloud, ma una macchina fisicamente presente in un suo data center) con 720 nodi contenenti in totale quasi 6.000 Gpu capaci di esprimere 1.8 ExaFLOPS (1.8 miliardi di miliardi di operazioni matematiche in virgola mobile al secondo), corredati da 10 Petabyte di memoria a stato solido Nvme con una banda aggregata di 1.6 Terabyte/secondo. In termini di pura capacità di calcolo, probabilmente si tratta oggi della quinta macchina più potente al mondo. Eppure Tesla sta già lavorando sulla prossima generazione di questo computer, che si chiamerà Dojo e di cui al momento non sono state divulgate le caratteristiche.

Anche il computer di bordo delle vetture Tesla però non scherza: anche se non deve eseguire il training della rete neurale, deve però eseguirla in tempo reale durante la guida, abbastanza velocemente da fornire risposte in pochissimi millesimi di secondo per reagire alle situazioni del traffico. Di conseguenza i suoi “numeri” sono anch’essi impressionanti, specie considerando che si tratta di un computer di bordo di un’automobile, e anche del fatto che consuma solo 75 Watt circa per funzionare: si tratta di un computer ridondato in doppio (per proseguire il funzionamento in caso di guasto a uno dei due chip), in cui ognuno dei due chip contiene 2 unità per processare reti neurali, capaci ognuna di eseguire quasi 37mila miliardi di operazioni aritmetiche elementari al secondo, mentre l’elaborazione non neurale è affidata a 12 Cpu da 2.2 GHz e quella visiva viene gestita da una Gpu da 600 GigaFLOPS. Questo computer è stato progettato da Tesla. Inarrivabile da parte di car maker tradizionali, che mancano totalmente delle competenze richieste, e quindi al massimo possono commissionare il progetto a una società esterna specializzata, che le competenze ovviamente le ha, ma come si può facilmente immaginare, le sinergie e la rapidità di feedback verso la Ricerca e sviluppo interna di un simile modus operandi non possono essere paragonabili a quelle ottenibili da Tesla, che a tutti gli effetti assomiglia più a una software company che a un car maker (e in effetti, le stesse vetture Tesla per molti versi assomigliano più a dei software su ruote che a delle comuni automobili).

Tutti a rincorrere, perché Tesla…

  • produce (ovviamente) le proprie auto..
  • ..di cui controlla il sistema di sensori..
  • ..usando i quali raccoglie dataset (che la flotta circolante – oggi oltre 1.5 milioni di veicoli, tutti connessi – può uploadare sui sistemi centrali della Ricerca e Sviluppo di Tesla)..
  • ..con cui esegue, offline e con un elevato livello di automazione, il training della rete neurale di guida..
  • ..elaborazione che esegue su un supercomputer in-house di sua proprietà, stimato come il quinto più potente al mondo..
  • ..e una volta messa a punto una nuova iterazione della rete neurale con miglioramenti da provare, la trasmette over-the-air alla flotta circolante..
  • ..a bordo della quale, la rete neurale viene eseguita su un “Fsd computer” che è stato progettato dalla stessa Tesla esattamente come le serviva…
  • ..e se il dry run (eseguito in “shadow mode” su parte della flotta) della nuova versione candidata di rete neurale risulta esibire un comportamento migliore rispetto a quella attuale…
  • ..Tesla può decidere di rilasciare in General availability quella versione di rete neurale…
  • ..e il ciclo di miglioramento, training e pre-collaudo Shadow può ricominciare.

In altre parole Tesla controlla l’intero stack tecnologico per la propria soluzione di guida autonoma e ha totalmente sotto controllo tutti i punti di intervento eventualmente necessari, sotto la propria unica organizzazione aziendale.

Questa impostazione (tutto in house, tutto sotto controllo diretto, ogni parte del sistema progettata in funzione delle altre, e software posizionato al centro di tutto: della vettura, della fabbrica e dell’azienda) è culturalmente inarrivabile da parte dei competitor tradizionali a meno che non siano capaci di intraprendere cambiamenti profondi e radicali che richiederebbero un vasto ricambio di persone, management, cultura aziendale, scala di valori, stile di lavoro.

Supponiamo si voglia raggiungere Marte: è più realistico pensare di riuscirci (e di riuscirci prima) fondando una nuova società ad hoc, oppure trasformando in senso evolutivo una società ferroviaria?


Questa mailing list usa Mailchimp. Iscrivendoti ad una o più liste, contestualmente dichiari di aderire ai suoi principi di privacy e ai termini d'uso.

In ottemperanza al Gdpr, Regolamento UE 2016/675 sui dati personali, ti garantiamo che i tuoi dati saranno usati esclusivamente per l’invio di newsletter e inviti alle nostre attività e non verranno condivisi con terze parti.

LASCIA UN COMMENTO

Please enter your comment!
Please enter your name here