Sviluppate le correzioni al software di MRO che ha causato i reboots


#1

Nella prossima settimana il team di controllo della sonda NASA Mars Reconnaissance Orbiter tenterà di inviare degli appositi files di protezione del software, con l’obiettivo di ristabilire il corretto funzionamento dell’orbiter e di aver corretto quei problemi che hanno originato gli ingressi in safe mode nei mesi scorsi.

Il 26 agosto scorso infatti, MRO aveva eseguito inspiegabilmente un reboot dei sistemi informatici, causando l’ingresso nello stato di attività minima (potenza consumata minima, pannelli sun-pointed ed antenne dirette a Terra) chiamato appunto “safe mode”. Analoghi comportamenti erano avvenuti anche il 23 febbraio, il 3 giugno ed il 6 agosto di quest’anno, causando una seppur minima preoccupazione al team dell’orbiter.

Nello specifico, i quattro reboot del sistema hanno riguardato il controller di ridondanza del bus principale, che esegue il controllo del pc acceso tra i due possibili main, previsti per doppia ridondanza del sistema. Attualmente le cause di questi piccoli inconvenienti restano ancora oscure, anche se si è ipotizzato un cambio di voltaggio non previsto in qualche sistema, determinando il cedimento di questo controller. Inoltre il problema del 6 agosto ha comportato lo switch da un main computer all’altro. Un altro possibile scenario ipotizzato sarebbe il reboot di entrambi i sistemi in un’intervallo temporale di un minuto l’uno dall’altro, di fatto scavalcando il ruolo del controller di ridondanza e cancellando lo stato iniziale del main computer, con la conseguenza di un inevitabile safe mode, in attesa di istruzioni dai controllers di Terra.

Identificato questo scenario come possibile nei vari accadimenti successi, il team del software ha implementato delle procedure per la memorizzazione delle informazioni necessarie in caso di reboot da parte della memoria flash, garantendo quindi il recupero dei dati principali per ristabilire il funzionamento nominale in caso di scenario di failure ravvicinata dei due sistemi ridondanti. Le procedure saranno inviate in uplink a MRO, con la conseguente verifica sequenziale di alcuni casi test da parte del team di controllo. Le speranze del JPL sono quindi che le modifiche apportate al s/w siano sufficienti ad evitare ingressi in safe mode senza problemi di hardware.

Per informazioni sulle passate anomalie di MRO, si veda qui


#2

Molto ma molto interessante
Mi affascina questo tipo di problematiche e soprattutto come le risolvono!