Prevedere un guasto non conviene quasi mai

La manutenzione predittiva non fallisce per immaturità dei sensori, ma per una catena di condizioni economiche che raramente si chiudono tutte insieme. È un problema di teoria della decisione, non di tecnologia.

SCIENZA & TECNICA

Alessandro

6/21/20264 min leggere

La promessa dell'Industry 4.0 è seducente nella sua semplicità: copri la fabbrica di sensori, dai in pasto le vibrazioni e le temperature a un modello, e l'algoritmo ti avvertirà prima che il cuscinetto ceda. Mai più fermi a sorpresa. Manutenzione al momento giusto, né un'ora prima né un'ora dopo.

Poi si guardano i conti di chi quei programmi li ha installati davvero, e il quadro si fa opaco: molti consegnano meno di quanto promettano, e non perché i sensori non funzionino. Funzionano benissimo. Il punto è che la previsione viene venduta come un problema di rilevamento, mentre è quasi sempre un problema di decisione. E le due cose obbediscono a leggi diverse.

L'intuizione che inganna

Partiamo dall'idea su cui si regge la manutenzione a calendario: le cose si consumano, quindi più sono vecchie più è probabile che si rompano. Sostituiamole prima che invecchino troppo.

È un'intuizione quasi sempre falsa. Lo studio fondativo di Nowlan e Heap per United Airlines (1978) — la base concettuale della Reliability-Centred Maintenance — classificò i guasti in sei profili di rischio nel tempo e trovò un risultato che ribaltò la disciplina: solo circa l'11% dei componenti mostra una zona di usura legata all'età, quella in cui "più vecchio" significa davvero "più a rischio". Il restante 89% si guasta in modo sostanzialmente indipendente dall'età, e il profilo singolo più diffuso — circa due terzi del totale — è la mortalità infantile: rischio altissimo all'inizio, che poi cala e si stabilizza. Studi successivi su flotte navali e industriali ne hanno confermato la forma.

La statistica lo dice con una lettera sola, il parametro di forma β di Weibull. Solo con β maggiore di 1 esiste un'usura crescente che giustifica la sostituzione preventiva a tempo. Con β uguale a 1 il guasto è "senza memoria": l'età non contiene alcuna informazione, e ogni manutenzione a calendario è sprecata. Con β minore di 1 — la mortalità infantile — sostituire a scadenza è addirittura controproducente, perché rimette l'orologio sullo zero, cioè nella fase più pericolosa. È da qui che nasce la manutenzione predittiva: non più "guarda l'età", ma "guarda lo stato". Inventare l'alternativa, però, non la rende automaticamente conveniente. Perché paghi, devono aprirsi tre cancelli, uno dopo l'altro.

Primo cancello: la finestra di preavviso

Un guasto è predittibile solo se esiste un intervallo tra il momento in cui diventa rilevabile e il momento in cui il componente cessa di funzionare. John Moubray lo ha chiamato intervallo P-F: la distanza sulla curva tra il punto in cui un sensore può cogliere il sintomo (P) e la rottura funzionale (F).

Quella finestra deve esistere, essere ragionevolmente costante, ed essere abbastanza lunga da permettere di reagire: ordinare il ricambio, schedulare il fermo, intervenire. Tolto il tempo di risposta, ciò che resta è il preavviso utile netto. Se l'intervallo P-F è breve o erratico — il guasto fragile che precipita in poche ore, senza un sintomo stabile — anche il sensore perfetto non serve a nulla: si rileva, ma non si fa in tempo a decidere. Il primo cancello è puramente fisico, e molti modi di guasto lo lasciano chiuso.

Secondo cancello: la decisione che cambia

Supponiamo che il preavviso ci sia. Resta la domanda che quasi nessuno pone: cambiare cosa? Il valore di una previsione è limitato dal valore della decisione che modifica — la teoria della decisione lo formalizza nel valore atteso dell'informazione. Anche un oracolo infallibile vale soltanto quanto le scelte che permette di prendere meglio. Se l'azione ottimale è la stessa, sapendo o non sapendo, l'informazione vale zero, e nessun sensore può cambiarlo.

Per un componente economico, fuori dal vincolo, che non trascina con sé danni secondari, la decisione razionale è la stessa in entrambi i casi: lo si lascia girare e lo si sostituisce quando si rompe. La previsione, lì, non vale nulla a prescindere dalla qualità del sensore. È qui che il run-to-failure va riabilitato: non è incuria, è una scelta progettata. La RCM lo elenca tra le strategie legittime, da adottare deliberatamente dove le conseguenze sono tollerabili e nessun compito predittivo è efficace.

L'asimmetria che cambia la decisione la fornisce il vincolo. Un fermo sul collo di bottiglia costa il margine orario dell'intera linea; un fermo su una macchina satura di scorte a valle non costa quasi nulla. La regola pragmatica è netta: si predice dove fermarsi è caro, si lascia rompere dove fermarsi è economico. Il sensore va messo sul vincolo, non ovunque.

Terzo cancello: i numeri rari

Resta l'ostacolo più sottile, ed è di pura aritmetica. I guasti che contano sono rari. E sugli eventi rari anche un ottimo rilevatore produce in maggioranza falsi allarmi.

È il teorema di Bayes applicato alla diagnostica: con una probabilità di base bassa, il valore predittivo positivo — la quota di allarmi che corrispondono a un guasto vero — crolla, per quanto accurato sia il modello. Un classificatore che vanta il 95% di accuratezza su un set di test bilanciato può rivelarsi inservibile su un evento che capita una volta su cinquecento: il numero che conta non è l'accuratezza sul banco di prova, ma la precisione al tasso reale. Il "set bilanciato" mente.

Le conseguenze sono due, ed entrambe corrosive. La prima è l'erosione della fiducia: dopo qualche allarme a vuoto, la squadra impara a ignorarli — la favola di Al lupo, al lupo. La seconda è più crudele. Ogni falso allarme su cui si interviene è una manutenzione non necessaria; e ogni intervento su un sistema funzionante lo riporta nella sua infanzia, cioè nella zona di mortalità infantile da cui eravamo partiti. Il programma predittivo, mal calibrato, finisce per fabbricare i guasti che doveva prevenire.

Tre cancelli, una conclusione

Una previsione paga solo quando i tre cancelli sono aperti insieme: c'è una finestra di preavviso azionabile, la decisione cambia davvero, e i numeri sono abbastanza frequenti da rendere l'allarme credibile. Detectability, decisione, discriminabilità. La manutenzione predittiva viene venduta sul primo — il sensore, il dato, l'algoritmo — ma muore quasi sempre sul secondo o sul terzo. È per questo che programmi tecnicamente impeccabili rendono poco: il limite non è mai stato dove lo cercavamo.

La maturità di una funzione di manutenzione, allora, non si misura dal numero di sensori installati, ma dal rigore con cui decide dove la previsione merita il suo costo — e, soprattutto, dove non lo merita.

C'è un'inversione elegante in fondo a tutto questo. Il bravo manutentore, a volte, sceglie deliberatamente di non sapere. Predire tutto non è sofisticazione: è non aver fatto i conti. La domanda giusta non è mai "questo guasto è prevedibile?", ma "quale decisione cambierebbe se lo prevedessi, e quel cambiamento vale il suo prezzo?". Lasciar rompere una macchina, scelto a ragion veduta, non è il segno di un sistema primitivo. È il segno di un sistema che ha capito l'economia di ciò che fa.