Questo algoritmo sa cosa fai

Immagine: Wikimedia

Ci sono cose che i computer non sanno ancora fare, come riconoscere i volti umani (non credete all’hype) o calcolare i fattori primi di numeri molto grandi (la base dell’attuale crittografia). Semplicemente, ci sono troppe possibilità, una miriade di minuscole differenze che devono essere prese in considerazione per arrivare alla risposta giusta. Che siano nasi o numeri, si tratta di processare informazioni. Le azioni umane—variazioni sul mondo reale, osservate in un intervallo di tempo—rientrano nella categoria di ciò che resiste al calcolo. Il cervello funziona meglio. Per ora.

Le caratteristiche facciali e il comportamento hanno suscitato molto interesse nel campo della sicurezza e dei social media. I sistemi di sorveglianza a circuito chiuso sparsi per le città sono limitati dal fatto che richiedono sempre un operatore umano. Non è difficile immaginare quanto sarebbero felici le agenzie di sicurezza se potessero una telecamera a ogni angolo della città.

Videos by VICE

Alla prossima conferenza annuale su Visione Artificiale e Riconoscimento di Pattern (CVPR 2014), un gruppo di ricercatori del MIT e della University of California presenteranno un nuovo algoritmo per il riconoscimento di attività. Si basa su algoritmi per processare il linguaggio naturale ed è superiore sotto molti aspetti alle tecnologie attuali. Prima di tutto, mantiene costante l’utilizzo di memoria del computer (il riconoscimento usa molta memoria) potendo dunque processare file pesanti, in particolare video molto lunghi.

La capacità di gestire un flusso continuo di informazioni video è di per sé uno sviluppo importante. È diventato possibile grazie alla capacità del nuovo algoritmo di processare informazioni incomplete. Se, per esempio, qualcuno per strada si gira improvvisamente, avvicinando la mano alla tasca del cappotto, l’algoritmo calcola la probabilità che l’azione si completi in un modo piuttosto che in un altro. In un certo senso prova a predire il futuro. È un po’ inquietante, ma più che fermare i crimini prima che accadano, l’algoritmo è un meccanismo di identificazione. Dopotutto, ogni singola azione avviene in un certo lasso di tempo.

L’algoritmo è basato sull’insolito concetto di “grammatica comportamentale.” Si da un significato alle parole usando regole che stabiliscono che tipo di relazione esiste tra una e l’altra. Il team di ricercatori sostiene che ogni azione è composta da più azioni secondarie in relazione tra loro secondo alcune regole. Questo precede questo qualche volta, ma quest’altro lo precede sempre.

Immagine: Jose-Luis Olivares/MIT (fonte: Nesnad/Wikimedia Commons)

“Immaginatevi di risolvere un problema analizzando gli elementi di cui è composto uno ad uno, come quando si scompone una frase in soggetto, verbo e complemento oggetto,” ha spiegato Hamed Pirsiavash, studente del MIT, in una dichiarazione. “Si nota un’analogia: se ci si trova di fronte a un’azione complessa (per esempio, la preparazione del caffè), composta da varie azioni secondarie, queste possono essere unite e poi analizzate come fossero soggetto, verbo e complemento.” Il risultato è un’azione coerente.

L’algoritmo è basato sull’apprendimento automatico, un processo mediante il quale un programma apprende da un insieme di dati prodotti durante una serie di osservazioni. Dopo un periodo di assestamento il programma si adatta, diventando più intelligente. In questo caso, il programma che implementa l’algoritmo guarda un video che raffigura diverse azioni, individuando quelle secondarie. Effettivamente il programma non sa quali siano o come siano correlate. Sta all’algoritmo determinarle e costruirne la grammatica nascosta.

Il programma comincia all’inizio di un determinato video e di una particolare azione. Gli basta un frammento di quest’ultima (come se fosse una parola di una frase) per stabilire il numero di potenziali azioni seguenti e classificarle dalla più probabile alla meno probabile. Mentre il video continua, ogni nuova informazione permette di scartare delle possibilità (il passare del tempo, anche senza alcun cambiamento visivo, è di per sé un’informazione). Le informazioni scartate possono essere prese in considerazione e riclassificate successivamente, in base a nuove informazioni. Una volta raggiunto un punto critico nella progressione delle azioni, il programma riesce a fare una buona stima di ciò che sta accadendo.

Questa è un’abilità nuova per i computer e potrebbe rivelarsi fondamentale per l’intero apparato di riconoscimento delle azioni. Il team di ricerca l’ha testata usando video di diverse attività sportive, come il sollevamento pesi o il bowling. Il nuovo algoritmo ha superato i suoi predecessori, nonostante questi fossero molto avanzati. Alcuni usano approcci probabilistici (modello di Markov nascosto, filtro di Kalman) e altri analizzano il movimento, calcolando le opzioni fisicamente possibili in base a posizione e velocità, e sommando le variazioni nel tempo in uno spazio tridimensionale. Sono tutti piuttosto interessanti, in particolare per chi ama la matematica, ma l’algoritmo li batte tutti.

Seguendo il solito modello di sviluppo delle tecnologie per la sorveglianza (che altrimenti risulterebbero piuttosto strane) il team del MIT si è interessato anche alle applicazione mediche. Un sistema che usa questo algoritmo potrebbe ricordare a un anziano di prendere la medicina, o correggere in automatico i pazienti che fanno riabilitazione. Identificando una serie di azioni secondarie che possono essere (ri)costruite in un movimento completo, potrebbe persino essere in grado di monitorare l’attività cerebrale di pazienti con danni neurologici.

Molti staranno pensando alle telecamere cittadine, immaginandole con un occhio meccanico sempre pronto a dare l’allarme quando si supera la soglia probabilistica per un’azione sospetta. Forse le macchine umane farebbero meglio a imparare come implementare questi algoritmi, per evitare di dare suggerimenti a quelle meccaniche.