Segnali dal futuro della ricerca visuale
Lo sviluppo della ricerca visuale sta “silenziosamente” facendo passi da gigante. Le “big corporations” stanno investendo molto in questa direzione; per comprenderne il perché basta vedere come i ragazzi, giovani (e meno giovani 😉 ) si rapportano con le informazioni: smartphone alla mano e non più in modo testuale, ma visuale.
Su social e chat invece che scriversi messaggi di testo si fanno delle foto o dei piccoli video, perché gli è più facile, gli è più congeniale comunicare attraverso la comunicazione visiva piuttosto che attraverso il testo; in questo modo sentono di poter “esprimere di più”.
L’importanza del “visuale” per i big
Via via che immagini e video diventano più importanti, anche la ricerca si adegua. Google, Facebook, Amazon e Microsoft lo sanno già: se le informazioni sono visuali, per accedere a quelle informazioni anche le ricerche devono essere visuali.
Quando su Google volete vedere delle fotografie di un elefante, potete scrivere “elefante” ed ecco tutte le foto di elefanti che volete. Ma già oggi nella “ricerca per immagini” (Google Immagini) potete prendere la foto di un elefante che avete sul desktop, “trascinarla” dentro la finestra e automaticamente Google troverà foto di altri elefanti; se guardate nella casella di ricerca vedrete che ha trasformato quella foto in un testo, proprio nella parola, nella keyword “elefante”. Google “vede ” e “capisce” cosa c’è all’interno di un’immagine (!).
Nell’esempio, tutto il processo è visivo. Parto da un’immagine e semplicemente arrivo ad altre immagini. Si poteva anche scrivere “elefante” nella casella di ricerca di Google, ma proprio perché già sappiamo che quello rappresentato nella fotografia è un elefante.
Mettiamo di voler cercare invece un attrezzo per fare bricolage del quale non conosciamo il nome: ce lo ha prestato il vicino di casa e neanche lui sa come si chiama. Come fare? Ecco che basta fotografarlo e utilizzare quella foto per fare la ricerca per immagini.
Ecco che si cominciano ad intravedere scenari molto interessanti, cercare quello che vediamo ogni giorno e scoprire che cos’è, ricerche di oggetti della vita reale o della ricetta di un piatto che ho fotografato. Non “digito e trovo”, ma: “scatto e trovo”.
Non solo Google è così bravo a capire cosa sia ritratto nelle immagini, Microsoft ad esempio riesce a capire anche chi ci sia. Con Caption Bot potete caricare una foto e ottenere in risposta che cosa c’è nella foto con un discreto grado di accuratezza; per esempio, saprete che in una foto c’è un ragazzo con gli occhiali che sta leggendo un libro, oppure che c’è una bambina che sta posando per farsi fare una fotografia.
Grazie all’intelligenza artificiale questo software capisce (deduce) se è o non è un uomo, se è un oggetto, una persona, un animale. Votando il risultato potete contribuire al training di questa intelligenza artificiale: da una a 5 stellette e in base al voto che date, ogni volta l’intelligenza artificiale “impara” e diventa sempre più precisa.
Sempre Microsoft, con Bing How-Old consente di caricare la fotografia di una persona e ottenere quanti anni presumibilmente ha la persona ritratta, con un grado di precisione impressionante.
Dedurre l’età della persona dalla sua foto apre scenari in cui flussi visuali possono essere trasformati in informazioni analitiche da utilizzare in svariati ambiti, dal marketing alla sicurezza.
Se ciò può sembrare avveniristico, sappiate che già oggi Facebook “trasforma” il contenuto delle immagini che quotidianamente carichiamo (e sono tante) in stringhe di testo che descrivono cosa è ritratto nella foto. Un sistema automatico di riconoscimento delle immagini analizza ogni foto caricata e genera automaticamente un descrizione più o meno accurata della fotografia. Sarebbe un “testo automatico alternativo” d’aiuto alle persone con disabilità visive (qui link con video).
Chiaro che questo tipo di tecnologia potrebbe essere usata per “schedare” ancora meglio, di quanto oggi non avvenga, comportamenti e presenze online (a buon intenditor…). Negli aeroporti le telecamere che ci inquadrano potrebbero capire tutto di noi, ancora prima di arrivare al banco degli agenti di frontiera: la nostra età, ma anche se abbiamo un profilo a rischio o meno. Non molto tempo fa già Paolo Attivissimo scriveva: “Facebook sta sperimentando un sistema chiamato DeepFace, che è in grado di riconoscere l’identità precisa delle persone nelle foto con la stessa affidabilità di un essere umano e meglio del sistema di riconoscimento usato dall’FBI, secondo Computerworld. Non solo: riesce spesso a identificare anche persone il cui volto non è visibile: guardando l’acconciatura, la corporatura, la posizione e l’abbigliamento. Il potere di schedatura di massa di queste tecnologie è impressionante: significa che uno sconosciuto può fotografarvi per strada e scoprire chi siete e qual è il vostro account sui social network, come avviene già in Russia con Findface.ru, con risultati inquietanti documentati in molti video.”
Perfino nell’applicazione di Amazon per iPhone si può cercare un prodotto cliccando sull’icona fotocamera e inquadrare un prodotto o un codice a barre. Nel caso di codice a barre viene fatto lo “scan” del codice, invece quando inquadro un oggetto, come risultato mostra quel prodotto in vendita dentro Amazon (insieme ai prodotti ad esso correlati…).
L’esperienza di acquisto allora si trasforma profondamente: per cercare/comprare degli oggetti mi basta riprenderlo con la fotocamera del cellulare. Vedo una tazza che mi piace, apro l’app, la inquadro ed ecco la scheda prodotto di quella tazza, proprio di quella marca. Così posso sapere immediatamente quanto costa e, se voglio, acquistarla in tempo reale.
Shop the look è una funzionalità integrata in Pinterest che consente di sapere quali vestiti indossa una persona. Partendo dalla fotografia su Pinterest di una persona scopri che veste una giacca Armani, dei pantaloni di Ralph Lauren e un maglione in lana di Gucci.
Ti scompone l’outfit e ti dà la possibilità di vedere altre foto (altre persone) con lo stesso look, con lo stesso maglione indossato, la stessa giacca, gli stessi pantaloni. E poi sì, ti consente di acquistare direttamente il maglione, i pantaloni o la giacca, attraverso agenzie che fanno da tramite tra Pinterest – Shop the look e il tuo ecommerce.
Altra funzione di Pinterest è Lens (Pinterest Visual Discovery), attualmente in versione beta per utenti mobile negli Stati Uniti. Lens consente agli utenti di fare ricerche visuali, ovvero inquadri un oggetto con la fotocamera del telefonino e accedi ad una serie di contenuti collegati all’oggetto inquadrato; compresi i siti dove comprarlo.
Un profondo cambio culturale
Questo è l’inizio di nuove tecniche, nuovi comportamenti, nuove abitudini. In futuro la ricerca non sarà più solo testuale, saranno parole pronunciate (voice search) o immagini catturate con lo smartphone. Inquadreremo una persona che ci sembra elegante e potremo comprarci la sua stessa giacca e le sue stesse scarpe, mentre è ancora davanti a noi.
Potremo essere riconosciuti semplicemente da un’inquadratura di una telecamera che comprenderà anche le nostre emozioni, che potranno essere interpretate come giudizio. Daremo un feedback in tempo reale proprio come se fossimo di fronte a chi ci vuole vendere quella cosa, e comunicheremo il nostro feedback solamente con l’espressione facciale, altro che emoticon.
La prospettiva è che negli ecommerce del futuro mentre guarderemo un prodotto qualcuno (o qualcosa) forse “guarderà” noi. Chi ci starà vendendo quel prodotto sarà in grado attraverso la nostra fotocamera di capire chi siamo: se siamo maschio o femmina, quanti anni abbiamo, se stiamo comprando un giocattolo per i nostri figli, se siamo il giusto destinatario di una promo su quel prodotto o no. Potranno “deciderlo” perché potranno capire qual è il nostro feedback emotivo, capire se quella cosa che stiamo vedendo ci piace, ci interessa, se ci dà un un’emozione negativa o positiva quando vediamo il prezzo del prodotto.
Fantascienza? Pazienza, pazienza.