Internet ha ricostruito la Torre di Babele. Già gli aerei avevano dato una mano, ma ora, dopo essersi dispersi per i quattro angoli della Terra, gli uomini si sono definitivamente ritrovati tutti in uno stesso cyber-luogo. Il problema (o più probabilmente la fortuna) è che questi stessi uomini continuano a parlare qualche migliaio di lingue differenti.
Google Translate non è la soluzione (o non lo è per ora), ma è sicuramente uno strumento utile per ammorbidire le barriere linguistiche e aiutare nei bisogni o nelle curiosità della vita di tutti i giorni. Grazie a Google Translate potete provare a capire cosa si dice in patria del centravanti ceco che la vostra squadra ha appena acquistato, potete provare a fare colpo su WhatsApp col bellissimo Erasmus russo appena arrivato o capire grossomodo cosa dice quel nuovo articolo su Kierkegaard, tanto potenzialmente illuminante, quanto drammaticamente scritto in danese.
Insomma, con Google Translate ci si arrangia nella Babele digitale. Ma come funziona? Come riesce a fornire delle brevi traduzioni grossomodo accettabili tra più di 100 lingue? Ma soprattutto, Google Translate traduce perché comprende il significato espresso e dunque, in virtù di questa comprensione, traduce? Può dirci qualcosa su come gli uomini usano e comprendono una lingua?
Google Translate non ha mai “letto” né un vocabolario né un libro di grammatica: l’algoritmo non “sa” nulla né del significato delle singole parole né delle regole per combinarle correttamente in una frase. Il modo in cui “impara” a tracciare delle relazioni tra la parola x della lingua A e la parola y nella lingua B dipende semplicemente dalla sua enorme capacità di processare dati. L’algoritmo si limita a calcolare milioni e milioni di documenti scritti sia nella lingua A che nella lingua B e dunque a scoprire in che modo e con che frequenza la parola x della lingua A ricorra insieme alle parole della lingua B. Semplificando molto, se quando si presenta x nella lingua A, molto spesso si ha y in quella B, allora ciò costituirà una correlazione ricorrente, uno schema per tradurre x quando questa viene digitata dall’utente di Google Translate. Lo stesso tipo di “apprendimento” porta l’algoritmo anche a “capire” come combinare tra loro le parole in una frase.
Dal 2016, dieci anni dopo la sua nascita, Google Translate ha decisamente migliorato le sue prestazioni. Ciò si è dovuto al passaggio dal Phrase-Based Machine Translation (PBMT) al Neural Machine Translation (NMT). Il primo sistema spezzava la proposizione-input, traducendo come unità indipendenti le singole parole ed espressioni per poi ricomporle nell’output-traduzione. Al contrario, il secondo sistema considera l’intera proposizione-input (ciò che si chiede di tradurre) come unità per la traduzione: nel generare la sua risposta, Google Translate considera così i rapporti tra la possibile traduzione di una singola parola e tutte le altre parole presenti nella proposizione input. Insomma, Google Translate considera il contesto linguistico in cui è inserita la singola parola della lingua A e, basandosi sulle relazioni probabilistiche che i suoi possibili corrispondenti nella lingua B intrattengono con l’intero contesto, propone la sua traduzione.
Google Transalate è una realizzazione della teoria del significato di Wittgestein? (e dunque il suo modo di comprendere il linguaggio è spiegabile allo stesso modo di quello umano?)
Questo è il titolo (fino alla partentesi) di un articolo comparso il 13 febbraio su Quartz. Il ragionamento che vi svolge può essere riassunto così:
Premessa A: Nelle Ricerche Filosofiche Wittgenstein afferma che “il significato di una parola è il suo uso nel linguaggio”,
Premessa B: Google Translate non opera sulla base di significati già definiti a-priori, ma traccia delle correlazioni probabilistiche tra le parole di lingue diverse in base al modo in cui queste vengono usate:
b1) all’interno del loro contesto linguistico, cioè tenendo conto delle altre parole con cui co-occorrono (determina il significato a partire dai diversi usi che quella stessa parola può avere nel linguaggio),
b2) all’interno di una parte significativa di testi effettivamente prodotti (determina il significato da usi concreti, storicamente situati), dunque
Il problema di questo argomento è nell’identificazione tra “uso”, dunque “significato” e “contesto linguistico”. Per Witgenstein “parlare un linguaggio”, cioè usare le parole fa, in modo molto più ampio e complesso, “parte di un’attività, di una forma di vita”: le parole sono comprese solo all’interno di una prassi sociale in cui l’uomo è completamente immerso, mente e corpo, riflessione e sensibilità. Non si tratta di una questione di probabilità o correlazioni frequenti: mentre l’algoritmo di Google Translate è staticamente vincolato ai risultati del suo calcolo sulle parole già dette o scritte, il parlante umano può andare oltre, continuando a giocare il gioco linguistico della “traduzione” anche davanti a ciò che è del tutto nuovo o assolutamente improbabile. Lo può fare appoggiandosi ad una esperienza del linguaggio che va ben oltre le semplici parole già dette o ascoltate, ma che lo coinvolge come “vivente”.
Ad oggi, giocando ad esempio sulle omonimie, si può ancora confondere Google Translate in tanti modi. Ad esempio “Luca fa segno col capo di andare” viene tradotto in inglese correttamente con “Luca makes a sign with his head to go”, mentre “Il sergente fa segno col capo di attaccare” diventa “The sergeant signal his boss to attack”. Tuttavia è probabile che con il tempo Google Translate riuscirà a migliorarsi sempre di più. Ma non potrà mai neanche soltanto azzardare la traduzione di un enunciato di questo genere: “Ho capito che non la smetteva più di piangere, però non si possono nemmeno tirare quegli squaquaraqua in faccia ad un bambino di due anni”. Al contrario, ogni lettore umano si sarà fatto una certa idea di come sia traducibile “squaquaraqua”.