Con questo articoletto voglio presentarvi quello che è un ramo poco noto della statistica: l’analisi del testo letterario grazie al concetto di distanza intertestuale. Buona parte di quanto scrivo è tratta dal sito (in francese)
Un testo, qualsiasi testo, da Dino Campana a Vasco Rossi da Torreguitart Ruiz fino ai monologhi alcolici di Paris Hilton, è un insieme di lettere e spazi: è possibile campionare una parte di testo, e contarne le parole. Potete farlo anche a casa: se ad esempio prendete questo articolo e le copiate in un programma come openword, avete a disposizione una funzione che conta per voi il numero di parole, di battute, e persino di spazi presenti nel testo.
Alcune parole fanno parte della lingua italiana indipendentemente dal testo: i nostri autori sopraccitati non hanno molto in comune dal punti di vista del contenuto del loro lavoro, ma è verosimile che alcune parole siano riscontrabili in tutti e quattro, semplicemente perché non è possibile farne a meno. Penso ad articoli, preposizioni e termini di uso corrente e non rimpiazzabili.
La distanza intertestuale misura la somiglianza tra due testi: è un indice che varia da zero a uno. Se l’indice vale 0 significa che i due testi sono perfettamente identici. Se l’indice vale 1 i due testi non hanno nulla in comune.
È chiaro che queste situazioni estreme sono soltanto teoriche: in generale due testi devono avere qualcosa in comune, anche se si tratta di un paragone tra Berlusconi e Umberto Eco.
L’indice intertestuale tiene conto di quattro fattori importanti:
il genere, l’autore, il tema e l’epoca.
In generale gli studi effettuati su testi con questo metodo statistico prendono in conto estratti di almeno 3500 parole, fino ad un massimo di 20000
Un indice di 0.6 indica che il 60% dei termini sono diversi tra i due testi. I creatori del metodo hanno studiato i risultati del loro indice constatando che:
- un indice di 0.2 o meno indica un autore unico, o un caso di plagio o una collaborazione
- un indice fino a 0.25 può avere luogo occasionalmente per due testi di una stessa epoca e di stesso genere. Più casi ripetuti sono però da considerare come plagio
- un indice tra 0.25 e 0.4 appartiene a una zona grigia, che non permette facili conclusioni
- infine due testi che hanno indice superiore a 0.4, sono certamente da attribuire ad autori diversi
Il metodo non deve essere applicato a estratti inferiori ai mille vocaboli (risultati falsati) e presenta le proprietà usuali del concetto di distanza (distanza da A a B identica alla distanza da B a A, ineguaglianza triangolare, …).
Il calcolo si effettua in questo modo:
si contano le parole del testo A che non sono in comune con il testo B, si contano quelle del testo B che non sono in comune con A, quindi quelle restanti. La formula della figura fornisce il risultato voluto
Con questo metodo è quindi possibile attribuire testi di autori sconosciuti a nomi noti, semplicemente paragonando lavori di attribuzione certa a lavori di cui non si conosce l’autore.
In particolare questo metodo è stato usato per la discussa vicenda dell’attribuzione di alcune opere di Molière a Corneille.
I risultati di questa attribuzioni hanno svelato che alcune opere attribuite a Molière sono in realtà state scritte da Corneille: il risultato è stato un piccolo terremoto nel mondo delle lettere, con parecchi battibecchi spesso violenti, accuse, contraccuse, e diversi insulti anche pesanti.
Le ragioni sono da attribuire sostanzialmente alle scarse conoscenze di statistica di chi si occupa di letteratura, ma anche ai pregiudizi, di origine incomprensibile, che circondano l’uso del mezzo matematico nell’analisi del testo. Le cifre non piacciono ai letterati: i risultati ottenuti non fanno però che confermare la validità del metodo.
Con il che concludiamo: poesia o prosa alla fine l’universo è in lingua matematica. È questione di numeri.
EDIZIONE ESAMINATA e BREVI NOTE
Un grazie a Jean-Pierre Mueller, che mi ha fatto scoprire questo interessante piccolo mondo di confine tra letteratura e matematica.
Bibliografia consigliata n rete:
http://www.corneille-moliere.org/pageshtml/labbeextrait.html
http://fr.wikipedia.org/wiki/Paternité_des_œuvres_de_Molière
http://www.lesimpressionsnouvelles.com/extraits/LabbeVipreyReponse.pdf
sulla piccola disputa Molière-Corneille
http://corpus.revues.org/document31.html
sul metodo
http://www.pacte.cnrs.fr/IMG/pdf_LabbeLouvain.pdf
i panni sporchi si lavano in casa…
http://it.wikipedia.org/wiki/Moli%C3%A8re
http://it.wikipedia.org/wiki/Corneille
per chi fosse a digiuno dei due autori francesi
Thomas Mueller per Lankelot, settembre 2008
Commenti
neo Thomas!
(ocio che mancano i tags)
Non capisco perché il testo è in due dimensioni diverse. Altrimenti dovrebbe essere OK...
Abbiamo un po' di noie con i browser, nescio quomomodo sed qualcosa s'è rovinato dopo gli ultimi aggiornamenti di firefox.
Prova domani, con calma...
(e prova a modificare i font paragrafo per paragrafo, con calma).
(Così dovrebbe leggersi meglio)
fenomenale!
Grazie Angela!
Ecco l'ideale scientifico dis crittura. due testi scientifici, dovrebbero avere sempre distanza zero. indipendentemente dall'autore (che tristezza e che efficacia).
"- un indice di 0.2 o meno indica con sicurezza un autore unico, o un caso di plagio o una collaborazione
- un indice fino a 0.25 può avere luogo occasionalmente per due testi di una stessa epoca e di stesso genere. Più casi ripetuti sono però da considerare come plagio
- un indice tra 0.25 e 0.4 appartiene a una zona grigia, che non permette facili conclusioni
- infine due testi che hanno indice superiore a 0.4, sono certamente da attribuire ad autori diversi "
interessante. Devo dire che toglierei, all'indice di 0,2 o meno, il "con sicurezza". A meno che "con sicurezza" sia da riferire a tutti e tre i termini che seguono, nel qual caso, però, riformulerei la frase in maniera più chiara. Così com'è, a me sembra contraddirsi, in quanto se afferma con sicurezza che l'opera è di un autore unico, come può esserci l'alternativa del plagio o della collaborazione?
E se "con sicurezza" si riferisce a tutti e tre i termini successivi, mi sembrerebbe opportuno aggiungere un nuovo "o", così:
"- un indice di 0.2 o meno indica con sicurezza o un autore unico, o un caso di plagio o una collaborazione"
in tal modo si capisce che "autore unico" è una delle possibilità alternative.
Interessante il caso che riporti di Corneille e Molière.
Devo dire che sono scettico, perché genere, autore, epoca, tema, non comprendo bene come vengano valutati. Sulla querelle, ad esempio, si è rivelato un indice di 0?
Te lo chiedo perché il teatro è un genere ostico, e le gare autoriali a superarsi non erano infrequenti, per cui non escludo plagi, o addirittura copie esterne ai due autori.
La trasmissione teatrale, ed i falsi, il commercio di opere, erano pratica comune. Pur di vendere, si stampava qualunque cosa, sotto falsi nomi, rielaborando opere, insomma, un gran macello destreggiarsi.
Credo sia un mezzo migliore con opere di narrativa, che con opere teatrali, dovuto, appunto, alla varietà di trasmissioni testuali che hanno queste ultime.
Articolo interessante. Grazie.
8> Due testi di distanza 0 sono identici! Un po' ridondante come ideale scientifico. Dire sempre la stessa cosa nella stessa maniera...
comunque lo stile della comunicazione scientifica non deve per forza essere sempre identico. Tu stesso hai citato commentato tempo fa un articolo di Golubinoff che certamente aveva caratteristiche orginali stilisticamente parlando, ma che veicolava comunque un'informazione di alta qualità.
Quindi non direi che la distanza intertestuale sia un sintomo di qualità della comunicazione scientifica.
9> Ho corretto il pezzo; niente da dire a parte "grazie".
Sulla querelle t consiglio di leggere quanto segnalato in bibliografia: io non conosco il teatro, e mi sono limitato allo studio statistico del testo come strumento generale.
Comunque gli autori del metodo hanno passato in rassegna diverse opere del periodo e del genere Molière/Corneille, hanno cioé delle verifiche che due testi di due autori diversi (e certi) hanno distanza dell'ordine indicato, mentre due testi dello stesso autore e su cui non vigono dubbi di plagio, hanno distanza corrispondente alle loro scale.
Questo è per altro un prerquisito di qualsiasi studio statistico.
11. Prego.
Per quanto riguarda il resto, ecco, essendo tutto in francese....quando avrò più tempo. Anche perché sono documenti abbastanza lunghi. Rimango scettico non tanto sul fatto che siano state trovate coincidenze statistiche, quanto sull'attribuzione, visto che, per un valore minore di 0.2 si contempla plagio o collaborazione. Corneille comincia a lavorare una quindicina d'anni prima di Molière, ed ha grande successo. Poi il suo successo diminuisce, e sale quello dell'altro. Ci sono, diciamo così, zone d'ombra, ma senza leggere il documento, è difficile dare una valutazione.
Rimango scettico perché, se penso che possa essere d'aiuto nell'attribuzione, penso anche che non sia una prova sufficiente a determinarla da sola. Ovvero, tenderei a vagliare tutte e tre le ipotesi contemplate, considerando i metodi di trasmissione dei vari testi, l'attendibilità di questi, cercando di capire se le parole comuni sono comprensibili nelle "sentenze" abitualmente usate al tempo: i testi, dai classici ai moderni, venivano spesso stampati con le indicazioni delle frasi più, direi, "d'effetto", quelle che permettevano al lettore colto di riutilizzarle nelle discussioni cortigiane, ma anche agli scrittori di utilizzarle per le varie opere, magari variandole. Quindi tenderei ad escludere varie cose dal conteggio delle parole simili. Questo penso possa rientrare in qualche modo nel "genere", immagino. Non so.
Che avessero fatto delle prove, ne ero certo.
Vabbé, comunque parlarne, senza aver letto, è fare supposizioni. Quando avrò tempo di leggerlo, ci tornerò sopra.
Grazie ancora per il pezzo, molto interessante.
Figurati: penso troverai la lettura interessante, anche perché gli autori, visto il putiferio scatenat, si sono dati molto da fare a spiegare i loro metodi. Alcune delle considerazioni che avanzi sono state fatte anche dai loo detrattori, e le risposte sono nei testi inidcati. Magari ti fa piacere sapere che alcuni sono in inglese e francese.
;-)
Ci credo che hanno scatenato un putiferio. Ma non credo sia stato perché le cifre non piacciono ai letterati, penso che abbiano toccato un punto dolente. Ovvero: possibile anche che abbiano scoperto tramite la statistica l'acqua calda, solo che nessuno, prima, aveva fatto uno studio comparato dei vari testi. I rispettivi autori si pensavano fossero quelli, e via. Ecco, questo mi convincerebbe molto di più come motivo, piuttosto che il non piacere dei numeri.
Sarebbe come se un letterato, divertendosi (diciamo così), con dei numeri, rovesciasse qualche sistema matematico. Immagino non la passerebbe liscia ;-)
avevo visto che erano un po' in inglese, un po' in francese, sì ;-)
Se non capisci qualcosa col francese posta l'estratto0 e te lo traduco io.
Il conflitto viene dall'ingerenza nel mondo delle lettere suppongo, non gradita per ragioni che però sono poco razionali e molto territoriali.
In generale se ti presenti nel mondo delle scienze con un argomento nuovo il putiferio lo scateni inidpendentemente dal settore di provenienza