Digitalizzazione dei testi umanistici: il linguaggio di markup XML e la codifica TEI

by Admin
0 comment

di Marco Pochesci

Il programma TEI[1] (Text Encoding Initiative) è stato uno dei primi progetti nel settore oggi definito Digital Humanities, sviluppato con l’obiettivo di codificare testi e fonti legate alle discipline umanistiche. Nel 1987 al Vassar College, nello stato di New York, fu organizzato un incontro sponsorizzato dall’Association for Computers in the Humanities e finanziato dal National Endowment for the Humanities a cui presero parte studiosi e rappresentanti di società, biblioteche, archivi e progetti da tutto il mondo per strutturare la fondazione della Text Encoding Initiative. Le prime linee guida dell’iniziativa (TEI Guidelines) furono sviluppate grazie al finanziamento di tre organizzazioni: la già citata Association for Computers in the Humanities, la Association for Literary and Linguistic Computing e la Association for Computational Linguistics. Nel gennaio del 1999 l’Università della Virginia e l’Università di Bergen (Norvegia) presentarono al comitato esecutivo TEI la proposta di trasformare l’iniziativa in un’organizzazione internazionale, conosciuta come TEI Consortium, che avrebbe avuto il compito di mantenere e sviluppare il progetto. L’anno successivo, con l’inclusione della Brown University e dell’Università di Oxford, l’accordo per la fondazione del consorzio divenne ufficiale.

  • In cosa consiste la codifica TEI?

Il consorzio ha sviluppato una codifica standard per la rappresentazione dei testi in digitale definendo un linguaggio di markup in XML per la digitalizzazione di dati testuali. Ma facciamo un passo indietro. Cos’è XML? La sigla XML sta per eXtensible Markup Language, cioè linguaggio di marcatura estensibile. Sviluppato dal W3C (World Wide Web Consortium), è un metalinguaggio che consente di definire e controllare il significato di elementi contenuti in un documento testuale. Attraverso dei marcatori, chiamati tag (etichetta), si possono, ad esempio, aggiungere al testo alcune informazioni, identificare determinate parole oppure definire le parti in cui è suddiviso il documento. I vantaggi di XML sono riepilogati generalmente in una sola parola: SPEED, acronimo di Storing (memorizzazione), Publishing (pubblicazione), Exchanging Electronic Documents (scambio di documenti elettronici). Quindi archiviazione, pubblicazione e interscambio rappresentano i tre motivi per cui XML viene principalmente utilizzato.  

Senza soffermarci troppo sull’uso di XML (spiegare tutte le sue funzioni e come metterle in pratica sarebbe troppo lungo[2]), vediamo perché viene utilizzato e come le sue caratteristiche si integrano nel progetto TEI. Perché si fa uso del sistema TEI-XML quando si può svolgere lo stesso lavoro con un software di elaborazione di testo (word processor) come ad esempio Microsoft Word? Risponde a questa domanda l’esperto in digital humanities, nonché uno dei fondatori del progetto TEI, Lou Burnard nel suo libro “What is the Text Encoding Initiative? How to add intelligent markup to digital resources[3] pubblicato nel 2014. Principalmente sono tre le ragioni per cui è preferibile utilizzare questo sistema, a volte anche un po’ complesso, per la digitalizzazione di documenti testuali. 

Meaning before format”. Se si necessita di individuare in un testo una determinata parola, ogni word processor permette questa ricerca senza però poter distinguere tra significati diversi. Ad esempio, se digitiamo la parola Francia nell’apposita casella di ricerca in un file pdf delle Vite del Vasari verranno visualizzati tutti i casi in cui è citato questo termine, ma il software non riconosce la differenza tra la Francia, intesa come stato, e il Francia, il pittore bolognese Francesco Raibolini. Il sistema di codifica TEI, invece, consente questo tipo di indagine nel testo proprio grazie al linguaggio di marcatura XML: le due parole, contrassegnate da due etichette differenti sono riconosciute come termini con diverso significato. 

“Software indipendence”. Un altro vantaggio che il sistema TEI-XML comporta è la sua caratteristica di essere indipendente da software o hardware. Ciò vuol dire che un documento codificato con uno standard XML può essere visualizzato, allo stesso modo, indipendentemente dal software in uso, senza necessità di convertire il file. Ad esempio, le informazioni contenute in un testo digitalizzato con un word processor (come Microsoft Word) potrebbero non essere visualizzate correttamente aprendo il file con un altro software (come Open Office); la stessa situazione si potrebbe verificare se si utilizza una versione aggiornata (o obsoleta) dello stesso programma. 

“Community driven”. Il progetto TEI è stato sviluppato, circa trenta anni fa, con l’intento di essere modificato, evoluto e ampliato in relazione alle richieste della community. La sua duttilità ha permesso, nel corso degli anni, di rispondere alle esigenze di studiosi, ricercatori e più in generale, degli utenti, mettendo a disposizione sempre nuove aggiornate versioni. 

  • Struttura di un documento TEI[4]

Il sistema di codifica TEI, nella sua ultima versione, denominata P5, consente di organizzare i documenti testuali secondo uno schema predefinito, come detto in precedenza, basato sul linguaggio XML. Ogni tipologia di testo, dai trattati scientifici alle raccolte epistolari, può essere digitalizzata seguendo lo schema TEI che offre la possibilità di essere modificato in base alle diverse caratteristiche del documento. 

Ogni documento TEI ha almeno due parti: il header (rappresentato dall’elemento XML <teiHeader>) che contiene le informazioni principali che descrivono il testo digitalizzato; e il testo stesso (rappresentato dall’elemento XML <text>).  Queste due grandi sezioni sono costituite da una serie di elementi XML. 

Il <teiHeader> fornisce i metadati del testo, cioè tutte le informazioni che riguardano il lavoro, la sua pubblicazione e la digitalizzazione. È formato principalmente da quattro componenti: il file description(<fileDesc>) con dati relativi al testo, come titolo, editore, data di pubblicazione; il encoding description (<encodingDesc>) che specifica i metodi e i principi della trascrizione elettronica del file; il profile description(<profileDesc>) con gli aspetti non bibliografici del documento, come la lingua, o le lingue presenti nel testo; il revision description (<revisionDesc>) con cui si possono evidenziare le parti del testo oggetto di revisione in seguito alla sua pubblicazione. L’unica componente obbligatoria, però, è la prima, il file description. Al suo interno si trovano diversi elementi, di cui sono tre quelli obbligatori: title statement (<titleStmt>); publication statement (<publicationStmt>); source description (<sourceDesc>). 

La flessibilità del sistema di codifica è uno degli aspetti più notevoli del progetto TEI. Ogni utente ha la possibilità di modificare, eliminare o aggiungere elementi all’interno di tutte le sezioni che costituiscono il programma.

Terminato il <teiHeader> si procede alla trascrizione del testo (<text>). Questo elemento è anch’esso suddiviso in tre sottogruppi (<front>, <body>, <back>), ma si può scegliere di utilizzarne solamente uno, in genere <body>, che racchiude l’intero contenuto testuale. Al suo interno si trovano una serie di suddivisioni, in volumi, sezioni o capitoli, in relazione alle parti del testo preso in esame. Le ripartizioni del testo sono “etichettate” con l’elemento <div>, seguito da un attributo (volume, libro, capitolo, scena, atto, ecc…; l’attributo è inserito all’interno delle virgolette alte nel linguaggio XML) che non è prestabilito dallo standard TEI, ma deciso dall’encoder, cioè dal curatore della versione digitalizzata del documento. La duttilità del sistema TEI, quindi, permette di digitalizzare ogni tipo di testo.

Questa piccola introduzione sul funzionamento del sistema di codifica TEI può lasciare molti punti interrogativi sulla questione. Per questo si rimanda al sito del consorzio TEI (nota 1) dove si può trovare la spiegazione integrale su tutte le funzionalità del software nella sezione Guidelines. Inoltre, per una panoramica sull’utilizzo del linguaggio XML in ambito umanistico si veda “XML per i beni culturali. Esperienze e prospettive per il trattamento di dati strutturati e semistrutturati” a cura di Sonia Maffei, Scuola Normale Superiore di Pisa, 2007.


[1] https://tei-c.org/

[2] Per un tutorial sull’uso di XML si veda https://www.w3schools.com/

[3] L. Burnard, What is the Text Encoding Initiative? How to add intelligent markup to digital resources, Marsiglia, OpenEdition Press, 2014

[4] La spiegazione integrale del funzionamento del sistema di codifica TEI (TEI Guidelines) si trova sul sito ufficiale del consorzio a questo link: https://tei-c.org/release/doc/tei-p5-doc/en/html/index.html; oppure in una versione semplificata nel testo What is the Text Encoding Initiative? How to add intelligent markup to digital resources.

You may also like