La distinzione tra testo digitale e testo digitalizzato. Intervista a D. Fusi

alt="La distinzione tra testo digitale e testo digitalizzato secondo Daniele Fusi"

Questa è la seconda parte dell’intervista al filologo Daniele Fusi sulla piattaforma Transkribus e le frontiere dell’analisi elettronica dei testi. Nella prima, il dottor Fusi ci aveva parlato della sua esperienza di filologo digitale e di alcuni programmi utilizzati nel suo ambito di ricerca.

Dottor Fusi, nella prima parte di questa intervista lei ha parlato di una distinzione fra il testo digitalizzato e quello digitale. Può spiegarcela più nel dettaglio?

Partendo proprio dalla distinzione fra digitalizzato e digitale, digitalizzare significa sostanzialmente trasferire dati su un medium diverso. Anche un’immagine fotografica di una pagina di un manoscritto è un testo digitale; ma il suo livello di strutturazione è minimo, dato che dal punto di vista della macchina non è che un mosaico di punti. Il cammino verso un testo (o qualsiasi altra risorsa) digitale conduce a un sempre maggior livello di strutturazione dei dati, che di pari passo si coniuga a una loro sempre maggiore vocazione all’interconnessione.

Quando si disponga di un supporto originale, il primo passo è in effetti quello di trascrivere il testo come tale, ovvero una sequenza di codici numerici rappresentanti non più i punti di un’immagine ma una sequenza di caratteri. La distanza fra queste due rappresentazioni digitali del testo è grande; e qui appunto trovano applicazione veri e propri framework come Transkribus, che rendono possibile diminuire drasticamente i costi per ridurla. Un’altra tecnologia complementare è in questo ambito IIIF, la cui applicazione si estende oltre il semplice testo in quanto mirata alla annotazione di qualsiasi tipo di immagine, ma che data la sua crescente popolarità si pone di fatto anche in ambito filologico come uno strumento assai efficace per visualizzare in modo sincrono sia il testo trascritto che l’immagine del suo originale supporto, assieme a tutta l’informazione paratestuale e l’apparato grafico ritenuti rilevanti.

Più cresce il livello di strutturazione dei dati, più aumenta la necessità di definire dei modelli capaci di dare un’adeguata e necessariamente ridotta rappresentazione della loro complessità: non trattiamo la realtà, ma una sua rappresentazione digitale, necessariamente semplificata, un po’ come il demiurgo platonico rispetto all’iperuranio. Già solo l’atto della trascrizione implica un’operazione di interpretazione spesso tutt’altro che ovvia (si pensi a problemi di lettura come scioglimento di abbreviazioni ambigue o non chiare, lacune o altro deterioramento dello scritto, etc.) e normalizzazione (quella ortografica è la più evidente); si pensi poi alle problematiche relative alla costituzione di un testo critico, laddove la stessa nozione di testo è un’astrazione.

Il percorso verso un’“edizione” digitale del testo si è in effetti snodato in questi decenni attraverso una serie di tecnologie e di visioni che riflettono anche la stessa evoluzione dell’informatica. Quando mi è necessario evidenziare questo percorso a un pubblico di non specialisti ricorro spesso all’esempio di strumenti come un moderno dizionario; un testo molto familiare nell’esperienza collettiva, e assai meno problematico in quanto scevro dai problemi della ricostruzione storica. In modo molto semplicistico, se consideriamo come questo strumento si sia evoluto a partire dal volume cartaceo fino alle sue innumerevoli incarnazioni digitali di oggi, possiamo individuare una serie di livelli di strutturazione digitale tramite l’esemplificazione delle diverse tecnologie che hanno scandito la sua storia recente.

Il livello zero è qui il volume cartaceo. La sua più ovvia prima digitalizzazione è rappresentata dalle immagini fotografiche delle sue pagine. Questo, che possiamo considerare il livello 1, consente già di ampliare il suo potenziale pubblico di lettori mettendo tali immagini a loro disposizione su internet, e assicurare la longevità del dizionario anche oltre la durata del suo supporto fisico. Però la sua utilità in termini digitali è limitata; anche solo trovare un lemma richiede una procedura di accesso parallela a quella cartacea: là apriamo il volume in un punto casuale, e iniziamo a scorrere le pagine, affidandoci ai titoli correnti, fino a individuare prima la pagina, e al suo interno poi il lemma. In ambito digitale questo procedimento è persino più laborioso, sia per la latenza connessa al recupero delle diverse immagini via rete, sia per la maggior difficoltà a visualizzare un’intera pagina in uno schermo di dimensioni limitate.

Salendo un altro gradino di questa ideale scala, possiamo realizzare una trascrizione digitale del testo contenuto nelle sue immagini. È questa oggi un’operazione comune per qualsiasi programma OCR, o per ben più complessi sistemi HTR come Transkribus. Nel caso di un moderno dizionario a stampa, un OCR tipicamente produce un documento di testo con formattazione (rich text). Se immaginiamo questo documento in formato RTF, abbiamo qui un testo tipograficamente marcato; ovvero un testo dove alcuni caratteri sono riservati a rappresentare dati metatestuali, in tal caso relativi alla formattazione.

In questo livello 2 la maggior strutturazione del dato testuale rende possibile almeno delle ricerche a tutto testo; potremo quindi cercare un lemma, trovando però indistintamente tutte le occorrenze del testo digitato. Magari il lemma si trova tipograficamente evidenziato, ad esempio in grassetto; ma dato che il grassetto è solo un’informazione tipografica applicata anche a molti altri ruoli semantici, ad esempio i traducenti, continueremo a trovare falsi positivi.

In un testo del genere, il contenuto del documento, nel nostro caso l’informazione lessicale, è indissolubilmente fuso con la presentazione tipografica scelta dall’editore; laddove un requisito essenziale del digitale è la separazione dell’unico contenuto dalle sue innumerevoli presentazioni. La corrispondente marcatura tipografica risulta ora troppo poco, perché ambigua (ad es. grassetto sia per lemma che per traducente), ora troppo, perché ridondante (ad es. margine o interlinea che di norma non hanno alcuna rilevanza ai fini di determinare il ruolo semantico di una porzione di testo). Qualsiasi modifica alla veste grafica del documento implica una modifica anche del suo contenuto, sicché risulta difficile o impossibile adattare lo stesso dizionario a diversi media o pubblici.

È allora possibile salire un altro gradino, e accedere a un tipo di marcatura molto meno verboso e più astratto, che si occupi della struttura di un documento piuttosto che del suo aspetto. Ad esempio, invece di specificare tipo, colore e stile di carattere per il lemma si limita a definirlo come enfasi; starà poi alle singole presentazioni proporre una veste diversificata (magari in rosso per il web, e in grassetto per la stampa in B/N). Questo livello 3 può esser rappresentato da HTML, una marcatura strutturale, ideata per definire la struttura di un ipertesto, con marcatori come “titolo”, “paragrafo”, “enfasi”, etc.; ogni dettaglio relativo alla veste grafica appartiene a un’altra complementare tecnologia (CSS).

Certo questo costituisce un grande avanzamento; la marcatura è assai più snella, e la veste grafica adattabile. Eppure, anche qui la nostra ricerca di un lemma può incontrare le stesse difficoltà. I risultati includono comunque falsi positivi, perché se i lemmi sono in enfasi, qualsiasi testo uguale in enfasi viene incluso. Quanto servirebbe è una marcatura specificamente lessicografica, che dica cioè in modo esplicito cose come “lemma” o “traducente” piuttosto che cose come “titolo” o “enfasi”.

La soluzione si trova salendo un altro gradino di questa ideale scala, nella marcatura semantica di XML. XML è un “linguaggio” di marcatura che comprende innumerevoli “dialetti”, ognuno col proprio lessico e sintassi, specializzati per un dato compito. Nel caso della lessicografia, potremmo quindi disporre di marcatori specifici per ogni ruolo semantico. Questo livello 4 è quello del ben noto TEI, di fatto lo standard in ambito umanistico per rappresentare un qualsiasi documento di interesse storico, secondo una ricchissima marcatura semantica, ripartita in varie aree funzionali. TEI è uno standard estremamente efficace in quanto molto ampio, e capace di contenere tutte le informazioni connesse a un testo al suo interno, in un formato digitale che in fondo non è altro che testo, a garanzia della sua longevità e interoperabilità.

Naturalmente, come per ogni ambito di ricerca anche per il testo la disponibilità di nuovi strumenti rende possibile avanzare costruendo sulle fondamenta dei progressi acquisiti. Per restare nell’ambito del nostro esempio, l’evoluzione più recente in ambito lessicografico ha ormai acquisito l’integrazione con vantaggio reciproco di corpora e dizionari, e il concetto di database lessicografico, dove ogni parola entra in una complessa rete di relazioni con tutte le altre, ed è proprio questa rete a definire la sua natura. Piuttosto che una lunga lista alfabetica di voci che discutono di ogni parola, si deve immaginare un grafo costituito da innumerevoli nodi interconnessi a formare una enorme ragnatela di relazioni linguistiche, tale da determinare il campo semantico di ogni parola. Questa rete di relazioni linguistiche e concettuali trova perfetta espressione nelle ontologie del web semantico, con vocabolari come SKOS o Lemon, consentendo a diversi progetti di intrecciare le loro reti formando un tessuto comune sempre più ampio e da cui diviene possibile trarre nuova informazione.

Questo ideale livello 5 della nostra scala di esempi ci conduce molto lontano, dove lo stesso confine fra opere tradizionalmente distinte (dizionari monolingui e bilingui, dizionari di sinonimi e contrari, dizionari etimologici, dizionari specialistici, opere enciclopediche, corpora testuali, etc.) tende a sbiadire in una enorme tela di relazioni potenzialmente espandibile in modo infinito; si pensi ad esempio a database lessicografici come WordNet, BabelNet, etc. Si può dunque attingere a una vera rappresentazione dei dati, non più necessariamente costretti nella gabbia della loro originale presentazione.

Tornando ai testi di interesse storico, una grande possibilità di espansione è appunto rappresentata dalla loro integrazione di risorse concettuali di ogni sorta e specializzazione. Esistono oggi strumenti assai validi per iniziare a introdurre marcature semantiche di livello così astratto all’interno dei testi che presentano determinati concetti. Da semplici microformati in tradizionali pagine HTML a identificativi semantici calati nella marcatura XML, diviene possibile connettere il testo a una selezione di concetti che fa parte di questo globale patrimonio condiviso in continua espansione, grazie a quel “network effect” che ha già sancito il successo del web tradizionale. È quanto ad esempio già mi sembra sia portato avanti dal progetto Gramsci digitale, dove si fa ampio ricorso ad annotazioni semantiche automatiche e manuali, per costruire una fitta rete di concetti filosofici, storici, letterari, politici, etc. nella loro connessione a quel testo specifico, ma anche in rapporto a tutti gli altri concetti rappresentati nella grande cloud dei Linked Open Data. Il testo qui diviene quindi parte di un sistema federato di relazioni molto più ampio, e per conseguenza anche l’oggetto di ricerche non più solo formali, ma anche concettuali, o una combinazione delle due.

In una simile prospettiva, testi digitali altamente strutturati tendono a entrare in un sistema di relazioni assai più ampio, coniugando corpora e specifici domini concettuali. I modelli di questi ultimi, resi indipendenti da troppo stretti vincoli mentali e tecnologici, possono essere liberi di espandersi e formarsi “iuxta propria principia”, e a loro volta rapportati a un’ancora più estesa rete di ontologie globalmente condivisa. Appunto questa prospettiva è a mio parere una delle frontiere più feconde delle edizioni digitali, che in modo apparentemente paradossale esaltano ancor più il testo proprio uscendo dai suoi confini. Questo risulta peraltro utile specie laddove i contenuti siano intrinsecamente complessi, o il frutto di analisi sistematiche su di essi (ad esempio morfologiche o sintattiche) li arricchisca a tal punto di informazione da rendere impraticabile contenerla in tutta la sua complessità all’interno dell’unica struttura costituita dalla marcatura, che può qui costituire un limite.

Possiamo quindi immaginare un’edizione testuale non più nei termini della semplice presentazione del suo testo, ma come un articolato contenitore, dove dati testuali, metatestuali e non testuali godono tutti della stessa cittadinanza, ed entrano a pieno titolo in una potenzialmente infinita rete di relazioni. Si tratta di una prospettiva che spostando l’attenzione dalla presentazione alla rappresentazione dei dati, che costituisce una delle radici del web semantico, può peraltro condurre a superare molte delle difficoltà pratiche e teoriche oggi spesso incontrate affrontando complesse marcature a base TEI, e di cui sarebbe lungo trattare.

Una volta comunque che si abbraccino e integrino le diverse tecnologie e visioni cui ho fatto cenno in questo breve e assai parziale esempio, diviene anche più semplice integrare nel testo modelli e informazioni che semplicemente non potrebbero trovar posto nel semplice alveo del puro testo marcato, e provare anche a ridurre la distanza che oggi separa approcci come close e distant reading. Allo stesso modo in cui in un’immagine annotata in IIIF si può zoomare dalla visione d’insieme al più minuto dettaglio all’interno di una stessa rete di dati, può divenire possibile per un testo passare da visioni d’insieme prodotte da aggregazioni ed elaborazioni statistiche su enormi corpora ai singoli passaggi in testi di nostro interesse, effettuando ricerche che liberamente coniughino pattern di vario tipo (grafici, fonetici, sintattici, semantici…) ai più tradizionali parametri formali connessi alla ricerca all’interno di un testo specifico. Se è tutt’altro che facile riuscire a creare strumenti capaci insieme di grandi visioni di insieme e analisi altamente specializzate di singoli passi, unendo piccone e cesello, può intanto però essere possibile iniziare a connettere i dati in una rete assai più ampia di quella in cui finora la semplice marcatura può averli relegati.

Continua…

La distinzione tra testo digitale e testo digitalizzato. Intervista a Daniele Fusi

Lascia un commento Annulla risposta