Questa è la terza ed ultima parte dell’intervista al filologo Daniele Fusi sulla piattaforma Transkribus e le frontiere dell’analisi elettronica dei testi. Nella prima, il dottor Fusi ci aveva parlato della sua esperienza di filologo digitale e di alcuni programmi utilizzati nel suo ambito di ricerca; nella seconda, ci ha spiegato la differenza tra testo digitale e testo digitalizzato.
Dottor Fusi, quali sono gli strumenti più utili che la piattaforma Transkribus offre per una ricerca testuale approfondita?
Transkribus rappresenta un grande framework davvero esemplare, che unisce l’uso di avanzate tecnologie a un grande ventaglio di modalità di pubblicazione delle loro funzionalità, uniti a una filosofia di “crowd-sourcing” dove contenuti (e in particolar modo i modelli) vengono arricchiti e rifiniti dagli utenti stessi, nell’ambito dei loro specifici progetti o semplicemente su base di contribuzione volontaria. Non ho tuttavia significative esperienze dirette nel suo uso, dato che di norma il mio campo operativo si colloca a valle del processo di trascrizione.
Nel caso del progetto Gramsci comunque, il primo passo, non poco impegnativo in termini di lavoro, è già stato fatto con la trascrizione automatica, sia pure necessariamente da correggere. Semmai, non va confusa la funzione di keyword spotting con un sistema indipendente e mirato di indicizzazione e ricerca del testo, che sarà necessario implementare in modo autonomo per il vostro progetto. Uno dei fini più immediati di tale funzione in Transkribus è il miglioramento del riconoscimento complessivo nella misura in cui diviene possibile avvalersi di una ricerca testuale direttamente dall’interno del sistema di trascrizione; in altri termini, accanto al riconoscimento viene effettuata una prima essenziale indicizzazione delle “parole”, che consente di effettuare ricerche a base testuale. Dato che a quello stadio non sempre si può essere certi del riconoscimento del testo, risulta necessario prevedere una ricerca a maglie larghe, per cui è ottimale la scelta di espressioni regolari, e la definizione di una soglia di confidenza da aumentare o diminuire a seconda del numero di risultati ottenuti. In tal modo possiamo ad esempio cercare tutte le occorrenze di quanto è stato riconosciuto come una certa “parola”, che magari vediamo mal riconosciuta in determinati casi, esaminarli, e se possibile applicare una correzione sistematica a tutte le istanze ricondotte a quella parola, riducendo così in modo drastico i tempi di correzione manuale.
Data la natura del problema trattato, certo si tratta di un tipo di ricerca più potente di una semplice ricerca “letterale” (o al più con qualche wildcard) full text; ma di qualcosa pensato per operare all’interno del processo di trascrizione, piuttosto che per sostituire sistemi di indicizzazione e ricerca da collocare a valle del processo di trascrizione, in una edizione digitale autonoma. La vostra edizione deve peraltro offrire non solo i tipici modi di ricerca testuale ormai vulgati (ricerca letterale, operatori, wildcard, espressioni regolari, fuzzy matching, etc.), ma anche collegarvi una serie di importanti metadati relativi magari a tutti gli aspetti semantici che andate estrapolando dal testo.
Questo essenzialmente è funzione della natura aperta di simili edizioni, la cui utilità è moltiplicata proprio dal numero e dalle diverse tipologie dei propri utenti: ad esempio, un linguista potrebbe essere interessato a ricerche mirate a studiare la morfologia o la semantica di determinate parole, mentre un filosofo o uno storico potrebbe piuttosto voler partire da dei concetti senza neppure una loro specifica espressione linguistica, ed esser condotto da essi a tutti i passi rilevanti, come già accade ad esempio nella faceted search del sito. In alcuni casi potrebbe anche essere utile coniugare le due ricerche, cercando tutte le parole connesse a un certo concetto, o viceversa. Una delle caratteristiche più interessanti delle edizioni digitali sta nella loro natura aperta, tale da costituire uno strumento utilizzabile per ricerche neppure immaginate a priori dal loro creatore; in questo senso, esse rappresentano un punto di partenza, piuttosto che di arrivo, proprio in virtù del flusso eracliteo in cui per la loro natura digitale si collocano.