<BookMark Up>

Prototipo di piattaforma online d'ausilio allo studio filologico
...

Il progetto

CASO DI STUDIO SUL VOLGARE FIORENTINO DEL CINQUECENTO

Opera di M. Bartolomeo Scappi, cuoco secreto di Papa Pio V (1570)

OBIETTIVI

  • Esplorare l’applicabilità di strumenti NLP moderni applicati al volgare fiorentino del Cinquecento
  • Evidenziare limiti e potenzialità dell’elaborazione automatica (strumenti OCR, processi automatici di tokenizzazione e lemmatizzazione)

SCELTA DELL'OPERA

  • Bartolomeo Scappi (1500 - 1577) fu cuoco personale di papi e cardinali
  • Enciclopedia culinaria
  • Manuale tecnico per la formazione dei cuochi di corte
  • L’opera si articola in sei libri
  • Libro I – Il ruolo del cuoco e le regole della cucina di corte
  • Libro II – Ricette a base di carne
  • Libro III – Piatti di pesce, uova e minestre
  • Libro IV – Distribuzione delle vivande in tavola
  • Libro V – Pasticceria
  • Libro VI – Preparazioni per infermi e convalescenti

GRAFIA E FONETICA

Affricate e sibilanti palatali davanti ad a, o, u

  • Affricata palatale sorda [tʃ] e [ttʃ] → (c)ci: braccia, comincio, faccia, rancio
  • Sibilante palatale sorda [ʃ] → ci: beneficio/i
  • Affricata palatale sonora [dʒ] e [ddʒ] → (g)gi: giorno, Giovanni, maggio, selvaggio, vantaggio
  • Sibilante palatale sonora [ʒ] → gi: adagio, ragione, stagione
  • Sibilante palatale di grado forte [ʃʃ] → sci: coscia, lascia, lascino, visciole

Affricate e sibilanti palatali davanti ad e

Affricata palatale sorda [tʃ] e [ttʃ] → (c)ce : eccettuando, luccetti, pasticcetti, un certo

  • Sibilante palatale sorda [ʃ] → ce: piacerà, compiacere, di certo
  • Affricata palatale sonora [dʒ] e [ddʒ] → (g)ge: friggere, friggerla, friggendo, soggetto, spingere, in gelo
  • Sibilante palatale sonora [ʒ] → ge: spargere, Genovese, gelo, gentil
  • Sibilante palatale [ʃʃ] → sce: conoscere, fascetto, lasceranno, pesce, scegliere

→ scie: fascietto, lascieranno, pescie

  • n palatale → gn: agnello, bisogno, disegno, legno, prugne
  • l palatale davanti ad a, o, u, e, i gli: foglio, meraviglia, migliori.
    Fa eccezione:
    sfoglati

Scempiamenti e geminazioni

  • p / pp → dopo / doppo
  • d / dd → nessun caso
  • v intervocalica scempia → improvista
  • l / ll → uso moderno. Fa eccezione la forma latineggiante tolerano
  • m / mm → uso moderno. . Il digramma ‹mm› è latineggiante in:
    accommoda, accommodare, accommoderanno, communi, commodo

Scrizioni latineggianti

  • L’h etimologica iniziale è sempre mantenuta nei latinismi e nei grecismi → hora, honore, hoggi, havere, huomo
  • Casi di h interna → gentilhuomini, gentilhuomo, ancho, anchora
  • Nelle voci del verbo avere, l’h iniziale è sempre mantenuta → habbia/iano/ino, havera/anno, haveria, havendo
  • Nessuna occorrenza del digramma ‹ct›
  • Nessuna occorrenza della grafia ‹pt› / <mpt>
  • Nessuna occorrenza della grafia ‹ps›
  • Nessuna occorrenza della grafia ‹mn›
  • Nessuna occorrenza della grafia ‹mn› <ns> + consonante
  • Nessuna occorrenza del digramma ‹bs>
  • Nessuna occorrenza del grafema <x>
  • Nessuna occorrenza del grafema <y>

Vocalismo

  • Pochissimi casi di dittongamento → esiti in -uolo: figliuolo, faggiuolo , ie: drieto , au: laudo

Consonantismo

  • Prevalgono le forme ‹-anza› (mescolanza, honoranza, somiglianza)

e ‹-enza› (prudenza, esperienza, pazienza, avvertenza, diligenza, obbedienza)
e sui rispettivi ‹-antia› (sostantia)
‹-entia› (sufficientia, esperentia, diligentia, reverentia, preferentia, licentia)

Fenomeni generali

  • Apocope → nessun esempio per le vocali postoniche finali dopo consonante liquida o nasale sorda

→ numerosi i casi di troncamento di e, i, o dopo r (esser, durar più di tre giorni, esser sodo)

  • Apocope vocalica → a (ai), da’ (dai), de’ (dei), ne’ (nei), su’ (sui)
  • Troncamento sillabico → gran (grande)
  • Metatesi → di r in drento, drieto

MORFOLOGIA

  • Apocope vocalica limitata → prevalentemente nelle preposizioni a’ (ai), da’ (dai), de’ (dei), ne’ (nei), su’ (sui)
  • Alternanza nei sosantivi dei suffissi –iere / -ierobicchiero, tagliero
  • I sostantivi e gli aggettivi in -io escono prevalentemente al plurale in -ij (amarij, varij, ordinarij)
  • L’articolo determinativo → il / el, i (o Ø) / gli /li (li coltelli, li coperchi, li vecchi)
  • Preposizioni articolate → della / de la (delia), dello / de lo, delle / de le, delli / de li, degli / de gli
  • Pronomi indefiniti → alcuno (non ha da essere bruciata in loco alcuno, che non ci resti grano alcuno)
  • Numerali → duo (duo mesi, duo coltelli), dui (dui rossi, dui capretti), due (due ordini, due palmi)
  • Suffisssi → -etta (foglietta), -etto (pochetto), -ette (cosette), -etti (animaletti)
    -ina (frittatina), -ino (
    accioiolino), -ine (herbicine), -ini (bocconcini)
    -ello (ginocchiello), -
    olo (figliuolo), -uccia (mentuccia), -uccio (canaluccio)
  • Largo uso del superlativo → pochissimo, illustrissimo, reverendissimo, bonissimo, perfettissimo

Strumenti

TreeTagger: è uno strumento automatizzato che arricchisce il testo con informazioni linguistiche fondamentali. Per ogni parola, identifica la Parte del Discorso (POS) e la Lemmatizzazione, riducendola alla sua forma base.

  • TreeTagger si basa su modelli statistici specifici per ogni lingua. La sua grande forza, e il motivo per cui è stato cruciale per il nostro lavoro, è la possibilità di personalizzazione: grazie all'integrazione di un lessico specifico, TreeTagger può essere "addestrato" a gestire le peculiarità di lingue antiche o dialetti, superando le limitazioni dei modelli standard.
  • Questa capacità di adattamento ci ha permesso di raggiungere performance importanti nei nostri esperimenti

1) OCR (Optical CharacterRecognition): è una tecnologia che permette di convertire immagini di testo, come quelle provenienti da scansioni di documenti o fotografie, in testo modificabile e ricercabile. In pratica, trasforma un'immagine di testo in un formato leggibile dal computer. 

2) Post-elaborazione OCR (Data Cleaning): rimozione del "rumore" di un testo, incoerenze e dati irrilevanti da un set di dati testuali.

  • Numero di pagine
  • Titoli
  • Capitoli
  • Parti in lingua diversa da quella analizzata
  • Script per togliere il trattino (-) degli a capo

3) Normalizzazione del testo e sostituzioni

  • replace ß with ss
  • replace ʃ with s, poi valutazione contestuale se s/f
  • replace v with u
  • replace u with v
  • replace õ with on
  • replace l with t (nella maggior parte delle volte)
  • replace b with h (nella maggior parte delle volte)

4) Applicazione di TreeTagger: utilizzo del parametro di italiano di Marco Baroni

(https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/)

5) Esportazione del risultato in un file di output esterno direttamente dal terminale. È importante notare la presenza di tag 'unknown': TreeTagger si distingue per non fare ipotesi su lemmi sconosciuti, etichettandoli esplicitamente come tali.

  • 6) Lista di frequenza degli unknown e relativa percentuale:

Sul testo di Scappi la percentuale degli unknown si classifica a 17.59%

  • 7) Creazione di un file .lex con l’annotazione manuale delle forme più frequenti

(https://gite.lirmm.fr/advanse/sentiment-analysis webpage//tree/master/resources_on_server/TreeTagger)

Il file .lex di TreeTagger è un lessico ausiliario che offre informazioni lessicali extra come la categoria grammaticale (POS tag) e il lemma delle parole. È cruciale perché riduce le parole "unknown": quando TreeTagger non riconosce un termine dal suo addestramento principale, cerca nel .lex. Se lo trova, gli assegna un tag e un lemma corretti, anziché etichettarlo come sconosciuto. Questo migliora significativamente l'accuratezza del riconoscimento.

8) Correzione manuale del file. lex con i relativi Tagset

  • NOUN noun
  • NPR propernoun
  • PRE preposition
  • PRO:demodemonstrativepronoun
  • PRO:indef indefinite pronoun
  • PRO:pers personal pronoun
  • VER:fin finite form of verb
  • VER:geru gerundive form of verb
  • VER:geru:cli gerundive form of verb with clitic
  • VER:infiinfinitival form of verb
  • VER:ppastpastparticiple of verb

QUALI ERRORI?

Correzione effettuata tramite la consultazione delle risorse in formato digitale del Tesoro della lingua Italiana delle Origini (TLIO) e del Grande Dizionario della Lingua Italiana (GDLI), accessibili online.

9) Scelta di un testo «test»: la decisione del testo di riferimento per i test è ricaduta su Il Principe di Niccolò Machiavelli, in virtù della sua significativa vicinanza cronologica al testo in esame. Il processo di riconoscimento ottico dei caratteri (OCR) de Il Principe viene trattato analogamente a quello impiegato per il testo dello Scappi, prevedendo pertanto una rigorosa fase di post-elaborazione e normalizzazione testuale.

IL PRINCIPE DI NICCOLÒ MACHIAVELLI AL MAGNIFICO LORENZO DI PIERO DE MEDICI, (edizione 1551)

Visualizza PDF Clicca qui

  • Niccolò Machiavelli (1469-1527)
  • Edizione 1551, Firenze
  • Breve trattato politico
  • Esamina i vari tipi di principato, le milizie proprie e mercenarie, la figura del principe e i comportamenti che questo deve adottare per il mantenimento dello stato.
  • Lingua: volgare fiorentino del ‘500

10) Applicazione di TreeTagger con lo stesso parametro utilizzato per lo Scappi e successiva lista di frequenza degli unknown: su Il Principe la percentuale degli unknown si classifica a 12.06%

11) Generazione di un nuovo parametro di TreeTagger per il volgare, S-PeachTreeTagger Volgare (S-PTV): viene creato un nuovo script che lancia TreeTagger-italian + l'opzione ".lex"

12) Il nuovo script viene lanciato su Il Principe, essendo definito come testo di test. Viene poi ricavata e confrontata la lista di frequenza degli unknown, notando come essa si sia ridotta drasticamente.

L’addestramento di TreeTagger sul modello del volgare conferma la possibilità di gestire le peculiarità delle lingue antiche.

Sfoglia il libro

Visualizza PDF Clicca qui

Confronta gli scatti