Corpus DiVo

CNR-Opera del Vocabolario Italiano

1 febbraio 2016

 

Il Corpus DiVo è parte del progetto di ricerca DiVo – Dizionario dei Volgarizzamenti diretto da Elisa Guadagnini e Giulio Vaccaro, ospitato dall’Istituto Opera del Vocabolario Italiano (CNR) e dalla Scuola Normale Superiore di Pisa, finanziato dal MIUR all'interno del programma FIRB – Futuro in Ricerca 2010.

Il Corpus DiVo, interrogabile con GattoWeb, è curato da Cosimo Burgassi, Diego Dotto, Elisa Guadagnini e Giulio Vaccaro. Comprende attualmente 168 testi volgari, per complessive 6.375.803 occorrenze di 177.374 forme grafiche distinte. Sono presenti 88 testi latini associati.

Sono presenti nel corpus due distinti specimina di lemmatizzazione e iperlemmatizzazione, entrambi a cura di Diego Dotto: il primo, fondato su un sottocorpus, segue i criteri descritti in D. Dotto, Note per la lemmatizzazione del corpus DiVo, in «Bollettino dell'Opera del Vocabolario Italiano», XVII (2012), pp. 336-364; il secondo, fondato sull'intero corpus, seleziona alcuni lemmi significativi con riferimento agli iperlemmi «Cariche e uffici» e «Vestiario» (per questi lemmi un sistema di etichettatura isola le dittologie sinonimiche, marcate «] Ditt.», e gli esempi con valore di glossa, marcati «] Gl»). Per la consultazione, occorre accedere alla «Ricerca di contesti per iperlemmi», in cui si potranno interrogare i 13 iperlemmi individuati che mettono in relazione i lemmi per area semantica, o alla «Ricerca di contesti per disambiguatori», dove ricercando le stringhe «] Ditt.» e «] Gl» si potranno recuperare tutti i contesti che presentano la suddetta marcatura. Sono presenti 2.427 lemmi, per un totale di 51.273 occorrenze lemmatizzate.

Attivando la funzione "lemmi muti" nella "ricerca per lemmi" è possibile interrogare il corpus partendo dal dizionario di macchina del Corpus TLIO: lanciata la ricerca, gli elementi trovati vengono mostrati in rosso con numero di occorrenze 0. A questo punto, le coppie forma-lemma di interesse devono essere selezionate e spostate in "accumulatore" (cliccando "Copia in accumulatore"): per visualizzare i contesti è necessario spuntare l'opzione "non lemmatizzati" nel riquadro "Tipo di contesti", poi selezionare le coppie forma-lemma desiderate e cliccare "Mostra contesti" o "Mostra lista testi". NOTA BENE: Il programma cerca le occorrenze delle forme associate al lemma; i risultati possono contenere perciò anche occorrenze di forme omografe riconducibili a lemmi diversi da quello/i cercato/i.

Si ringraziano per la cortese disponibilità: Matteo Antonelli, Luca Barbieri, David P. Bénéteau, Emiliano Bertin, Simona Brambilla, Alessandra Favero, Sara Gobbini, Vanna Lippi Bigazzi, Giuseppe Porta, ENAV (Edizione Nazionale degli Antichi Volgarizzamenti dei testi latini nei volgari italiani) e SISMEL – Edizioni del Galluzzo.

Il corpus è reso disponibile in rete per le ricerche linguistiche e consente di scaricare brevi citazioni per uso di ricerca.

Lo scaricamento dei testi è vietato.

Avvertenze per la consultazione

istruzioni per la creazione di sottocorpora

Per facilitare la creazione di sottocorpora che riuniscano testi con caratteristiche omogenee, le schede bibliografiche associate ad ogni testo sono state compilate secondo particolari modalità (diverse rispetto agli altri corpora dell'OVI). Dalla pagina iniziale, selezionare nel menu in alto l'opzione "Altre funzioni" > "definizione di sottocorpora": all'interno della tabella che sarà visulizzata, nella colonna a sinistra:

-   il campo "indice di qualità" contiene un'indicazione relativa al rapporto con il testo latino di base: si utilizzano le sigle "LAT", "FR", "GR" o "IT" (per il cui significato vedi supra);

-   il campo "tipo" definisce il rapporto fra il testo volgare e il testo latino associato, siglando "O" i casi di “vera” traduzione (vale a dire, una resa puntuale e continua in volgare), "T" i casi in cui il testo volgare rielabora sensibilmente il testo originale (vale a dire i casi di compilazione, compendio o riscrittura profonda), "M" i casi di giustapposizione fra brani di traduzione e brani di commento;

nella colonna destra della tabella:

-   il campo "genere" dà un'indicazione di massima relativa all’argomento del testo, per consentire l’accorpamento di testi presumibilmente omogenei dal punto di vista del lessico: sono siglati "agric." la trattatistica agricola; "amor." la trattatistica e precettistica amorosa; "chiose-gloss." le chiose e i glossari; "favol." la favolistica; "filos.-mor." la trattatistica e precettistica filosofico-morale (pagana); "milit." la trattatistica militare; "mitol." le opere di materia mitologica; "oraz." le orazioni; "relig." le opere di argomento religioso; "ret.-giur." la trattatistica retorico-giuridica; "romanzo" i romanzi antichi; "scient." la trattatistica scientifica; "stor." le opere di materia storica;

-   il campo "forma" contiene un'informazione relativa alla forma del testo latino associato: si usa la sigla "V" quando l'opera originale latina è in versi; la sigla "P" quando essa è in prosa; la sigla "P/v" quando essa è un prosimetro.

 

Per la comunicazione di osservazioni ed eventuali errori, saremo grati a chi vorrà inviare un messaggio di posta elettronica agli indirizzi burgassi@ovi.cnr.it, dotto@ovi.cnr.it, guadagnini@ovi.cnr.it o vaccaro@ovi.cnr.it.