Un lessico di frequenza è un elenco di tutti quei termini che ricorrono in un determinato testo (o contesto), corredato dell’indicazione di quante volte ogni singolo termine appare.
E’ possibile ad esempio contare le occorrenze di parole e nomi propri nell’ambito di una lingua (“le parole più utilizzate in italiano”), di un genere letterario (“le parole più spesso (o meno spesso) ricorrenti nei romanzi gialli”), di un genere comunicativo (l’italiano scritto, l’italiano radiofonico, l’italiano su MTV…) o di qualsiasi altro contesto vi venga in mente.
Cosa ce ne facciamo, poi, di un elenco del genere?
Di un elenco, poco (tutto quello che c’era da fare l’ha già ottenuto Tullio De Mauro): da più elenchi, invece, potremmo cominciare ad ottenere informazioni per differenza.
Prendete tutte le parole utilizzate in tutti i libri editi in italiano nel ‘900 (lo so che è pressoché impossibile: voi bambini a casa non fatelo. Serve solo come esercizio mentale). Poi prendete tutte le parole utilizzate nei libri di un solo autore del ‘900. A questo punto potreste cominciare a riconoscere (anche in automatico) quelle parole che il vostro autore utilizza con una frequenza maggiore rispetto al modello di riferimento (l’italiano scritto del ‘900).
Se scegliete bene modello e soggetto, e se vi affidate ad un numero di parole statisticamente rilevante, sarete in grado di estrarre (automaticamente, lo ricordo) le parole più spesso rappresentati negli scritti del vostro autore. Non è ancora un elenco di argomenti e temi, ma vi ci stiamo avvicinando.
Se guardiamo ad esempio alle parole più spesso ricorrenti in una pagina di questo blog, considerando anche quelle più comuni, notiamo che le parole più diffuse sono le solite particelle, preposizioni, congiunzioni e simili: “di, che, un, il…“.
Subito dopo questa ventina di parole “funzionali”, però, saltano fuori “etimologia” e “dizionario“, ad esempio… Poi vengono “parole” e “latino“, e anche l’aggettivo “magica” ha una buona posizione. Così a orecchio direi che queste parole sono sovra-rappresentate rispetto all’italiano comune, e dunque potrebbero adeguatamente descrivere il contenuto di questa pagina del blog. O quantomeno ne descrivono il lessico.
Ecco che i lessici di frequenza cominciano ad avere il loro perché.
Le immagini che vedete sono state ottenute con wordle.net, servizio online che utilizza Java per raffigurare graficamente le parole più spesso ricorrenti in un testo:
Non so se vi potrà mai essere utile, ma nel caso doveste aver bisogno di giocare un poco con l’analisi del testo, questo giocattolo potrebbe portare una ventata di colore nel vostro progetto… :)
AGGIORNAMENTO [gennaio 2011]:
Alcuni lessici di frequenza che potrebbero interessarvi sono
- il “lessico di frequenza dell’italiano parlato” (Tullio De Mauro; http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php),
- il “lessico di frequenza dell’italiano scritto” (disponibile per il download; http://www.istc.cnr.it/material/database/colfis/)
- e il “lessico di frequenza dell’italiano radiofonico” (Accademia della Crusca; http://www.accademiadellacrusca.it/progetti/progetto_singolo.php?id=2570&ctg_id=27).
ALTRO AGGIORNAMENTO [maggio 2011]:
Uno strumento che permette di disegnare word cloud e di dare loro forme e sagome è http://www.tagxedo.com/
Altri siti simili a Wordle sono elencati alla pagina http://www.moreofit.com/similar-to/www.wordle.net/Top_10_Sites_Like_Wordle/
aprile 8th, 2009 → 6:05 am
[…] La frequenza con cui ricorrono le singole parole: si chiama “lessico di frequenza”, ed è l’elenco delle parole più spesso utilizzate in un testo, in un certo insieme di testi, in una forma espressiva (linguaggio scritto o parlato, poesia, prosa, dramma…) o addirittura in una lingua. Conoscendo il lessico di frequenza di tutti i casi che ho appena elencato sarebbe possibile trarre conclusioni sui testi analizzando le differenze tra le ricorrenze: quali sono le parole che Saramago utilizza più spesso a differenza degli autori portoghesi suoi contemporanei? E cosa lo differenzia da tutti gli altri premi Nobel, ad esempio? Un giocattolo online con cui rappresentare graficamente un lessico di frequenza è stato trattato nel mio post Wordle.net: come rendere un poco più vivaci i lessici di frequenza. […]
settembre 30th, 2010 → 6:12 am
[…] La mia segnalazione del sito Wordle.net: come rendere un poco più vivace un lessico di frequenza […]
febbraio 11th, 2014 → 2:15 PM
[…] Wordle.net: come realizzare tag cloud e lessici di frequenza: Il post con cui descrivevo come funziona Wordle.net, nel frattempo divenuto ben conosciuto (ed è probabile che già tutti sappiate tutto, di quello strumento). […]