Wordle.net: come realizzare tag cloud e lessici di frequenza [Updated]

Posted on 26 gennaio 2009

3


Un lessico di frequenza è un elenco di tutti quei termini che ricorrono in un determinato testo (o contesto), corredato dell’indicazione di quante volte ogni singolo termine appare.
E’ possibile ad esempio contare le occorrenze di parole e nomi propri nell’ambito di una lingua (“le parole più utilizzate in italiano”), di un genere letterario (“le parole più spesso (o meno spesso) ricorrenti nei romanzi gialli”), di un genere comunicativo (l’italiano scritto, l’italiano radiofonico, l’italiano su MTV…) o di qualsiasi altro contesto vi venga in mente.

Papé Satàn, papé Satàn aleppe...

Parole più spesso utilizzate da Dante nel canto VII dell'Inferno: Papé Satàn, papé Satàn aleppe... Qui sono state escluse le parole funzionali: congiunzioni, articoli, preposizioni...

Cosa ce ne facciamo, poi, di un elenco del genere?
Di un elenco, poco (tutto quello che c’era da fare l’ha già ottenuto Tullio De Mauro): da più elenchi, invece, potremmo cominciare ad ottenere informazioni per differenza.

Prendete tutte le parole utilizzate in tutti i libri editi in italiano nel ‘900 (lo so che è pressoché impossibile: voi bambini a casa non fatelo. Serve solo come esercizio mentale). Poi prendete tutte le parole utilizzate nei libri di un solo autore del ‘900. A questo punto potreste cominciare a riconoscere (anche in automatico) quelle parole che il vostro autore utilizza con una frequenza maggiore rispetto al modello di riferimento (l’italiano scritto del ‘900).

Se scegliete bene modello e soggetto, e se vi affidate ad un numero di parole statisticamente rilevante, sarete in grado di estrarre (automaticamente, lo ricordo) le parole più spesso rappresentati negli scritti del vostro autore. Non è ancora un elenco di argomenti e temi, ma vi ci stiamo avvicinando.

Le parole più spesso rappresentate nel mio blog, comprese le cosidette stopwords.

Le parole più spesso rappresentate nel mio blog, comprese le cosidette stopwords.

Se guardiamo ad esempio alle parole più spesso ricorrenti in una pagina di questo blog, considerando anche quelle più comuni, notiamo che le parole più diffuse sono le solite particelle, preposizioni, congiunzioni e simili: “di, che, un, il…“.
Subito dopo questa ventina di parole “funzionali”, però, saltano fuori “etimologia” e “dizionario“, ad esempio… Poi vengono “parole” e “latino“, e anche l’aggettivo “magica” ha una buona posizione. Così a orecchio direi che queste parole sono sovra-rappresentate rispetto all’italiano comune, e dunque potrebbero adeguatamente descrivere il contenuto di questa pagina del blog. O quantomeno ne descrivono il lessico.

Ecco che i lessici di frequenza cominciano ad avere il loro perché.

Le immagini che vedete sono state ottenute con wordle.net, servizio online che utilizza Java per raffigurare graficamente le parole più spesso ricorrenti in un testo:

Una tag cloud alternativa per sicapisce...

Una tag cloud alternativa per sicapisce...

Non so se vi potrà mai essere utile, ma nel caso doveste aver bisogno di giocare un poco con l’analisi del testo, questo giocattolo potrebbe portare una ventata di colore nel vostro progetto… :)

AGGIORNAMENTO [gennaio 2011]:
Alcuni lessici di frequenza che potrebbero interessarvi sono

ALTRO AGGIORNAMENTO [maggio 2011]:
Uno strumento che permette di disegnare word cloud e di dare loro forme e sagome è http://www.tagxedo.com/
Altri siti simili a Wordle sono elencati alla pagina http://www.moreofit.com/similar-to/www.wordle.net/Top_10_Sites_Like_Wordle/