Manipolare grandi quantità di testo usando GATE

Posted on 2 dicembre 2010

1


Hampton Gate, fotografia di Alan Blaustein

Scoprire il modello che sta dietro una lingua analizzandone le regole oppure studiando grandi quantità di testo scritti in quella lingua si dice Natural Language Processing.
Estrarre informazioni qualitative da grandi quantità di testo si dice Textual Analysis.

Il primo ambito mira a scoprire una cosa ben precisa: come funziona la lingua. E’ il meccanico che studia un motore per capire il modo in cui il carburante viene trasformato in movimento, così da poter poi costruire altri motori che funzionino con altri carburanti e producano altri movimenti.

Il secondo ambito si rivolge soprattutto ad un testo e mira a scoprirne cose di volta in volta differenti: l’argomento, un riassunto passabile, talvolta il significato. E’ il meccanico che studia un motore per capire come funziona l’albero a camme, il pistone, la valvola, per poi indicare, in un altro motore, dove queste parti siano, come si muovano, cosa facciano.

In entrambi i casi si utilizzano software molto complessi, spesso basati su algoritmi statistici oppure presi in prestito dall’Intelligenza Artificiale, che non sono sempre alla portata di tutti.

Il software Gate, invece, è una suite open source che può essere impiegata per quasi tutti i progetti di manipolazione testuale che vi dovessero venire in mente: http://gate.ac.uk/
Un manuale (in inglese) sulla versione 5 è disponibile qui per il download (formato PDF – 6,6 MB).

Potrete prendere tutti i documenti della vostra azienda ed estrarne considerazioni statistiche sulle parole (o addirittura sul linguaggio); potrete analizzare i testi di una bibliografia per ottenerne una classificazione basata sugli argomenti; potrete fare numerose analisi su qualsiasi testo vi venisse in mente.
Fatemi sapere se lo usate, come, e con quali risultati. Lo stesso farò io.

Buon lavoro.

Annunci