L’articolo che mi appunto qui illustra un sistema di categorizzazione automatica di un testo che si basa sull’analisi della posizione delle parole dotate di carico semantico rispetto a termini particolarmente significativi (parole funzionali). Il contenuto non viene “interpretato” o “tradotto”, bensì “marcato”: non c’è alcun tentativo di dedurre la struttura della lingua analizzata mentre ci si focalizza esclusivamente sulla clusterizzazione delle parole in virtà delle loro co-occorrenze.
Si tratta di un modo per profilare in automatico una serie di parole così da attribuire informazione ad un testo. Quest’informazione potrà poi essere confrontata con l’informazione ottenuta da altri testi mediante algoritmi di prossimità, per esempio.
Automatic Acquisition of Word Classification Using Distribution Analysis of Content Words with Respect to Function Words, Andrew Roberts; Computer Science (2001/2002). Il documento è in inglese.
Automatic acquisition of word classification (PDF, 720 KB, 76 pagine).
Dall’introduzione:
This project describes a method which can automatically infer word classification. Previous systems designed to assign parts-of-speech to words sought the use of training data or were built upon rules devised by experts in linguistics. The report details the use of an unsupervised approach that can reduce significantly the reliance on prior linguistic intuition.
The study looks in to how words behave relative to the function words. As these are the most common words, there is a great deal of information that can be attained. It was possible to analyse how the content words from a given body of text were distributed with respect to the function words. This information could be used as a profile, and therefore content words with a similar profile against the function words could be assumed to be of similar word class.
Agglomerative hierarchical clustering techniques were applied to partition words into different clusters. Words that were deemed similar were grouped together, and thus, each cluster should contain words that posses the same part-of-speech.
This project performed many experiments to investigate how the many factors affected the overall clustering performance, in order to find the optimal parameters. The results report an accuracy of 87% when performed on the LOB corpus. Experiments were also carried out with an alternative Spanish corpus and the clustering accuracy achieved 85%. Semantic clustering was also observed indicating the effectiveness of the described approach for the task of automatically acquiring word classification.
L’autore ha scritto, tra l’altro, anche un articolo assieme ad Eric Atwell dal titolo Unsupervised grammar inference systems for natural language. Lo trovate alla pagina http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.13.4677
Un’ultima nota: questo tipo di analisi affianca ed estende quanto ho già cominciato ad illustrare nel post “Estrarre in automatico gli argomenti di un testo“. Entrambi i post hanno a che fare con l’analisi statistica e quantitativa del testo, quindi tra breve pubblicherò qualcosa sull’argomento nel suo complesso.