Al mio PC piacciono gli Harmony. E al tuo?

Posted on 16 novembre 2009

0


Ovvero come insegnare ad un computer a leggere opere di narrativa. E a farci dire a quale genere letterario appartiene. I’m sorry, Dave. I’m afraid I can’t read this: it’s another boring Gothic Novel.

Parto dall’articolo “Style versus expression in literary narratives” di Ozlem Uzuner e Boris Katz. Lo potete trovare in CiteSeer, la Scientific Literature Digital Library.

Qui vengono date due definizioni:

Stile: le scelte linguistiche che un autore fa lungo tutta la sua opera, indipendentemente dal contenuto.
Espressione: le scelte linguistiche che un autore fa per veicolare un particolare contenuto (nello specifico, per una particolare opera).

Stile ed espressione si differenziano quindi da un punto di vista qualitativo (uno fa riferimento al contesto, l’altro no), ma loro propongono un esperimento interessante: per identificare lo stile analizzano le diverse traduzioni fatte di una stessa opera. In questo modo si concentrano sullo stile (indipendente dal contenuto) dei traduttori, confidando nel fatto che le differenze di contenuto siano nulle o poco più (ogni traduttore lavora sulla stessa opera).

In questo modo la loro ricerca evidenzia come sia possibile riconoscere lo stile mediante l’identificazione di parole funzionali e l’espressione mediante l’analisi della sintassi.

Per fare questo tipo di analisi, quindi, non è necessario identificare parole specifiche, prese dal contesto. Non importa sapere se l’autore ha usato o meno la parola “pianeta”, perché il suo stile e la sua forma espressiva non dipendono dal contesto di cui sta parlando.

Quando si pensa al genere letterario, invece, si presume che “pianeta” aiuti, eccome: fa subito venire in mente la fantascienza, i viaggi nello spazio. Com’è possibile immaginare il genere gotico senza almeno un castello, o il romanzo rosa senza un fremito al cuore?

Eppure pare che i più recenti tentativi di determinare/attribuire in automatico i generi letterari di un testo possano funzionare anche senza cercare parole note a priori, ovvero senza crearsi un elenco di tutte quelle parole specifiche che la macchina deve individuare, contare e dunque valutare per decidere di che genere sia l’opera in analisi.

Secondo l’articolo “Machine-Classifying Novels and Plays by Genre” (https://www.stanford.edu/~mjockers/cgi-bin/drupal/node/27) il gotico, la fantascienza e il romanzo rosa (e tutti gli altri generi letterari, ovviamente) sono riconoscibili

  • per il loro uso della punteggiatura,
  • per la costruzione delle frasi tramite congiunzioni e subordinate,
  • per l’utilizzo di aggettivi pronominali (interrogativi, numerali, indefiniti, possessivi…)
  • per l’utilizzo dei pronomi personali.

Elencando insieme punteggiatura, congiunzioni, subordinate, interrogativi, numerali eccetera di un’opera siamo in grado di fare calcoli statistici su quanto spesso (e in che posizione) questi elementi ricorrono, così da associare tra di loro opere di narrativa (che la macchina ci restituisce raggruppate in insiemi). E questi insiemi corrispondono a quelli che noi intendiamo essere generi letterari.

Strumenti che si possono utilizzare per analizzare la narrativa:
Docuscope: http://betterwriting.net/projects/fed01/dsc_fed01.html
R: http://www.r-project.org/
Eseguire R in PHP: https://www.stanford.edu/~mjockers/cgi-bin/drupal/node/25