Textométrie


Soumis par Antonin Guilloux le jeu 01/12/2016 – 15:34

Nous présentons ici les résultats d’une analyse textométrique des Oeuvres Complètes de Mussolini, réalisée en collaboration avec Stéphanie Lanfranchi et Elise Varcin du laboratoire Triangle, à l’ENS Lyon.Un premier aperçu des résultats de l'analyse statistique

Sources et enjeux de cette étude

Les Oeuvres Complètes de Mussolini, éditées par D. et E. Susmel forment un corpus d’un quarantaine de volume rassemblant des textes publics (articles, discours, romans…) et des communications privées (lettres, télégrammes…). Nous nous sommes concentrés dans cette étude sur les communications publiques, qui réunissent environ 6000 textes.

Le but de cet étude est de construire une vision globale de ce corpus, qui par sa taille échappe à une étude purement philologique. Pour cela nous avons utilisé des techniques de fouilles de données, type text mining, qui relèvent des Big Data. L’idée de base est que la quantité de textes permet d’utiliser la puissance de ces outils.

Le résultat de cette étude est la définition de 120 sous-thèmes qui permettent une vision globale des Oeuvres Complètes. Chacun de ces thèmes a une importance, qui varie au cours des quarantes années couvertes par le corpus. Pour une plus grande lisibilité, ces thèmes ont été d’abord regroupés en thèmes plus généraux, puis en 8 super-thèmes. La figure ci-dessus donne une vision de l’évolution de l’importance de ces 8 super-thèmes.

Nous décrivons sur ce site le type d’analyse que nous avons réalisée, ce qu’est un thème. Nous exposons les résultats bruts de cette analyse en présentant tous les thèmes et leur évolution chronologique.



© IMJ-PRG