jeudi 14 mai 2015

Textométrie et approche qualitative


Une nouvelle contribution de Pierre Beaufils sur la textométrie. En attendant son séminaire du 16 Juin sur le même sujet...

Quand on a des textes, discours et enregistrements à analyser, on pense naturellement à appliquer de méthodes dites qualitatives d’analyse de contenu et codage, en se focalisant sur ce que veut dire le récit, le signifiant et donc le sens du discours.

Point de vue « de l’intérieur » ou du patient
Il me semble qu’on opère un point de vue « de l’intérieur » un peu comme si le discours était la fenêtre des pensées et émotions du locuteur. Et il sera en effet intéressant d’avoir une approche centrée sur la subjectivité, le vécu, les sentiments du locuteur ou du patient, s’il s’exprime au sujet de son vécu du point de vue de SA maladie, de SA souffrance.
La compréhension passera aussi par la subjectivité du receveur, l’empathie et les images qui se formeront, avec son expérience et sa perception du moment.

Point de vue « de l’extérieur » ou de l’expérimentateur
Mais il me semble qu’on peut avoir une autre approche que j’appellerai de « l’extérieur », et la textométrie nous y encourage :
En effet, en combinant de méthodes statistiques forcément quantitatives de comptage, fréquence, de spécificité, cooccurence etc… on opère un glissement pour analyser le discours de l’extérieur, un peu comme on analyse un substrat biologique :
Les mots sont par analogie une production biologique une « logorrhée », qui va avoir des attributs de qualité et quantitatifs de débit, nombre de mots, richesse, absence ou présence de mot ou de syntaxe, longueur de phrases….

L’acquisition et la perte du langage
On peut ainsi s’intéresser à l’apparition et la disparition du langage, avec ces deux approches : le vocabulaire, mais également la syntaxe, et la richesse des idées peuvent faire l’objet de classement, mais aussi de quantification :
Je pense à l’ étude « Nun study » (étude portant sur des religieuses américaines, qui ont accepté qu’après leur décès, soit réalisée des autopsies du cerveau, pour argumenter la survenue de maladie d’Alzheimer (exemple issu du livre du Dr Bernard Croisile « Alzheimer, que savoir ?, que craindre ?, qu’espérer ? »)
 « Agées entre 19 et 37 ans à leur entrée dans les ordres, ces religieuses ont toutes rédigé à ce moment un texte autobiographique dont l’analyse ultérieure a montré qu’une pauvreté d’idées exprimées prédisait rétrospectivement la survenue d’un Alzheimer : La faible performance rédactionnelle écrite était fortement corrélée à l’atrophie cérébrale et à la densité des dégénérescence fibrillaires observées lors de l’autopsie réalisée soixante ans plus tard. »
J’ajouterai que ces biographies ont également montré une corrélation inverse entre les émotions positives et le risque de décès en fin de vie. (Positive Emotions in Early Life and Longevity: Findings from the Nun Study)
Voici un extrait de deux biographies de charge émotionnelle différente :
The following sentences, from the beginning and ending of two autobiographies, demonstrate differences in emotional content:
 Sister 1 (low positive emotion): I was born on September 26, 1909, the eldest of seven children, five girls and two boys ... . My candidate year was spent in the Motherhouse, teaching Chemistry and Second Year Latin at Notre Dame Institute. With God's grace, I intend to do my best for our Order, for the spread of religion and for my personal sanctification.
 Sister 2 (high positive emotion): God started my life off well by bestowing upon me a grace of inestimable value... . The past year which I have spent as a candidate studying at Notre Dame College has been a very happy one. Now I look forward with eager joy to receiving the Holy Habit of Our Lady and to a life of union with Love Divine.

De là à considérer toute prise de parole ou prise de son comme une prise de sang, je suis bien conscient que la comparaison a des limites, ne serait-ce parce-que les variables à mesurer ne sont pas uniquement les 50 000 mots du vocabulaire, mais toutes les variétés de combinaisons de mots qui formeront les idées, les expressions des pensées et des sentiments, ce qui donne un champ de variables quasiment illimité.

Il semble plus accessible de s’intéresser à la construction (la syntaxe) des phrases d’une part  car les variables se restreignent à dénombrer des formes (part of speech) en quantité limitée, et à l’émergence du langage en début de vie d’autre party, mais est-ce vraiment plus aisé ?  à suivre…



dimanche 10 mai 2015

Séminaire Quali/Quanti de l'année 2013-2014

Percevoir et représenter les données (Pierre Beaufils, 17/11/2013) ici
Narrativité numérique (Bruno Falissard, 17/12/2013) ici
Recensement de l'invisible (Hervé Perdy, 28/01/2014) ici
Les bayesiens sont-ils des conteurs d'histoires ? (Bruno Falissard, 18/02/2014) iciLes états mentaux sont ils mesurables (Hervé Guyon, 18/03/2014) ici

vendredi 8 mai 2015

Cours sur les méthodes qualitatives

Ça y est ils sont disponibles sur le drive ici.
(ce sont les vidés numérotées de 1 à 9)
Merci à JS et à Massi !

jeudi 26 mars 2015

Une réaction de Pierre au séminaire de Bruno du 24/2

Textométrie, sentiment analysis  et subjectivité
La conférence de Bruno Falissard sur l’évaluation des médicaments https://www.youtube.com/watch?v=gaa2NAuerVY,  m'a donné à réfléchir sur plusieurs points :

Pour résumer son propos,
Notre approche de la santé, est profondément marquée par le dualisme corps/esprit de Descarte, et l'approche positiviste mécaniste du XIXème (Claude Bernard).
L'essai randomisé est la méthode "gold standard" d'évaluation des médicaments. Mais cette approche a des limites pour aborder la perception subjective du patient, les effets positifs et négatifs, les effets secondaires.

1. La nécessité d'évaluer les effets subjectifs :
Je vais enfoncer des portes ouvertes, mais bon :
Comment appréhender les effets subjectifs ( d'un médicament, d'une thérapie, d'un bon vin....) ?
Oublions un moment les données physiologiques, les IRMf...
Il nous reste les enquêtes. Celles-ci sont maintenant bien calibrées, avec des échelles de mesure, validées, des scores....
- elles sont orientées vers une ou plusieurs dimensions à rechercher, mais ne diront rien sur ce qu'on ne cherche pas (lapalissade), les effets non prévus
- elles sont relativement lourdes à mettre en place
- les questions fermées à choix limité ( Oui - non - nsp...) sont réductrices.

Y-a-t-il d'autres sources de connaissance de l'appréciation subjective (du patient) ?
Oui : le discours du patient : la richesse de la langue et du vocabulaire est le moyen le plus évident pour faire connaitre à l'autre ce qui est vécu en termes de sensations, perceptions, émotions, pensées, jugements
La connaissance et l'analyse du/ des témoignages des patients, demande du temps, et est elle-même très subjective
Les outils de textométrie sont à même d'aider à classer, hiérarchiser, différencier, ces textes regroupés en corpus
Comme je trouve que l'analogie avec l'œnologie peut être parlante, je vais par curiosité tenter de monter un petit corpus de commentaires œnologiques : (si je trouve)
En effet, c'est à travers ce langage (très codifié) que l'appréciateur tente de faire passer une expérience sensorielle, émotionnelle, sensitive du vin, donc complètement subjective.
Je trouve le parallèle intéressant.
Un autre parallèle pourrait se faire avec le corpus de commentaires compilés dans le raport Hite sur l'expérience sexuelle des hommes et des femmes :
Comment faire partager à l'autre et expliquer  un vécu complétement subjectif qu'est l'orgasme par exemple ?
Ce corpus existe : Shere Hite a compilé des milliers de témoignages écrits d'hommes et femmes de tous âges. Mais hélas je ne l'ai plus.
L'intérêt est uniquement de se familiariser avec les outils de textométrie et les méthodes d'analyse textométrique :
Il ne suffit pas d'avoir un sac de mots (corpus) et de secouer pour extraire uen vérité finale. Il faut construire une démarche, procéder par étapes, un processus herméneutique :
On peut par exemple s'intéresser à la fréquence ou absence de certains mots, et comparer par contrastes avec différentes segmentations du corpus;
on peut partitionner ainsi un corpus en fonction d'attributs (placés dans les métadonnées) tels que le temps (série temporelle, années, millésimes), l'espace (bourgogne et bordeaux), l'auteur, la source... et mettre en évidence des termes communs, des spécificités....

2. l'évaluation des effets positifs et négatifs :
Cela me fait profondément penser aux outils et méthodes plus souvent rencontrées dans le domaine du marketing, basés sur le sentiment analysis :
Ca me semble plus basique et simple à appréhender :
Les commentaires des clients et retours d'expériences sont analysés par les grandes sociétés telles que les compagnies d'aviation, les grandes marques alimentaires ou high-tech :
Des milliers de personnes expriment sur des blogs leurs expériences, ressentis, satisfactions ou mécontentements. Avec des mots, des onomatopées, des émoticônes.....
Ces mots sont classés, éventuellement corrigés ou lemmatisés. Un vocabulaire standard de mots représentant des affects positifs ou négatifs a été mis en place et un score positif, neutre ou négatif est affecté à ces mots dans un dictionnaire (sentiwordnet http://sentiwordnet.isti.cnr.it/ ) par simple association dans une base de données, les mots du corpus des clients sont associés au dictionnaire, et pondérés. un score final, voire mieux, un grave de dispersion du score peut démontrer une appréciation globale du produit, marque ou service..
Là encore, ça semble très empirique, et on peut se demander quelle dimension représente l'échelle finale de score (c'est peut-être là  qu'on peut construire des scores selon différents dimensions).
J'ai récupéré un dictionnaire anglais que j'ai traduit par Translator : il reste des corrections à faire.
Enfin, il existe autre source d'informations du vécu subjectif et émotionnel du patient, et non verbale cette fois :

L’expression non verbale du visage et du corps (peur, colère, dégout, surprise, tristesse, joie...) mais c'est un autre sujet.

dimanche 15 février 2015

Suite des recherches de Pierre Beaufils sur TXM et le text mining

TXM et Iramuteq à l’essai

En plongée depuis quelques jours dans les univers de ces deux outils de textométrie TXM et Iramuteq, je refais surface pour donner les premières impressions :
L’installation :
L’installation de TXM peut s‘avérer délicate : il faut vérifier et mettre à jour la plateforme Java, ajouter l’installation de Treetagger et bien vérifier le paramétrage du raccourci qui doit lancer tXM.bat et TXM.vbs  (voir post précédent)
L’installation de Iramuteq n’a pas posé de problème particulier
Plateformes :
Java et Eclipse pour TXM. Appel des librairies R pour les statistiques et de Treetagger, module de lemmatisation et étiquetage morphosyntaxique. Langage CQL (Corpus Query Language).
Langage Python et R pour Iramuteq.
Interface avec R :
Les librairies R sont préinstallées. Les programmes R sont accessibles et éditables.
Dans les deux logiciels on devrait pouvoir greffer ses fonctions R (librairie psy et fpca)

Préparer un corpus digeste :
Pour TXM :  Placer dans un répertoire-corpus les x textes éléments du corpus, au format .txt. le nom est le numéro identifiant que l’on retrouve dans les métadonnées.
Les métadonnées sont dans un fichier metadata.csv, placé avec les textes :  ce sont les informations structurées (de type base de données) que l’on associe aux textes, par exemple, l’auteur, l’année, le lieu, la source,…. L’identifiant en fait partie et est obligatoire.
J’ai construit mon fichier à l’aide d’Excel et sauvegardé en .csv. les champs sont encadrés par des " et séparés par des virgules (comma en anglais, csv= comma separated values).

Exemple de fichier metadata.csv :
Id,loc,annee,
"0001","deniau_O","1942"
"0002","Hugo","1859"
"0003","Hugoogl1","2011"
"0004","Hugoogl2","2011"
"0005","Hugoogl4","2011"
"0006","Deniau2","1945"
"0007","Deniau3","1945"
"0008","PeB","2014"

C’est tout. Votre corpus est prêt à être chargé dans TXM.

Pour Iramuteq, j’ai importé le format de TXM et Iramuteq a convertit et généré son format (similaire à Alceste) :
Cette fois tous les textes sont placés à la suite, avec leurs métadonnées en debut, dans un fichier corpusxxx.txt :
Exemple : hugo.txt

Les fonctionnalités
On trouve les analyses statistiques descriptives de base dans les deux :
Nombre de textes, occurrences, nombre de formes, nombre d’hapax. Iramuteq documente plus d’infos et génère un graphique de la loi de Zipf.
TXM avec son langage CQL permet une manipulation des corpus avec des requêtes sophistiquées. Création de sous-corpus possible.
Génération et manipulation des index dans les 2 logiciels : on pourra travailler avec au choix, les mots, les lemmes ou les  formes (pos ou part of speech), tris ,filtres, regroupements…
Le retour au texte et la recherche des occurrences est possible dans les deux, avec un plus pour la lisibilité et la manipulation dans TXM.
TXM propose un graphe des spécificités (score de prépondérance ou de faible utilisation d’un mot), ainsi qu’un graph cumulé d’usage d’un mot choisi, sur tout le corpus
Des méthodes de classification hiérarchique descendante sont implémentées dans les deux logiciels.
Les AFC (analyse factorielle et graphes d’analyses en correspondance principale sont confondus) sont paramétrables (choix des dimensions, position des sujets (corpus) ou des mots…
Un plus pour IramuteQ qui propose plusieurs vues avec méthodes d’analyses différentes et la possibilité de vues en 3D, d’un paramètre couleur, d’enregistrer une cinétique et d’afficher les mots de taille proportionnelle à leur occurrence.
TXM permet une recherche des cooccurences.
IramuteQ génère également un nuage de mots.

Les imports et exports
Les corpus sont exportables sous différents formats que je détaillerai plus tard. (Alceste…).  Les imports sont réalisables à partir de nombreux format également.
J’ai pu aisément passer un corpus TXM à Iramuteq qui généré son propre format (proche d’alceste)
TXM et Iramuteq permettent de générer les matrices terme-document. Ce sera utile pour d’autres analyses avec R par exemple.

Conclusion
Deux logiciels libres, faciles à utiliser et ergonomiques,  offrant un choix d’analyses et de graphes assez varié. Ils me semblent complémentaires.


Je parlerai prochainement de mon corpus d’essai et de sa construction, avec quelques illustrations parlantes…


Pierre

vendredi 16 janvier 2015

Pierre Beaufils a trouvé une ressource de text mining intéressante

TXM : Enfin installé !
J’avais trouvé un logiciel qui me semblait intéressant, parmi les nombreux logiciels de textométrie (Iramuteq, le trammeur…. On en reparlera) :
TXM, développé par l’ENS de Lyon avait de nombreuses qualités à mes yeux :
http://textometrie.ens-lyon.fr/spip.php?rubrique96
Open-source, sur une plateforme Java et R, permet de construire et d’analyser vos corpus, et surtout, compatible avec R .
De plus, une doc et des tutoriels complets sont disponibles dans
http://sourceforge.net/projects/txm/files/documentation/Manuel%20de%20TXM%200.7%20FR.pdf/download
https://www.youtube.com/channel/UCc3_typ0Y3blRUCUU6qVtJQ
Il faut bien-sur penser à installer R au préalable, ainsi que la plateforme Java.
Et SURTOUT, windows 8 étant un peu espiègle avec les raccourcis, ne pas faire comme moi, aller chercher l’exe TXM, et créer un raccourci sur le bureau :
On retrouve les messages d’erreur de démarrage Java que j’avais sur mon ancien portable (Tiens… ce serait peut-être juste une histoire de raccourci ?)
Il faut utiliser le raccourci-lanceur VbScript TXM.vbs installé par TXM qui contient les paramètres de lancement de TXM.bat
C:\Users\PeB\progr\TXM\TXM.vbs "C:\Users\PeB\progr\TXM\TXM.bat" "C:\Users\PeB\progr\TXM"
Bonne Année, bon text mining,
Pierre

mercredi 14 janvier 2015

Séminaire commun U1178/CESP 2015 "Méthodologie et épistémologie de la recherche biomédicale"

Les dates et lieux du séminaire sont :

27/1 - 13h30 à Paul Brousse (salle de conférence du CESP). Hervé Guyon : "Variable latente et épistémologie : le pragmatisme-réaliste nécessaire" Vidéo ici

24/2 - 17h à la Maison de Solenn (salles 3-4). Bruno Falissard : "Psychothérapies, médecines alternatives, médicaments : comment les évaluer ?" [1] Vidéo ici

31/3 - 17h à la Maison de Solenn (salle Lébovici). Bruno Falissard : "Psychothérapies, médecines alternatives, médicaments : comment les évaluer ?" [2] Vidéo ici

5/5 - 17H à Paul Brousse (salle de conférence du CESP). Marion Carayol : L'activité physique adaptée : un soin non conventionnel pour les patients atteints de cancer ? Vidéo ici

9/6 - 15H à Paul Brousse (salle de conférence du CESP). Christophe Génolini : kmlshape, une technique de détermination de trajectoires basée sur la forme, application aux études de cohortes

16/6 - 17h à la Maison de Solenn (salles 3-4). Pierre Beaufils (text mining, titre à préciser)

Attention vérifiez bien ici avant de venir car des changements de dernière minute peuvent intervenir...
A bientôt !
Bruno