Textopol > Enseignement > Séminaire doctoral >

Programme des séances 2007 - 2008

 
Les programmes détaillés de chaque journée seront mis à jour régulièrement, les exercices réalisés mis en ligne d'une fois sur l'autre afin que chacun puisse, si besoin est, s'y référer.
             
>> Séance 1:  
- 17 novembre 2007 -
 
  ...
>> Séance 2:  
- 15 décembre 2007 -
 
  ...
>> Séance 3:  
- 19 janvier 2008 -
 
  ...
>> Séance 4:  
- 16 février 2008 -
 
  ...
>> Séance 5:  
- 15 mars 2008 -
 
  ...
>> Séance 6:  
- 12 avril 2008 -
 
  ... 
>> Séance 7:  
- - -
 
  ...
>> Séance 8:  

- - -

 
  ...
             

     
>>
Séance 1
 

Séminaire Informatique Textuelle

 

Samedi 17 novembre 2007 - Salle 227

 

9h30- 11h

1. Objectifs et moyens du séminaire : Recherches textuelles informatisées appliquées au discours politique. Prises en main et expérimentation de logiciels ; exploration d’un corpus de textes politiques tirés de la campagne présidentielle 2007.

2. Salles et espaces de travail ; accès et profils ; modes de travail, évaluation.

3. Les outils de la recherche:

a. Le site Textopol ; logiciels, base de données, forum

b. Bases textuelles et moteurs de recherches : De Google à Frantext

11h15-12h30

Cours d’informatique textuelle (1) : Etiquetages, décomptes, exploitations statistiques : CORDIAL et LEXICO 3.

13h30-16h30

4. Un exemple de traitements automatisés de discours politiques : La campagne présidentielle 2007 et les vœux des candidats.

a. Recueil

b. Etiquetage morphosyntaxiques

c.  Balisages lexicométriques

5. Exercices : Prise en main de lexico 3.

Documents

  • Instructions pour le recueil et la constitution de corpus lexicométriques (HTML)
  • Prise en main Lexico3

Corpus

  • Vœux des candidats 2007 ; Base dynamique

 

 

     
>>
Séance 2
 

Informatique textuelle
Séance 2, samedi 16 décembre 2007 à 9h30, CMC 227


Thème de la séance : Approche de la notion de cooccurrence
 

 

9h30-12h30


1. Rappel de la séance 01 : Principes et objectifs du traitement automatisé de discours: Bases textuelles, corpus, quantification, étiquetages :Frantext, Cordial, Lexico3.


2. André Salem, prof. Paris 3 Sorbonne Nouvelle : « Les types génériques, expérimentations lexicométriques, topographies textuelles, typologies génériques ».

14h-16h30

3. Corrigé des exercices de prise en main de Lexico 3


4. Travail sur les corpus personnels.

 

 

     
>>
Séance 3
 

 

Séminaire doctoral d'informatique textuelle

samedi 19 janvier 2008 - Salle 342 

Corpus textuels, approches statistiques, étiquetages catégoriels

 

9h30-10h30

 

1. Point sur le séminaire et le site Textopol - Questions sur la présentation de André Salem ( Diaporama sur le Forum) - Exemples d’analyse lexicométrique en temps réel ( Marchand, Blog JML) - Tavaux des participants. Présentations à prévoir.

 10h45-12h30


2. Du décompte statistique et de l’étiquetage (approche CORDIAL) aux approches lexicométriques et textométriques LEXICO 3 et HYPERBASE

 

3. Prise en main d’HYPERBASE version 5 : corpus des vœux des candidats présidentielles 2007 catégorisés. - Catègorisation Cordial - Balisage Hyperbase - Traitement Hyperbase
 13h30-16h30


4. - Analyses Hyperbase: les verbes modaux - Travail sur les corpus personnels.

 

 

     
>>
Séance 4
 

Séminaire doctoral d'informatique textuelle

 


Cooccurrences entre énoncés et analyse de contenu

 

 

9h30-10h30


Deux approches de l’analyse des énoncés :

  • A. Tropes : analyse de contenu
  • B. Alceste : analyse des univers sémantique à travers les cooccurrences d’énoncés

10h30-12h30


Prise en main du logiciel ALCESTE

 

13h30 -16h30


Travaux personnels

 

     
>>
Séance 5
 

Informatique textuelle

Séminaire doctoral


Cooccurrences, lexicogrammes, explorations lexicométriques généralisées  (autour de Weblex, S. Heiden, ENS-LSH,Lyon) 

 

9h30-10h

1. Cours : Traitements lexicométriques des cooccurrences (autour de Weblex, S. Heiden, ENS-LSH,Lyon)                             

- Les diverses approches  (PF).

- Contextes et tris croisés dans Frantext ;                                                       

- Cooccurrences dans les énoncés élémentaires (Alceste)                                                       - Voisinages lexicaux  (Hyperbase)

- Cooccurrences spécifiques (Lexico3),                                                                                  - WEBLEX : des cooccurrences généralisées aux lexicogrammes.                                                           - Les fonction documentaires                                                                                                  - Les fonctions statistiques                                                                                                      - Les fonctions cooccurrentielles (Lexicogrammes simples et récursifs).

10h-10h30

Journées JADT (12-14 mars 2008)  : impressions (JML)

Journée Textopol (31 mai 2008) : organisation (PF)

 

10h45-12h45

2. Prise en main de WEBLEX (corpus vœux, JML)

- WEBLEX : outil d’analyse et d’expérimentation.
- Analyse des forme, monde, lexicogrammes, répartition, spécificités.
-  Navigation textométrique : Prise en main du langage CQP de WEBLEX. (PF et JML)

- Exploration des différentes couches d’un corpus, en surface (forme graphique) ou sur les catégories morpho-syntaxiques. .
            -Le catégoriseur Cordial et son utilisation dans Weblex
            - La recherche de motifs (formes graphiques ou catégories).

Pause

14h-16h30

Exercices et travaux personnels

 

Exercices

- europe,  JE, NOUS dans les voeux présidentiels : les lexicogrammes récursifs.

- Recherche de motifs sous Weblex.

Deux liens distincts vers le serveur Weblex

http://weblex.ens-lsh.fr/wlx/

http://lexico.ens-lsh.fr/local/lexploreur.html

Corpus : vœux, majplur, socio.

 

 

     
>>
Séance 6
 

Séminaire doctoral d'informatique textuelle

Autour du multilinguisme

 

En raison d'une coupure d'électricité programmée à l'université à partir de 12h30 samedi 12 avril, la séance ne se tiendra que le matin, de 9h30 à 12h30 en salle 227.

 

     
>>
Séance 6
 

séminaire doctoral d'informatique textuelle

Autour du multilinguisme

 


-    Cooccurrence et alignements de corpus.
-    Corpus alignés, comparables… vers la résonance textuelle (Salem). Corpus alignés (Texte cible et traduction texte source), corpus multilingues hétérogènes. (Exemple des programmes politiques européens).
-    Exercices: alignements des textes et repérages des unités lexicales Mk align visite et prise en mains
-    Expériences sur des données multilingues (catégorisations, morphologiques, sémantiques…).
-    Treetagger, (allemand, anglais…)
-    Outils multilingues automatisés, quelques exemples : (exemples et manipulations) [http://www.reverso.net/text_translation.asp?lang=FR, http://www.systran.fr/]


Travaux personnels

 

>>Navigation:      
>>

INFORMATIONS et INSCRIPTIONS: fiala@univ-paris12.fr