Textopol > Enseignement > Séminaire doctoral >
Programme des séances 2007 - 2008
Les programmes détaillés de chaque journée seront mis à jour régulièrement, les exercices réalisés mis en ligne d'une fois sur l'autre afin que chacun puisse, si besoin est, s'y référer.
>> Séance 1: - 17 novembre 2007 -... >> Séance 2: - 15 décembre 2007 -... >> Séance 3: - 19 janvier 2008 -... >> Séance 4: - 16 février 2008 -... >> Séance 5: - 15 mars 2008 -... >> Séance 6: - 12 avril 2008 -... >> Séance 7: - - -... >> Séance 8: - - -
...
>> Séance 1
Séminaire Informatique Textuelle
Samedi 17 novembre 2007 - Salle 227
9h30- 11h
1. Objectifs et moyens du séminaire : Recherches textuelles informatisées appliquées au discours politique. Prises en main et expérimentation de logiciels ; exploration d’un corpus de textes politiques tirés de la campagne présidentielle 2007.
2. Salles et espaces de travail ; accès et profils ; modes de travail, évaluation.
3. Les outils de la recherche:
a. Le site Textopol ; logiciels, base de données, forum
b. Bases textuelles et moteurs de recherches : De Google à Frantext
11h15-12h30
Cours d’informatique textuelle (1) : Etiquetages, décomptes, exploitations statistiques : CORDIAL et LEXICO 3.
13h30-16h30
4. Un exemple de traitements automatisés de discours politiques : La campagne présidentielle 2007 et les vœux des candidats.
a. Recueil
b. Etiquetage morphosyntaxiques
c. Balisages lexicométriques
5. Exercices : Prise en main de lexico 3.
Documents
Instructions pour le recueil et la constitution de corpus lexicométriques (HTML) Prise en main Lexico3Corpus
Vœux des candidats 2007 ; Base dynamique
>> Séance 2
Informatique textuelle
Séance 2, samedi 16 décembre 2007 à 9h30, CMC 227
Thème de la séance : Approche de la notion de cooccurrence
9h30-12h30
1. Rappel de la séance 01 : Principes et objectifs du traitement automatisé de discours: Bases textuelles, corpus, quantification, étiquetages :Frantext, Cordial, Lexico3.
2. André Salem, prof. Paris 3 Sorbonne Nouvelle : « Les types génériques, expérimentations lexicométriques, topographies textuelles, typologies génériques ».14h-16h30
3. Corrigé des exercices de prise en main de Lexico 3
4. Travail sur les corpus personnels.
>> Séance 3
Séminaire doctoral d'informatique textuelle
samedi 19 janvier 2008 - Salle 342
Corpus textuels, approches statistiques, étiquetages catégoriels
9h30-10h30
10h45-12h301. Point sur le séminaire et le site Textopol - Questions sur la présentation de André Salem ( Diaporama sur le Forum) - Exemples d’analyse lexicométrique en temps réel ( Marchand, Blog JML) - Tavaux des participants. Présentations à prévoir.
2. Du décompte statistique et de l’étiquetage (approche CORDIAL) aux approches lexicométriques et textométriques LEXICO 3 et HYPERBASE
3. Prise en main d’HYPERBASE version 5 : corpus des vœux des candidats présidentielles 2007 catégorisés. - Catègorisation Cordial - Balisage Hyperbase - Traitement Hyperbase13h30-16h30
4. - Analyses Hyperbase: les verbes modaux - Travail sur les corpus personnels.
>> Séance 4
Séminaire doctoral d'informatique textuelle
Cooccurrences entre énoncés et analyse de contenu
9h30-10h30
Deux approches de l’analyse des énoncés :
A. Tropes : analyse de contenu B. Alceste : analyse des univers sémantique à travers les cooccurrences d’énoncés10h30-12h30
Prise en main du logiciel ALCESTE
13h30 -16h30
Travaux personnels
>> Séance 5
Informatique textuelle
Séminaire doctoral
Cooccurrences, lexicogrammes, explorations lexicométriques généralisées (autour de Weblex, S. Heiden, ENS-LSH,Lyon)
9h30-10h
1. Cours : Traitements lexicométriques des cooccurrences (autour de Weblex, S. Heiden, ENS-LSH,Lyon)
- Les diverses approches (PF).
- Contextes et tris croisés dans Frantext ;
- Cooccurrences dans les énoncés élémentaires (Alceste) - Voisinages lexicaux (Hyperbase)
- Cooccurrences spécifiques (Lexico3), - WEBLEX : des cooccurrences généralisées aux lexicogrammes. - Les fonction documentaires - Les fonctions statistiques - Les fonctions cooccurrentielles (Lexicogrammes simples et récursifs).
10h-10h30
Journées JADT (12-14 mars 2008) : impressions (JML)
Journée Textopol (31 mai 2008) : organisation (PF)
10h45-12h45
2. Prise en main de WEBLEX (corpus vœux, JML)
- WEBLEX : outil d’analyse et d’expérimentation.
- Analyse des forme, monde, lexicogrammes, répartition, spécificités.
- Navigation textométrique : Prise en main du langage CQP de WEBLEX. (PF et JML)- Exploration des différentes couches d’un corpus, en surface (forme graphique) ou sur les catégories morpho-syntaxiques. .
-Le catégoriseur Cordial et son utilisation dans Weblex
- La recherche de motifs (formes graphiques ou catégories).Pause
14h-16h30
Exercices et travaux personnels
Exercices
- europe, JE, NOUS dans les voeux présidentiels : les lexicogrammes récursifs.
- Recherche de motifs sous Weblex.
Deux liens distincts vers le serveur Weblex
http://lexico.ens-lsh.fr/local/lexploreur.html
Corpus : vœux, majplur, socio.
>> Séance 6Séminaire doctoral d'informatique textuelle
Autour du multilinguisme
En raison d'une coupure d'électricité programmée à l'université à partir de 12h30 samedi 12 avril, la séance ne se tiendra que le matin, de 9h30 à 12h30 en salle 227.
>> Séance 6séminaire doctoral d'informatique textuelle
Autour du multilinguisme
- Cooccurrence et alignements de corpus.
- Corpus alignés, comparables… vers la résonance textuelle (Salem). Corpus alignés (Texte cible et traduction texte source), corpus multilingues hétérogènes. (Exemple des programmes politiques européens).
- Exercices: alignements des textes et repérages des unités lexicales Mk align visite et prise en mains
- Expériences sur des données multilingues (catégorisations, morphologiques, sémantiques…).
- Treetagger, (allemand, anglais…)
- Outils multilingues automatisés, quelques exemples : (exemples et manipulations) [http://www.reverso.net/text_translation.asp?lang=FR, http://www.systran.fr/]
Travaux personnels