Gaël Lejeune, Maître de Conférences en Informatique

Actualités

  • 09/2017 : Nouveau poste : Maître de Conférences en Informatique à l'Université Paris IV (Paris-Sorbonne)
  • 08/2017 : Relecteur pour les revues Artificial Intelligence in Medicine et Transactions on Asian and Low-Resource Language (IEEE-TALLIP)
  • 06/2017 : Character Based Pattern Mining for Neology Detection article accepté à SCLeM 2017, workshop d'EMNLP
  • 05/2017 : Tweetaneuse, système de classification de tweets LIPN/LDI s'illustre dans le DEFT 2017 (Orléans)
  • 04/2017 : Atelier Corpus multilingues et Extractions Terminologiques au Congrès Mondial de Traductologie (Nanterre)
  • 02/2017 : Projet Analyse Diachronique Automatique du Discours sur les jeux d' Argent et de hasard (ADADA) financé par le GIS Jeu et Sociétés
  • 11/2016 : Best paper du Yearbook of Medical Informatics 2016, voir aussi : ici

Enseignements

Supports en ligne

2017-2018
L3 LFTI Bases de Données
Licence 1, 2 et 3 C2I
Master 1 Epistémologie de l'informatique
Master 1 Méthodologie
2016-2017 (Caen, La Rochelle)
M2 ICONEGestion Sémantique des Contenus
L2 Info Traitement Automatique des Langues
L3, M1, M2 Projets cf. ci-dessous
2015-2016 (Caen, Nantes, La Rochelle)
M2 ICONEGestion Sémantique des Contenus
M2 ATAL Corpus et Méthodes Expérimentales
L3, M1, M2 Projets cf. ci-dessous
2014-2015 (Nantes)
L1 BGC/MIPC Algorithmique (Javascript)
L1 Info Bases de Données TP
L1 Sciences C2I TD
L2 Info Algorithmique et Structures de Données (C++) TP
L2 Info Langages et Automates
L2 Info Systèmes d'Information
L3 Info Projet cf. ci-dessous
L3 MIAGE UML TP
L3 Info Interface Hommes Machine(Symfony)
M1 TAL/RO Apprentissage Automatique
M2 TAL Corpus et Méthode Expérimentale
2013-2014 (IUT Cherbourg)
MMI 1A Gestion de Projets
MMI 1A Algorithmique et Programmation (PHP)
SRC 2A Systèmes d'information (PHP)
Lic. Pro D2PC Programmation Web (PHP)
Lic. Pro D2PC Systèmes d'Information et Base de Données
2011-2012 (Caen)
M1 Traitement Automatique des Langues
M2 LID Données textuelles
M1-M2 Projets cf. ci-dessous
2010-2011 (Caen)
L1 Maths/Info Initiation à l'informatique
L2 LEA Algorithmique et Modèles de Calcul
M1 LID Traitement Automatique des Langues

Encadrement de projets

  • 2016-2017 : Louis Outin , M1 , Fouille de données pour la datation de documents
  • 2016-2017 : Yohann Quinque , M1 , Mining Chess Data
  • 2016-2017 : Yann Levavasseur , M1, Self Made Chess Player
  • 2016-2017 : Romain Chatel , M1, Self Made Chess Player
  • 2015-2016 : Kevin Devin et Corentin Peuron , L3, Appariement de joueurs au système suisse
  • 2015-2016 : Stephen Bellanger et Abdou Abdul Hafarou, L3, Clustering géographique pour les sports par équipes
  • 2015-2016 : Soufian Zaouam, M2, Et si Babar m'était conté (Fouille de Textes)
  • 2015-2016 : Fares Ghammam , M2, Self Made Chess Player (Intelligence Artificielle et Apprentissage Automatique)
  • 2015-2016 : Emiliano Castillo, M2, Collecte et exploitation de données GPS (Extraction et Requêtage de profils GPS)
  • 2015-2016 : Kevin Artus M2 Et si j'habitais là? (Edition et exploitation de cartes par anamorphose)
  • 2014-2015 : Alicia Boucard, L3, Dictionnaires de Langues Africaines--Français (Projet DILAF porté par Chantal Enguehard)
  • 2011-2012 : Igor Davy et Emile Dufournier, M1, DAnIEL 2.0, optimisation et amélioration d'une plate-forme de veille épidémiologique
  • 2011-2012 : Anne-lise Cahu, M2 DNR2I, Réalisation d'une interface pour la fouille de textes dans le domaine des arts (co-encadré avec Emmanuel Zwenger ESAM)
  • 2011-2012 Poulard Charles et Nathan Didier, M2, Elaboration automatique de Calendriers sportifs (co-encadré avec Jean-philippe Métivier CODAG/GREYC)
  • 2010-2011 Benoit Sanson, M2, Réalisation d'une plateforme web pour la veille épidémiologique (co-encadré avec Antoine Doucet DLU/GREYC)
  • 2009-2010 Chen Chen, M2, Veille sur le chinois, annotation de corpus

Situation

Je suis depuis peu Maître de Conférences à Paris IV (laboratoire STIH). Entre Janvier et Août 2017 j'ai été post-doctorant au LIPN (Université Paris XIII) au sein de l'équipe RCLN sur le thème de la recherche de néologismes. En 2015-2016, j'étais post-doctorant dans l'équipe COnstraints DAta Mining Graphes, sur le thème "Event prediction for dialogue modelling" du projet ANR NARECA. Auparavant j'ai été ATER à l'IUT Cherbourg-Manche (2013-2014) et à la faculté des Sciences de Nantes (2014-2015).

Mes travaux actuels portent sur la classification de documents, la détection automatique de néologismes et la stylométrie. J'ai précédemment travaillé sur la modélisation des interactions langagières dans les dialogues adultes-enfants. Les données sont constituées de retranscriptions d'histoires racontées par les adultes.

J'ai soutenu ma thèse de doctorat en informatique à l'Université de Caen le 16 octobre 2013. Ma thèse s'intitule "Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel". Cette thèse, encadré par Nadine Lucas et Antoine Doucet, a pris la suite de travaux effectués à l'Université d'Helsinki dans le cadre du projet PULS (co-financé par l'union Européenne). Parmi les contributions figure l'implantation de DANIEL, système de veille épidémiologique massivement multilingue qui couvre 53 langues à ce jour.

Intérêts scientifiques

Les deux auteurs qui m'ont le plus marqué sont un linguiste (François Rastier) et un informaticien (Kenneth Church). Pour illustrer cet "héritage", deux citations : "le texte est pour une linguistique évoluée l'unité minimale [d'analyse]" (Rastier-2002) et "Anything you can do with words, we ought to be able to do with substrings" (Church-2009).

Mes travaux traitent principalement de la problématique du multilinguisme en TAL. C'est une tâche difficile mais captivante que de chercher à traiter efficacement toutes les langues pour lesquelles des textes (et plus généralement des données) sont disponibles. A ce titre, je conseille fortement la lecture de l'ouvrage Net.lang Réussir le cyberspace multilingue qui offre un panorama complet de la question, depuis les aspects linguistiques et informatiques jusque dans les enjeux culturels, sociologiques et politiques. Voir aussi l'émission qui lui a été consacrée dans "Place de la toile" sur France Culture. Pour illustrer la richesse de la question, considérons ce dialogue entre deux enfants extrait d'"Un Monde Sans Fin" de Ken Folett :

  • Combien crois-tu qu'il existe de langues?
  • Cinq!
  • Non, sérieusement! Il y a l'anglais, le français et le latin, ce qui fait déjà trois. Et puis il y a le florentin et le vénitien, qui sont différents mais possèdent des mots en commun.
  • Cinq, donc. Mais il y a aussi le flamand [...].
  • À ce compte-là ajoutons alors le danois!
  • Les arabes aussi ont une langue bien à eux. Pour l'écrire ils utilisent d'autres lettres que nous!
  • Mère Cécilia assure que les barbares ont chacun leur langue et qu'ils ne savent même pas l'écrire. Les Écossais, les Gallois, les Irlandais et bien d'autres peuples, probablement. Ça nous en fait onze. Mais peut être y en a-t-il dont nous n'avons jamais entendu parler!

Un de mes autres domaines de recherche est la fouille de textes de manière générale, notamment par le biais d'une participation continue depuis 2011 au Défi Fouille de Textes (DEFT). Je travaille également sur les problématiques de l'extraction terminologique, des humanités numériques et du nettoyage de pages web (ou boilerplate removal).

Comités

  • Comité de Programme : Recital 2015, 2016, 2017
  • Comité de Lecture : Artificial Intelligence in Medicine (AIIM, 2017), Transactions on Asian and Low-Resource Language Information Processing (TALLIP, 2017), LREC (2016), KDD (2016), Discovery Science (2016)
  • Comité Scientifique : De l'épistémologie de la recherche à la méthodologie de la thèse
  • Comité d'organisation : Congrès Mondial de Traductologie 2017
  • Présidence de Session : JADT (2014), DEFT (2015)

Publications

Dans ce fichier bibtex figurent l'ensemble de mes articles : 25 publications dont 19 en tant qu'auteur principal, 5 de rang A selon le classement CORE (dont deux workshop et une revue), 1 de rang B et 13 de rang C (dont 6 en workshop). S'y ajoutent 11 communications orales sans publication des actes dont 7 en congrès (voir ici pour les détails). Selon la nomenclature HCERES: ACL (1), ACLN (1), C-ACTI (11), INV (2), C-ACTN (11), COM (7), AFF (2).

2017

  • Character Based Pattern Mining for Neology Detection Gaël Lejeune et Emmanuel Cartier, à paraître dans Subword & Character Level Models in NLP (SCLeM) , EMNLP 2017 Copenhague -- Workshop d'une conférence CORE "A"
  • Tweetaneuse : Fouille de motifs en caractères et plongement lexical à l'assaut du DEFT 2017 Davide Buscaldi, Aude Grezka et Gaël Lejeune, à paraître dans DEfi Fouille de Textes, TALN 2017 Orléans -- Workshop d'une conférence CORE "C"
  • A System for Multilingual Online Neologism Tracking Emmanuel Cartier, Gaël Lejeune, Kata Kabor et Thierry Charnois, 18th International Conference on Computational Linguistics and Intelligent Text Processing (Cicling) 2017 Conférence CORE "B", à paraître
  • 2016

  • Highlighting Psychological Features for Predicting Child Interventions During Story Telling Gaël Lejeune, François Rioult et Bruno Crémilleux. International Conference on Speech Processing (Interspeech) 2016 p. 2056-2059 -- Conférence CORE "A" - bibtex - Pdf
  • Ambiguity Diagnosis for Terms in Digital Humanities Béatrice Daille, Evelyne Jacquey, Gaël Lejeune, Luis Felipe Melo et Yannick Toussaint. Language and Resources Conference (LREC) 2016 -- bibtex - Pdf
  • 2015

  • Multilingual Event Extraction for Early Epidemic Detection Gaël Lejeune, Romain Brixtel, Antoine Doucet et Nadine Lucas. Artificial Intelligence in Medicine p. 131-143 -- Revue CORE "A" - Impact Factor 2,019 - bibtex - Pdf
  • Vers un diagnostic d'ambiguïté des termes candidats d'un texte Gaël Lejeune et Béatrice Daille. Traitement Automatique des Langues Naturelles (TALN) 2015, p. 446-452 -- Conférence CORE "C" - bibtex - Pdf
  • Évaluation intrinsèque et extrinsèque du nettoyage de pages Web Gaël Lejeune, Romain Brixtel et Charlotte Lecluze. Traitement Automatique des Langues Naturelles (TALN) 2015, p. 411-417 -- Conférence CORE "C" - bibtex - Pdf
  • Une approche stylométrique pour la fouille d’opinion Gaël Lejeune et Frédéric Dumonceaux, DEfi Fouille de Textes, TALN 2015, p. 12-15 -- Workshop d'une conférence CORE "C" - bibtex - Pdf
  • Attribution d'Auteur : approche multilingue fondée sur les répétitions maximales Romain Brixtel, Charlotte Lecluze et Gaël Lejeune. Traitement Automatique des Langues Naturelles (TALN) 2015, p. 208-219 -- Conférence CORE "C" - bibtex - Pdf
  • 2014

  • DEFT 2014, analyse automatique de textes littéraires et scientifiques en langue française Charlotte Lecluze et Gaël Lejeune, DEfi Fouille de Textes, TALN 2014, p. 11-19 -- Workshop d'une conférence CORE "C" - bibtex Pdf
  • Apports de l'analyse automatique multilingue pour la veille épidémiologique avec Charlotte lecluze, Romain Brixtel et Antoine Doucet, Journées internationales d’Analyse statistique des Données Textuelles 2014 (JADT 2014), p. 397-408 -- Conférence CORE "C" - bibtex Pdf
  • 2013

  • Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel Gaël Lejeune, Thèse de doctorat en Informatique de l'Université de Caen -- Descriptif -- bibtex Pdf
  • Any Language Early Detection of Epidemic Diseases from Web News Streams Romain Brixtel, Gaël Lejeune, Antoine Doucet et Nadine Lucas, IEEE International Conference on Healthcare Informatics (ICHI) 2013 p. 159-168 -- Acceptation rate < 20% - bibtex Pdf
  • Added-value of automatic multilingual text analysis for epidemic surveillance Gaël Lejeune, Romain Brixtel, Charlotte Lecluze, Antoine Doucet et Nadine Lucas, Artificial Intelligence in Medicine (AIME) 2013 p. 284-294 -- Conférence CORE "A", Acceptance rate (long articles): 27% - bibtex Pdf
  • DAnIEL : Veille épidémiologique multilingue parcimonieuse Gaël Lejeune, Romain Brixtel, Charlotte Lecluze, Antoine Doucet et Nadine Lucas, démonstration acceptée à la conférence Traitement Automatique des Langues Naturelles (TALN) 2013, p. 77-78 -- Conférence CORE "C" - bibtex Pdf
  • Détection de zones parallèles à l’intérieur de bi-documents pour l’alignement multilingue Charlotte Lecluze, Romain Brixtel, Lois Rigouste, Emmanuel Giguet, Régis Clouard, Gaël Lejeune and Patrick Constant, Traitement Automatique des Langues Naturelles (TALN) 2013 p. 381-394 -- Conférence CORE "C" - bibtex
  • Deft 2013, une cuisine de caractères Gaël Lejeune, Charlotte Lecluze et Romain Brixtel, DEfi Fouille de Textes, TALN 2013, p. 29-36 -- Workshop d'une conférence CORE "C" - bibtex Pdf
  • Vers une approche « rhétorique » en TAL : application à la veille épidémiologique multilingue Christine Durieux, Romain Brixtel et Gaël Lejeune, Actes de la conférence internationale Rhétorique et Traduction revue SEPTET (Société d'Études des Pratiques en Théorie de la Traduction) "Des mots aux actes" N°5 : La rhétorique à l'épreuve de la traduction, p.151-167 - bibtex - Pdf
  • 2012

  • DAnIEL: Language Independent Character-Based News Surveillance Gaël Lejeune, Romain Brixtel, Antoine Doucet et Nadine Lucas, Springer LNCS 2012, IX, 334. Lecture Notes in Artifical Intelligence, Vol 7614, p.53-64. bibtex Pdf
  • Détection de mots-clés par approches au grain caractère et au grain mot Gaëlle Doualan, Mathieu Boucher, Romain Brixtel, Gaël Lejeune et Gaël Dias, DEfi Fouille de Textes, TALN 2012, p. 41-48 -- Workshop d'une conférence CORE "C" - bibtex Pdf
  • 2011

  • Deft 2011: appariements de résumés et d'articles scientifiques fondés sur des distributions de chaînes de caractères Gaël Lejeune, Romain Brixtel, Emmanuel Giguet et Nadine Lucas, DEfi Fouille de Textes, TALN 2011, p. 53-64 -- Workshop d'une conférence CORE "C" - bibtex bibtex Pdf
  • 2010

  • Filtering news for epidemic surveillance: towards processing more languages with fewer resources, Gaël Lejeune, Antoine Doucet, Roman Yangarber et Nadine Lucas, The Fourth International Workshop On Cross Lingual Information Access, Coling 2010, p. 3-10 -- Workshop d'une conférence CORE "A" - bibtex Pdf
  • Tentative d'approche multilingue en extraction d'information, Gaël Lejeune, Antoine Doucet et Nadine Lucas, JADT 2010 Rome, p. 1259-1268 -- Conférence CORE "C" - bibtex Pdf
  • A proposal for a multilingual epidemic surveillance system, Gaël Lejeune, Mohamed Hatmi, Antoine Doucet Silja Huttunen et Nadine Lucas, Springer, LNCS 2010, Volume 40 Part 17 p. 343-348 -- bibtex Pdf
  • 2009

  • Structure patterns in Information Extraction: a multilingual solution?, Gaël Lejeune, Advances in Method of Information and Communication Technology AMICT09 , Volume 11 p. 105-111, Petrozavodsk, Russia, May 2009 -- bibtex - Pdf
  • Communications orales sans publication des actes

    Découverte automatique multilingue de néologismes dans la presse en ligne Présentation au CMT (Congrès Mondial de Traductologie), Nanterre, 12 avril 2017

    Figement et Créativité Computationnelle Présentation au CMT (Congrès Mondial de Traductologie), Nanterre, 12 avril 2017

    Intrinsic and Extrinsic Evalution of Web Page Cleaning Présentation à ISWAG (International Symposium on Web Algorithms), Deauville, 9 juin 2016

    La linguistique pour le TAL : au service de la simplexité ? Présentation invitée à la journée d'études "Linguistique et Complexité", Lilpa -- Université de Strasbourg, 13 novembre 2015

    Méthodes robustes et parcimonieuses pour l’analyse des données textuelles, séminaire L3I, La Rochelle, 26 mars 2015

    Approche du TAL fondée sur le genre textuel, séminaire ATAL, Nantes, 21 octobre 2014

    Multilingual Epidemic Surveillance: a parsimonious character-based approach, séminaire de la société My Script, Nantes, 28 août 2014

    Multilingual Epidemic News Surveillance: covering the earth for timely alerts, Avec Antoine Doucet, conférence invitée au Festival International de la Science (Vetenskapsfestivalen) 2014 "Act, React, Interact", Göteborg, 9 mai 2014 Flyer

    Propositions pour une fouille de texte collaborative spécialisée dans le domaine des arts, avec Emmanuel Zwenger, Communication aux journées d'études du Bulletin Signalétique des Arts Plastiques (BSAP), Ecole Nationale Supérieure des Beaux Arts de Lyon, février 2012

    Pour une approche cibliste en TAL: le cas de l'analyse automatique de la presse, avec Christine Durieux, communication au Colloque International Rhétorique et Traduction, Orléans janvier 2012

    Ce que le texte peut dire au TAL, Communication aux journées scientifiques du CRISCO Ce que le texte fait à la phrase, Caen, décembre 2009 bibtex Pdf

    Thèse : Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel

    Téléchargez ici le manuscrit ou le fichier bibtex

    Thèse soutenue le 16 octobre 2013 devant un jury composé de :

    • ... non crédités au générique mais décisifs tout au long de cette thèse, mes associés Romain Brixtel et Charlotte Lecluze. Big Up dudes

    Cette thèse propose une méthodologie pour traiter le problème du multilinguisme dans le cadre de tâches de classification et de recherche d'information. L'idée de base de notre travail est de définir une approche aussi peu dépendante des langues que possible de manière à faciliter la factorisation et ainsi l'extension du système à de nouvelles langues. En effet, les systèmes combinant Recherche d'Information et Extraction d'Information (EI) ont cruellement besoin de filtrer de grandes quantités de données dans un grand nombre de langues (voir par exemple Medisys).

    Les systèmes classiques d'EI ne permettent pas à l'heure actuelle de faire face à ces enjeux du fait de leur dépendance à des outils (lemmatiseurs, analyseurs syntaxiques...) et autres ressources lexicales complexes (dictionnaires, ontologies...). Certaines langues peu dotées en ressources sont par la force des choses laissées de côté. Notre approche vise à combler ces manques. Elle a abouti à la conception de DAnIEL, notre système de veille épidémiologique multilingue . À ce jour, DAnIEL (Data Analysis for Information Extraction in any Language) a été testé, avec succès, sur 17 langues dont le chinois, le finnois et l'arabe.

    Le développement de DAnIEL, système d'Extraction d'Information Multilingue, vise à combler ces manques. Il utilise les propriétés du genre journalistique et se base sur une analyse au grain caractère. De cette façon l'extension de DAnIEL vers de nouvelles langues se fait à coût marginal minimal.

    Nous avons expérimenté cette approche sur d'autres tâches dans le cadre des Défis Fouille de Texte (DEFT) 2011 et 2012. En 2011 dans la tâche d'appariement de résumés et d'articles scientifiques nous avons atteint la première place ex-aequo. En 2012 dans la tâche d'extraction de mots-clés nous avons atteint la troisième place.

    Enfin, en utilisant DAnIEL nous avons pu évaluer par la tâche des outils de nettoyage de page web. L'idée de ces expériences est de voir comment la qualité de ce nettoyage, que nous nommons "détourage", influence les résultats du système placé en aval.

    Parcours professionnel

    • A compter du 1/09/2017, Maître de Conférences (Paris IV) au sein du laboratoire STIH
    • 01/2017 à 08/2017, post-doc au LIPN (Paris XIII), "Détection Automatique de Néologismes"
    • 09/2015 à 12/2016, post-doc au GREYC (Caen), "Event prediction for dialogue modelling"
    • 09/2014 à 08/2015, ATER à l'Université de Nantes (Faculté des Sciences)
    • 09/2013 à 08/2014, ATER à l'IUT de Cherbourg (Antenne de Saint-Lô, département MMI)
    • 10/2010 à 08/2013, Doctorant au GREYC (Bourse ministérielle)
    • 09/2009 à 08/2010, Ingénieur de recherche GREYC (Caen), "Veille Multilingue"
    • 02/2009 à 06/2009, Ingénieur de recherche CS Dept (Helsinki), "PULS Project"
    • En dehors de la recherche en informatique:
      • 2005 à 2010, Prof particulier en Lettres, Mathématiques et méthodologie (collège, lycée)
      • 2002 à 2009, Surveillant d'Externat, Académie de Caen
      • 2006 et 2007, Directeur adjoint logistique en CLSH, Ligue de l'enseignement
      • 2000 à 2007, Initiateur et entraineur du jeu d'échecs, Club d'échecs Caen Alekhine
      • 1997 à 2008, Expertises sur lignes téléphoniques, CBS puis Rea-Immo

    Perso

    Programmation

    Je suis un Pythoniste assidu même s'il peut m'arriver de concevoir des projets en PHP ou Javascript.

    Bouquins

    Un peu de tout, de l'utilitaire (sciences, chroniques historiques, essais,...) au superfétatoire (Anticipation, Héroïc Fantasy...)

    Les échecs

    Mon principal fait d'armes est d'avoir empoché avec mon collègue Dr. Romain Brixtel et deux accolytes nord-cotentinois le tournoi national des Universités et grandes écoles 2006 au nez et à la barbe d'HEC, Polytechnique, Centrale, Dauphine, Sciences Po...

    Small world

    Morphy number5
    Kasparov number4
    Erdös number 5
    Bacon Number 3
    Pelé Number (invention?)4