Gaël Lejeune, Maître de Conférences en Informatique

UFR de Sociologie et d'Informatique, laboratoire STIH, Sorbonne Université

Projet Antonomaz Séminaire de Linguistique Computationnelle Unité CERES

Actualités

  • 08/02/23 : Intervention à la table ronde des Jeunes Avocats de Paris sur le thème de ChatGPT (lien LinkedIn)
  • 27/01/23 : Appel : Revue TAL, Robustesse et limites des modèles de traitement automatique des langues, rédacteurs en chef : C.Corro, G.lejeune, V.Niculae (deadline 12/05/2023). Site de Soumission
  • 07/12/22 : "Les méthodes de traitement automatique du langage peuvent-elles être utiles pour l’élaboration de revues de littérature en santé publique ?..." Soutenance de Thèse de Laetitia Haroutunian (examinateur)
  • 25/11/22 : Robustesse des Systèmes de TAL Journée d'études ATALA à la Maison de La Recherche, organisée par Caio Corro et Gaël Lejeune (cf. Page Web)
  • 25/11/22 : Le rapport signal/bruit dans les corpus tirés du web, présentation à la journée d'études Robustal (Robustesse des Systèmes de TAL), avec Adrien Barbaresi
  • 21/11/22 : Soutenance de Thèse de Stephen Mutuvi Extraction d’événements épidémiologiques dans un contexte multilingue et à faibles ressources Université de la Rochelle (examinateur)
  • 25/10/22 : L'article "Adapting Transformers for Detecting Emergency Events on Social Media" a obtenu le prix du meilleur poster de la conférence KDIR
  • 14/10/22 : Utilizing Keywords Evolution in Context for Emerging Trend Detection in Scientific Publications, article accepté à SOICT 2022 (Symposium on Information and Communication Technology), avec Nhu Khoa Nguyen, Thierry Delahaut, Emanuela Boros, Antoine Doucet
  • 10/10/22 : Contextualizing Emerging Trends in Financial News Articles, article accepté à l'atelier FinNLP 2022 (EMNLP 2022), avec Nhu Khoa Nguyen, Thierry Delahaut, Emanuela Boros, Antoine Doucet
  • 16/09/22 : Soutenance de Thèse de Jean-Baptiste Tanguy, "Océriser pour accéder aux données ? Vers une évaluation non supervisée du bruit dans les données textuelles issues d’OCR de documents du XVIIème siècle", Sorbonne Université (membre du jury, encadrant) : Manuscrit PDF
  • 10/09/22 : "Adapting Transformers for Detecting Emergency Events on Social Media", article accepté à la conférence KDIR, avec Emanuela Boros, Mickael Coustaty et Emanuela Boros
  • 30/08/22 : Soutenance de Thèse de Salah-Ehdine Bouketta, "Analyse de séquences avec GALACTIC – Approche générique combinant analyse formelle des concepts et fouille de motifs", Université de La Rochelle (membre du Jury, examinateur)
  • 21/06/22 : "Do we Name the Languages we Study? The #BenderRule in LREC and ACL articles", présentation à la conférence LREC 2022 (site de la conférence)
  • 08/06/22 : "One (over-)fits for all ? Sur la robustesse des systèmes de TAL en contexte variationnel", conférence invité à la journée de l'axe Documents Apprentissage Connaissance de la fédération Normastic
  • 01/06/22 : "Vers une collection numérique des libelles parus pendant la fronde, ou comment relier des mazarinades"", article dans la revue Le Verger avec Karine Abiven, Alexandre Bartz et Jean-Baptiste Tanguy : Lien
  • 31/05/22 : "Reconnaissance d'entités nommées sur des sorties OCR bruitées : des pistes pour la désambiguïsation morphologique automatique", article accepté à l'atelier TAL et Humanités Numériques, avec Caroline Parfait et Richy Buth, TALN 2022
  • 13/02/22 : Les innovations lexicales dans le domaine des énergies renouvelables : exploitation du contraste de corpus comme moyen de repérage, article à paraître dans la revue Néologica, avec Manuela Yapomo

Enseignements

Mes supports 2021-2022 sont en ligne sur le moodle Sorbonne Université. Je suis responsable des cours suivants :

2022-2023 Sorbonne Université
L1 Sciences du Langage (S1)Epistémologie
L3 Sciences du Langage (S1)Programmation de Modèles Linguistiques I (Python)
Licence 1 (S2)PIX
L2 Sciences du Langage (S2)Ingénierie de la Langue
Master 1 Langue et Informatique (S2)Dictionnaires et Néologie
Master 2 Langue et Informatique (S2)Terminologie et Stylométrie

- Mes expériences antérieures d'enseignement

Encadrement Doctoral

  • Depuis novembre 2019, Jean-Baptiste Tanguy (co-encadrement 33% avec Karine Abiven et Glenn Roe) : "L’accessibilité et l’exploitation des documents textuels numérisés" (Thèse Région Ile de France), thèse soutenue le 16 septembre 2022
  • Depuis octobre 2020, Caroline Parfait (co-encadrement 33% avec Motasem Alrahabi et Glenn Roe) : "Literary space analysis: Machine learning and evaluation of recognition systems of named entities" (Thèse Sorbonne Center for Artificial Intelligence)
  • Depuis novembre 2020, Manuela Yapomo (co-encadrement à 50% avec Françoise Guérin), reprise de sa thèse : "Classification de documents multilingues pour l'extraction de lexiques de traduction"
  • Depuis septembre 2019 je participe également à l'encadrement de Khoa Nguyen à la Banque Postale (dirigé par Antoine Doucet et Thierry Delahaut) : "Emerging Theme Detection from Reliable News Articles" (Thèse CIFRE La Banque Postale)

Mes encadrements de stages, projets et mémoires sont recensés Ici

Responsabilités

  • Au sein de Sorbonne Université
    • Directeur adjoint de l'Unité de Services CERES (Centre d'Expérimentation en méthodes numériques pour les Recherches en SHS)
    • Directeur adjoint de l'UFR de Sociologie et d'Informatique pour les Sciences Humaines
    • Référent égalité pour l'UFR de Sociologie et d'Informatique pour les Sciences Humaines
    • Membre du Conseil de la Faculté des Lettres de Sorbonne Université
    • Organisateur du Séminaire de l'équipe de Linguistique Computationnelle de Sorbonne Université
    • Anciennement :
      • Directeur des études de la Licence Sciences du Langage (2018-2022)
      • Chargé des admissions E-candidat, Campus France et ParcourSup pour la licence (2019-2022)
  • Hors Sorbonne Université
    • Membre élu du CA de l'ATALA
    • Membre du comité de rédaction du Bulletin de l'AFIA (rédacteur des bulletins 113 et 117)
    • Membre de l'Action Prospective Humanités Numériques Spatialisées du GDR Magis
    • Membre des Comité de Sélection MCF 441 (2019, Sorbonne Université/STIH) et MCF 158 (2021, Université Paris X/Modyco)
    • Membre de deux comités de recrutement du Labex Empirical Foundation of Linguistics
    • Anciennement :
      • Membre du directoire du DIM Sciences du Texte et Connaissances Nouvelles (2019-2022)

Comités de Programme

    • Association for Computational Linguistics : ACL (2017-), EMNLP (2018-), NAACL (2019-), IJCNLP (2020), EACL (2021)
    • LREC (2016-), COLING (2018-), AAAI (2019-), NUSE (2020), ICADL(2020), CLEF (2020), KDD (2016), Discovery Science (2016)
    • Natural Language Engineering (NLE) journal 2022
    • Traitement Automatique des Langues (TAL) 2022
    • International Journal on Digital Libraries (IJDL) 2021
    • Revue d'Histoire des Mathématiques (RHM) 2021
    • Knowledge and Information Systems Journal (KAIS) 2021
    • Journal of the Association for Information Science and Technology (JASIST) 2020
    • Information Processing and Management (IPM) 2018
    • Artificial Intelligence in Medicine (AIIM) 2017
    • Transactions on Asian and Low-Resource Language Information Processing (TALLIP) 2017
  • Comité Scientifique : De l'épistémologie de la recherche à la méthodologie de la thèse (LILPA, Université de Strasbourg)
  • Comité d'organisation : RobusTAL (Robustesse des systèmes de TAL), 2022, 1er Congrès Mondial de Traductologie 2017 (Nanterre)
  • Présidence de Session : JADT (2014), DEFT (2015), CMT (2017)

Situation

Affilié au laboratoire Sens Texte informatique Histoire (STIH), je suis également membre de l'équipe-projet SCAI/OBTIC et membre fondateur de l'Unité de Service CERES

Depuis septembre 2017 je suis Maître de Conférences à Sorbonne Université. Entre Janvier et Août 2017 j'ai été post-doctorant au LIPN (Université Paris XIII) au sein de l'équipe RCLN sur le thème de la recherche de néologismes. En 2015-2016, j'étais post-doctorant dans l'équipe COnstraints DAta Mining Graphes (CODAG), sur le thème "Event prediction for dialogue modelling" du projet ANR NARECA. Auparavant j'ai été ATER à l'IUT Cherbourg-Manche (2013-2014) et à la faculté des Sciences de Nantes (2014-2015).

Mes travaux portent principalement sur la question de la variation dans les données. La variation peut prendre différentes formes: la langue (multilinguisme), le genre de texte, le bruitage (par exemple pour des données issues d'OCR ou de Web Scraping) et enfin la variation dans les tâches traitées. La question centrale de mes recherches a longtemps été de savoir comment traiter des données multilingues: traiter langue par langue ou trouver une approche plus large (notamment via des universaux de la langue). Mon travail sur la veille épidémiologique et sur l'analyse d'articles scientifiques (avec Béatrice Daille notamment) me font penser que traiter la variation en genre peut être une réponse aux problèmes posés par la variation en langue, les propriétés du genre textuel constituant des invariants fiables. La question du bruitage dans les données textuelles est venue plus tard, à travers des travaux sur l'extraction de contenu à partir du web (avec Romain Brixtel, Charlotte Lecluze, Adrien Barbaresi, Emmanuel Giguet et Lichao Zhu) puis sur le traitement de documents PDF (Emmanuel Giguet, Karine Abiven et Jean-Baptiste Tanguy).

Mes interrogations sur les tâches traitées en TAL m'ont amené à élargir mes objets de recherche : classification de documents, détection automatique de néologismes, datation de documents, extraction de structure et stylométrie au sens large. J'ai également travaillé avec François Rioult sur la modélisation des interactions langagières dans les dialogues adultes-enfants, où l'on s'est posé la question de la redescription (ou de l'enrichissement) des données préalable au traitement automatique (voir l'HDR de François sur HAL).

J'accorde une importance particulière aux méthodes peu coûteuses en ressources et adaptées aux contextes multilingues. En particulier, je suis un fervent promoteur des analyses au grain caractère.

J'ai soutenu ma thèse de doctorat en informatique à l'Université de Caen le 16 octobre 2013. Ma thèse s'intitule "Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel". Cette thèse, encadrée par Nadine Lucas et Antoine Doucet, a pris la suite de mon stage de Master 2 effectué à l'Université d'Helsinki dans le cadre du projet PULS co-financé par l'Union Européenne. Parmi les contributions figure l'implantation de DANIEL, système de veille épidémiologique massivement multilingue qui couvre 53 langues à ce jour.

Parmi mes activités de recherche, j'organise le séminaire mensuel de Linguistique Computationnelle de STIH (consultez la page du séminaire) ainsi que le Coding Dojo de printemps consacré au Deep Learning featuring Alice Millour

Intérêts scientifiques

Les deux auteurs qui m'ont le plus marqué sont un linguiste (François Rastier) et un informaticien (Kenneth Church). Pour illustrer cet "héritage", deux citations : "le texte est pour une linguistique évoluée l'unité minimale [d'analyse]" (Rastier-2002) et "Anything you can do with words, we ought to be able to do with substrings" (Church-2009).

La problématique du multilinguisme en TAL est une tâche difficile mais captivante puisqu'il s'agit de chercher à traiter efficacement toutes les langues pour lesquelles des textes (et plus généralement des données) sont disponibles. A ce titre, je conseille fortement la lecture de l'ouvrage Net.lang Réussir le cyberspace multilingue qui offre un panorama complet de la question, depuis les aspects linguistiques et informatiques jusque dans les enjeux culturels, sociologiques et politiques. Enfin, pour illustrer la richesse de la question, considérons ce dialogue entre deux enfants extrait d'"Un Monde Sans Fin" de Ken Folett :

  • Combien crois-tu qu'il existe de langues?
  • Cinq!
  • Non, sérieusement! Il y a l'anglais, le français et le latin, ce qui fait déjà trois. Et puis il y a le florentin et le vénitien, qui sont différents mais possèdent des mots en commun.
  • Cinq, donc. Mais il y a aussi le flamand [...].
  • À ce compte là ajoutons alors le danois!
  • Les arabes aussi ont une langue bien à eux. Pour l'écrire ils utilisent d'autres lettres que nous!
  • Mère Cécilia assure que les barbares ont chacun leur langue et qu'ils ne savent même pas l'écrire. Les Écossais, les Gallois, les Irlandais et bien d'autres peuples, probablement. Ça nous en fait onze. Mais peut être y en a-t-il dont nous n'avons jamais entendu parler!

Un de mes autres domaines de recherche est la fouille de textes de manière générale, notamment par le biais d'une participation (presque) sans interruption depuis 2011 au Défi Fouille de Textes (DEFT).

Publications

Dans ce fichier bibtex figurent mes références bibliographiques : 71 publications dont 20 en tant que premier auteur et 32 en tant qu'auteur à contribution égale. 14 publications de rang A selon le classement CORE (dont 9 workshops et 1 revue), 5 de rang B (dont 1 en workshop) et 30 de rang C (dont 19 en workshop). S'y ajoutent 32 communications orales sans publication des actes (voir ici pour les détails)

    2022

  1. Contextualizing Emerging Trends in Financial News Articles Khoa Nguyen and Thierry Delahaut and Emanuela Boros and Gaël Lejeune and Antoine Doucet, Proceedings of the Symposium on Information and Communication Technology, p. to appear, Bib - Pdf
  2. Utilizing Keywords Evolution in Context for Emerging Trend Detection in Scientific Publications Khoa Nguyen and Thierry Delahaut and Emanuela Boros and Gaël Lejeune and Antoine Doucet, Proceedings of the Symposium on Information and Communication Technology, p. to appear, Bib -
  3. Adapting Transformers for Detecting Emergency Events on Social Media Emanuela Boros and Mickael Coustaty and Gaël Lejeune and Antoine Doucet, Proceedings of KDIR 2022, p. to appear, Bib -
  4. Assessing the Impact of OCR Noise on Multilingual Event Detection over Digitised Documents Emanuela Boros and Khoa Nguyen and Gaël Lejeune and Antoine Doucet, International Journal on Digital Libraries, à paraître, Bib - Pdf
  5. Vers une collection numérique des libelles parus pendant la fronde, ou comment relier des mazarinades Karine Abiven and Alexandre Bartz and Gaël Lejeune and Jean-Baptiste Tanguy, Le Verger, à paraître, Bib - Pdf
  6. Do we Name the Languages we Study? The \#BenderRule in LREC and ACL articles Fanny Ducel and Karën Fort and Gaël Lejeune and Yves Lepage, LREC 2022 - International Conference on Language Resources and Evaluation (LREC), à paraître, Bib - Pdf
  7. Stylo@DEFT2022 : Notation automatique de copies d’étudiant$ imes$e$ imes$s par combinaisons de méthodes de similarité Ibtihel Ben Ltaifa and Toufik Boubehziz and Andrea Briglia and Corina Chutaux and Yoann Dupont and Carlos-Emiliano González-Gallardo and Caroline Koudoro-Parfait and Gaël Lejeune, Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT), p. 11-22, Bib - Pdf
  8. Reconnaissance d’entités nommées sur des sorties OCR bruitées : des pistes pour la désambiguïsation morphologique automatique Caroline Koudoro-Parfait and Gaël Lejeune and Richy Buth, Traitement Automatique des Langues Naturelles, p. 45-55, Bib - Pdf
  9. Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources Stephen Mutuvi and Emanuela Boros and Antoine Doucet and Adam Jatowt and Gaël Lejeune and Moses Odeo, Traitement Automatique des Langues Naturelles (TALN 2022), p. 345-354, Bib - Pdf
  10. Langues “ par défaut ” ? Analyse contrastive et diachronique des langues non citées dans les articles de TALN et d’ACL Fanny Ducel and Karën Fort and Gaël Lejeune and Yves Lepage, RECITAL 2022 - Conférence sur le traitement automatique des langues naturelles (TALN), à paraître, Bib - Pdf
  11. Les innovations lexicales dans le domaine des énergies renouvelables : exploitation du contraste de corpus comme moyen de repérage Manuela Yapomo and Gaël Lejeune, Neologica, à paraître, Bib - Pdf
  12. 2021

  13. Spatial Named Entity Recognition in Literary Texts: What is the Influence of OCR Noise? Caroline Koudoro-Parfait and Gaël Lejeune and Glenn Roe, Association for Computing Machinery, p. 13-21, Bib - Pdf
  14. Multilingual Epidemic Event Extraction Mutuvi Steve and Boros Emanuela and Doucet Antoine and Lejeune Gaël and Jatowt Adam and Odeo Moses, 23rd International Conference on Asia-Pacific Digital Libraries ICADL 2021, Online, p. 139-156, Bib - Pdf
  15. Transformer-based Methods with \#Entities for Detecting Emergency Events on Social Media Emanuela Boros and Khoa Nguyen and Gaël Lejeune and Mickael Coustaty and Antoine Doucet, Zenodo, à paraître, Bib - Pdf
  16. Multilingual Epidemic event extraction : from simple classification methods to open information extraction (OIE) and Ontology Sahnoun Sihem and Lejeune Gaël, International Conference on Recent Advances in Natural Language Processing, 2021, Online, p. 1227-1233, Bib - Pdf
  17. Token-level Multilingual Epidemic Dataset for Event Extraction Mutuvi Steve and Boros Emanuela and Doucet Antoine and Lejeune Gaël and Jatowt Adam and Odeo Moses, 25th International Conference on Theory and Practice of Digital Libraries, TPDL 2021, Online, p. 55-59, Bib - Pdf
  18. Plans de Gestion de Données des projets membres du consortium CAHIER Laurene L’Hermite and Idmhand Fatiha and Stéphanie Dord-Crouslé and Karine Abiven and Gaël Lejeune and Alexandre Bartz and Emmanuelle Chapron and Michèle Brunet and Brigitte Gauvin and Thierry Buquet and Pierre-Yves Buard and Cécile Andisi-Brémont and Olivier Ritz and Paule Petitier and Christine Noille, CAHIER - Consortium CAHIER, p. 100 p., Bib - Pdf
  19. Des données au corpus : l’exploitation numérique des mazarinades Karine Abiven and Gaël Lejeune, in IDMHAND, Fatiha ; MARASESCU-GALLERON, Ioana (dir.), Dix ans de corpus d’auteurs., Editions des archives contemporaines, France, p. 181-192, Bib - Pdf
  20. QUEER@DEFT2021 : Identification du Profil Clinique de Patients et Notation Automatique de Copies d’Étudiants Yoann Dupont and Carlos-Emiliano González-Gallardo and Gaël Lejeune and Alice Millour and Jean-Baptiste Tanguy, DEFT@TALN/RECITAL 2021, p. 95-107, Bib - Pdf
  21. Étude comparative de méthodes de classification multilingue appliquées à l’épidémiologie Stephen Mutuvi and Emanuela Boros and Antoine Doucet and Adam Jatowt and Gaël Lejeune and Moses Odeo, Actes de la Conférence Francophone en Recherche d’Information et Application (CORIA), p. to appear, Bib - Pdf
  22. L3iLBPAM at the FinSim-2 task: Learning Financial Semantic Similarities with Siamese Transformers Nhu Khoa Nguyen and Emanuela Boros and Gaël Lejeune and Antoine Doucet and Thierry Delahaut, WWW ’21: The Web Conference 2021, à paraître (Workshop de WWW 2021 ; CORE A*), Bib - Pdf
  23. Sarcasm and Sentiment Detection in Arabic: investigating the interest of character-level features Dhaou Ghoul and Gaël Lejeune, Proceedings of the Sixth Arabic Natural Language Processing Workshop (WANLP 2021@EACL2021), p. 329-333 (Workshop de EACL 2021 ; CORE A), Bib - Pdf
  24. Daniel at the FinSBD-2 Task: Extracting List and Sentence Boundaries from PDF Documents, a model-driven approach to PDF document analysis Emmanuel Giguet and Gaël Lejeune, Proceedings of the Second Workshop on Financial Technology and Natural Language Processing, p. 67-74 (Workshop de IJCAI 2021 ; CORE A), Bib - Pdf
  25. 2020

  26. Impact Analysis of Document Digitization on Event Extraction Nhu Khoa Nguyen and Emanuela Boros and Gaël Lejeune and Antoine Doucet, Proceedings of the 4th Workshop on Natural Language for Artificial Intelligence (NL4AI), 19th International Conference of the Italian Association for Artificial Intelligence, p. 17-28 (Workshop de AI*AI; CORE B), Bib - Pdf
  27. Multilingual Epidemiological Text Classification: A Comparative Study Stephen Mutuvi and Emanuela Boros and Antoine Doucet and Adam Jatowt and Gaël Lejeune and Moses Odeo, Proceedings of the 28th International Conference on Computational Linguistics, p. 6172-6183 (CORE A), Bib - Pdf
  28. SinNer@Clef-Hipe2020 : Sinful adaptation of SotA models for Named Entity Recognition in French and German Pedro Javier Ortiz Suárez and Yoann Dupont and Gaël Lejeune and Tian Tian, CLEF 2020 Working Notes. Working Notes of CLEF 2020 - Conference and Labs of the Evaluation Forum, à paraître (3ème place du Défi), Bib - Pdf
  29. A Dataset for Multi-lingual Epidemiological Event Extraction Stephen Mutuvi and Antoine Doucet and Gaël Lejeune and Moses Odeo, Proceedings of the 12th Language Resources and Evaluation Conference, p. 4139-4144 (CORE C), Bib - Pdf
  30. Out-of-the-Box and into the Ditch? Multilingual Evaluation of Generic Text Extraction Tools Adrien Barbaresi and Gaël Lejeune, Proceedings of the 12th Web as Corpus Workshop, p. 5-13 (Workshop de LREC; CORE C), Bib - Pdf
  31. Dating Ancient texts: an Approach for Noisy French Documents Anaëlle Baledent and Nicolas Hiebel and Gaël Lejeune, Language Technologies for Historical and Ancient Languages (LT4HALA) @LREC2020, à paraître (Workshop de LREC; CORE C), Bib - Pdf
  32. Calcul de similarité entre phrases : quelles mesures et quels descripteurs ? Davide Buscaldi and Ghazi Felhi and Dhaou Ghoul and Joseph Le Roux and Gaël Lejeune and Xudong Zhang, DEFT@JEP/TALN/RECITAL 2020, p. 14-25 (2ème place sur deux tâches du défi), Bib - Pdf
  33. Bien choisir son outil d’extraction de contenu à partir du Web (Choosing the appropriate tool for Web Content Extraction ) Gaël Lejeune and Adrien Barbaresi, JEP/TALN/RECITAL 2020, p. 46-49 (CORE C), Bib - Pdf
  34. Que recèlent les données textuelles issues du web ? (What do text data from the Web have to hide ?) Adrien Barbaresi and Gaël Lejeune, JEP/TALN/RECITAL 2020, p. 19-28 (Workshop de TALN; CORE C), Bib - Pdf
  35. Daniel@FinTOC’2 Shared Task: Title Detection and Structure Extraction Gaël Lejeune Emmanuel Giguet and Jean-Baptiste Tanguy, 1st Joint Workshop on Financial Narrative Processing and MultiLing Financial Summarisation @COLING2020, p. to appear (Workshop de COLING; CORE A), Bib - Pdf
  36. Le défigement : approche hybride linguistique et informatique Lichao Zhu and Gaël Lejeune, De la variation dans les langues: universaux partagés et idiomaticité systématique, p. 325-336, Bib - Pdf
  37. Automatic Stylistic Analysis: a search for efficient and interpretable descriptors to characterize individual writing style Anaëlle Baledent and Gaël Lejeune, Phraséologie et stylistique de la langue littéraire / Phraseology and Stylistics of the Literary Language, p. 329-342, Bib - Pdf
  38. Comparison between Voting Classifier and Deep Learning methods for Arabic Dialect Identification Dhaou Ghoul and Gaël Lejeune, Proceedings of the Fifth Arabic Natural Language Processing Workshop (WANLP 2020 @COLING2020), à paraître (Workshop de COLING; CORE A), Bib - Pdf
  39. 2019

  40. Evaluating Lightweight text classification and Information Extraction for Arabic texts Dhaou Ghoul and Gaël Lejeune and Lichao Zhu, Computacion y Sistemas, p. to appear (CORE B), Bib -
  41. Indexation et appariements de documents cliniques pour le Deft 2019 Davide Buscaldi and Dhaou Ghoul and Joseph Le Roux and Gaël Lejeune, Atelier DEFT 2019, p. 49-56 (Workshop de TALN; CORE C), Bib - Pdf
  42. Daniel@FinTOC-2019 Shared Task : TOC Extraction and Title Detection Emmanuel Giguet and Gaël Lejeune, Proceedings of the Second Financial Narrative Processing Workshop (FNP 2019), p. 63-68 (1ère place sur la tâche d’extraction de Table des Matières), Bib - Pdf
  43. Analyse automatique de documents anciens : tirer parti d’un corpus incomplet, hétérogène et bruité Karine Abiven and Gaël Lejeune, Recherche d’information, document et web sémantique, à paraître, Bib - Pdf
  44. MICHAEL: Mining Character-level Patterns for Arabic Dialect Identification (MADAR Challenge) Dhaou Ghoul and Gaël Lejeune, Proceedings of the Fourth Arabic Natural Language Processing Workshop, p. 229-233 (Workshop de ACL; CORE A*), Bib - Pdf
  45. Digital ou Numérique : un phénomène d’emprunt au cœur de la start-up nation ? Lichao Zhu and Gaël Lejeune, Journées de Linguistique de Corpus (JLC) 2019, à paraître, Bib - Pdf
  46. 2018

  47. A New Proposal for Evaluating Web Page Cleaning Tools Gaël Lejeune and Lichao Zhu, Computacion y Sistemas, p. 1249-1258 (CORE B), Bib - Pdf
  48. Modèles en Caractères pour la Détection de Polarité dans les Tweets Davide Buscaldi and Joseph Le Roux and Gaël Lejeune, Atelier DEFT 2018, à paraître (1ère place sur la tâche de classification binaire; Workshop de TALN; CORE C), Bib - Pdf
  49. Analyse Diachronique de Corpus: le cas du poker Gaël Lejeune and Lichao Zhu, JADT, p. 444-451 (CORE C), Bib - Pdf
  50. 2017

  51. Character Based Pattern Mining for Neology Detection Lejeune Gaël and Cartier Emmanuel, Proceedings of Subword & Character Level Models in NLP (SCLeM), EMNLP 2017 Copenhagen, p. 25-30 (Workshop de EMNLP CORE A), Bib - Pdf
  52. TWEETANEUSE : Fouille de motifs en caractères et plongement lexical à l’assaut du DEFT 2017 Buscaldi Davide and Grezka Aude and Lejeune Gaël, Actes du 13e Défi Fouille de Texte, p. 65-76 (Workshop de TALN; CORE C), Bib - Pdf
  53. A System for Multilingual Online Neologism Tracking Kata Gábor Emmanuel Cartier and Thierry Charnois, Computacion y Sistemas, p. to appear (CORE B), Bib -
  54. 2016

  55. Highlighting Psychological Features for Predicting Child Interventions During Story Telling Gaël Lejeune and François Rioult and Bruno Crémilleux, INTERSPEECH 2016, à paraître (CORE A), Bib - Pdf
  56. Ambiguity Diagnosis for Terms in Digital Humanities Béatrice Daille and Evelyne Jacquey and Gaël Lejeune and Luis Felipe Melo and Yannick Toussaint, Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), à paraître (CORE C), Bib - Pdf
  57. 2015

  58. Multilingual event extraction for epidemic detection Gaël Lejeune and Romain Brixtel and Antoine Doucet and Nadine Lucas, Artificial Intelligence in Medicine, à paraître (CORE A), Bib - Pdf
  59. Une approche stylométrique pour la fouille d’opinion Gaël Lejeune and Frédéric Dumonceaux, Actes de la 11e Défi Fouille de Texte, p. 12-15 (Workshop de TALN; CORE C), Bib - Pdf
  60. Vers un diagnostic d’ambiguïté des termes candidats d’un texte Gaël Lejeune and Daille Béatrice, Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), p. 446-452 (CORE C), Bib - Pdf
  61. Évaluation intrinsèque et extrinsèque du nettoyage de pages Web Gaël Lejeune and Romain Brixtel and Charlotte Lecluze, Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), p. 411-417 (CORE C), Bib - Pdf
  62. Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales Romain Brixtel and Charlotte Lecluze and Gaël Lejeune, Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), p. 208-219 (CORE C), Bib - Pdf
  63. 2014

  64. DEFT 2014, analyse automatique de textes littéraires et scientifiques en langue française Charlotte Lecluze and Gaël Lejeune, Actes de DEFT 2014 : 10ème DÉfi Fouille de Textes, p. 11-19 (Workshop de TALN; CORE C), Bib - Pdf
  65. Apports de l’analyse automatique multilingue pour la veille épidémiologique Gaël Lejeune and Charlotte Lecluze and Romain Brixtel and Antoine Doucet, JADT, p. 297-308 (CORE C), Bib - Pdf
  66. 2013

  67. Added-value of automatic multilingual text analysis for epidemic surveillance Gaël Lejeune and Romain Brixtel and Charlotte Lecluze and Antoine Doucet and Nadine Lucas, Artificial Intelligence in Medicine (AIME), p. 284-294 (CORE A), Bib - Pdf
  68. Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel Gaël Lejeune, Université de Caen, , Bib - Pdf
  69. DEFT2013, une cuisine de caractères Gaël Lejeune and Charlotte Lecluze and Romain Brixtel, Actes de DEFT 2013 : 9e DÉfi Fouille de Textes, p. 29-36 (Workshop de TALN; CORE C), Bib - Pdf
  70. Any Language Early Detection of Epidemic Diseases from Web News Streams Romain Brixtel and Gaël Lejeune and Antoine Doucet and Nadine Lucas, International Conference on Healthcare Informatics (ICHI), p. 159-168 (Taux d’acceptation 22 %), Bib - Pdf
  71. Vers une approche rhétorique en TAL : application à la veille épidémiologique multilingue Brixtel Romain Durieux Christine and Lejeune Gaël, Des mots aux actes, p. 151-167, Bib - Pdf
  72. Détection de zones parallèles à l’intérieur de bi-documents pour l’alignement multilingue Charlotte Lecluze and Romain Brixtel and Loïs Rigouste and Emmanuel Giguet and Régis Clouard and Gaël Lejeune and Patrick Constant, Actes de la 20e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2013), p. 381-394 (CORE C), Bib - Pdf
  73. DAnIEL : Veille épidémiologique multilingue parcimonieuse (démonstration) Gaël Lejeune and Romain Brixtel and Charlotte Lecluze and Antoine Doucet and Nadine Lucas, TALN 2013, p. 787-788 (CORE C), Bib - Pdf
  74. 2012

  75. Détection de mots-clés par approches au grain caractère et au grain mot (Keywords extraction by repeated string analysis) \[in French\] Gaëlle Doualan and Mathieu Boucher and Romain Brixtel and Gaël Lejeune and Gaël Dias, JEP-TALN-RECITAL 2012, Atelier DEFT 2012: DÉfi Fouille de Textes, p. 41-48 (Workshop de TALN; CORE C), Bib - Pdf
  76. DAnIEL : Language Independent Character-Based News Surveillance Gaël Lejeune and Brixtel Romain and Doucet Antoine and Lucas Nadine, JapTAL 2012, p. 343-348, Bib - Pdf
  77. 2011

  78. Deft 2011: appariements de résumés et d’articles scientfiques fondés sur des distributions de chaînes de caractères Gaël Lejeune and Romain Brixtel and Emmanuel Giguet and Nadine Lucas, Proceedings of DEfi Fouille de Texte (DEFT’11), p. 53-64 (Workshop de TALN; CORE C), Bib - Pdf
  79. 2010

  80. Filtering news for epidemic surveillance: towards processing more languages with fewer resources Gaël Lejeune and Antoine Doucet and Roman Yangarber and Nadine Lucas, CLIA/COLING, p. 3-10 (Workshop de COLING; CORE A), Bib - Pdf
  81. Tentative d’Approche multilingue en Extraction d’Information Gaël Lejeune and Antoine Doucet and Nadine Lucas, JADT, p. 1259-1268 (CORE C), Bib - Pdf
  82. A Proposal for a Multilingual Epidemic Surveillance System Gaël Lejeune and Mohamed Hatmi and Antoine Doucet and Silja Huttunen and Nadine Lucas, User Centric Media, p. 343-348, Bib - Pdf
  83. 2009

  84. Structure patterns in Information Extraction:a multilingual solution? Gaël Lejeune, Advances in methods of Information and Communication TechnologyAMICT09, p. 105-111, Bib - Pdf

Communications sans publication des actes

    2018-2022

  1. "One (over-)fits for all ? Sur la robustesse des systèmes de TAL en contexte variationnel", Conférence invitée à la journée de l'axe Documents Apprentissage Connaissance de la fédération Normastic
  2. Approches de TAL pour les Humanités Numériques : la problématique de la variation, Conférence invitée à l'atelier " Données et discours géographiques en France au 18e siècle", Université de Chicago à Paris et projet GEODE)
  3. Des données au corpus : l'exploitation numérique des mazarinades, 10 ans du consortium CAHIER (lien), avec Karine Abiven
  4. Reconnaissance d’entités nommées spatiales dans des transcriptions OCR bruitées de textes littéraires, atelier SAGEO Humanités Numériques Spatialisées, avec Caroline Parfait, Motasem Alrahabi et Glenn Roe
  5. Discovering Spatial Relations in Literature: what is the influence of OCR noise?, conférence internationale News Eye avec C.Parfait, M.Alrahabi et G. Roe
  6. Quels observables linguistiques pour une observation outillée ? Expérimentations et réflexions sur le travail statistique sur corpus, atelier Recherches Linguistiques sur Corpus (axe transversal de l'équipe STIH)
  7. There ain't such thing as clean data, réflexions sur les données et les traces, Séminaire doctoral Question de méthodes et numérique pour les thèses en SHS, organisé par Virginie Julliard et Thomas Bottini, Sorbonne Université
  8. Quelles recherches lexicales sur des données océrisées non post-traitées ? Vers une stylométrie de l’écriture burlesque dans les “mazarinades” (1648-1653), séminaire "Les humanités numériques littéraires" de l'OBVIL, Karine Abiven, Gaël Lejeune, Jean-Baptiste Tanguy
  9. Linguistique + Informatique = TAL ?, Séminaire à l'école Polytechnique, Orsay
  10. Comparaisons et combinaisons d'extracteurs d'entités spatiales sur un corpus multilingue, présentation à l'atelier Humanités Numériques Spatialisées Zijian Wang, Gaël Lejeune, Yoann Dupont et Tian Tian
  11. Traiter automatiquement les données textuelles dans le contexte des Humanités, séminaire de la licence Humanités Numériques (UFR HSS), Université de Caen
  12. Sociologie de l'Informatique, Informatique de la Sociologie : Analyse des titres de thèse de Sociologie, avec Hugo Jeaningros (Sorbonne Université), JE SIBON, Paris 2020
  13. Observables in an NLP pipeline : Virtues and Flaws of the reductionist approach, Methoden zur Zusammenstellung und Erschließung von Korpusdaten, Académie des Sciences (BBAW), Berlin
  14. Linguistique + Informatique = TAL ?, Séminaire à l'école Polytechnique, Orsay
  15. Illusions Artificielles et Réelles Impostures, conférence invitée Les Discours de l'Imposture 19/06/2019 (TTN, Université Paris XIII)
  16. Traiter par le TAL un ensemble de textes redondant, hétérogène et bruité : autour du projet AnTOnoMAZ , Circulation des écrits littéraires de la première modernité & humanités numériques 05/06/2019 (ENS ULM), avec Karine Abiven
  17. Analyse stylistique de textes littéraires, Séminaire du Labex OBVIL, Paris, 5 avril 2019
  18. Analyse stylistique automatique : à la recherche d'indices efficaces et pertinents pour caractériser le style de Dumas, Phraseorom, avec Anaëlle Baledent, Phraseorom 2019, Erlangen, Allemagne
  19. Caractérisation de marqueurs de relations par classification non supervisée, Lexique Terminologie Traduction (LTT), avec Luce Lefeuvre, Grenoble, 27 septembre 2018
  20. Analyse Automatique des Mazarinades : tirer profit d'un corpus bruité, Atelier ADOC, 28 mai 2018 (avec Karine Abiven)
  21. Veille épidémiologique, réagir à temps grâce à la couverture multilingue, Jeudis de Santé Publique France, 24 mai 2018

    2013-2017

  22. Découverte automatique multilingue de néologismes dans la presse en ligne, Présentation au CMT (Congrès Mondial de Traductologie), Nanterre, 12 avril 2017
  23. Figement et Créativité Computationnelle, Présentation au CMT (Congrès Mondial de Traductologie), Nanterre, 12 avril 2017
  24. Intrinsic and Extrinsic Evalution of Web Page Cleaning, Présentation à ISWAG (International Symposium on Web Algorithms), Deauville, 9 juin 2016
  25. La linguistique pour le TAL : au service de la simplexité ?, Présentation invitée à la journée d'études "Linguistique et Complexité", Lilpa -- Université de Strasbourg, 13 novembre 2015
  26. Méthodes robustes et parcimonieuses pour l’analyse des données textuelles, séminaire L3I, La Rochelle, 26 mars 2015
  27. Approche du TAL fondée sur le genre textuel, séminaire ATAL, Nantes, 21 octobre 2014
  28. Multilingual Epidemic Surveillance: a parsimonious character-based approach, séminaire de la société My Script, Nantes, 28 août 2014
  29. Multilingual Epidemic News Surveillance: covering the earth for timely alerts, Avec Antoine Doucet, conférence invitée au Festival International de la Science (Vetenskapsfestivalen) 2014 "Act, React, Interact", Göteborg, 9 mai 2014 Flyer

    2009-2012

  30. Propositions pour une fouille de texte collaborative spécialisée dans le domaine des arts, avec Emmanuel Zwenger, Communication aux journées d'études du Bulletin Signalétique des Arts Plastiques (BSAP), Ecole Nationale Supérieure des Beaux Arts de Lyon, février 2012
  31. Pour une approche cibliste en TAL: le cas de l'analyse automatique de la presse, avec Christine Durieux, communication au Colloque International Rhétorique et Traduction, Orléans janvier 2012
  32. Ce que le texte peut dire au TAL, Communication aux journées scientifiques du CRISCO Ce que le texte fait à la phrase, Caen, décembre 2009 bibtex Pdf

Thèse : Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel

Téléchargez ici le manuscrit ou le fichier bibtex

Thèse soutenue le 16 octobre 2013 devant un jury composé de :

  • ... non crédités au générique mais décisifs tout au long de cette thèse, mes associés Romain Brixtel et Charlotte Lecluze. Big Up dudes

Cette thèse propose une méthodologie pour traiter le problème du multilinguisme dans le cadre de tâches de classification et de recherche d'information. L'idée de base de notre travail est de définir une approche aussi peu dépendante des langues que possible de manière à faciliter la factorisation et ainsi l'extension du système à de nouvelles langues. En effet, les systèmes combinant Recherche d'Information et Extraction d'Information (EI) ont cruellement besoin de filtrer de grandes quantités de données dans un grand nombre de langues (voir par exemple Medisys).

Les systèmes classiques d'EI ne permettent pas à l'heure actuelle de faire face à ces enjeux du fait de leur dépendance à des outils (lemmatiseurs, analyseurs syntaxiques...) et autres ressources lexicales complexes (dictionnaires, ontologies...). Certaines langues peu dotées en ressources sont par la force des choses laissées de côté. Notre approche vise à combler ces manques. Elle a abouti à la conception de Daniel, notre système de veille épidémiologique multilingue . À ce jour, Daniel (Data Analysis for Information Extraction in any Language) a été testé, avec succès, sur 17 langues dont le chinois, le finnois et l'arabe.

Le développement de Daniel, système d'Extraction d'Information Multilingue, vise à combler ces manques. Il utilise les propriétés du genre journalistique et se base sur une analyse au grain caractère. De cette façon l'extension de Daniel vers de nouvelles langues se fait à coût marginal minimal.

Nous avons expérimenté cette approche sur d'autres tâches dans le cadre des Défis Fouille de Texte (DEFT) 2011 et 2012. En 2011 dans la tâche d'appariement de résumés et d'articles scientifiques nous avons atteint la première place ex-aequo. En 2012 dans la tâche d'extraction de mots-clés nous avons atteint la troisième place.

Enfin, en utilisant Daniel nous avons pu évaluer par la tâche des outils de nettoyage de page web. L'idée de ces expériences est de voir comment la qualité de ce nettoyage, que nous nommons "détourage", influence les résultats du système placé en aval.

Parcours professionnel

  • 2017-... : Maître de Conférences en Informatique (Sorbonne Université) au sein du laboratoire STIH
  • 2016-2017 : post-doctorant au LIPN (Paris XIII), "Détection Automatique de Néologismes"
  • 2015-2016 : post-doctorant au GREYC (Caen), "Event prediction for dialogue modelling"
  • 2014-2015 : ATER à l'Université de Nantes (Faculté des Sciences)
  • 2013-2014 : ATER à l'IUT de Cherbourg (Antenne de Saint-Lô, département MMI)
  • 2010-2013 : Doctorant au GREYC (Caen, Bourse ministérielle)
  • 2009-2010 : Ingénieur de recherche GREYC (Caen), "Veille Multilingue"
  • 2009 : Ingénieur de recherche Computer Science Dpt. (Helsinki), "PULS Project"
  • En dehors de la recherche en informatique:
    • 2005 à 2010, Prof particulier en Lettres, Mathématiques et méthodologie (collège, lycée)
    • 2002 à 2009, Surveillant d'Externat, Académie de Caen
    • 2006 et 2007, Directeur adjoint logistique en CLSH, Ligue de l'enseignement
    • 2000 à 2007, Initiateur et entraineur du jeu d'échecs, Club d'échecs Caen Alekhine
    • 1997 à 2008, Expertises sur lignes téléphoniques, CBS puis Rea-Immo

Perso

Programmation

Je suis un Pythoniste assidu même s'il peut m'arriver de concevoir des projets en PHP ou Javascript.

Bouquins

Un peu de tout, de l'utilitaire (sciences, chroniques historiques, essais,...) au superfétatoire (Anticipation, Héroïc Fantasy...)

Les échecs

Mon principal fait d'armes est d'avoir empoché avec mon collègue Dr. Romain Brixtel et deux acolytes nord-cotentinois le tournoi national des Universités et grandes écoles 2006 au nez et à la barbe d'HEC, Polytechnique, Centrale, Dauphine, Sciences Po...

Small world

Carlsen Number5
Morphy number5
Kasparov number4
Erdös number 5
Bacon Number 3
Pelé Number (invention?)4