Gaël Lejeune, Maître de Conférences HDR en Informatique

UFR de Sociologie et d'Informatique, laboratoire STIH, Sorbonne Université

Projet Antonomaz Séminaire de Linguistique Computationnelle Unité CERES

Actualités

  • à venir : Créativité Textuelle Computationnelle : nouveautés et redites, plagiats et réminiscences. Colloque Générativité & Créativité (F. Neveu et M. Fasciolo)
  • 25/01/24 : Journée d'études "Frugalité en TAL", Amphithéâtre Molinié, Organisation Caio Corro et Gaël Lejeune
  • 18/01/24 : Séminaire Variation Linguistique et Linguistique COmputationnelle: Détection de la Dépression dans des textes (G. Dias) & Rôle de la sémantique morpho-dispositionnelle pour la compréhension active et non visuelle des documents numériques (F. Maurel)
  • 18/12/23 : Soutenance d'HDR, 14h30 Amphi Molinié De la variation linguistique et de son influence sur l’application de méthodes de Traitement Automatique des Langues
  • 13/09/23 : Journée Humanités Numériques à Mexico (UNAM, SCAI, CERES)
  • 29/06/23 : Hackathon CERES (aka Mare-à-données)
  • 05/06/23 : Co-organisation de TALN 2023 aux Cordeliers (Sorbonne Université)
  • 25/05/23 : Jury Fleurs d'éloquence à la BNF (Lien)
  • 25/04/23 : "Reconnaissance de défigements dans des tweets en français par des mesures de similarité sur des alignements textuels" article accepté à TALN/CORIA 2023, avec Julien Bezançon
  • 19/04/23 : "Analyzing the Impact of Tokenization on Multilingual Epidemic Surveillance in Low-resource Languages" article accepté à ICDAR 2023 (CORE A), avec Stephen Mutuvi, Emanuela Boros, Antoine Doucet, Adam Jatowt, et Moses Odeo
  • 08/02/23 : Intervention à la table ronde des Jeunes Avocats de Paris sur le thème de ChatGPT (lien LinkedIn)
  • 27/01/23 : Appel : Revue TAL, Robustesse et limites des modèles de traitement automatique des langues, rédacteurs en chef : C.Corro, G.lejeune, V.Niculae (deadline 12/05/2023). Site de Soumission

Enseignements

Mes supports 2021-2022 sont en ligne sur le moodle Sorbonne Université. Je suis responsable des cours suivants :

2022-2023 Sorbonne Université
L1 Sciences du Langage (S1)Epistémologie
L3 Sciences du Langage (S1)Programmation de Modèles Linguistiques I (Python)
Licence 1 (S2)PIX
L2 Sciences du Langage (S2)Ingénierie de la Langue
Master 1 Langue et Informatique (S2)Dictionnaires et Néologie
Master 2 Langue et Informatique (S2)Terminologie et Stylométrie

- Mes expériences antérieures d'enseignement

Encadrement Doctoral

  • Depuis octobre 2023, Iglika Nikolova-Stoupak(co-encadrement 50% avec Eva Schaeffer-Lacroix) : "Production de versions abrégées de textes littéraires : une approche multilingue"
  • Depuis septembre 2022, Julien Bezançon(co-encadrement 33% avec Antoine Gautier et Gilles Siouffi) : "Détection et production de défigements linguistiques dans les réseaux sociaux assistées par les sciences participatives : fertilisation croisée entre traitement informatique et analyse linguistique"
  • Depuis octobre 2020, Caroline Parfait (co-encadrement 33% avec Motasem Alrahabi et Glenn Roe) : "Literary space analysis: Machine learning and evaluation of recognition systems of named entities" (Thèse Sorbonne Center for Artificial Intelligence)
  • Jean-Baptiste Tanguy (co-encadrement 33% avec Karine Abiven et Glenn Roe) : "L’accessibilité et l’exploitation des documents textuels numérisés" (Thèse Région Ile de France), thèse soutenue le 16 septembre 2022
  • Steve Mutuvi (dirigé par Antoine Doucet et MOses Odeo) : "Epidemic Event Extraction in Multilingual and Low-resource Settings", soutenue le 21 novembre 2022
  • Khoa Nguyen à la Banque Postale (dirigé par Antoine Doucet et Thierry Delahaut) : "Emerging Theme Detection from Reliable News Articles" (Thèse CIFRE La Banque Postale), soutenue le 27 février 2023

Mes encadrements de stages, projets et mémoires sont recensés Ici

Responsabilités

  • Au sein de Sorbonne Université
    • Directeur adjoint de l'Unité de Services CERES (Centre d'Expérimentation en méthodes numériques pour les Recherches en SHS)
    • Directeur adjoint de l'UFR de Sociologie et d'Informatique pour les Sciences Humaines
    • Référent égalité pour l'UFR de Sociologie et d'Informatique pour les Sciences Humaines
    • Membre du Conseil de la Faculté des Lettres de Sorbonne Université
    • Organisateur du Séminaire de l'équipe de Linguistique Computationnelle de Sorbonne Université
    • Anciennement :
      • Directeur des études de la Licence Sciences du Langage (2018-2022)
      • Chargé des admissions E-candidat, Campus France et ParcourSup pour la licence (2019-2022)
  • Hors Sorbonne Université
    • Membre élu du CA de l'ATALA
    • Membre du comité de rédaction du Bulletin de l'AFIA (rédacteur des bulletins 113 et 117)
    • Membre de l'Action Prospective Humanités Numériques Spatialisées du GDR Magis
    • Membre des Comité de Sélection MCF 441 (2019, Sorbonne Université/STIH) et MCF 158 (2021, Université Paris X/Modyco)
    • Membre de deux comités de recrutement du Labex Empirical Foundation of Linguistics
    • Anciennement :
      • Membre du directoire du DIM Sciences du Texte et Connaissances Nouvelles (2019-2022)

Comités de Programme

    • Association for Computational Linguistics : ACL (2017-), EMNLP (2018-), NAACL (2019-), IJCNLP (2020), EACL (2021)
    • LREC (2016-), COLING (2018-), AAAI (2019-), CORIA (2024), NUSE (2020), ICADL(2020), CLEF (2020), KDD (2016), Discovery Science (2016)
    • Natural Language Engineering (NLE) journal 2022
    • Revue Traitement Automatique des Langues (TAL) 2022
    • International Journal on Digital Libraries (IJDL) 2021
    • Revue d'Histoire des Mathématiques (RHM) 2021
    • Knowledge and Information Systems Journal (KAIS) 2021
    • Journal of the Association for Information Science and Technology (JASIST) 2020
    • Information Processing and Management (IPM) 2018
    • Artificial Intelligence in Medicine (AIIM) 2017
    • Transactions on Asian and Low-Resource Language Information Processing (TALLIP) 2017
  • Comité Scientifique : De l'épistémologie de la recherche à la méthodologie de la thèse (LILPA, Université de Strasbourg)
  • Comité d'organisation : JE TAL Frugal 2024, TALN 2023, RobusTAL (Robustesse des systèmes de TAL), 2022, 1er Congrès Mondial de Traductologie 2017
  • Présidence de Session : JADT (2014), DEFT (2015), CMT (2017)

Situation

Affilié au laboratoire Sens Texte informatique Histoire (STIH), je suis également membre de l'équipe-projet SCAI/OBTIC et membre fondateur de l'Unité de Service CERES

Depuis septembre 2017 je suis Maître de Conférences à Sorbonne Université. Entre Janvier et Août 2017 j'ai été post-doctorant au LIPN (Université Paris XIII) au sein de l'équipe RCLN sur le thème de la recherche de néologismes. En 2015-2016, j'étais post-doctorant dans l'équipe COnstraints DAta Mining Graphes (CODAG), sur le thème "Event prediction for dialogue modelling" du projet ANR NARECA. Auparavant j'ai été ATER à l'IUT Cherbourg-Manche (2013-2014) et à la faculté des Sciences de Nantes (2014-2015).

Mes travaux portent principalement sur la question de la variation dans les données. La variation peut prendre différentes formes: la langue (multilinguisme), le genre de texte, le bruitage (par exemple pour des données issues d'OCR ou de Web Scraping) et enfin la variation dans les tâches traitées. La question centrale de mes recherches a longtemps été de savoir comment traiter des données multilingues: traiter langue par langue ou trouver une approche plus large (notamment via des universaux de la langue). Mon travail sur la veille épidémiologique et sur l'analyse d'articles scientifiques (avec Béatrice Daille notamment) me font penser que traiter la variation en genre peut être une réponse aux problèmes posés par la variation en langue, les propriétés du genre textuel constituant des invariants fiables. La question du bruitage dans les données textuelles est venue plus tard, à travers des travaux sur l'extraction de contenu à partir du web (avec Romain Brixtel, Charlotte Lecluze, Adrien Barbaresi, Emmanuel Giguet et Lichao Zhu) puis sur le traitement de documents PDF (Emmanuel Giguet, Karine Abiven et Jean-Baptiste Tanguy).

Mes interrogations sur les tâches traitées en TAL m'ont amené à élargir mes objets de recherche : classification de documents, détection automatique de néologismes, datation de documents, extraction de structure et stylométrie au sens large. J'ai également travaillé avec François Rioult sur la modélisation des interactions langagières dans les dialogues adultes-enfants, où l'on s'est posé la question de la redescription (ou de l'enrichissement) des données préalable au traitement automatique (voir l'HDR de François sur HAL).

J'accorde une importance particulière aux méthodes peu coûteuses en ressources et adaptées aux contextes multilingues. En particulier, je suis un fervent promoteur des analyses au grain caractère.

J'ai soutenu ma thèse de doctorat en informatique à l'Université de Caen le 16 octobre 2013. Ma thèse s'intitule "Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel". Cette thèse, encadrée par Nadine Lucas et Antoine Doucet, a pris la suite de mon stage de Master 2 effectué à l'Université d'Helsinki dans le cadre du projet PULS co-financé par l'Union Européenne. Parmi les contributions figure l'implantation de DANIEL, système de veille épidémiologique massivement multilingue qui couvre 53 langues à ce jour.

Parmi mes activités de recherche, j'organise le séminaire mensuel de Linguistique Computationnelle de STIH (consultez la page du séminaire) ainsi que le Coding Dojo de printemps consacré au Deep Learning featuring Alice Millour

Intérêts scientifiques

Les deux auteurs qui m'ont le plus marqué sont un linguiste (François Rastier) et un informaticien (Kenneth Church). Pour illustrer cet "héritage", deux citations : "le texte est pour une linguistique évoluée l'unité minimale [d'analyse]" (Rastier-2002) et "Anything you can do with words, we ought to be able to do with substrings" (Church-2009).

La problématique du multilinguisme en TAL est une tâche difficile mais captivante puisqu'il s'agit de chercher à traiter efficacement toutes les langues pour lesquelles des textes (et plus généralement des données) sont disponibles. A ce titre, je conseille fortement la lecture de l'ouvrage Net.lang Réussir le cyberspace multilingue qui offre un panorama complet de la question, depuis les aspects linguistiques et informatiques jusque dans les enjeux culturels, sociologiques et politiques. Enfin, pour illustrer la richesse de la question, considérons ce dialogue entre deux enfants extrait d'"Un Monde Sans Fin" de Ken Folett :

  • Combien crois-tu qu'il existe de langues?
  • Cinq!
  • Non, sérieusement! Il y a l'anglais, le français et le latin, ce qui fait déjà trois. Et puis il y a le florentin et le vénitien, qui sont différents mais possèdent des mots en commun.
  • Cinq, donc. Mais il y a aussi le flamand [...].
  • À ce compte là ajoutons alors le danois!
  • Les arabes aussi ont une langue bien à eux. Pour l'écrire ils utilisent d'autres lettres que nous!
  • Mère Cécilia assure que les barbares ont chacun leur langue et qu'ils ne savent même pas l'écrire. Les Écossais, les Gallois, les Irlandais et bien d'autres peuples, probablement. Ça nous en fait onze. Mais peut être y en a-t-il dont nous n'avons jamais entendu parler!

Un de mes autres domaines de recherche est la fouille de textes de manière générale, notamment par le biais d'une participation (presque) sans interruption depuis 2011 au Défi Fouille de Textes (DEFT).

Publications

Dans ce fichier bibtex figurent mes références bibliographiques : 75 publications dont 20 en tant que premier auteur et 36 en tant qu'auteur à contribution égale. 16 publications de rang A selon le classement CORE (dont 10 workshops et 1 revue), 3 de rang B (dont 1 en workshop) et 32 de rang C (dont 20 en workshop). S'y ajoutent 32 communications orales sans publication des actes (voir ici pour les détails)

    2023

  1. Analyzing the impact of tokenization on multilingual epidemic surveillance in low-resource languages Stephen Mutuvi and Emanuela Boros and Antoine Doucet and Adam Jatowt and Gaël Lejeune and Moses Odeo, Proceedings of icdar 2023, p. to appear, Bib -
  2. Reconnaissance de défigements dans des tweets en français par des mesures de similarité sur des alignements textuels Julien Bezançon and Gaël Lejeune, 18e Conférence en Recherche d’Information et Applications – 16e Rencontres Jeunes Chercheurs en RI – 30e Conférence sur le Traitement Automatique des Langues Naturelles – 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, p. 56-67, Bib - Pdf
  3. SPQR@Deft2023: Résolution automatique de QCM médicaux à partir de corpus de domaine et de mesures de similarité Julien Bezançon and Toufik Boubehziz and Corina Chutaux and Oumaima Zine and Laurie Acensio and Caroline Koudoro-Parfait and Andrea Briglia and Gaël Lejeune, Actes du Défi Fouille de Textes@TALN2023, p. https://coria-taln-2023.sciencesconf.org/data/proceedings\_DEFT.pdf, Bib - Pdf
  4. Mapping spatial named entities from noisy OCR output: Epimethee from OCR to map Caroline Koudoro-Parfait and Motasem Alrahabi and Yoann Dupont and Gaël Lejeune and Glenn Roe, Digital Humanities Conference (DH), p. to appear, Bib -
  5. 2022

  6. Contextualizing emerging trends in financial news articles Khoa Nguyen and Thierry Delahaut and Emanuela Boros and Gaël Lejeune and Antoine Doucet, Financial nlp, workshop d’EMNLP 2022, p. to appear, Bib - Pdf
  7. Utilizing keywords evolution in context for emerging trend detection in scientific publications Khoa Nguyen and Thierry Delahaut and Emanuela Boros and Gaël Lejeune and Antoine Doucet, Proceedings of the symposium on information and communication technology, p. 247-253, Bib -
  8. Adapting transformers for detecting emergency events on social media Emanuela Boros and Mickael Coustaty and Gaël Lejeune and Antoine Doucet, Proceedings of kdir 2022, p. 300-306, Bib -
  9. Assessing the Impact of OCR Noise on Multilingual Event Detection over Digitised Documents Emanuela Boros and Khoa Nguyen and Gaël Lejeune and Antoine Doucet, International Journal on Digital Libraries, p. 241-266, Bib - Pdf
  10. Vers une collection numérique des libelles parus pendant la fronde, ou comment relier des mazarinades Karine Abiven and Alexandre Bartz and Gaël Lejeune and Jean-Baptiste Tanguy, Le Verger, à paraître, Bib - Pdf
  11. Do we Name the Languages we Study? The \#BenderRule in LREC and ACL articles Fanny Ducel and Karën Fort and Gaël Lejeune and Yves Lepage, LREC 2022 - International Conference on Language Resources and Evaluation (LREC), à paraître, Bib - Pdf
  12. Stylo@DEFT2022 : Notation automatique de copies d’étudiant$ imes$e$ imes$s par combinaisons de méthodes de similarité Ibtihel Ben Ltaifa and Toufik Boubehziz and Andrea Briglia and Corina Chutaux and Yoann Dupont and Carlos-Emiliano González-Gallardo and Caroline Koudoro-Parfait and Gaël Lejeune, Actes de la 29e Conférence TALN. Atelier DÉfi Fouille de Textes (DEFT), p. 11-22, Bib - Pdf
  13. Reconnaissance d’entités nommées sur des sorties OCR bruitées : des pistes pour la désambiguïsation morphologique automatique Caroline Koudoro-Parfait and Gaël Lejeune and Richy Buth, Actes de la 29e Conférence TALN, Atelier Humanités Numériques, p. 45-55, Bib - Pdf
  14. Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources Stephen Mutuvi and Emanuela Boros and Antoine Doucet and Adam Jatowt and Gaël Lejeune and Moses Odeo, Traitement Automatique des Langues Naturelles (TALN 2022), p. 345-354, Bib - Pdf
  15. Langues par défaut? Analyse contrastive et diachronique des langues non citées dans les articles de TALN et ACL Fanny Ducel and Karën Fort and Gaël Lejeune and Yves Lepage, RECITAL 2022 - Conférence sur le traitement automatique des langues naturelles (TALN), à paraître, Bib - Pdf
  16. Les innovations lexicales dans le domaine des énergies renouvelables : exploitation du contraste de corpus comme moyen de repérage Manuela Yapomo and Gaël Lejeune, Neologica, à paraître, Bib - Pdf
  17. 2021

  18. Spatial named entity recognition in literary texts: What is the influence of ocr noise? Caroline Koudoro-Parfait and Gaël Lejeune and Glenn Roe, Association for Computing Machinery, p. 13-21, Bib - Pdf
  19. Multilingual epidemic event extraction Mutuvi Steve and Boros Emanuela and Doucet Antoine and Lejeune Gaël and Jatowt Adam and Odeo Moses, 23rd international conference on asia-pacific digital libraries ICADL 2021, online, p. 139-156, Bib - Pdf
  20. Transformer-based Methods with \#Entities for Detecting Emergency Events on Social Media Emanuela Boros and Khoa Nguyen and Gaël Lejeune and Mickael Coustaty and Antoine Doucet, Text REtrieval Conference (TREC), à paraître, Bib - Pdf
  21. Multilingual epidemic event extraction : From simple classification methods to open information extraction (oie) and ontology Sahnoun Sihem and Lejeune Gaël, International conference on recent advances in natural language processing, 2021, online, p. 1227-1233, Bib - Pdf
  22. Token-level multilingual epidemic dataset for event extraction Mutuvi Steve and Boros Emanuela and Doucet Antoine and Lejeune Gaël and Jatowt Adam and Odeo Moses, 25th international conference on theory and practice of digital libraries, TPDL 2021, p. 55-59, Bib - Pdf
  23. Plans de Gestion de Données des projets membres du consortium CAHIER Laurene L’Hermite and Idmhand Fatiha and Stéphanie Dord-Crouslé and Karine Abiven and Gaël Lejeune and Alexandre Bartz and Emmanuelle Chapron and Michèle Brunet and Brigitte Gauvin and Thierry Buquet and Pierre-Yves Buard and Cécile Andisi-Brémont and Olivier Ritz and Paule Petitier and Christine Noille, CAHIER - Consortium CAHIER, p. 100 p., Bib - Pdf
  24. Des données au corpus : l’exploitation numérique des mazarinades Karine Abiven and Gaël Lejeune, Idmhand, Fatiha, Marasescu-Galleron Ioana (dir.), Dix ans de corpus d’auteurs, p. 181-192, Bib - Pdf
  25. Identification du Profil Clinique de Patients et Notation Automatique de Copies d’Étudiants Yoann Dupont and Carlos-Emiliano González-Gallardo and Gaël Lejeune and Alice Millour and Jean-Baptiste Tanguy, DEFT@TALN/recital 2021, p. 95-107, Bib - Pdf
  26. Étude comparative de méthodes de classification multilingue appliquées à l’épidémiologie Stephen Mutuvi and Emanuela Boros and Antoine Doucet and Adam Jatowt and Gaël Lejeune and Moses Odeo, Actes de la conférence francophone en recherche d’Information et application (coria), p. to appear, Bib - Pdf
  27. L3iLBPAM at the FinSim-2 task: Learning Financial Semantic Similarities with Siamese Transformers Nhu Khoa Nguyen and Emanuela Boros and Gaël Lejeune and Antoine Doucet and Thierry Delahaut, WWW ’21: The Web Conference 2021, à paraître (Workshop de WWW 2021 ; CORE A*), Bib - Pdf
  28. Sarcasm and Sentiment Detection in Arabic: investigating the interest of character-level features Dhaou Ghoul and Gaël Lejeune, Sixth Arabic Natural Language Processing Workshop (@EACL2021), p. 329-333 (Workshop de EACL 2021 ; CORE A), Bib - Pdf
  29. Daniel at the FinSBD-2 task: Extracting list and sentence boundaries from PDF documents, a model-driven approach to PDF document analysis Emmanuel Giguet and Gaël Lejeune, Proceedings of the second workshop on financial technology and nlp, p. 67-74 (Workshop de IJCAI 2021 ; CORE A), Bib - Pdf
  30. 2020

  31. Impact analysis of document digitization on event extraction Nhu Khoa Nguyen and Emanuela Boros and Gaël Lejeune and Antoine Doucet, 4th workshop on natural language for artificial intelligence (nl4ai), italian association for ai, p. 17-28 (Workshop de AI*AI; CORE B), Bib - Pdf
  32. Multilingual epidemiological text classification: A comparative study Stephen Mutuvi and Emanuela Boros and Antoine Doucet and Adam Jatowt and Gaël Lejeune and Moses Odeo, Proceedings of the 28th international conference on computational linguistics, p. 6172-6183 (CORE A), Bib - Pdf
  33. SinNer@Clef-Hipe2020 : Sinful adaptation of SotA models for Named Entity Recognition in French and German Pedro Javier Ortiz Suárez and Yoann Dupont and Gaël Lejeune and Tian Tian, CLEF 2020 Working Notes. Working Notes of CLEF 2020 - Conference and Labs of the Evaluation Forum, à paraître (3ème place du Défi), Bib - Pdf
  34. A dataset for multi-lingual epidemiological event extraction Stephen Mutuvi and Antoine Doucet and Gaël Lejeune and Moses Odeo, Proceedings of the 12th language resources and evaluation conference, p. 4139-4144 (CORE C), Bib - Pdf
  35. Out-of-the-box and into the ditch? Multilingual evaluation of generic text extraction tools Adrien Barbaresi and Gaël Lejeune, Proceedings of the 12th web as corpus workshop, p. 5-13 (Workshop de LREC; CORE C), Bib - Pdf
  36. Dating Ancient texts: an Approach for Noisy French Documents Anaëlle Baledent and Nicolas Hiebel and Gaël Lejeune, Language technologies for historical and ancient languages (lt4hala) @lrec2020, à paraître (Workshop de LREC; CORE C), Bib - Pdf
  37. Calcul de similarité entre phrases : quelles mesures et quels descripteurs ? Davide Buscaldi and Ghazi Felhi and Dhaou Ghoul and Joseph Le Roux and Gaël Lejeune and Xudong Zhang, DEFT@JEP/taln/recital 2020, p. 14-25 (2ème place sur deux tâches du défi), Bib - Pdf
  38. Bien choisir son outil d’extraction de contenu à partir du web Gaël Lejeune and Adrien Barbaresi, JEP/taln/recital 2020, p. 46-49 (CORE C), Bib - Pdf
  39. Que recèlent les données textuelles issues du web ? Adrien Barbaresi and Gaël Lejeune, JEP/taln/recital 2020, p. 19-28 (Workshop de TALN; CORE C), Bib - Pdf
  40. Daniel@FinTOC’2 shared task: Title detection and structure extraction Gaël Lejeune Emmanuel Giguet and Jean-Baptiste Tanguy, Workshop on financial narrative processing and multiling financial summarisation @coling2020, p. 174-180 (Workshop de COLING; CORE A), Bib - Pdf
  41. Le défigement : Approche hybride linguistique et informatique Lichao Zhu and Gaël Lejeune, De la variation dans les langues: Universaux partagés et idiomaticité systématique, p. 325-336, Bib - Pdf
  42. Automatic Stylistic Analysis: a search for efficient and interpretable descriptors to characterize individual writing style Anaëlle Baledent and Gaël Lejeune, Phraséologie et stylistique de la langue littéraire / Phraseology and Stylistics of the Literary Language, p. 329-342, Bib - Pdf
  43. Comparison between Voting Classifier and Deep Learning methods for Arabic Dialect Identification Dhaou Ghoul and Gaël Lejeune, Fifth Arabic Natural Language Processing Workshop (@COLING2020), p. 243-249 (Workshop de COLING; CORE A), Bib - Pdf
  44. 2019

  45. Evaluating lightweight text classification and information extraction for arabic texts Dhaou Ghoul and Gaël Lejeune and Lichao Zhu, Research in Computing Science, p. 43-55 (CORE B), Bib -
  46. Indexation et appariements de documents cliniques pour le Deft 2019 Davide Buscaldi and Dhaou Ghoul and Joseph Le Roux and Gaël Lejeune, Atelier DEFT 2019, p. 49-56 (Workshop de TALN; CORE C), Bib - Pdf
  47. Daniel@FinTOC-2019 shared task : TOC extraction and title detection Emmanuel Giguet and Gaël Lejeune, Proceedings of the second financial narrative processing workshop (fnp 2019), p. 63-68 (1ère place sur la tâche d’extraction de Table des Matières), Bib - Pdf
  48. Analyse automatique de documents anciens : Tirer parti d’un corpus incomplet, hétérogène et bruité Karine Abiven and Gaël Lejeune, Recherche d’information, document et web sémantique, à paraître, Bib - Pdf
  49. MICHAEL: Mining Character-level Patterns for Arabic Dialect Identification (MADAR Challenge) Dhaou Ghoul and Gaël Lejeune, Proceedings of the Fourth Arabic Natural Language Processing Workshop, p. 229-233 (Workshop de ACL; CORE A*), Bib - Pdf
  50. Digital ou Numérique : un phénomène d’emprunt au cœur de la start-up nation ? Lichao Zhu and Gaël Lejeune, Journées de Linguistique de Corpus (JLC) 2019, à paraître, Bib - Pdf
  51. 2018

  52. A new proposal for evaluating web page cleaning tools Gaël Lejeune and Lichao Zhu, Computacion y Sistemas, p. 1249-1258 (CORE B), Bib - Pdf
  53. Modèles en Caractères pour la Détection de Polarité dans les Tweets Davide Buscaldi and Joseph Le Roux and Gaël Lejeune, Défi Fouille de Textes (DEFT@TALN), à paraître (1ère place sur la tâche de classification binaire; Workshop de TALN; CORE C), Bib - Pdf
  54. Analyse diachronique de corpus: Le cas du poker Gaël Lejeune and Lichao Zhu, Journées d’Analyse statistique des Données Textuelles (JADT), p. 444-451 (CORE C), Bib - Pdf
  55. 2017

  56. Character based pattern mining for neology detection Lejeune Gaël and Cartier Emmanuel, Proceedings of subword and character level models in nlp (sclem), emnlp 2017 copenhagen, p. 25-30 (Workshop de EMNLP CORE A), Bib - Pdf
  57. TWEETANEUSE : Fouille de motifs en caractères et plongement lexical à l’assaut du deft 2017 Buscaldi Davide and Grezka Aude and Lejeune Gaël, Actes du 13e défi fouille de texte, p. 65-76 (Workshop de TALN; CORE C), Bib - Pdf
  58. A system for multilingual online neologism tracking Kata Gábor Emmanuel Cartier and Thierry Charnois, Poster à Cicling 2017, à paraître (CORE B), Bib -
  59. 2016

  60. Highlighting psychological features for predicting child interventions during story telling Gaël Lejeune and François Rioult and Bruno Crémilleux, INTERSPEECH 2016, à paraître (CORE A), Bib - Pdf
  61. Ambiguity diagnosis for terms in digital humanities Béatrice Daille and Evelyne Jacquey and Gaël Lejeune and Luis Felipe Melo and Yannick Toussaint, Proceedings of the tenth international conference on language resources and evaluation (lrec 2016), à paraître (CORE C), Bib - Pdf
  62. 2015

  63. Multilingual event extraction for epidemic detection Gaël Lejeune and Romain Brixtel and Antoine Doucet and Nadine Lucas, Artificial Intelligence in Medicine, à paraître (CORE A), Bib - Pdf
  64. Une approche stylométrique pour la fouille d’opinion Gaël Lejeune and Frédéric Dumonceaux, Actes de la 11e défi fouille de texte, p. 12-15 (Workshop de TALN; CORE C), Bib - Pdf
  65. Vers un diagnostic d’ambiguïté des termes candidats d’un texte Gaël Lejeune and Daille Béatrice, Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), p. 446-452 (CORE C), Bib - Pdf
  66. Évaluation intrinsèque et extrinsèque du nettoyage de pages Web Gaël Lejeune and Romain Brixtel and Charlotte Lecluze, Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), p. 411-417 (CORE C), Bib - Pdf
  67. Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales Romain Brixtel and Charlotte Lecluze and Gaël Lejeune, Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2015), p. 208-219 (CORE C), Bib - Pdf
  68. 2014

  69. DEFT 2014, analyse automatique de textes littéraires et scientifiques en langue française Charlotte Lecluze and Gaël Lejeune, Actes de deft 2014 : 10ème défi fouille de textes, p. 11-19 (Workshop de TALN; CORE C), Bib - Pdf
  70. Apports de l’analyse automatique multilingue pour la veille épidémiologique Gaël Lejeune and Charlotte Lecluze and Romain Brixtel and Antoine Doucet, Journées d’Analyse statistique des Données Textuelles (JADT), p. 297-308 (CORE C), Bib - Pdf
  71. 2013

  72. Added-value of automatic multilingual text analysis for epidemic surveillance Gaël Lejeune and Romain Brixtel and Charlotte Lecluze and Antoine Doucet and Nadine Lucas, Artificial Intelligence in Medicine (AIME), p. 284-294 (CORE A), Bib - Pdf
  73. Veille épidémiologique multilingue : Une approche parcimonieuse au grain caractère fondée sur le genre textuel Gaël Lejeune, Université de Caen, , Bib - Pdf
  74. DEFT2013, une cuisine de caractères Gaël Lejeune and Charlotte Lecluze and Romain Brixtel, Actes de deft 2013 : 9e défi fouille de textes, p. 29-36 (Workshop de TALN; CORE C), Bib - Pdf
  75. Any Language Early Detection of Epidemic Diseases from Web News Streams Romain Brixtel and Gaël Lejeune and Antoine Doucet and Nadine Lucas, International Conference on Healthcare Informatics (ICHI), p. 159-168 (Taux d’acceptation 22 %), Bib - Pdf
  76. Vers une approche rhétorique en tal : Application à la veille épidémiologique multilingue Christine Durieux and Romain Brixtel and Gaël Lejeune, Des mots aux actes, p. 151-167, Bib - Pdf
  77. Détection de zones parallèles à l’intérieur de bi-documents pour l’alignement multilingue Charlotte Lecluze and Romain Brixtel and Loïs Rigouste and Emmanuel Giguet and Régis Clouard and Gaël Lejeune and Patrick Constant, Actes de la 20e conférence sur le Traitement Automatique des Langues Naturelles (TALN’2013), p. 381-394 (CORE C), Bib - Pdf
  78. DAnIEL : Veille épidémiologique multilingue parcimonieuse (démonstration) Gaël Lejeune and Romain Brixtel and Charlotte Lecluze and Antoine Doucet and Nadine Lucas, TALN 2013, p. 787-788 (CORE C), Bib - Pdf
  79. 2012

  80. Détection de mots-clés par approches au grain caractère et au grain mot Gaëlle Doualan and Mathieu Boucher and Romain Brixtel and Gaël Lejeune and Gaël Dias, JEP-taln-recital 2012, atelier deft 2012: DÉfi fouille de textes, p. 41-48 (Workshop de TALN; CORE C), Bib - Pdf
  81. DAnIEL : Language independent character-based news surveillance Gaël Lejeune and Brixtel Romain and Doucet Antoine and Lucas Nadine, NLP international conferene, japtal 2012, p. 343-348, Bib - Pdf
  82. 2011

  83. Appariements de résumés et d’articles scientfiques fondés sur des distributions de chaînes de caractères Gaël Lejeune and Romain Brixtel and Emmanuel Giguet and Nadine Lucas, Proceedings of defi fouille de texte (deft’11), p. 53-64 (Workshop de TALN; CORE C), Bib - Pdf
  84. 2010

  85. Filtering news for epidemic surveillance: Towards processing more languages with fewer resources Gaël Lejeune and Antoine Doucet and Roman Yangarber and Nadine Lucas, CLIA/coling, p. 3-10 (Workshop de COLING; CORE A), Bib - Pdf
  86. Tentative d’Approche multilingue en extraction d’Information Gaël Lejeune and Antoine Doucet and Nadine Lucas, Journées d’Analyse statistique des Données Textuelles (JADT), p. 1259-1268 (CORE C), Bib - Pdf
  87. A proposal for a multilingual epidemic surveillance system Gaël Lejeune and Mohamed Hatmi and Antoine Doucet and Silja Huttunen and Nadine Lucas, User centric media, p. 343-348, Bib - Pdf
  88. 2009

  89. Structure patterns in information extraction:A multilingual solution? Gaël Lejeune, Advances in methods of information and communication technology, amict09, p. 105-111, Bib - Pdf

Communications sans publication des actes

    2018-2022

  1. "One (over-)fits for all ? Sur la robustesse des systèmes de TAL en contexte variationnel", Conférence invitée à la journée de l'axe Documents Apprentissage Connaissance de la fédération Normastic
  2. Approches de TAL pour les Humanités Numériques : la problématique de la variation, Conférence invitée à l'atelier " Données et discours géographiques en France au 18e siècle", Université de Chicago à Paris et projet GEODE)
  3. Des données au corpus : l'exploitation numérique des mazarinades, 10 ans du consortium CAHIER (lien), avec Karine Abiven
  4. Reconnaissance d’entités nommées spatiales dans des transcriptions OCR bruitées de textes littéraires, atelier SAGEO Humanités Numériques Spatialisées, avec Caroline Parfait, Motasem Alrahabi et Glenn Roe
  5. Discovering Spatial Relations in Literature: what is the influence of OCR noise?, conférence internationale News Eye avec C.Parfait, M.Alrahabi et G. Roe
  6. Quels observables linguistiques pour une observation outillée ? Expérimentations et réflexions sur le travail statistique sur corpus, atelier Recherches Linguistiques sur Corpus (axe transversal de l'équipe STIH)
  7. There ain't such thing as clean data, réflexions sur les données et les traces, Séminaire doctoral Question de méthodes et numérique pour les thèses en SHS, organisé par Virginie Julliard et Thomas Bottini, Sorbonne Université
  8. Quelles recherches lexicales sur des données océrisées non post-traitées ? Vers une stylométrie de l’écriture burlesque dans les “mazarinades” (1648-1653), séminaire "Les humanités numériques littéraires" de l'OBVIL, Karine Abiven, Gaël Lejeune, Jean-Baptiste Tanguy
  9. Linguistique + Informatique = TAL ?, Séminaire à l'école Polytechnique, Orsay
  10. Comparaisons et combinaisons d'extracteurs d'entités spatiales sur un corpus multilingue, présentation à l'atelier Humanités Numériques Spatialisées Zijian Wang, Gaël Lejeune, Yoann Dupont et Tian Tian
  11. Traiter automatiquement les données textuelles dans le contexte des Humanités, séminaire de la licence Humanités Numériques (UFR HSS), Université de Caen
  12. Sociologie de l'Informatique, Informatique de la Sociologie : Analyse des titres de thèse de Sociologie, avec Hugo Jeaningros (Sorbonne Université), JE SIBON, Paris 2020
  13. Observables in an NLP pipeline : Virtues and Flaws of the reductionist approach, Methoden zur Zusammenstellung und Erschließung von Korpusdaten, Académie des Sciences (BBAW), Berlin
  14. Linguistique + Informatique = TAL ?, Séminaire à l'école Polytechnique, Orsay
  15. Illusions Artificielles et Réelles Impostures, conférence invitée Les Discours de l'Imposture 19/06/2019 (TTN, Université Paris XIII)
  16. Traiter par le TAL un ensemble de textes redondant, hétérogène et bruité : autour du projet AnTOnoMAZ , Circulation des écrits littéraires de la première modernité & humanités numériques 05/06/2019 (ENS ULM), avec Karine Abiven
  17. Analyse stylistique de textes littéraires, Séminaire du Labex OBVIL, Paris, 5 avril 2019
  18. Analyse stylistique automatique : à la recherche d'indices efficaces et pertinents pour caractériser le style de Dumas, Phraseorom, avec Anaëlle Baledent, Phraseorom 2019, Erlangen, Allemagne
  19. Caractérisation de marqueurs de relations par classification non supervisée, Lexique Terminologie Traduction (LTT), avec Luce Lefeuvre, Grenoble, 27 septembre 2018
  20. Analyse Automatique des Mazarinades : tirer profit d'un corpus bruité, Atelier ADOC, 28 mai 2018 (avec Karine Abiven)
  21. Veille épidémiologique, réagir à temps grâce à la couverture multilingue, Jeudis de Santé Publique France, 24 mai 2018

    2013-2017

  22. Découverte automatique multilingue de néologismes dans la presse en ligne, Présentation au CMT (Congrès Mondial de Traductologie), Nanterre, 12 avril 2017
  23. Figement et Créativité Computationnelle, Présentation au CMT (Congrès Mondial de Traductologie), Nanterre, 12 avril 2017
  24. Intrinsic and Extrinsic Evalution of Web Page Cleaning, Présentation à ISWAG (International Symposium on Web Algorithms), Deauville, 9 juin 2016
  25. La linguistique pour le TAL : au service de la simplexité ?, Présentation invitée à la journée d'études "Linguistique et Complexité", Lilpa -- Université de Strasbourg, 13 novembre 2015
  26. Méthodes robustes et parcimonieuses pour l’analyse des données textuelles, séminaire L3I, La Rochelle, 26 mars 2015
  27. Approche du TAL fondée sur le genre textuel, séminaire ATAL, Nantes, 21 octobre 2014
  28. Multilingual Epidemic Surveillance: a parsimonious character-based approach, séminaire de la société My Script, Nantes, 28 août 2014
  29. Multilingual Epidemic News Surveillance: covering the earth for timely alerts, Avec Antoine Doucet, conférence invitée au Festival International de la Science (Vetenskapsfestivalen) 2014 "Act, React, Interact", Göteborg, 9 mai 2014 Flyer

    2009-2012

  30. Propositions pour une fouille de texte collaborative spécialisée dans le domaine des arts, avec Emmanuel Zwenger, Communication aux journées d'études du Bulletin Signalétique des Arts Plastiques (BSAP), Ecole Nationale Supérieure des Beaux Arts de Lyon, février 2012
  31. Pour une approche cibliste en TAL: le cas de l'analyse automatique de la presse, avec Christine Durieux, communication au Colloque International Rhétorique et Traduction, Orléans janvier 2012
  32. Ce que le texte peut dire au TAL, Communication aux journées scientifiques du CRISCO Ce que le texte fait à la phrase, Caen, décembre 2009 bibtex Pdf

HDR : De la variation linguistique et de son influence sur l’application de méthodes de Traitement Automatique des Langues

Téléchargez ici le manuscrit d'HDR et le fichier bibtex

Habilitation à Diriger les Recherches soutenue le 18 décembre 2023 devant un jury composé de :

  • Cécile Fabre, Professeure des Universités, CLLE, Université de Toulouse (Rapportrice)
  • Éric Gaussier, Professeur des Universités, LIG, Université Grenoble Alpes (Rapporteur)
  • Laurent Romary, Directeur de Recherches INRIA, Almanach, INRIA Paris (Rapporteur)
  • Franck Neveu, Professeur des Universités, STIH, Sorbonne Université (Président)
  • François Rioult Maître de Conférences HDR, GREYC, Université de Caen (Examinateur)
  • Virginie Julliard, Professeure des Universités, GRIPIC, Sorbonne Université (Garante)

Cette habilitation à diriger les recherches traite de la variation des données textuelles et de son influence sur l'application de méthodes de Traitement Automatique des Langues (TAL). Différents types de variation sont examinés : variation de la langue, variation de la qualité des données, variation de l'homogénéité des corpus et variation du genre textuel. Nous posons, d'une part, la question des observables du TAL. Il s'agit d'interroger la pertinence du paradigme, majoritaire dans le domaine, consistant à envisager les documents avant tout à travers des représentations en mots, très sensibles aux variations de toutes sortes, au détriment par exemple d'approches en chaînes de caractères plus robustes. D'autre part, nous interrogeons les observatoires du TAL en proposant des pistes pour exploiter les genres textuels des documents et tirer des corpus desquels ils sont tirés des propriétés utiles au traitement automatique à rebours d'une approche où les documents sont simplement des séquences de mots et/ou de sous-mots. Nous montrons notamment comment la structure des documents et le genre textuel peuvent être exploités pour concevoir des modèles de TAL.

Téléchargez ici le manuscrit d'HDR et le fichier bibtex

Thèse : Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel

Téléchargez ici le manuscrit ou le fichier bibtex

Thèse soutenue le 16 octobre 2013 devant un jury composé de :

  • ... non crédités au générique mais décisifs tout au long de cette thèse, mes associés Romain Brixtel et Charlotte Lecluze. Big Up dudes

Cette thèse propose une méthodologie pour traiter le problème du multilinguisme dans le cadre de tâches de classification et de recherche d'information. L'idée de base de notre travail est de définir une approche aussi peu dépendante des langues que possible de manière à faciliter la factorisation et ainsi l'extension du système à de nouvelles langues. En effet, les systèmes combinant Recherche d'Information et Extraction d'Information (EI) ont cruellement besoin de filtrer de grandes quantités de données dans un grand nombre de langues (voir par exemple Medisys).

Les systèmes classiques d'EI ne permettent pas à l'heure actuelle de faire face à ces enjeux du fait de leur dépendance à des outils (lemmatiseurs, analyseurs syntaxiques...) et autres ressources lexicales complexes (dictionnaires, ontologies...). Certaines langues peu dotées en ressources sont par la force des choses laissées de côté. Notre approche vise à combler ces manques. Elle a abouti à la conception de Daniel, notre système de veille épidémiologique multilingue . À ce jour, Daniel (Data Analysis for Information Extraction in any Language) a été testé, avec succès, sur 17 langues dont le chinois, le finnois et l'arabe.

Le développement de Daniel, système d'Extraction d'Information Multilingue, vise à combler ces manques. Il utilise les propriétés du genre journalistique et se base sur une analyse au grain caractère. De cette façon l'extension de Daniel vers de nouvelles langues se fait à coût marginal minimal.

Nous avons expérimenté cette approche sur d'autres tâches dans le cadre des Défis Fouille de Texte (DEFT) 2011 et 2012. En 2011 dans la tâche d'appariement de résumés et d'articles scientifiques nous avons atteint la première place ex-aequo. En 2012 dans la tâche d'extraction de mots-clés nous avons atteint la troisième place.

Enfin, en utilisant Daniel nous avons pu évaluer par la tâche des outils de nettoyage de page web. L'idée de ces expériences est de voir comment la qualité de ce nettoyage, que nous nommons "détourage", influence les résultats du système placé en aval.

Parcours professionnel

  • 2017-... : Maître de Conférences en Informatique (Sorbonne Université) au sein du laboratoire STIH
  • 2016-2017 : post-doctorant au LIPN (Paris XIII), "Détection Automatique de Néologismes"
  • 2015-2016 : post-doctorant au GREYC (Caen), "Event prediction for dialogue modelling"
  • 2014-2015 : ATER à l'Université de Nantes (Faculté des Sciences)
  • 2013-2014 : ATER à l'IUT de Cherbourg (Antenne de Saint-Lô, département MMI)
  • 2010-2013 : Doctorant au GREYC (Caen, Bourse ministérielle)
  • 2009-2010 : Ingénieur de recherche GREYC (Caen), "Veille Multilingue"
  • 2009 : Ingénieur de recherche Computer Science Dpt. (Helsinki), "PULS Project"
  • En dehors de la recherche en informatique:
    • 2005 à 2010, Prof particulier en Lettres, Mathématiques et méthodologie (collège, lycée)
    • 2002 à 2009, Surveillant d'Externat, Académie de Caen
    • 2006 et 2007, Directeur adjoint logistique en CLSH, Ligue de l'enseignement
    • 2000 à 2007, Initiateur et entraineur du jeu d'échecs, Club d'échecs Caen Alekhine
    • 1997 à 2008, Expertises sur lignes téléphoniques, CBS puis Rea-Immo

Perso

Programmation

Je suis un Pythoniste assidu même s'il peut m'arriver de concevoir des projets en PHP ou Javascript.

Bouquins

Un peu de tout, de l'utilitaire (sciences, chroniques historiques, essais,...) au superfétatoire (Anticipation, Héroïc Fantasy...)

Les échecs

Mon principal fait d'armes est d'avoir empoché avec mon collègue Dr. Romain Brixtel et deux acolytes nord-cotentinois le tournoi national des Universités et grandes écoles 2006 au nez et à la barbe d'HEC, Polytechnique, Centrale, Dauphine, Sciences Po...

Small world

Carlsen Number5
Morphy number5
Kasparov number4
Erdös number 5
Bacon Number 3
Pelé Number (invention?)4