Antoine Ameloot, Pascal Flores, Léopold Varlamoff
20/01/2025
Techniques pour apprendre à un ordinateur les relations syntaxiques et sémantiques entre les mots d’un corpus de texte.


Soient :
Exemple :
| Le | chat | mange | la | souris | et | la | souris | le | fromage |
|---|
Représentation des mots sous la forme de vecteurs à \(n\) dimensions, \(n\) étant la taille du dictionnaire.
Avantages :
| Le | chat | mange | la | souris | et | la | souris | le | fromage |
|---|
7 mots différents : vecteurs de taille 7
Couple mot-fenêtre : \(([0,0,1,0,0,0,0], [1,1,0,1,1,0,0])\)



Harry Potter + Games of Thrones + A la recherche du temps perdu → Trop de données pour nos machines…
Corpus retenu : A la recherche du temps perdu, M. Proust.
Nettoyage des données :
Données finales : Liste de mots.
jeu de données complet trop volumineux pour rentrer en mémoire (~80Go)
→ Génération des couples mot-fenêtre one-hot-encodés on-the-fly à partir du corpus et du dictionnaire
→ Séparation des données en deux corpus : entrainement et validation (ratio 80:20)
Couches du modèle :
Fonction de loss : categorical crossentropy
CBOW et Skip Gram sont symétrique → même forme de modèle, inversion des entrées / sorties pour passer d’un modèle CBOW à un modèle Skip Gram


