RAG vs contexte long : le débat qui divise tous les ingénieurs IA

54 min

On vous a promis que les LLM avec leurs millions de tokens allaient tout simplifier. Amélie Chatelain a fait les calculs...et ce n'est pas si simple !

Head of Training & Inference chez Lighton, physicienne reconvertie en experte IA, elle est l'une des rares personnes en France à entraîner et déployer en production les modèles qui font tourner la recherche d'information. Dans cet épisode, elle démonte les idées reçues sur les LLM en entreprise : pourquoi le contexte long coûte bien plus cher qu'annoncé, pourquoi le RAG n'est pas mort mais en train de muter, et pourquoi la prochaine grande bataille de l'IA se jouera peut-être sur un terrain auquel personne ne pense encore.

Un épisode dense, sans langue de bois, avec des arguments concrets et des ordres de grandeur réels.

💬 Est-ce que vous utilisez du RAG en production ? Dites-nous en commentaire.
🔔 Abonnez-vous pour ne pas rater les prochains épisodes de Que du Web.

Amélie Chatelain https://www.linkedin.com/in/amelie-chatelain/
Sylvain Peyronnet https://www.linkedin.com/in/sypsyp/
Grégory Pairin https://www.linkedin.com/in/gregorypairin/

---------------------------------------------------------------------------------------------------------------

🧠 A RETENIR

- RAG vs contexte long : 1M tokens ne suffit pas à l'échelle, coûte plus cher et les LLM oublient ce qu'il y a au milieu.
- En entreprise, les permissions tuent le long contexte : gérer des accès différents par utilisateur est ingérable sans RAG.
- Lexical + sémantique = duo gagnant. BM25 pour les termes exacts, dense pour les concepts. Les deux se complètent.
- Le multivecteur change la donne et un vecteur par mot plutôt que par phrase : plus précis, plus fort sur les données rares ou multilingues, et de moins en moins cher.
- Le RAG devient agentique : le modèle décide seul quand et combien de fois chercher. Plus lent, mais enfin accessible à tous.
- Et dans 2 ans ? La chatbox textuelle est peut-être un manque d'imagination. La voix et le multimodal pourraient tout redéfinir.

---------------------------------------------------------------------------------------------------------------

🔗 MENTIONS

- Lighton https://lighton.ai/fr/home
- IBOU https://ibou.io
- Pleias https://pleias.ai/
- Doria Alexander https://x.com/Dorialexander
- Antoine Chafin https://x.com/antoine_chaffin
- Paris Machine Learning Meetup (PML Meetup) https://www.meetup.com/fr-fr/machine-learning-paris/
- AlphaFold https://alphafold.ebi.ac.uk/
- modernBERT https://lighton.ai/fr-blog-posts/better-faster-stronger-knowledge-retrieval-and-classification-with-modernbert

---------------------------------------------------------------------------------------------------------------

📺 CHAPITRES :

00:00 Teaser
01:00 Bienvenue sur Que du Web
01:37 Des neutrinos à l'IA : le parcours improbable d'Amélie
02:55 Pourquoi elle a fui la recherche académique
04:43 Lighton en 2019 : l'IA qui calcule à la vitesse de la lumière
05:07 GPT-3 : l'électrochoc qui a tout changé
09:15 C'est quoi vraiment l'inférence ?
11:15 RAG vs contexte long : le débat qui divise l'industrie
12:05 Pourquoi 1 million de tokens, c'est moins qu'on croit
13:15 L'analogie de la réunion inutile
15:32 Lexical vs sémantique : laquelle choisir ?
17:40 Le vrai coût du long contexte (spoiler : c'est cher)
19:24 Lost in the Middle : le problème que Claude ne vous dit pas
20:37 Les permissions : le vrai tueur du long contexte en entreprise
23:33 Le RAG agentique : quand l'IA décide seule comment chercher
29:26 Le multivecteur : la technologie qui change l...