2025

Resumix

Exploration de corpus scientifiques par IA

Le Défi

Les articles de recherche sont longs, denses et difficiles à croiser rapidement. Passer d'un PDF brut à une réponse utile demande beaucoup de lecture linéaire, alors que le vrai besoin est souvent d'explorer un corpus et d'en extraire vite les passages pertinents.

L'Approche

L'objectif a été de construire une chaîne complète, de l'import du document jusqu'à l'échange conversationnel :

dépôt de PDFs de recherche et import d’articles via OpenAlex
extraction du texte avec PyMuPDF, puis découpage en chunks enrichis par embeddings sentence-transformers
indexation vectorielle FAISS pour la recherche sémantique dans le corpus
backend FastAPI avec Redis pour orchestrer ingestion, indexation et requêtes
interface SvelteKit pour parcourir les documents et dialoguer avec un LLM local via Ollama/LangChain

Le Résultat

Plateforme fonctionnelle et agréable à utiliser pour explorer des corpus de recherche volumineux. Les briques critiques sont fiables — import PDF, récupération OpenAlex, pipeline RAG et conversation avec le LLM — et l'outil permet d'interroger rapidement des documents de plusieurs centaines de pages en langage naturel.

Stack technique

PythonFastAPISvelteKitTypeScriptTailwindFAISSOllamaRedis