← Retour aux projets
2025

Resumix

Exploration de corpus scientifiques par IA

Le Défi

Les articles de recherche sont longs, denses et difficiles à croiser rapidement. Passer d'un PDF brut à une réponse utile demande beaucoup de lecture linéaire, alors que le vrai besoin est souvent d'explorer un corpus et d'en extraire vite les passages pertinents.

L'Approche

L'objectif a été de construire une chaîne complète, de l'import du document jusqu'à l'échange conversationnel :

  • dépôt de PDFs de recherche et import d’articles via OpenAlex
  • extraction du texte avec PyMuPDF, puis découpage en chunks enrichis par embeddings sentence-transformers
  • indexation vectorielle FAISS pour la recherche sémantique dans le corpus
  • backend FastAPI avec Redis pour orchestrer ingestion, indexation et requêtes
  • interface SvelteKit pour parcourir les documents et dialoguer avec un LLM local via Ollama/LangChain

Le Résultat

Plateforme fonctionnelle et agréable à utiliser pour explorer des corpus de recherche volumineux. Les briques critiques sont fiables — import PDF, récupération OpenAlex, pipeline RAG et conversation avec le LLM — et l'outil permet d'interroger rapidement des documents de plusieurs centaines de pages en langage naturel.

Stack technique

PythonFastAPISvelteKitTypeScriptTailwindFAISSOllamaRedis

Construit avec SvelteKit + Tailwind CSS

© 2026 Aurélien Mora