Problème :
La Constitution du Niger est rédigée principalement en français, langue officielle. Cependant, une grande partie de la population s'exprime en Haoussa (et autres langues nationales) et ne maîtrise pas le jargon juridique français. Cela crée une "fracture juridique" où les citoyens ne peuvent pas accéder directement à leurs droits fondamentaux.
Objectifs d’apprentissage :
Création de corpus : Constituer et aligner un dataset parallèle (Français <-> Haoussa) de textes juridiques ou constitutionnels.
Fine-tuning de LLM : Adapter un modèle de langage multilingue (ex: NLLB, BLOOM ou mBART) pour qu'il comprenne la terminologie juridique spécifique au contexte nigérien.
Architecture RAG (Retrieval-Augmented Generation) : Construire un chatbot capable de répondre à une question en Haoussa ("Quels sont mes droits si je suis arrêté ?") en cherchant la réponse dans le texte français de la constitution, puis en générant la réponse en Haoussa.
Critères d’évaluation :
Précision sémantique : Le modèle ne doit pas halluciner de lois inexistantes (Vérification factuelle stricte).
Qualité de la traduction : Score BLEU acceptable, mais surtout une validation humaine par un juriste bilingue pour s'assurer que le sens juridique est préservé.
Accessibilité : L'interface doit être simple et, idéalement, supporter des entrées/sorties vocales (Speech-to-Text) pour les populations peu alphabétisées.
Prérequis :
Python, Hugging Face (Transformers), LangChain ou LlamaIndex (pour le RAG).
Connaissance des défis des "Low-Resource Languages" (langues peu dotées).
Notions de bases de données vectorielles (Pinecone, ChromaDB).
IA en droit
Projet
Disponible en janvier 2026