Lors d’une conférence au DevFest Lyon 2025, Tim Carry, Software Engineer chez Algolia, a dévoilé toutes les étapes de sa méthode. Clap d’ouverture sur les coulisses de ce projet qui transforme une simple playlist YouTube en véritable moteur de recherche vidéo, un index ingénieux capable de retrouver n’importe quelle scène de la saison 1 de Bref à partir de quelques mots.
1. Récolter et préparer les données : la fondation du projet
Étape 1 — Récupérer l'intégralité de la série
Tim a commencé par identifier la playlist YouTube de Bref et utilise un outil en ligne de commande pour télécharger chaque épisode localement et récupérer automatiquement les sous-titres.
Imaginez que vous photocopiez un livre entier pour pouvoir ensuite surligner, annoter et indexer les passages importants.
Étape 2 — Indexer tous les épisodes
Avant même d’utiliser l’IA ou de construire une base de données, il faut une matière première propre : vidéos organisées, fichiers de sous-titres alignés, méta-données homogènes. L'objectif : associer chaque réplique à un instant précis dans la vidéo.
2. Le rôle clé de l’IA : transformer le son en texte exploitable
Une fois tous les épisodes récupérés, un problème se pose : comment obtenir des sous-titres fiables pour chaque épisode ? Et comment associer chaque réplique à un épisode et un timecode précis ? Pour cela, Tim a utilisé un speech-to-text basé sur de l’IA pour garantir une transcription :
- complète,
- cohérente,
- parfaitement synchronisée.
C’est comme demander à quelqu’un d’écouter une conversation et de noter chaque phrase avec le chronomètre en main. Grâce à ça, chaque mot prononcé devient une entrée dans la future base de données.
3. Découper la série : extraire images, frames et aperçus animés
Capturer une image pour chaque sous-titre
Avec FFmpeg, l’un des couteaux suisses de la vidéo, Tim :
- repère chaque timecode issu des sous-titres,
- extrait une frame correspondante,
- la sauvegarde comme capture d’écran.
Il répète cette opération pour les 92 épisodes.
Résultat : une bibliothèque d’images parfaitement indexées.
Générer des aperçus animés
De la même manière, il extrait des séquences ultracourtes pour créer des mini-prévisualisations, un peu comme sur Netflix lorsque l’on survole un épisode.
4. Construire le moteur de recherche : Algolia au cœur du système
Une fois toutes les données collectées, il prépare un fichier JSON regroupant :
- le texte (chaque réplique),
- son horodatage,
- le lien vers l’épisode,
- la capture associée,
- éventuellement l’aperçu animé.
Ce fichier est ensuite envoyé à Algolia, un moteur de recherche SaaS extrêmement performant.
Algolia sert :
- à indexer l’ensemble,
- à fournir des API rapides pour la recherche,
- à gérer les correspondances floues (par exemple « captaine » ≠ « capitaine »).
Imaginez une bibliothèque où chaque citation est rangée par idée, par mots-clés, par personnage, avec un bibliothécaire ultra-rapide qui répond en moins d’une seconde. C’est le résultat aujourd’hui atteint !
5. Optimiser l’UX du site
Pour que l’expérience soit fluide, Tim optimise l’affichage des images et des miniatures. Tout a été pensé pour faciliter la navigation sur le moteur de recherche et la rendre le plus instantané et fiable possible.
Cloudinary : compression et redimensionnement
Toutes les images passent par Cloudinary pour réduire leur poids, être redimensionnées automatiquement et accélérer le téléchargement.
Deux micro-interactions intelligentes
- Commencer à charger l’aperçu quand le curseur s’approche : cela réduit la latence sans charger toutes les vidéos en amont.
- Lancer l’aperçu uniquement si le curseur se trouve dessus : ce qui économise des ressources et évite les surcharges.
Tapez « Capitaine », « Je suis parti », ou n’importe quelle réplique mythique : le site BrefSearch vous affiche la scène précise, l’image associée et un aperçu animé. En cliquant, on arrive directement au bon moment dans la vidéo.
Bref, un projet réussi
Le résultat de ce travail titanesque ? Une recherche d’une rapidité et d’une fiabilité bluffante ! C’est un excellent cas d’étude pour comprendre comment transformer une série en base de données consultable.
- Le projet repose sur un pipeline simple mais efficace : télécharger → transcrire → découper → indexer → optimiser.
- L’association IA + outils vidéo + moteurs SaaS donne un résultat extrêmement fluide.
- Ce type de technologie ouvre la porte à des usages pédagogiques, archivistiques ou créatifs.
Vous souhaitez en apprendre plus sur les bases de données pour vous lancer dans un projet similaire ? Découvrez notre cours d’initiation gratuit à SQL !