pgvector en production : indexer un RAG d'1 To sans downtime

Jordan Van Walleghem

22/04/2026

pgvector

postgres

rag

11 minutes

Contactez‑nous

Jordan Van Walleghem

22/04/2026

pgvector

postgres

rag

11 minutes

Construire un RAG en production sur PostgreSQL avec pgvector marche très bien, jusqu'au jour où les performances de recherche par similarité commencent à dériver. C'est le moment où la décision technique devient stratégique : faut-il rester sur pgvector et indexer sérieusement, ou migrer vers un vector store spécialisé comme Qdrant ?

La réponse, dans la plupart des cas, n'est pas celle que vendent les comparatifs marketing. La vraie question n'est pas "qui ranke le mieux sur ANN-Benchmarks ?" mais "qui s'opère le mieux quand on a déjà une stack PostgreSQL en production, des contraintes de souveraineté, des budgets serrés et zéro tolérance au downtime ?"

On revient ici sur un cas concret : un RAG juridique d'environ 1 To, 9 millions d'embeddings 1536 dimensions, hébergé sur un cluster Kubernetes Scaleway, où il a fallu construire un index HNSW de 50 Go en restant en ligne. Le tout en GitOps via Flux et CloudNativePG (CNPG). Voici les chiffres, les choix, et ce qu'on referait, ou pas.

Prérequis avant de commencer

Avant de planifier une opération de ce type, vérifie que ton contexte coche les cases suivantes. Si l'un d'eux manque, traite-le avant de toucher à l'index vectoriel.

Une base PostgreSQL avec pgvector ≥ 0.6 (parallel HNSW build), idéalement 0.8.2 pour le correctif CVE-2026-3172 sur les builds parallèles.
Un opérateur Postgres Kubernetes (CNPG, Crunchy Data, Zalando), pour piloter les rolling updates sans bricolage shell.
Des nodes "performance" disponibles à la demande dans ton catalogue cloud (chez Scaleway, le pool POP2 ou les instances HC) : tu n'as pas besoin de payer cette puissance H24, juste pendant le build.
Un PVC redimensionnable à chaud : l'index HNSW pèse en gros 1,5 à 2 fois la taille de la colonne vector, et le CREATE INDEX CONCURRENTLY consomme de l'espace temporaire en plus.
Une fenêtre d'observation contrôlée (pas un vendredi soir) pour surveiller la progression du build et intervenir si la mémoire dévie.
Un agent RAG qui tolère 1 à 3 secondes de retrieval : si ton produit attend du sub-50 ms, le post est valable mais la conclusion devient différente (cf. plus bas).

Quand pgvector suffit, quand passer à Qdrant

C'est le débat le plus mal posé du moment. Les benchmarks vendor des deux camps mesurent rarement la même chose, et le critère décisif n'apparaît jamais dans le tableau de comparaison.

Voici le seul cadre qui compte vraiment, à partir d'un échantillon réaliste de production.

Dimension	pgvector + HNSW	Qdrant dédié

Le BlogDes infos, des actus, du fun !

22/04/2026