Een vector database is een gespecialiseerd opslagsysteem dat data niet opslaat als tekst of rijen, maar als wiskundige representaties van betekenis — zogeheten embeddings. Dit maakt zoeken op semantische gelijkenis mogelijk: niet "bevat dit document het woord factuur?" maar "welk document gaat het meest over facturatiegeschillen?"
Waarom Vectoren?
Traditionele databases werken met exacte overeenkomsten. Zoekt u naar "auto", dan vindt u "auto" maar niet "voertuig" of "sedan". Taalmodellen vertegenwoordigen woorden en zinnen als vectoren in een hoog-dimensionale ruimte, waarbij semantisch verwante begrippen dicht bij elkaar liggen.
Een vector database exploiteert dit: door tekst, afbeeldingen of audio als embeddings op te slaan en te indexeren, kunt u de dichtstbijzijnde buren van een zoekquery vinden — ongeacht exacte bewoordingen.
Hoe het Werkt
Tekst → Embedding model → Vector [0.23, -0.87, 0.41, ...] → Opgeslagen in vector DB
↓
Zoekquery → Embedding model → Queryvector → Nearest neighbor search → Resultaten
Het embedding model (bijv. OpenAI text-embedding-3-large of open-source alternatieven zoals BGE) zet tekst om naar een numerieke vector van honderden tot duizenden dimensies. De vector database slaat deze vectoren op met hun bijbehorende metadata en kan in milliseconden de meest vergelijkbare vectoren terugvinden.
Toepassingen in Bedrijfssoftware
RAG-systemen (Retrieval-Augmented Generation) De meest voorkomende toepassing: een taalmodel wordt uitgebreid met een vector database die bedrijfsdocumenten bevat. Bij een vraag wordt eerst de vector DB doorzocht op relevante passages, die vervolgens als context aan het model worden meegegeven. Resultaat: een AI die antwoorden geeft op basis van uw eigen documentatie.
Semantische documentzoekopdrachten Contracten, handleidingen, e-mails — grote documentbibliotheken doorzoekbaar maken op inhoud in plaats van bestandsnaam of trefwoord.
Aanbevelingssystemen Producten, artikelen of klanten representeren als vectoren en op basis van gelijkenis aanbevelingen doen.
Duplicaatdetectie Facturen, klachten of orders op semantische gelijkenis vergelijken om duplicaten te identificeren die tekstueel net anders zijn geformuleerd.
Populaire Vector Databases
| Oplossing | Type | Geschikt voor |
|---|---|---|
| Pinecone | Managed SaaS | Snelle start, geen infra-overhead |
| Weaviate | Open-source / cloud | Hybride zoek (vector + keyword) |
| Qdrant | Open-source / cloud | Hoge performance, Rust-gebaseerd |
| pgvector | PostgreSQL extensie | Bestaande Postgres-infrastructuur |
| Chroma | Open-source | Lokale ontwikkeling en prototyping |
Voor MKB-toepassingen die al PostgreSQL gebruiken, is pgvector vaak de pragmatische keuze: geen extra infrastructuurcomponent, goede performance tot enkele miljoenen vectoren.
Wat u Moet Weten als Beslisser
Vector databases zijn geen magie — ze zijn zo goed als de embeddings die erin staan. Slechte, verouderde of onvolledige documentatie levert slechte zoekresultaten op, ongeacht hoe geavanceerd de database is. Datakwaliteit en -onderhoud zijn de kritieke variabelen, niet de databasekeuze.