Представьте: вы разработчик в средней компании, по уши в создании ИИ-поиска по командной документации. Один неверный ответ от LLM — и доверие тает на глазах. RAG-пайплайны решают это — подают реальные данные модели прямо на запрос. Теперь их в продакшене 72% предприятий. Не хайп, а паника: галлюцинации нужно придавить, пока они не подорвали веру клиентов.
Латентность скачет в пике? Затраты на проприетарные эмбеддинги рвут бюджет? Команды мучаются именно этим. Переход от экспериментов к инфраструктуре — быстрее любого ML-паттерна до него — требует проверки. Почему именно сейчас? Почему эти инструменты? Разберём архитектуру.
72% предприятий уже используют RAG-пайплайны в продакшене. В Q1 2024-го было 8%. Переход от экспериментов к инфраструктуре прошёл быстрее, чем любое предыдущее ML-развёртывание.
Почему RAG-пайплайны взлетели до 72% внедрения за ночь?
Виновата ахиллесова пята LLM: галлюцинации на незнакомых данных. RAG запихивает релевантные документы в контекстное окно — просто и работает. А в проде? Там мечты умирают. Доминируют четыре векторные БД: Pinecone, Qdrant, Weaviate, ChromaDB. Каждая под разные нужды.
Qdrant? Молниеносные 6 мс p50 на 1M векторов. На Rust, индексация HNSW, продуктовое квантование. Apache 2.0 — хости свободно. Облако от $0,05/час. Идеал для экономистов.
Pinecone на 8 мс, полностью managed, serverless. Бурсты? Без проблем. Без своей ops-команды. Минус: vendor lock-in, данные не локально.
Weaviate на 12 мс блестит GraphQL и встроенным гибридным поиском — BM25 + векторы в одном флаконе. Фронтендеры в восторге.
ChromaDB? 18 мс, король прототипов. Pip install, три строки — и embed/query. Но за 5M векторов? Миграция или крах.
Моё мнение — мимоходом: это эхо NoSQL-бума 2009-го. Тогда MongoDB и Cassandra добили жёсткие RDBMS для веб-шкалы. Сейчас векторные БД убивают ключевой поиск. Прогноз? Open source вроде Qdrant захватит 50% к 2026-му, когда затраты на эмбеддинги придушат API-зависимых.
Выбор? Сначала ограничения развёртывания. Один разработчик? ChromaDB. Есть infra-команда? Qdrant. Ленивое масштабирование? Pinecone.
Какая векторная БД реально выигрывает в продакшен-RAG?
Сырая латентность врёт. Qdrant гнётся под всё: bare metal, Docker, K8s, облако. Гибридный поиск из коробки — dense эмбеддинги + sparse ключевые слова, без надстроек.
Pinecone: неограниченные векторы, ноль опов. Идеал для стартапов, избегающих SRE.
Weaviate: беглость в GraphQL, модульные индексы. Если стек на Apollo — родной дом.
ChromaDB: демон скорости для MVP. В проде? Латентность проседает, миграция срочно.
Без infra-инженеров — Pinecone. Свои хосты — Qdrant. (Совет: бенчмарьте свою нагрузку — 1M векторов не универсал.)
Дальше эмбеддинги. MTEB-лидерборд перевернулся: open source рвёт.
GTE-Qwen2-7B — 67,2%. E5-mistral-7B — 66,6%. text-embedding-3-large от OpenAI? 64,6%. Cohere? 64,1%.
Затраты решают. OpenAI: $0,13/M токенов. Open source: GPU разово, потом бесплатно. Миллионы документов? Эмбеддинги жрут бюджет.
Простота API против контроля. OpenAI small: $0,02/M. Самохост: BGE-large-en-v1.5 на скромном железе.
Но стоп — чанкинг важнее всего. Как режешь документы, такой и ретрив.
Фиксированный размер: 512–1024 токена, с оверлапом. Быстро, тупо. Режет посреди предложения. Контекст ломается.
Семантический: эмбеддишь скользящие окна, режешь по падению схожести. Целостные идеи. +36% F1 на юридических доках.
Иерархический: дерево саммари + детали. Тянешь родителей, углубляешься в детей. (Оригинал обрывается здесь — но для глубоких документов это золото.)
Семантический чанкинг поднимает F1 ретрива на 36% для юридических документов против фиксированного размера.
Гибридный поиск? 72% прод-систем мешают dense (векторы) + sparse (BM25-ключевые слова). Зачем? Векторы пропускают точные термины, ключевые слова их цепляют. Weaviate/Qdrant — нативно.
Корпоративный PR-чек: 72%? Вероятно, самоотчёты от вендоров БД. Скепсис? Пров