База знаний — это приватное хранилище неструктурированных файлов, которое используется для генерации, дополненной поиском (Retrieval Augmented Generation, RAG).
Иными словами, при подключении базы знаний агент не просто генерирует ответы на основе данных, по которым обучалась ИИ-модель, но также выполняет поиск по базе знаний с информацией, релевантной именно для ваших услуг и сервисов.
Примерами баз знаний могут быть документация по продукту, информация о ценах, каталоги товаров.
Для хранения базы знаний используется облачная база данных OpenSearch — она появится в «Базах данных» вашей панели управления, когда вы создадите новую базу знаний.
В качестве источников данных используются локальные файлы. В одну загрузку можно добавить до 100 файлов, размером не более 10 МБ каждый. Их можно загрузить файлы на этапе создания базы знаний, а также в дальнейшем в настройках базы.
После индексации база знаний станет доступна агентам, к которым она подключена.
Несколько агентов могут использовать одну и ту же базу.
Формат источников данных
Файлы источников данных могут быть в форматах: .csv
, .html
, .md
, .txt
, .xml
.
В качестве источников необходимо использовать текстовые данные. Ограничений по содержимому или оформлению нет, кроме нюанса для таблиц: первая строка должна содержать имена колонок.
Если источники данных содержат медиа (видео, изображения и др.), это не помешает индексации, но сами медиаданные распознаны не будут. Агент будет работать только с текстом.
В источниках можно использовать ссылки, например, на вашу собственную документацию или онлайн-каталоги, чтобы агент мог присылать клиентам релевантные ссылки. Однако ссылки тоже будут распознаны как текст — агент не сможет самостоятельно прочитать и проанализировать содержимое веб-страницы по приведенному URL.