Сходство [косинуса] не поддерживает векторы с нулевой величиной в эластичном поиске

Я пытался выполнить прием данных из моего поддельного набора данных в Elastic Search. Мой поддельный набор данных содержит много 0 векторов (0,0, ..., ) и получил ошибку о приеме нулевых векторов.

{'errors': True, 'took': 64, 'items': [{'create': {'_index': 'bdp-cus-feature-store-1.1-vector-p1', '_id': '5aeefc2e656b6f77c60af0d90f1280b52e298441d29a80c69321155aa9700438', 'status': 400, 'error': {'type': 'document_parsing_exception', 'reason': '[1:3931] failed to parse: The [cosine] similarity does not support vectors with zero magnitude. Preview of invalid vector: [0.0, 0.0, 0.0, 0.0, 0.0, ...]', 'caused_by': {'type': 'illegal_argument_exception', 'reason': 'The [cosine] similarity does not support vectors with zero magnitude. Preview of invalid vector: [0.0, 0.0, 0.0, 0.0, 0.0, ...]'}}}}

Я думал, что Elastic Search — это просто база данных, и меня смущает то, что прием 0 векторов не разрешен. Я пытался найти решение и выполнить поиск в Интернете, но не смог найти ни одного сообщения об этом или о том, как его решить. У кого-нибудь есть идеи? Большое спасибо.

database elasticsearch vector

07.06.2024 03:56

ReactJs | Supabase | Добавление данных в базу данных

Это и есть ваш редактор таблиц в supabase.👇

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Elasticsearch — это не просто база данных; помимо других возможностей, это также векторная база данных. Когда вы индексируете плотные векторы, Elasticsearch поддерживает специальную структуру данных, называемую графом Hierarchical Navigable Small World (HNSW). Эта структура обеспечивает быстрый приблизительный поиск k-ближайших соседей (kNN) во время поиска.

Расположение векторов в этом графе основано на сходстве между векторами. По умолчанию Elasticsearch использует для этой цели косинусное сходство. Как объяснено в этом https://stackoverflow.com/a/26703445/783043, сходство косинусов не имеет особого смысла для нулевых векторов, что приводит к тому, что Elasticsearch выдает ошибки относительно них.

Решением этой проблемы является либо переключение на другую меру сходства, либо вообще отказ от индексации поля, если вы не планируете по нему искать.

Решение 1:

DELETE test

PUT test
{
  "mappings": {
    "properties": {
      "vector": {
        "type": "dense_vector",
        "dims": 3,
        "similarity": "l2_norm"
      }
    }
  }
}

POST test/_bulk?refresh=true
{ "index": { "_id": "1" } }
{ "vector": [1, 5, -20]}
{ "index": { "_id": "2" } }
{ "vector": [0, 0, 0]}

Решение 2:

DELETE test

PUT test
{
  "mappings": {
    "properties": {
      "vector": {
        "type": "dense_vector",
        "dims": 3,
        "index": false
      }
    }
  }
}

POST test/_bulk?refresh=true
{ "index": { "_id": "1" } }
{ "vector": [1, 5, -20]}
{ "index": { "_id": "2" } }
{ "vector": [0, 0, 0]}

07.06.2024 04:22

Другие вопросы по теме

Лямбда-функция AWS Python: невозможно импортировать модуль «lambda_function»: нет модуля с именем event

Название индекса ELK не меняется при переносе на следующий день

Как Elastic Search Composite Aggregation по всему индексу и возвращает весь результат

Имеет ли Elastic Search эквивалент агрегации SQL Group By?

Как настроить Elastic.Serilog.Sinks 8.11 в веб-приложении ASP.NET Core 8?

Создайте запрос Dynamic ElasticSearch с использованием предложения OR в C#

Динамическое создание поискового запроса с помощью клиента Elasticsearch .NET 8.3

ElasticSearch — Elastic\Elasticsearch\Exception\ClientResponseException

Сервер Kibana еще не готов и не может получить информацию о версии с узлов Elasticsearch

Лучший способ синхронизировать postgres и elasticsearch

Сходство [косинуса] не поддерживает векторы с нулевой величиной в эластичном поиске

Ответы 1

Другие вопросы по теме

Похожие вопросы