Я добавил свойства descLength
и imageLength
, чтобы упростить сортировку. Идея состоит в том, что constant(0)
можно использовать для заполнения значений для пользователей, у которых отсутствует какое-либо свойство, а любую длину, превышающую 0, можно использовать для идентификации пользователя, у которого на самом деле есть свойство. Самое большее, что я получаю, это возможность order().by()
только одного свойства за раз, используя такой запрос, как:
g.V().
order().
by(coalesce(values('descLength'), constant(0)))
Но это не полное решение, соответствующее тому, что мне нужно.
В amazon neptune я хочу сортировать вершины по наличию двух свойств: desc
и image
. Порядок ранжирования должен быть следующим:
desc
, но не image
image
, но не desc
Рассмотрим этот график пользователей и их свойств:
g.addV('user').property('type','person').as('u1').
addV('user').property('type','person').property('desc', 'second person').property('descLength', 13).as('u2').
addV('user').property('type','person').property('desc', 'third person').property('descLength', 12).property('image', 'https://www.example.com/image-3.jpeg').property('imageLength', 36).as('u3').
addV('user').property('type','person').property('image', 'https://www.example.com/image-4.jpeg').property('imageLength', 36).as('u4')
Используя описанный мной порядок ранжирования, результаты должны быть следующими:
u3
потому что у него есть и desc
и image
u2
потому что есть desc
но нет image
u4
потому что есть image
но нет desc
u1
потому что у него нет ни desc
, ни image
Образцы order().by()
, которые я видел, работают с такими данными, как числа и даты, которые можно ранжировать по возрастанию/убыванию значений, но, конечно, строки, такие как URL-адреса и текст, не могут. Каков правильный способ добиться этого?
Этот первый запрос не совсем то, что вы ищете, так как он рассматривает «изображение» и «описание» как один и тот же вес, но с этой основой должно быть возможно построить любые варианты запроса, чтобы лучше удовлетворить ваши потребности.
Дано:
g.V().hasLabel('user').
project('id','data').
by(id).
by(values('desc','image').fold()).
order().
by(select('data').count(local),desc)
мы получили
{'id': '92c04ae3-5a7f-ea4c-e74f-e7f79b44ad3a', 'data': ['third person', 'https://www.example.com/image-3.jpeg']}
{'id': 'e8c04ae3-5a7f-2cfb-cc28-cd663bd58ef9', 'data': ['second person']}
{'id': 'c8c04ae3-5a80-5707-8ba6-56554de98f33', 'data': ['https://www.example.com/image-4.jpeg']}
{'id': 'a6c04ae3-5a7e-fd0f-1197-17f3ce44595f', 'data': []}
Опираясь на это, мы можем сделать еще один шаг и рассчитать оценку на основе того, сколько свойств существует в каждом случае. Приведенный ниже запрос дает desc
более высокий балл, чем image
, поэтому в случаях, когда они оба не существуют, desc
будет сортироваться выше.
g.V().hasLabel('user').
project('id','data','score').
by(id).
by(values('desc','image').fold()).
by(union(
has('desc').constant(2),
has('image').constant(1),
constant(0)).
sum()).
order().
by(select('score'),desc)
который дает
{'id': '92c04ae3-5a7f-ea4c-e74f-e7f79b44ad3a', 'data': ['third person', 'https://www.example.com/image-3.jpeg'], 'score': 3}
{'id': 'e8c04ae3-5a7f-2cfb-cc28-cd663bd58ef9', 'data': ['second person'], 'score': 2}
{'id': 'c8c04ae3-5a80-5707-8ba6-56554de98f33', 'data': ['https://www.example.com/image-4.jpeg'], 'score': 1}
{'id': 'a6c04ae3-5a7e-fd0f-1197-17f3ce44595f', 'data': [], 'score': 0}
ОБНОВЛЕНО 06.05.2022 Чтобы показать, как получить только идентификатор
Используя приведенный выше запрос, получить идентификатор из результатов так же просто, как добавить select('id')
в конце запроса.
g.V().hasLabel('user').
project('id','data','score').
by(id).
by(values('desc','image').fold()).
by(union(
has('desc').constant(2),
has('image').constant(1),
constant(0)).
sum()).
order().
by(select('score'),desc).
select('id')
Однако мы также можем удалить часть другой работы, которую выполняет запрос для получения результатов. Я в основном включил их для демонстрационных целей. Таким образом, мы можем сократить запрос до:
g.V().hasLabel('user').
project('id','score').
by(id).
by(union(
has('desc').constant(2),
has('image').constant(1),
constant(0)).
sum()).
order().
by(select('score'),desc).
select('id')
Кроме того, как я могу извлечь только id
из результатов? Я пытался добавить .id()
после последнего order().by()
, но это дало мне "code":"UnsupportedOperationException","detailedMessage":"java.util.LinkedHashMap cannot be cast to org.apache.tinkerpop.gremlin.structure.Element"
. Затем я попытался использовать .values(t.id)
, .values('id')
и .toList().id()
, но так и не смог заставить его работать.
Производительность зависит от того, сколько данных вам нужно получить. Вы можете уменьшить некоторые извлекаемые данные и посмотреть, поможет ли это. Как написано, запрос просматривает каждую вершину в графе, начиная с g.V()
- если вы можете добавить фильтры для уменьшения проверяемых данных, это почти наверняка улучшит производительность. Я отредактирую ответ, чтобы показать, как просто вернуть id
, но в приведенном выше запросе простое выполнение select('id')
будет работать.
Потрясающе спасибо! Да, этот дополнительный select('id')
был тем, что мне было нужно.
Спасибо! Оба запроса работают, как описано. Можете ли вы придумать способы их оптимизации, чтобы сократить время, необходимое для их завершения? Иногда они работают от 15 до 30 секунд, я бы хотел, чтобы они постоянно были ниже 10 секунд для начала.