Легенда в боке UMAP показывает только одну запись

Привет, мне только что удалось закончить этот сюжет в bokeh, так что я думаю, есть много вещей, которые можно улучшить. Тем не менее, больше всего меня беспокоит то, что я не могу понять, как разместить все записи для моих восьми популяций на графике UMAP...
Сейчас он показывает только одну запись, которую я не знаю, связана ли она с правильной популяцией, и я манипулирую legend_lable.

На самом деле я хочу показать легенду со всеми восемью популяциями (EUR, SIB, AFR, SAS, CEA, OCE, MENA и AME) и соответствующими цветами. Ниже приведен код, который я использовал, и пример сюжета. Любая помощь приветствуется!

import numpy as np
import pandas as pd
import plotly.express as px
import bokeh.plotting as bp

from bokeh.plotting import ColumnDataSource, figure, show
from umap import UMAP


umap = pd.read_csv("SGDP_download/SGDP_bi_snps_norm-2.eigenvec", sep = "\t")
umap.rename(columns = {"#IID": "#ID"}, inplace=True)

loc = pd.read_csv("SGDP_download/pca_loc_fix_python-order.txt")
colors = pd.read_csv("SGDP_download/bokeh_colors.txt")

eigenval = pd.read_csv("SGDP_download/SGDP_bi_snps_norm-2.eigenval", header=None)
pve = round(eigenval / (eigenval.sum(axis=0))*100, 2)
pve.head()


umap.sort_values('#ID', inplace=True)
umap.insert(loc=1, column='#LOC', value=loc)
umap.rename(columns = {'#ID': 'ID', '#LOC': 'LOC'}, inplace=True)


regions_umap = umap.iloc[:, 2:12]

umap_plot = UMAP(n_components=2, init = "random", random_state=15)
umap_proj = umap_plot.fit_transform(regions_umap)
#umap_proj.view()
#umap_proj.shape

df = pd.DataFrame(umap_proj, columns=['UMAP1', 'UMAP2'])
df.insert(loc=0, column='population', value=loc)
df.insert(loc=1, column='color', value=colors)
df.index = umap["ID"]

source=ColumnDataSource(df)
#source
df


TOOLS = "hover,crosshair,pan,wheel_zoom,zoom_in,zoom_out,box_zoom,undo,redo,reset,tap,save,box_select,poly_select,lasso_select,examine,help"

fig = figure(tools=TOOLS, x_axis_label='UMAP1', y_axis_label='UMAP2')
fig.scatter(x=df['UMAP1'], y=df['UMAP2'], color=df['color'], size=5, legend_label='population',
            fill_alpha=0.6, line_color=None)

fig.legend.location = "top_left"
fig.legend.title = "metapopulations"

show(fig)

P.S. в качестве примечания можно ли разместить легенду внизу графика, а заголовок легенды - по центру?

РЕДАКТИРОВАТЬ, вот как выглядит df @droumis

python legend bokeh legend-properties runumap

20.02.2024 20:43

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Попробуйте использовать параметр legend_field вместо legend_label, например:

fig.scatter(x=df['UMAP1'], y=df['UMAP2'], color=df['color'], size=5, legend_field='population', fill_alpha=0.6, line_color=None)

Я думаю, вы можете использовать что-то вроде fig.legend.location = "bottom_center", чтобы переместить легенду вниз и отцентрировать ее.

большое спасибо. Легенда теперь располагается внизу графика, по центру посередине. Однако атрибуты legend_field при использовании возвращают следующую ошибку: «ОШИБКА:bokeh.core.validation.check:E-1001 (BAD_COLUMN_NAME): Глиф относится к несуществующему имени столбца. Это может быть связано либо с орфографической ошибкой или опечаткой, либо из-за ожидаемый столбец отсутствует».

— 21.02.2024 10:52

21.02.2024 02:41

Ответ принят как подходящий

Если вы хотите иметь запись легенды для каждого уникального ключа в столбце «Население», лучше всего использовать groupby() из pandas, перебрать группы и построить график разброса для каждой.

См. минимальный пример ниже.

import pandas as pd
from bokeh.plotting import show, figure, output_notebook
from bokeh.models import Legend
output_notebook()

df = pd.DataFrame({
    'UMAP1': [1,2,3,4,5,6],
    'UMAP2': [1,2,3,4,5,6],
    'population':['EUR', 'SIB', 'AME']*2,
    'color':['#1e90ff', '#bdb76b', '#eeaeee']*2,
})

p = figure()
legend = Legend(orientation='horizontal')
p.add_layout(legend, 'below')

grouper = df.groupby('population')
for label, g in grouper:
    p.scatter(g['UMAP1'], g['UMAP2'], color=g['color'], legend_label=label)
show(p)

Я вижу, как это работает! Большое спасибо, я читал кучу подобных примеров, но не смог правильно экстраполировать из-за моего ограниченного опыта; очень ценю помощь.

— 22.02.2024 19:03

22.02.2024 11:18