Привет, мне только что удалось закончить этот сюжет в bokeh, так что я думаю, есть много вещей, которые можно улучшить. Тем не менее, больше всего меня беспокоит то, что я не могу понять, как разместить все записи для моих восьми популяций на графике UMAP...
Сейчас он показывает только одну запись, которую я не знаю, связана ли она с правильной популяцией, и я манипулирую legend_lable.
На самом деле я хочу показать легенду со всеми восемью популяциями (EUR, SIB, AFR, SAS, CEA, OCE, MENA и AME) и соответствующими цветами. Ниже приведен код, который я использовал, и пример сюжета. Любая помощь приветствуется!
import numpy as np
import pandas as pd
import plotly.express as px
import bokeh.plotting as bp
from bokeh.plotting import ColumnDataSource, figure, show
from umap import UMAP
umap = pd.read_csv("SGDP_download/SGDP_bi_snps_norm-2.eigenvec", sep = "\t")
umap.rename(columns = {"#IID": "#ID"}, inplace=True)
loc = pd.read_csv("SGDP_download/pca_loc_fix_python-order.txt")
colors = pd.read_csv("SGDP_download/bokeh_colors.txt")
eigenval = pd.read_csv("SGDP_download/SGDP_bi_snps_norm-2.eigenval", header=None)
pve = round(eigenval / (eigenval.sum(axis=0))*100, 2)
pve.head()
umap.sort_values('#ID', inplace=True)
umap.insert(loc=1, column='#LOC', value=loc)
umap.rename(columns = {'#ID': 'ID', '#LOC': 'LOC'}, inplace=True)
regions_umap = umap.iloc[:, 2:12]
umap_plot = UMAP(n_components=2, init = "random", random_state=15)
umap_proj = umap_plot.fit_transform(regions_umap)
#umap_proj.view()
#umap_proj.shape
df = pd.DataFrame(umap_proj, columns=['UMAP1', 'UMAP2'])
df.insert(loc=0, column='population', value=loc)
df.insert(loc=1, column='color', value=colors)
df.index = umap["ID"]
source=ColumnDataSource(df)
#source
df
TOOLS = "hover,crosshair,pan,wheel_zoom,zoom_in,zoom_out,box_zoom,undo,redo,reset,tap,save,box_select,poly_select,lasso_select,examine,help"
fig = figure(tools=TOOLS, x_axis_label='UMAP1', y_axis_label='UMAP2')
fig.scatter(x=df['UMAP1'], y=df['UMAP2'], color=df['color'], size=5, legend_label='population',
fill_alpha=0.6, line_color=None)
fig.legend.location = "top_left"
fig.legend.title = "metapopulations"
show(fig)
P.S. в качестве примечания можно ли разместить легенду внизу графика, а заголовок легенды - по центру?
РЕДАКТИРОВАТЬ, вот как выглядит df @droumis






Попробуйте использовать параметр legend_field вместо legend_label, например:
fig.scatter(x=df['UMAP1'], y=df['UMAP2'], color=df['color'], size=5, legend_field='population', fill_alpha=0.6, line_color=None)
Я думаю, вы можете использовать что-то вроде fig.legend.location = "bottom_center", чтобы переместить легенду вниз и отцентрировать ее.
Если вы хотите иметь запись легенды для каждого уникального ключа в столбце «Население», лучше всего использовать groupby() из pandas, перебрать группы и построить график разброса для каждой.
См. минимальный пример ниже.
import pandas as pd
from bokeh.plotting import show, figure, output_notebook
from bokeh.models import Legend
output_notebook()
df = pd.DataFrame({
'UMAP1': [1,2,3,4,5,6],
'UMAP2': [1,2,3,4,5,6],
'population':['EUR', 'SIB', 'AME']*2,
'color':['#1e90ff', '#bdb76b', '#eeaeee']*2,
})
p = figure()
legend = Legend(orientation='horizontal')
p.add_layout(legend, 'below')
grouper = df.groupby('population')
for label, g in grouper:
p.scatter(g['UMAP1'], g['UMAP2'], color=g['color'], legend_label=label)
show(p)
Я вижу, как это работает! Большое спасибо, я читал кучу подобных примеров, но не смог правильно экстраполировать из-за моего ограниченного опыта; очень ценю помощь.
большое спасибо. Легенда теперь располагается внизу графика, по центру посередине. Однако атрибуты
legend_fieldпри использовании возвращают следующую ошибку: «ОШИБКА:bokeh.core.validation.check:E-1001 (BAD_COLUMN_NAME): Глиф относится к несуществующему имени столбца. Это может быть связано либо с орфографической ошибкой или опечаткой, либо из-за ожидаемый столбец отсутствует».