Я хотел бы создать кадры данных pandas с смоделированными данными.
Должно быть x наборов столбцов.
Каждый набор соответствует y количеству столбцов.
Каждый набор должен иметь значение a в z количествах строк. Значение a является числом с плавающей запятой.
Однако z может быть разным для разных наборов наборов столбцов.
Остальные столбцы будут иметь другое значение b, которое также является числом с плавающей запятой.
Я хотел бы написать функцию для создания таких фреймов данных pandas, где я могу указать переменные x, y, a, b и где можно установить конкретное значение для z для отдельных наборов столбцов.
Вот пример ДФ:
data = [[0.5, 0.5, 0.1, 0.1, 0.1, 0.1], [0.1, 0.1, 0.5, 0.5, 0.1, 0.1], [0.1, 0.1, 0.1, 0.1, 0.5, 0.5]]
df = pd.DataFrame(data, columns=['set1_col1', 'set1_col2', 'set2_col1', 'set2_col2', 'set3_col1', 'set3_col2'])
df
Но я хотел бы иметь возможность указать переменные, которые для приведенного выше примера будут такими:
x = 3 #(set1, set2, set3)
y = 2 #(col1, col2 for each set)
a = 0.5
z = 1 #(for all column sets)
b = 0.1
Совет по этому поводу будет очень признателен!
Спасибо!
Кроме того, возможно, то, что вы ищете, можно легко сделать с помощью numpy (например, np.ones([size]) * a ), а затем загрузить в pandas. Вот так: stackoverflow.com/a/51308247/4386933
Большое спасибо, что заглянули в него! Я обновил вопрос с примером. Дайте мне знать, если это более ясно сейчас или нет.






Используйте numpy.random.choice:
N = 5 #No of rows
x = 3 #(set1, set2, set3)
y = 2 #(col1, col2 for each set)
a = 0.5
z = 1 #(for all column sets)
b = 0.1
#names of sets
sets = [f'set{w+1}' for w in range(x)]
#names of columns
cols = [f'col{w+1}' for w in range(y)]
#MultiIndex by product
mux = pd.MultiIndex.from_product([sets, cols])
#DataFrame with default value
df = pd.DataFrame(b, index=range(N), columns=mux)
#random assign a by random index with no repeat
for c, i in zip(df.columns.levels[0], np.random.choice(df.index, z * x, replace=False)):
df.loc[i, c] = a
df.columns = df.columns.map(lambda x: f'{x[0]}_{x[1]}')
print (df)
set1_col1 set1_col2 set2_col1 set2_col2 set3_col1 set3_col2
0 0.1 0.1 0.1 0.1 0.1 0.1
1 0.1 0.1 0.5 0.5 0.1 0.1
2 0.5 0.5 0.1 0.1 0.1 0.1
3 0.1 0.1 0.1 0.1 0.1 0.1
4 0.1 0.1 0.1 0.1 0.5 0.5
Обновлено: для последовательных случайных значений используйте:
N = 6 #No of rows
x = 3 #(set1, set2, set3)
y = 2 #(col1, col2 for each set)
a = 0.5
z = 2 #(for all column sets)
b = 0.1
#names of sets
sets = [f'set{w+1}' for w in range(x)]
#names of columns
cols = [f'col{w+1}' for w in range(y)]
#MultiIndex by product
mux = pd.MultiIndex.from_product([sets, cols])
#DataFrame with default value, index is create by consecutive groups
df = pd.DataFrame(b, index=np.arange(N) // z, columns=mux)
print (df)
#random assign a by random index with no repeat
for c, i in zip(df.columns.levels[0],
np.random.choice(np.unique(df.index), x, replace=False)):
df.loc[i, c] = a
df.columns = df.columns.map(lambda x: f'{x[0]}_{x[1]}')
df = df.reset_index(drop=True)
print (df)
set1_col1 set1_col2 set2_col1 set2_col2 set3_col1 set3_col2
0 0.5 0.5 0.1 0.1 0.1 0.1
1 0.5 0.5 0.1 0.1 0.1 0.1
2 0.1 0.1 0.1 0.1 0.5 0.5
3 0.1 0.1 0.1 0.1 0.5 0.5
4 0.1 0.1 0.5 0.5 0.1 0.1
5 0.1 0.1 0.5 0.5 0.1 0.1
Это случайным образом присваивает значение для любого из наборов. Следовательно, двум наборам может быть присвоено значение a в одной и той же строке. Можно ли присвоить значение a только одному набору столбцов в строке?
@peter_parker - ответ был отредактирован.
Спасибо! Хотя, если N = 6 и z = 2, каждый набор должен иметь две строки со значением 0,5, но это не относится к приведенному выше коду.
@peter_parker - Не понимаю.
Как изменить код, чтобы столбцы каждого набора имели две строки со значением 0,5?
@peter_parker - z=2 не работает?
Это происходит сейчас! Спасибо Израэль!
Спасибо, что задали вопрос. Я был бы рад помочь, но я не могу полностью понять описание данных, которые вы хотите. Возможно, либо 1. Поможет формальное определение. Или 2. Небольшая таблица примеров.