Создайте смоделированный набор данных в пандах

Я хотел бы создать кадры данных pandas с смоделированными данными.

Должно быть x наборов столбцов.
Каждый набор соответствует y количеству столбцов.
Каждый набор должен иметь значение a в z количествах строк. Значение a является числом с плавающей запятой.
Однако z может быть разным для разных наборов наборов столбцов. Остальные столбцы будут иметь другое значение b, которое также является числом с плавающей запятой.

Я хотел бы написать функцию для создания таких фреймов данных pandas, где я могу указать переменные x, y, a, b и где можно установить конкретное значение для z для отдельных наборов столбцов.

Вот пример ДФ:

data = [[0.5, 0.5, 0.1, 0.1, 0.1, 0.1], [0.1, 0.1, 0.5, 0.5, 0.1, 0.1], [0.1, 0.1, 0.1, 0.1, 0.5, 0.5]]
df = pd.DataFrame(data, columns=['set1_col1', 'set1_col2', 'set2_col1', 'set2_col2', 'set3_col1', 'set3_col2'])
df

Но я хотел бы иметь возможность указать переменные, которые для приведенного выше примера будут такими:

x = 3  #(set1, set2, set3)  
y = 2 #(col1, col2 for each set)  
a = 0.5  
z = 1 #(for all column sets)
b = 0.1

Совет по этому поводу будет очень признателен!

Спасибо!

Спасибо, что задали вопрос. Я был бы рад помочь, но я не могу полностью понять описание данных, которые вы хотите. Возможно, либо 1. Поможет формальное определение. Или 2. Небольшая таблица примеров.

— 07.11.2022 10:18

Кроме того, возможно, то, что вы ищете, можно легко сделать с помощью numpy (например, np.ones([size]) * a ), а затем загрузить в pandas. Вот так: stackoverflow.com/a/51308247/4386933

— 07.11.2022 10:20

Большое спасибо, что заглянули в него! Я обновил вопрос с примером. Дайте мне знать, если это более ясно сейчас или нет.

— 07.11.2022 10:47

python pandas

07.11.2022 10:14

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Используйте numpy.random.choice:

N = 5 #No of rows
x = 3  #(set1, set2, set3)  
y = 2 #(col1, col2 for each set)  
a = 0.5  
z = 1 #(for all column sets)
b = 0.1 

#names of sets
sets = [f'set{w+1}' for w in range(x)]
#names of columns
cols = [f'col{w+1}' for w in range(y)]
#MultiIndex by product
mux = pd.MultiIndex.from_product([sets, cols])
#DataFrame with default value
df = pd.DataFrame(b, index=range(N), columns=mux)

#random assign a by random index with no repeat
for c, i in zip(df.columns.levels[0], np.random.choice(df.index, z * x, replace=False)):
    df.loc[i, c] = a

df.columns = df.columns.map(lambda x: f'{x[0]}_{x[1]}')
print (df)
   set1_col1  set1_col2  set2_col1  set2_col2  set3_col1  set3_col2
0        0.1        0.1        0.1        0.1        0.1        0.1
1        0.1        0.1        0.5        0.5        0.1        0.1
2        0.5        0.5        0.1        0.1        0.1        0.1
3        0.1        0.1        0.1        0.1        0.1        0.1
4        0.1        0.1        0.1        0.1        0.5        0.5

Обновлено: для последовательных случайных значений используйте:

N = 6 #No of rows
x = 3  #(set1, set2, set3)  
y = 2 #(col1, col2 for each set)  
a = 0.5  
z = 2 #(for all column sets)
b = 0.1 

#names of sets
sets = [f'set{w+1}' for w in range(x)]
#names of columns
cols = [f'col{w+1}' for w in range(y)]
#MultiIndex by product
mux = pd.MultiIndex.from_product([sets, cols])
#DataFrame with default value, index is create by consecutive groups
df = pd.DataFrame(b, index=np.arange(N) // z, columns=mux)
print (df)


#random assign a by random index with no repeat
for c, i in zip(df.columns.levels[0], 
                np.random.choice(np.unique(df.index), x, replace=False)):
    df.loc[i, c] = a

df.columns = df.columns.map(lambda x: f'{x[0]}_{x[1]}')

df = df.reset_index(drop=True)
print (df)
   set1_col1  set1_col2  set2_col1  set2_col2  set3_col1  set3_col2
0        0.5        0.5        0.1        0.1        0.1        0.1
1        0.5        0.5        0.1        0.1        0.1        0.1
2        0.1        0.1        0.1        0.1        0.5        0.5
3        0.1        0.1        0.1        0.1        0.5        0.5
4        0.1        0.1        0.5        0.5        0.1        0.1
5        0.1        0.1        0.5        0.5        0.1        0.1

Это случайным образом присваивает значение для любого из наборов. Следовательно, двум наборам может быть присвоено значение a в одной и той же строке. Можно ли присвоить значение a только одному набору столбцов в строке?

— 07.11.2022 12:07

@peter_parker - ответ был отредактирован.

— 07.11.2022 12:23

Спасибо! Хотя, если N = 6 и z = 2, каждый набор должен иметь две строки со значением 0,5, но это не относится к приведенному выше коду.

— 07.11.2022 13:27

@peter_parker - Не понимаю.

— 07.11.2022 13:30

Как изменить код, чтобы столбцы каждого набора имели две строки со значением 0,5?

— 07.11.2022 15:02

@peter_parker - z=2 не работает?

— 07.11.2022 15:03

Это происходит сейчас! Спасибо Израэль!