Я пытаюсь изучить Python, но у меня возникла проблема. Мне нужно выбрать X строк DataFrame случайным образом, и я делаю это с помощью sample.(frac=X), но в моем случае у меня могут быть дублированные строки, а sample() этого не делает.
Вот что я делаю:
dfSub = dataFrame.groupby(self.column, as_index=False).apply(lambda x: x.sample(frac=self.percentage)).reset_index(drop=True)
Как я могу выбрать случайным образом с вероятностью повторяющихся строк?





То, что вы хотите, называется случайной выборкой с заменой, то есть после извлечения шара из урны вы помещаете его обратно в урну, чтобы его можно было снова нарисовать.
Все, что вам нужно, это установить для параметра replace значение True:
lambda x: x.sample(frac=self.percentage, replace=True)
Круто, отличная новость! Если это помогло, не могли бы вы принять мой ответ, поставив галочку слева? Это помогает другим найти правильное решение и повышает мою репутацию :)
Большое спасибо. Оно работает. Я прочитал документацию pandas и не видел параметра
replace.