Я пытаюсь создать «питоновский» способ взять небольшое подмножество очень большого массива в python.
В настоящее время я беру csv с 58 столбцами и 4960 строками со следующими кодами:
def import_normal_csv(file):
# Create blank array
results = []
# Open file
with open(file) as csvfile:
# read in file changing values to floats
reader = csv.reader(csvfile, quoting=csv.QUOTE_NONNUMERIC)
for row in reader:
results.append(row)
return results
def main():
print(" Working SPAM Dataset... ")
# Create a raw data array without numpy
spam_raw_data = import_normal_csv('spam.csv')
# CREATE SUBSET OF SPAM_RAW_DATA HERE
random.shuffle(spam_raw_data)
Я видел разные способы сделать это с помощью numpy или pandas, но я хотел бы сделать это естественно без этих библиотек. Вместо моего огромного массива, как я мог вместо этого взять только... 500 строк (или какое-то произвольное число, значительно меньше почти 5000)?






Вы можете использовать встроенную библиотеку random, например:
import random
random.sample(data, 500)
Это даст вам list 500 lists, каждая из которых представляет одну строку.