Альтернативы/более быстрые способы list.extend в python?

У меня есть довольно большое количество наборов данных для расширения.

Мне интересно, что было бы альтернативным/более быстрым способом сделать это.

Я пробовал как iadd, так и extend, оба из них занимают довольно много времени, чтобы создать вывод.

from timeit import  timeit

raw_data = [];
raw_data2 = [];
added_data = range(100000)

# .__iadd__
def test1():
    for i in range(10):
        raw_data.__iadd__(added_data*i);

#extend

def test2():
    for i in range(10):
        raw_data2.extend(added_data*i);


print(timeit(test1,number=2));
print(timeit(test2,number=2));

Я чувствую, что понимание списка или отображение массива может быть ответом на мой вопрос...

пожалуйста, используйте timeit модуль stdlib или какой-либо другой инструмент профилирования, time.time с выполнением в одной области видимости не подходит

— 05.04.2019 17:04

@AzatIbrakov, хорошо. спасибо, посмотрю эту функцию.

— 05.04.2019 17:05

@AzatIbrakov, как было предложено, заменил time.time на timeit, спасибо!

— 05.04.2019 17:20

@PatrickArtner, спасибо, тег удален.

— 05.04.2019 17:57

python python-2.7

05.04.2019 16:30

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

1 402

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Если вам нужны ваши данные в виде списка, вы не сильно выиграете - list.extend и __iadd__ очень близки по производительности - в зависимости от количества, которое вы используете, один или другой быстрее:

import timeit 
from itertools import repeat , chain 
raw_data = [] 
added_data = range(100000) # verify data : uncomment: range(5)

def iadd():
    raw_data = [] 
    for i in range(10):
        raw_data.__iadd__(added_data)
    # print(raw_data)

def extend():
    raw_data = [] 
    for i in range(10):
        raw_data.extend(added_data)
    # print(raw_data)

def tricked():
    raw_data = list(chain.from_iterable(repeat(added_data,10)))
    # print(raw_data)

for w,c in (("__iadd__",iadd),("  extend",extend),(" tricked",tricked)):
    print(w,end = " : ")
    print("{:08.8f}".format(timeit.timeit(c, number = 200)))

Выход:

# number = 20
__iadd__ : 0.69766775
  extend : 0.69303196    # "fastest"
 tricked : 0.74638002


# number = 200
__iadd__ : 6.94286992    # "fastest"
  extend : 6.96098415
 tricked : 7.46355973

Если вам это не нужно, вам лучше использовать генератор, который chain.from_iterable(repeat(added_data,10)) не создает сам список, чтобы уменьшить объем используемой памяти.

Связанный:

Мартин Питерс♦ ответ

05.04.2019 17:45

Я не уверен, что есть лучший способ сделать это, но с помощью numpy и ctypes вы можете предварительно выделить достаточно памяти для всего массива, а затем использовать ctypes.memmove для копирования данных в raw_data, который теперь представляет собой ctypes массив ctypes.c_longs.

from timeit import timeit
import ctypes
import numpy

def test_iadd():
    raw_data = []
    added_data = range(1000000)

    for i in range(10):
        raw_data.__iadd__(added_data)


def test_extend():
    raw_data = []
    added_data = range(1000000)

    for i in range(10):
        raw_data.extend(added_data)
    return


def test_memmove():
    added_data = numpy.arange(1000000)  # numpy equivalent of range

    raw_data = (ctypes.c_long * (len(added_data) * 10))()  # make a ctypes array to contain elements

    # the address to copy to
    raw_data_addr = ctypes.addressof(raw_data)
    # the length of added_data in bytes
    added_data_len = len(added_data) * ctypes.sizeof(ctypes.c_long)
    for i in range(10):
        # copy data for one section
        ctypes.memmove(raw_data_addr, added_data.ctypes.data, added_data_len)
        # update address to copy to
        raw_data_addr += added_data_len


tests = [test_iadd, test_extend, test_memmove]

for test in tests:
    print '{} {}'.format(test.__name__, timeit(test, number=5))

Этот код дал следующие результаты на моем ПК:

test_iadd 0.648954868317
test_extend 0.640357971191
test_memmove 0.201567173004

Это показывает, что использование ctypes.memmove значительно быстрее.

05.04.2019 18:34

Другие вопросы по теме

Простой модуль Ansible не запускается с ошибкой «Неподдерживаемые параметры». наверное глупость какая-то

Boost Python 2: конструкторы с использованием `std::string &`

Какую кодировку возвращает blob.download_as_string()?

Когда задана последовательность букв, найти ближайшую из заданного списка

Отправка данных Json на сервер из файла, периодически используя python

Автоинкрементное значение идентификатора для каждой новой строки в CSV-файле

Общий модуль ведения журнала в Python

Повторно сжать распакованную строку с помощью zlib

Эффективный способ добавить байты к слову и изменить их?

TFRecords для видео

Альтернативы/более быстрые способы list.extend в python?

Ответы 2

Другие вопросы по теме

Похожие вопросы