Каждую ночь мне нужно заполнять таблицу SQL Server 2005 из источника ODBC более чем 8 миллионами записей. В настоящее время я использую оператор вставки со связанного сервера с синтаксисом select, подобным этому:
Insert Into SQLStagingTable from Select * from OpenQuery(ODBCSource, 'Select * from SourceTable')
Это действительно неэффективно и требует часов на выполнение. Я занимаюсь кодированием решения с использованием кода SqlBulkInsert, аналогичного коду, найденному в этот вопрос.
Код в этом вопросе сначала заполняет таблицу данных в памяти, а затем передает эту таблицу данных методу SqlBulkInserts WriteToServer.
Что мне делать, если заполненная таблица данных использует больше памяти, чем доступно на компьютере, на котором она работает (в моем случае это сервер с 16 ГБ памяти)?
Я подумал об использовании перегруженного метода ODBCDataAdapter наполнять, который позволяет заполнять только записи от x до n (где x - начальный индекс, а n - количество записей для заполнения). Однако это могло оказаться даже более медленным решением, чем то, что у меня сейчас есть, поскольку это означало бы повторный запуск оператора select в источнике несколько раз.
Что я должен делать? Просто заполнить все сразу и позволить ОС управлять памятью? Должен ли я заполнять его кусками? Есть ли другое решение, о котором я не думал?





Самый простой способ - использовать ExecuteReader () против вашего источника данных odbc и передать IDataReader в перегрузку WriteToServer (IDataReader).
Большинство реализаций считывателей данных сохраняют в памяти лишь очень небольшую часть общих результатов.
SSIS работает хорошо и легко настраивается. По моему опыту, 8 миллионов строк не из своей категории. Один из моих более крупных ETL извлекает 24 миллиона строк в день и выполняет основные преобразования и манипуляции с хранилищем размерных данных.
Да, кривая обучения намного круче, однако через несколько недель это действительно может окупить вас.
Если у вас есть индексы в целевой таблице, вы можете подумать об их отключении до тех пор, пока записи не будут вставлены?
В этом случае я заполняю только что созданную временную таблицу, затем обновляю живую таблицу после создания временной таблицы, а затем удаляю временную таблицу. Так что у меня нет индексов во временной таблице.
Мне действительно нужно время, чтобы изучить SSIS. Я слышал о нем хорошие отзывы, но определенно требуется больше обучения, чем для DTS.