Я понимаю, что это немного выходит за рамки того, какие вопросы здесь обычно задают, поэтому, пожалуйста, простите это. Мне было поручено провести открытый технический отбор на работу в качестве специалиста по данным. Это моя первая работа, требующая чего-то подобного, поэтому я хочу убедиться, что отправляю действительно хорошую работу. Мне дали набор данных и попросили определить проблему и то, как использовать машинное обучение для ее решения, дать статистику по целевой функции, предварительно обработать данные данных, смоделировать данные и интерпретировать результаты.
Я ищу отзывы о том, не упустил ли я что-то важное в своих результатах. Обратная связь на высоком уровне — это хорошо. Надеюсь, некоторые из вас являются специалистами по обработке и анализу данных, и им приходилось либо проходить техническую проверку, подобную этой, либо просматривать ее, и они могут дать ценный отзыв начинающему специалисту по данным.
Спасибо!
с орбитальным кораблем Mars Express была задача сделать именно то, о чем вас просили: предсказать потребление, зная некоторые параметры: kelvins.esa.int/mars-express-power-challenge над этим работала другая команда, и победитель не использовал LSTM. (не значит, что правильно его не использовать) arc.aiaa.org/doi/pdf/10.2514/6.2018-2561






взгляните на
Mars Express Power Challenge Get the data, model and predict the thermal power consumption
здесь https://kelvins.esa.int/mars-express-power-challenge/
Задача состояла в том, чтобы получить данные и спрогнозировать будущее потребление орбитального аппарата, чтобы спланировать, как экономить энергию (когда в солнечном поле есть риск перегрева, а в солнечную ночь риск переохлаждения).
Команды использовали разные подходы. Вероятно, я бы выбрал LSTM. Но команда-победитель провела очень подробное объяснение по «Разработке и выбору признаков». Дело в том, что важен не используемый инструмент, а правильный выбор извлечения и выбора признаков. https://arc.aiaa.org/doi/pdf/10.2514/6.2018-2561
Я прочитал и победившую статью, и вашу работу. На самом деле я предпочитаю ваш путь. Как вы видите, если вы читаете статью, ваша методология вполне сопоставима, но они ставят исследование извлечения признаков в центр исследования.
Вы можете обезопасить свою работу, предоставив больше доказательств того, что вы выбрали правильный метод для FE. Например, вы можете предоставить 2 метода FE и сравнить результат с учетом метода, или вы объясните, что выбрали один, зная текущее состояние дел в отношении этой конкретной статьи, что доказывает blablabla...
Вы можете добавить сравнительный результат ARIMA VAR VARMA и свой, чтобы проиллюстрировать «превосходство» и ссылку на современные документы за последние 3 года в этой области, а также другие ссылки на недавнюю публикацию по LSTM для прогнозирования энергопотребления.
Ваш документ заканчивается резко, можно было бы ожидать декоративного завершения, которое мы привыкли видеть в обычной газете.
Это.
(пожалуйста, не принимайте во внимание мое единственное мнение, так как я не чувствую себя специалистом по данным :) Я буду очень горд собой в тот день, когда смогу создать то, что вы сделали;) спасибо, что поделились, было приятно это прочитать )
Если бы я был оценщиком, я бы задавал такие вопросы, как
1) Какова проблема исследования/бизнеса? Предложение: Начните отчет с четкого определения вопроса.
2) Какие существуют способы решения проблемы? Предложение: добавьте краткий обзор литературы по существующим решениям подобных проблем и их результатам, желательно в табличном формате.
3) Кратко остановитесь на описательных и многомерных свойствах данных. Предложение: добавьте описательную и выводную статистику по данным, включая некоторую предварительную гипотезу, которая может быть получена из переменных корреляций.
4) Почему вы выбрали именно этот подход к решению проблемы? Предложение: Дайте достоверное обоснование, подкрепленное количественными гипотетическими примерами решений, которые поддерживают предлагаемый подход.
5) Если это задача классификации, я бы задал вопрос типа «Какова базовая точность модели?» И если это задача кластеризации, «Каков базовый уровень чистоты кластера?» Предложение: Найдите эту точность из целевого распределения переменных.
Наконец, нужно понять, почему задан такой открытый вопрос. Может быть две возможности;
(a) Компания является новой в отношении науки о данных и не уверена в том, что они ищут, то есть у них нет либо необходимого опыта для оценки навыков кандидата, либо они просто не уверены в своих требованиях. Если это так, то необходимо, чтобы отчет был как можно более простым и подробным. Держитесь подальше от жаргона.
ИЛИ
(б) компания имеет опыт работы с данными, и это фильтрующий тест. Чтобы отфильтровать самопровозглашенных специалистов по данным nincompoops, которые думают, что объединение нескольких готовых шагов решения (такие как предварительная обработка, уменьшение размерности, моделирование) решает проблему. Основная идея состоит в том, чтобы выяснить аналитические способности кандидата.
Поэтому пишите отчет с умом и следите за тем, чтобы ничего не было фальсифицировано.
Удачи.
Для части 5) Как только у меня будет целевая переменная дисперсия, как я буду использовать ее на протяжении всего обучения моей модели? Должен ли я сравнить общую дисперсию с прогнозируемой дисперсией и сделать из этого вывод?
Как вы понимаете распространение данных? Как вы думаете, в чем сходство и различие между дисперсией и распределением?
Я бы объяснил, как другая команда приняла во внимание проблему, описание современного состояния со ссылкой на ссылку и почему вы выбрали этот метод по сравнению с другими (потому что есть другой метод)