Отзыв о проекте Data Science LSTM

Я понимаю, что это немного выходит за рамки того, какие вопросы здесь обычно задают, поэтому, пожалуйста, простите это. Мне было поручено провести открытый технический отбор на работу в качестве специалиста по данным. Это моя первая работа, требующая чего-то подобного, поэтому я хочу убедиться, что отправляю действительно хорошую работу. Мне дали набор данных и попросили определить проблему и то, как использовать машинное обучение для ее решения, дать статистику по целевой функции, предварительно обработать данные данных, смоделировать данные и интерпретировать результаты.

Я ищу отзывы о том, не упустил ли я что-то важное в своих результатах. Обратная связь на высоком уровне — это хорошо. Надеюсь, некоторые из вас являются специалистами по обработке и анализу данных, и им приходилось либо проходить техническую проверку, подобную этой, либо просматривать ее, и они могут дать ценный отзыв начинающему специалисту по данным.

Спасибо!

Github ссылка на проект

Я бы объяснил, как другая команда приняла во внимание проблему, описание современного состояния со ссылкой на ссылку и почему вы выбрали этот метод по сравнению с другими (потому что есть другой метод)

Damien MIRAS 26.05.2019 01:24

с орбитальным кораблем Mars Express была задача сделать именно то, о чем вас просили: предсказать потребление, зная некоторые параметры: kelvins.esa.int/mars-express-power-challenge над этим работала другая команда, и победитель не использовал LSTM. (не значит, что правильно его не использовать) arc.aiaa.org/doi/pdf/10.2514/6.2018-2561

Damien MIRAS 26.05.2019 01:28
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
1
2
64
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

взгляните на

Mars Express Power Challenge Get the data, model and predict the thermal power consumption

здесь https://kelvins.esa.int/mars-express-power-challenge/

Задача состояла в том, чтобы получить данные и спрогнозировать будущее потребление орбитального аппарата, чтобы спланировать, как экономить энергию (когда в солнечном поле есть риск перегрева, а в солнечную ночь риск переохлаждения).

Команды использовали разные подходы. Вероятно, я бы выбрал LSTM. Но команда-победитель провела очень подробное объяснение по «Разработке и выбору признаков». Дело в том, что важен не используемый инструмент, а правильный выбор извлечения и выбора признаков. https://arc.aiaa.org/doi/pdf/10.2514/6.2018-2561

Я прочитал и победившую статью, и вашу работу. На самом деле я предпочитаю ваш путь. Как вы видите, если вы читаете статью, ваша методология вполне сопоставима, но они ставят исследование извлечения признаков в центр исследования.

Вы можете обезопасить свою работу, предоставив больше доказательств того, что вы выбрали правильный метод для FE. Например, вы можете предоставить 2 метода FE и сравнить результат с учетом метода, или вы объясните, что выбрали один, зная текущее состояние дел в отношении этой конкретной статьи, что доказывает blablabla...

Вы можете добавить сравнительный результат ARIMA VAR VARMA и свой, чтобы проиллюстрировать «превосходство» и ссылку на современные документы за последние 3 года в этой области, а также другие ссылки на недавнюю публикацию по LSTM для прогнозирования энергопотребления.

Ваш документ заканчивается резко, можно было бы ожидать декоративного завершения, которое мы привыкли видеть в обычной газете.

Это.

(пожалуйста, не принимайте во внимание мое единственное мнение, так как я не чувствую себя специалистом по данным :) Я буду очень горд собой в тот день, когда смогу создать то, что вы сделали;) спасибо, что поделились, было приятно это прочитать )

Если бы я был оценщиком, я бы задавал такие вопросы, как

1) Какова проблема исследования/бизнеса? Предложение: Начните отчет с четкого определения вопроса.

2) Какие существуют способы решения проблемы? Предложение: добавьте краткий обзор литературы по существующим решениям подобных проблем и их результатам, желательно в табличном формате.

3) Кратко остановитесь на описательных и многомерных свойствах данных. Предложение: добавьте описательную и выводную статистику по данным, включая некоторую предварительную гипотезу, которая может быть получена из переменных корреляций.

4) Почему вы выбрали именно этот подход к решению проблемы? Предложение: Дайте достоверное обоснование, подкрепленное количественными гипотетическими примерами решений, которые поддерживают предлагаемый подход.

5) Если это задача классификации, я бы задал вопрос типа «Какова базовая точность модели?» И если это задача кластеризации, «Каков базовый уровень чистоты кластера?» Предложение: Найдите эту точность из целевого распределения переменных.

Наконец, нужно понять, почему задан такой открытый вопрос. Может быть две возможности;

(a) Компания является новой в отношении науки о данных и не уверена в том, что они ищут, то есть у них нет либо необходимого опыта для оценки навыков кандидата, либо они просто не уверены в своих требованиях. Если это так, то необходимо, чтобы отчет был как можно более простым и подробным. Держитесь подальше от жаргона.

ИЛИ

(б) компания имеет опыт работы с данными, и это фильтрующий тест. Чтобы отфильтровать самопровозглашенных специалистов по данным nincompoops, которые думают, что объединение нескольких готовых шагов решения (такие как предварительная обработка, уменьшение размерности, моделирование) решает проблему. Основная идея состоит в том, чтобы выяснить аналитические способности кандидата.

Поэтому пишите отчет с умом и следите за тем, чтобы ничего не было фальсифицировано.

Удачи.

Для части 5) Как только у меня будет целевая переменная дисперсия, как я буду использовать ее на протяжении всего обучения моей модели? Должен ли я сравнить общую дисперсию с прогнозируемой дисперсией и сделать из этого вывод?

ai.jennetta 26.05.2019 13:32

Как вы понимаете распространение данных? Как вы думаете, в чем сходство и различие между дисперсией и распределением?

mnm 27.05.2019 22:06

Другие вопросы по теме