4 вопроса к сети lstm для генерации предложений

Предупреждение: я новичок в области глубокого обучения

Я тренирую свою двухслойную Lstm-модель на наборе данных анекдотов (231657 анекдотов) и хочу знать 4 вещи:

  1. Я тренирую его сейчас на 50 символах в предложении, если я хочу, чтобы он генерировал новые шутки, мне нужно сначала ввести 50 символов или я могу случайным образом нарисовать один символ, чтобы начать предложение / шутку?

  2. Разве не полезно обучать его только на 50 символах за 1,8 млн. всего (вектор [10800001, 50, 1]) или это хорошо?

  3. Я использовал класс, в котором я инициализировал свою модель, поэтому я могу его вызвать, к сожалению, если я хочу создать длинное предложение / несколько предложений, мне нужно вызывать свой оператор прогноза более одного раза, проблема в том, что мой оператор прогноза сначала запускает модель и затем предсказать значение, поэтому мне нужно использовать tf.reset_default_graph(), но через некоторое время это займет больше времени. Итак, что мне делать, чтобы предотвратить эту проблему? Может быть, мне запустить модель в основном скрипте или что-то в этом роде?

  4. Как решить проблему с растущим текстом? В настоящее время я принимаю форму ввода и использую ее для инициализации моей модели в моем классе, но это хорошая идея?
Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
2
0
44
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий
  1. Вам нужно начать с ввода начальной последовательности из 50 символов.
  2. Я предлагаю вам увеличить длину последовательности.
  3. Я вас не очень хорошо понимаю, но предлагаю вам правильно структурировать вашу модель. Прочтите это для получения дополнительной информации: https://danijar.com/structuring-your-tensorflow-models/
  4. Опять же, я предлагаю вам прочитать приведенную выше ссылку.

Не всегда обязательно делать свою модель как класс. Вы можете просто сделать модель один раз процедурным способом, обучить ее, а затем сохранить с помощью tf.Saver ()

Другие вопросы по теме