Я пытаюсь извлечь данные, объединив две таблицы в pyspark. Мой запрос на присоединение выглядит так:
SELECT COUNT(DISTINCT m.ticker),to_date(m.date) FROM extractalpha_cam2 m LEFT OUTER JOIN TOP1000 u ON u.date = to_date(m.date) GROUP BY m.date ORDER BY m.date
Выдает ошибку:
Error:Py4JJavaError: An error occurred while calling z:org.apache.zeppelin.spark.ZeppelinContext.showDF
Но когда я попытался извлечь данные из каждой таблицы, все заработало. Мои запросы из одной таблицы похожи на
SELECT to_date(date) FROM extractalpha_cam2
SELECT date from TOP1000
Эти два запроса работают нормально. Может ли кто-нибудь помочь мне извлечь данные из обеих таблиц, присоединившись.
Было бы действительно полезно, если бы кто-нибудь мог поделиться любой такой ссылкой, которая может помочь мне в написании эффективных запросов в pyspark.
Я проверил и обнаружил, что эта ошибка возникает, когда задание, которое вы выполняете, занимало больше времени, чем время, установленное вами для тайм-аута. В моем случае это было 300 секунд.
Дайте мне знать, если у кого-нибудь есть более ценный ответ, чем этот. Спасибо