Установка JupytherHub по умолчанию в EMR не имеет доступа к контексту Hive в Spark. Как я могу это исправить?
Чтобы предоставить Spark-доступ к контексту Hive, вам необходимо отредактировать файл livy.conf (/etc/livy/conf.dist/livy.conf) следующим образом
livy.repl.enableHiveContext = true
а затем перезапустите ноутбук и службу livy, следуя инструкциям здесь, в основном:
sudo stop livy-server
sudo start livy-server
Простой способ проверить, работает ли он, - это проверить базы данных в своем ноутбуке Spark:
spark.sql("show databases").show
Возможно, вы захотите настроить это во время загрузки EMR, используя стандартные функции конфигурации EMR, https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-configure-apps.html.