Я впервые пользуюсь сообществом Databriks, и у меня есть вопрос. У меня есть простой файл CSV, показывающий 7 полей: больница, район и т. д.
Я загрузил файл, используя:
введите здесь описание изображения
Затем мне нужно рассчитать количество строк и количество разных больниц в наборе данных. Когда я пытаюсь проверить количество разных больниц, я получаю сообщение об ошибке: не могу разрешить 'Hospital
' заданные входные столбцы: [Больница; Баррио; Феча ингресо; Феча альта; Эдад пациенте; Секс пациенте; Основная диагностическая зона];;
(Кажется, команда не распознает «Больницу» как имя столбца.) Есть идеи?
Используемый код:
print("Número de hospitales distintos: " + str(df.select("Hospital").distinct().count()))
Вы используете неправильный разделитель — в вашем коде (лучше указать его как текст, а не как изображение!) вы используете ,
в качестве разделителя, но ваши данные разделены ;
. Поэтому измените строку delimiter = ','
на delimiter = ';'
, и она должна работать.