Я пытаюсь проанализировать файл CSV, поступающий с компьютера Windows, на компьютер Linux с помощью Apache Spark, но символы с акцентом, похоже, не распознаются...
Dataset<Row> df = spark
.read()
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("file.csv");




Похоже, вы почти у цели. Пытаться:
Dataset<Row> df = spark
.read()
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.option("encoding", "cp1252")
.load("file.csv");
Вы можете указать encoding как опцию. Для Windows это cp1252.
Скорее всего... Особенно, если ваш файл исходит из Excel.
Другой способ — запустить команду dos2unix для файла из Terminal после его переноса в Linux.
dos2unix <file_name>
Это гарантирует, что символы возврата каретки будут удалены из файла, и он станет удобным для Linux.
cp1252 = Windows?