У меня есть два больших кадра данных, вот примеры примеров.
первый
firstnames|lastnames|age
tom|form|24
bob|lip|36
....
второй
firstnames|lastnames|age
mary|gu|24
jane|lip|36
...
Я хотел бы взять оба кадра данных и объединить их в один, который выглядит так:
firstnames|lastnames|age
tom|form|24
bob|lip|36
mary|gu|24
jane|lip|36
...
теперь я мог бы выписать их оба, и они прочитали бы их вместе, но это огромная трата времени.
это просто, как показано здесь: union https://docs.databricks.com/spark/latest/faq/append-a-row-to-rdd-or-dataframe.html
Если оба фрейма данных идентичны по структуре, то все просто -union()
df1.union(df2)
Если в каком-либо фрейме данных есть какой-либо отсутствующий столбец, вы должны добавить фиктивный столбец в этот фрейм данных в этой конкретной позиции столбца, иначе объединение вызовет исключение несоответствия столбца. в приведенном ниже примере столбец «c3» отсутствует в df1, поэтому я добавляю фиктивный столбец в df1 в последнюю позицию.
from pyspark.sql.functions import lit
df1.select('c1','c2',lit('dummy')).union(df2.select('c1','c2','c3'))