Как построить график из фрейма данных? (ГрафикX)

Я новичок в scala и spark, и мне нужно построить график из фрейма данных. это структура моего фрейма данных, где S и O являются узлами, а столбец P представляет ребра.

+---------------------------+---------------------+----------------------------+
|S                          |P                    |O                           |
+---------------------------+---------------------+----------------------------+
|http://website/Jimmy_Carter|http://web/name      |James Earl Carter           |
|http://website/Jimmy_Car   |http://web/country   |http://website/United_States|
|http://website/Jimmy_Car   |http://web/birthPlace|http://web/Georgia_(US)     |
+---------------------------+---------------------+----------------------------+

Это код фрейма данных, и я хочу создать график из фрейма данных «dfA».

 val test = sc
     .textFile("testfile.ttl")
     .map(_.split(" "))
     .map(p => Triple(Try(p(0).toString()).toOption,
                      Try(p(1).toString()).toOption,
                      Try(p(2).toString()).toOption))
     .toDF()

  val url_regex = """^(?:"|<{1}\s?)(.*)(?:>(?:\s\.)?|,\s.*)$"""
  val dfA = test
      .withColumn("Subject", regexp_extract($"Subject", url_regex, 1))
      .withColumn("Predicate", regexp_extract($"Predicate", url_regex, 1))
      .withColumn("Object", regexp_extract($"Object", url_regex, 1))

У вас была возможность взглянуть на ответ? Это решает вашу проблему?

— 09.04.2019 17:49

Привет, да, ответ решил проблему. но я изменил 'значительные ребра: RDD[Edge(VertexId, VertexId, String)]' на 'значительные ребра: RDD[Edge[String]]'. Большое спасибо !

— 09.04.2019 19:02

И извините за поздний ответ, у меня были проблемы, и я не смог проверить код. Я сделал это сегодня.

— 09.04.2019 19:13

scala apache-spark dataframe graph spark-graphx

05.04.2019 09:27

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

3 689

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Чтобы создать график GraphX, вам нужно извлечь вершины из вашего фрейма данных и связать их с идентификаторами. Затем вам нужно извлечь ребра (2 набора вершин + метаданные), используя эти идентификаторы. И все это должно быть в RDD, а не в кадрах данных.

Другими словами, вам нужен RDD[(VertexId, X)] для вершин и RDD[Edge(VertexId, VertexId, Y)], где X — метаданные вершины, а Y — метаданные ребра. Обратите внимание, что VertexId — это просто псевдоним для Long.

В вашем случае с «S» и «O» столбцами вершин и «P» столбцом края это будет выглядеть следующим образом.

// Let's create the vertex RDD.
val vertices : RDD[(VertexId, String)] = df
    .select(explode(array('S, 'O))) // S and O are the vertices
    .distinct // we remove duplicates
    .rdd.map(_.getAs[String](0)) // transform to RDD
    .zipWithIndex // associate a long index to each vertex
    .map(_.swap)

// Now let's define a vertex dataframe because joins are clearer in sparkSQL
val vertexDf = vertices.toDF("id", "node")

// And let's extract the edges and join their vertices with their respective IDs
val edges : RDD[Edge(VertexId, VertexId, String)] = df
    .join(vertexDf, df("S") === vertexDf("node")) // getting the IDs for "S"
    .select('P, 'O, 'id as 'idS)
    .join(vertexDf, df("O") === vertexDf("node")) // getting the IDs for "O"
    .rdd.map(row => // creating the edge using column "P" as metadata 
      Edge(row.getAs[Long]("idS"), row.getAs[Long]("id"), row.getAs[String]("P")))

// And finally
val graph = Graph(vertices, edges)

05.04.2019 11:38

Другие вопросы по теме

Конфигурация для задания искры для записи файла 3000000 в качестве вывода

Если мы создадим несколько сеансов Spark с помощью метода newSession(), как будет распределяться память драйвера между несколькими сеансами Spark?

Как мне написать автономное приложение в Spark, чтобы найти 20 самых упоминаний в текстовом файле, заполненном извлеченными твитами

Местоположение динамического пути AWS Glue Crawl S3

Сбой UDF Apache Spark Python

Отправка в Spark Master внутри кластера kubernetes

Выберите строки из фрейма данных, проверив значение другого столбца

Как заменить нули в слиянии и добавлении

Поведение порядка окон Spark SQL по

Как выполнить задание ETL на AWS DyanmoDB, чтобы получить CSV-файлы в S3 только для новых данных с помощью AWS Glue

Как построить график из фрейма данных? (ГрафикX)

Ответы 1

Другие вопросы по теме

Похожие вопросы