Ошибка DataFlow с кодом возврата 1 с помощью Airflow DataflowHook.start_python_dataflow

И это мой код ниже.

Когда я запускаю приведенный ниже код, я получаю указанную ниже ошибку. Я пытаюсь преобразовать файлы gvcf / vcf в моем облачном хранилище Google в bigquery, используя api gcp-variant-transforms.

[2018-06-06 16:46: 42,589] {models.py:1428} ИНФОРМАЦИЯ - выполняется 2018-06-06 21: 46: 34.252526 [2018-06-06 16:46: 42,589] {base_task_runner.py:115} ИНФОРМАЦИЯ - Запуск: ['bash', '-c', u'airflow run GcsToBigQuery gcsToBigquery_ID 2018-06-06T21: 46: 34.252526 - job_id 168 --raw -sd DAGS_FOLDER / GcsToBigQuery.py '] [2018-06-06 16:46: 43,204] {base_task_runner.py:98} ИНФОРМАЦИЯ - Подзадача: [2018-06-06 16: 46: 43,202] {в этом.py:45} ИНФОРМАЦИЯ - Использование исполнителя SequentialExecutor [2018-06-06 16:46: 43,284] {base_task_runner.py:98} ИНФОРМАЦИЯ - Подзадача: [2018-06-06 16: 46: 43,283] {models.py:189} ИНФОРМАЦИЯ - Заполнение DagBag из / приложения / воздушный поток / дагс / GcsToBigQuery.py [2018-06-06 16:46: 43,853] {base_task_runner.py:98} ИНФОРМАЦИЯ - Подзадача: [2018-06-06 16: 46: 43,852] {gcp_dataflow_hook.py:111} ИНФОРМАЦИЯ - Начать ожидание, пока процесс DataFlow перейдет полный. [2018-06-06 16: 46: 46,931] {base_task_runner.py:98} ИНФОРМАЦИЯ - Подзадача: [2018-06-06 16: 46: 46,930] {GcsToBigQuery.py:48} ОШИБКА - Статус: FAIL: gcsToBigquery: Не удалось запустить: Ошибка DataFlow с кодом возврата 1 [2018-06-06 16:46: 46,931] {base_task_runner.py:98} ИНФОРМАЦИЯ - Подзадача: [2018-06-06 16: 46: 46,930] {python_operator.py:90} ИНФОРМАЦИЯ - Готово. Возвращенное значение было: Нет

Пожалуйста, помогите мне с этим вопросом. Спасибо!

from datetime import datetime, timedelta
from airflow import DAG
from airflow.contrib.hooks.gcp_dataflow_hook import DataFlowHook
from airflow.operators.python_operator import PythonOperator
import logging

default_args = {
    'owner': 'My Name',
    'depends_on_past': False,
    'start_date': datetime(2018, 6, 6),
    'email': ['MY Email'],
    'email_on_failure': True,
    'email_on_retry': False,
    'retries': 2,
    'retry_delay': timedelta(minutes=5)
}

dag = DAG('GcsToBigQuery', default_args=default_args,
          description='To move GVCF/VCF files from Google Cloud Storage to Big Query',
          schedule_interval='@once',
          start_date=datetime(2018, 6, 6))

dataflow_py_file = 'gcp_variant_transforms.vcf_to_bq'
PY_OPTIONS = ['-m']

DATAFLOW_OPTIONS_PY = {
    "project": "project-Name",
    "input_pattern": "gs://test-gvcf/1000-genomes.vcf",
    "output_table": "trc-mayo-projectsample:1000genomicsID.1000_genomesSamp",
     "staging_location": "gs://test-gvcf/vcftobq/staging",
     "temp_location": "gs://test-gvcf/vcftobq/temp",
     "job_name": "dataflowstarter25",
     #"setup_file": "./setup.py",
     "runner": "DataflowRunner"
}


def gcsToBigquery():
    try:
        dataflowHook = DataFlowHook(gcp_conn_id='google_cloud_platform_id')
        dataflowHook.start_python_dataflow(task_id='dataflowStarter2_ID', variables=DATAFLOW_OPTIONS_PY,
                                       dataflow=dataflow_py_file, py_options=PY_OPTIONS)
    except Exception as e:
        logging.error("Status : FAIL : gcsToBigquery: Not able to run: " + str(e.message))

gcsToBigquery_task = PythonOperator(task_id='gcsToBigquery_ID',
                                    python_callable=gcsToBigquery,
                                    dag=dag)
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
0
561
1

Ответы 1

Этой проблемы можно избежать, используя Поток данных и установив API gcp_variant_transforms в экземпляре облака.

Команда для установки необходимых компонентов:

sudo pip install git+https://github.com/googlegenomics/gcp-variant-transforms.git

Если у кого-то также есть эта проблема, вы можете взглянуть на этот Почта, где описано подробное объяснение шагов, которые Шрикант выполнил для успешного выполнения кода.

Другие вопросы по теме