티스토리 뷰

Apache Beam사용하기 - Pipeline만들기

https://beam.apache.org/documentation/programming-guide/

위 문서를 번역함


파이프라인 추상화 클래스는 데이터와 데이터 처리 작업을 캡슐화 시킵니다. 빔 드라이버 프로그램은 주로 Pipeline 오브젝트를 만들면서 시작을 하고 PCollection으로 파이프라인의 데이타 셋을 만드는데 Pipeline오브젝트를 사용합니다.


Beam을 사용 하려면 드라이버 프로그램은 Beam SDK에 있는 Pipeline클래스의 인스턴스를 만들어 주어야 합니다. Pipeline 오브젝트를 만들때 몇가지 설정 값들이 필요합니다. 설정 값들은 프로그램 안에서 설정 해줄 수 있지만 미리 지정 해놓고 Pipeline 오브젝트를 만들 때 사용할 수 있습니다.


```java

// Start by defining the options for the pipeline.

PipelineOptions options = PipelineOptionsFactory.create();


// Then create the pipeline.

Pipeline p = Pipeline.create(options);

```


## 2.1 파이프라인 옵션 설정하기

파이프라인의 서로 다른 설정을 하기 위해 파이프라인 옵션을 사용합니다. 이런 파이프라인 러너(runner)는 파이프라인을 실행 하고 runner특정 설정은 선택된 러너에 대해 설정을 적용 할 수 있습니다. 파이프라인 옵션은 project_id, 저장 되는 파일의 위치 등을 추가 합니다.


당신이 선택한 파이프라인을 실행(run)할 때 PipelineOptions를 복사해서 코드에 넣고 사용하는 것도 가능합니다. 예를 들어 PipelineOptions 파라메터를 DoFn의 @ProcessElement 메소드에 추가하면 시스템이 인식 합니다. 


### 2.1.1 커맨드라인 옵션에서 PipelineOptions 넣기

PiplineOptions를 만들 때 필드를 직접 설정 할 수 있습니다. Beam SDK는 커맨드라인 파서를 포함하고 있기 때문에 커맨드라인에서 값을 넣어줄 수 있습니다.


'개발 > Infra' 카테고리의 다른 글

osx에 maven설치 하는 법  (0) 2018.12.19
sh array, print arr, make function, parameter  (0) 2018.10.31
jq 사용법  (0) 2018.09.14
iterm2에서 한줄 지우기 ctrl+a, ctrl+k  (0) 2018.09.12
iterm2에서 복사 하는 법  (0) 2018.09.10
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/03   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함