본문으로 바로가기

Apache Beam사용하기 - PCollection

category 분류없음 2018.09.20 10:27


# PCollection(피콜렉션)


피콜렉션(PCollection) 추상화 클래스는 근본적으로 분산, 멀티 엘리먼트 데이터 셋을 표현한 것이다.


피콜렉션은 근본적으로 파이프라인 데이터라고 생각하면 된다. Beam에서 트렌스폼(Transforms)은 피콜렉션 오브젝트를 입력과 출력에 사용한다. 파이프라인을 이용해 데이터를 처리 하고 싶다면 데이터는 피콜렉션 형태여야 한다.


3.1 피콜렉션(PCollection) 만들기

빔 소스 API(Beam Source API)를 이용해 외부 소스에서 데이터를 읽어 올 때나 직접 만든 드라이버 프로그램의 메모리에 저장된 데이터를 불러 올 때 피콜렉션을 만들어서 사용합니다. 외부 소스에서 데이터를 읽어오는 경우가 파이프라인이 주로 사용되는 경우이다. 빔의 소스 API는 대용량 클라우드 베이스의 파일이나 데이터베이스나 서브스크립션 서비스에서 데이터를 읽어오는 어댑터를 포함하고 있다.


메모리에 저장된 데이터를 불러오는 경우는 테스팅이나 디버깅 목적으로 사용할 때 이다.


3.1.1 외부 소스에서 데이터 불러오기

외부 소스에서 데이터를 불러 올 때 빔이 제공하는 I/O 어댑터 중 하나를 사용합니다. 




댓글을 달아 주세요