Azure Databricks

Cloud/Azure / /
728x90

 

1.    Databricks?

1)      Spark 개발진이 개발한 Enterprise Spark Service

2)      Azure에서는 Azure Jupyter Notebook을 이용한 Python, Scala, SQL, R 소스로 이용 가능


3)      개발된 소스를 Upload하거나, PyPI로 필요한 패키지를 Install 하여 사용할 수 있다.


2.    Workspace

1)      작업을 정의하고 저장하는 저장소

2)      공유된 Workspace와 계정 별로 정의된 Workspace를 제공


3)      작업은 생성 및 가져오기 가능

A.     Notebook

                                  i.         Jupyter notebook과 같은 UI를 제공


가)    Name : Notebook의 이름

나)    Language : 사용할 언어 (Python, Scala, SQL, R)

다)    Cluster : 작업에 사용될 이미 선언된 Spark 클러스터

B.      Library : Jar로 이미 빌드된 패키지를 등록

C.      MLflow Experiment : Azure ML의 작업을 등록

3.    Data

1)      클러스터 생성 시 생성되는 컨테이너 디스크에 데이터를 저장하여 재사용이 가능

2)      클러스터 크기에 따라 사용 가능한 용량이 다르고 클러스터 제거 시 디스크가 같이 제거되기 때문에 해당 데이터를 영구적으로는 사용불가

3)      클러스터가 중지된 상태에서는 데이터가 보존된다.

4.    Cluster

1)      작업을 실행할 컨테이너 클러스터


2)      생성


A.     Cluster name : 클러스터명

B.      Cluster Mode

                                  i.         Standard : 기본적이 스펙을 가진 컨테이너 선택 가능

                                 ii.         High Concurrency : 고스펙 컨테이너 선택 가능

C.      Pool : 미리 선언된 예비 클러스터로 이중화 처리

D.     Databricks Runtime Version : Spark Python 등에 대응되는 버전

E.      Enable Auto Scaling : 자동으로 Work node 조절 여부

F.      Terminate after xxx minute of inactivity : 미사용 시 자동 정지 시간, Databricks는 시간 당 과금 처리되기 때문에 해당 부분 매우 중요하다

G.     Worker Type : Job을 실행할 컨테이너

                                  i.         Min Workers : Auto Scaling 시 최소 사용 Worker

                                 ii.         Max Workers : Auto Scaling 시 최대 사용 Worker

H.     Driver Type : Job을 지시할 Manager Node 컨테이너

I.       Advenced Options : Cluster가 생성될 시 실행될 옵션 설정

5.    Jobs

1)      Workspace에 선언된 작업들을 실행하는 설정


2)      여러 Job을 실행하도록 설정 가능

3)      실행 전 Spark Option을 설정하여 실행 가능

4)      여러 Cluster가 등록되어 있을 시 Cluster를 선택하여 진행 가능

5)      Schedule을 설정하여 해당 Job을 반복적으로 실행 가능

6.    Databricks File System (이하 Dbfs)

1)      DBFSAzure Databricks 작업 영역에 탑재되고 Azure Databricks Cluster에서 사용할 수 있는 분산 파일 시스템

2)      Azure Storage와 별개의 Azure Databricks에서만 공유되는 저장공간이며, Cluster 종료 혹은 삭제 한 후에도 삭제되지 않는 특성이 있다.

3)      Azure Databricks Resource에 귀속된다.

4)      PyPI 패키지 databricks-cli를 설치하여 ‘dbfs ls’와 같은 형태로 쉡 스크립트로 접근 가능하며, Azure Databricks Notebook으로 %fs(혹은 %sh)를 선언 후, 쉘 스크립트 명령을 이용하여 접근 및 사용이 가능하다.


 


5)      , Azure Storage 간의 데이터를 이동 시에는 소스에서 실제로 Upload 혹은 download 소스를 작성하여 사용해야 한다.

728x90
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기