1. Databricks란?
1) Spark 개발진이 개발한 Enterprise Spark Service
2) Azure에서는 Azure Jupyter Notebook을 이용한 Python, Scala, SQL, R 소스로 이용 가능
3) 개발된 소스를 Upload하거나, PyPI로 필요한 패키지를 Install 하여 사용할 수 있다.
2. Workspace
1) 작업을 정의하고 저장하는 저장소
2) 공유된 Workspace와 계정 별로 정의된 Workspace를 제공
3) 작업은 생성 및 가져오기 가능
A. Notebook
i. Jupyter notebook과 같은 UI를 제공
가) Name : Notebook의 이름
나) Language : 사용할 언어 (Python, Scala, SQL, R)
다) Cluster : 작업에 사용될 이미 선언된 Spark 클러스터
B. Library : Jar로 이미 빌드된 패키지를 등록
C. MLflow Experiment : Azure ML의 작업을 등록
3. Data
1) 클러스터 생성 시 생성되는 컨테이너 디스크에 데이터를 저장하여 재사용이 가능
2) 클러스터 크기에 따라 사용 가능한 용량이 다르고 클러스터 제거 시 디스크가 같이 제거되기 때문에 해당 데이터를 영구적으로는 사용불가
3) 클러스터가 중지된 상태에서는 데이터가 보존된다.
4. Cluster
1) 작업을 실행할 컨테이너 클러스터
2) 생성
A. Cluster name : 클러스터명
B. Cluster Mode
i. Standard : 기본적이 스펙을 가진 컨테이너 선택 가능
ii. High Concurrency : 고스펙 컨테이너 선택 가능
C. Pool : 미리 선언된 예비 클러스터로 이중화 처리
D. Databricks Runtime Version : Spark 및 Python 등에 대응되는 버전
E. Enable Auto Scaling : 자동으로 Work node 조절 여부
F. Terminate after xxx minute of inactivity : 미사용 시 자동 정지 시간, Databricks는 시간 당 과금 처리되기 때문에 해당 부분 매우 중요하다
G. Worker Type : Job을 실행할 컨테이너
i. Min Workers : Auto Scaling 시 최소 사용 Worker
ii. Max Workers : Auto Scaling 시 최대 사용 Worker
H. Driver Type : Job을 지시할 Manager Node 컨테이너
I. Advenced Options : Cluster가 생성될 시 실행될 옵션 설정
5. Jobs
1) Workspace에 선언된 작업들을 실행하는 설정
2) 여러 Job을 실행하도록 설정 가능
3) 실행 전 Spark Option을 설정하여 실행 가능
4) 여러 Cluster가 등록되어 있을 시 Cluster를 선택하여 진행 가능
5) Schedule을 설정하여 해당 Job을 반복적으로 실행 가능
6. Databricks File System (이하 Dbfs)
1) DBFS는 Azure Databricks 작업 영역에 탑재되고 Azure Databricks Cluster에서 사용할 수 있는 분산 파일 시스템
2) Azure Storage와 별개의 Azure Databricks에서만 공유되는 저장공간이며, Cluster 종료 혹은 삭제 한 후에도 삭제되지 않는 특성이 있다.
3) Azure Databricks Resource에 귀속된다.
4) PyPI 패키지 databricks-cli를 설치하여 ‘dbfs ls’와 같은 형태로 쉡 스크립트로 접근 가능하며, Azure Databricks Notebook으로 %fs(혹은 %sh)를 선언 후, 쉘 스크립트 명령을 이용하여 접근 및 사용이 가능하다.
5) 단, Azure Storage 간의 데이터를 이동 시에는 소스에서 실제로 Upload 혹은 download 소스를 작성하여 사용해야 한다.
'Cloud > Azure' 카테고리의 다른 글
Azure Synapse Analytics 권한 및 Copy into 권한 처리 (0) | 2021.06.22 |
---|---|
Azure Synapse Analytics SQL Pool에 Bulk Insert (0) | 2021.06.02 |
Azure Data Factory - Linked Server 및 Trigger (0) | 2021.04.20 |
Azure Data Factory - Data Flow (0) | 2021.04.20 |
Azure Data Factory - Datasets (0) | 2021.04.20 |
최근댓글