1. Connection 정보를 통해 연결된 DB에서 데이터를 읽어오거나 Azure에 저장하기 위한 정보를 관리
2. DataSet의 저장 포멧 종류
1) Azure : Storage Account, Azure Database 등 다양한 Connection을 제공
A. Azure Storage Account
I. Blob, Data Lake Gen1~2, File Storage, Table Storage 등 다양한 지원을 제공
II. 생성
가) Blob과 Data Lake Gen2는 같은 Blob 형태 이나 계층 구조에 저장방식이 다르기 때문에 다른 Connector를 제공한다.
나) Connector를 선택 후 저장될 파일의 Format을 결정
다) 연결 정보 입력 후 생성
III. Parquet : Spark에서 사용하는 스키마를 포함한 압축 저장파일 형태
가) General : 이름, 설명 등 기본적인 정보
나) Connection : 생성 시 입력한 Connection 정보 및 상세 정보
(ㄱ) Linked Service : 생성 시 입력해 두었던 Azure Storage Account
(ㄴ) File Path : Azure Storage 내 Container 명 및 내부 저장 path, 파일명
(ㄷ) Compression Type : 압축 방법
다) Schema : 데이터 복사를 지정할 때 작업으로 스키마가 설정되나 임의로 변경 가능
라) Parameter : 저장 또는 불러오는 작업 시 사용할 파라미터
IV. CSV : 전통적인 단순 Text 파일의 Parser 저장 형태
가) General : 이름, 설명 등 기본적인 정보
나) Connection : 생성 시 입력한 Connection 정보 및 상세 정보
(ㄱ) Linked Service : 생성 시 입력해 두었던 Azure Storage Account
(ㄴ) File Path : Azure Storage 내 Container 명 및 내부 저장 path, 파일명
(ㄷ) Compression Type : 압축 방법
(ㄹ) Column Delimiter : Column 기준을 나누는 Parser
(ㅁ) Row Delimiter : 행을 나누는 Parser
(ㅂ) Encoding : 문자 포멧 방식
(ㅅ) Escape character : 내용에서 무시할 기호 및 단어
(ㅇ) Quote character : 내부 문자열 시 처리 기호(ex> 따옴포)
(ㅈ) First row as header : 첫 행에 컬러명 포함 여부
(ㅊ) Null value : 값이 null 일 시 치환 값
다) Schema : delimiter로 Passing되어 스키마가 설정되나 임의로 변경 가능
라) Parameter : 저장 또는 불러오기 시 전달될 파라미터 값
B. 그 외에도 Azure Database 등은 일반 RDBMS와 같은 형태로 연결됨
2) Database : 전통적인 RDBMS, 타클라우드의 DB까지 모두 연결
(ex> Oracle, Mysql, SQL Server, Amazon Redshift, Hive, hBase 등)
A. RDBMS
I. 생성
가) Oracle과 PorstgreSQL등 RDBMS Connection을 제공함
II. Datasets
가) General : 기본적인 정보(이름, 설명 등)
나) Connection : 생성 시 입력한 Connection 정보 및 상세 정보
(ㄱ) Linked Service : 등록된 Linked Service 중 해당 연결에 사용되는 연결 선택
(ㄴ) Table
(1) 연결 성공 시 읽어온 해당 연결의 테이블 리스트
(2) None 선택 시 쿼리에서 테이블명 제어 가능
(3) Edit 선택 시 해당 변수로 제어 가능
(ㄷ) Parameter : 저장 또는 불러오기 시 전달될 파라미터 값
3) File : 원본이 될 수 있는 온프로미스 또는 타 클라우드 파일 시스템
(ex> AWS S3, FTP, HDFS 등)
4) General protocol : 전통적인 데이터 전달 API 방식
(ex> ODBC, OData, Rest API)
5) Service and apps : 그 외 여러 다른 프로그램 Data
'Cloud > Azure' 카테고리의 다른 글
Azure Data Factory - Linked Server 및 Trigger (0) | 2021.04.20 |
---|---|
Azure Data Factory - Data Flow (0) | 2021.04.20 |
Azure Data Factory - Pipeline (0) | 2021.04.19 |
Azure Data Factory (ADF) 란? (0) | 2021.04.19 |
Azure Storage Account (0) | 2021.04.19 |
최근댓글