Azure Data Factory - Datasets

Cloud/Azure / /
728x90

1.      Connection 정보를 통해 연결된 DB에서 데이터를 읽어오거나 Azure에 저장하기 위한 정보를 관리

2.      DataSet의 저장 포멧 종류

1)      Azure : Storage Account, Azure Database 등 다양한 Connection을 제공

A.     Azure Storage Account

I.       Blob, Data Lake Gen1~2, File Storage, Table Storage 등 다양한 지원을 제공

II.      생성

가)    Blob Data Lake Gen2는 같은 Blob 형태 이나 계층 구조에 저장방식이 다르기 때문에 다른 Connector를 제공한다.


나)    Connector를 선택 후 저장될 파일의 Format을 결정


다)    연결 정보 입력 후 생성


III.    Parquet : Spark에서 사용하는 스키마를 포함한 압축 저장파일 형태


가)    General : 이름, 설명 등 기본적인 정보

나)    Connection : 생성 시 입력한 Connection 정보 및 상세 정보

(ㄱ)  Linked Service : 생성 시 입력해 두었던 Azure Storage Account

(ㄴ)  File Path : Azure Storage Container 명 및 내부 저장 path, 파일명

(ㄷ)  Compression Type : 압축 방법

다)    Schema : 데이터 복사를 지정할 때 작업으로 스키마가 설정되나 임의로 변경 가능

라)    Parameter : 저장 또는 불러오는 작업 시 사용할 파라미터

IV.    CSV : 전통적인 단순 Text 파일의 Parser 저장 형태


가)    General : 이름, 설명 등 기본적인 정보

나)    Connection : 생성 시 입력한 Connection 정보 및 상세 정보

(ㄱ)  Linked Service : 생성 시 입력해 두었던 Azure Storage Account

(ㄴ)  File Path : Azure Storage Container 명 및 내부 저장 path, 파일명

(ㄷ)  Compression Type : 압축 방법

(ㄹ)  Column Delimiter : Column 기준을 나누는 Parser

(ㅁ)  Row Delimiter : 행을 나누는 Parser

(ㅂ)  Encoding : 문자 포멧 방식

(ㅅ)  Escape character : 내용에서 무시할 기호 및 단어

(ㅇ)  Quote character : 내부 문자열 시 처리 기호(ex> 따옴포)

(ㅈ)  First row as header : 첫 행에 컬러명 포함 여부

(ㅊ)  Null value : 값이 null 일 시 치환 값

다)    Schema : delimiterPassing되어 스키마가 설정되나 임의로 변경 가능

라)    Parameter : 저장 또는 불러오기 시 전달될 파라미터 값

B.      그 외에도 Azure Database 등은 일반 RDBMS와 같은 형태로 연결됨

2)      Database : 전통적인 RDBMS, 타클라우드의 DB까지 모두 연결
(ex> Oracle, Mysql, SQL Server, Amazon Redshift, Hive, hBase
)

A.     RDBMS

I.       생성

가)    OraclePorstgreSQLRDBMS Connection을 제공함


II.      Datasets


가)    General : 기본적인 정보(이름, 설명 등)

나)    Connection : 생성 시 입력한 Connection 정보 및 상세 정보

(ㄱ)  Linked Service : 등록된 Linked Service 중 해당 연결에 사용되는 연결 선택

(ㄴ)  Table

(1)    연결 성공 시 읽어온 해당 연결의 테이블 리스트

(2)    None 선택 시 쿼리에서 테이블명 제어 가능

(3)    Edit 선택 시 해당 변수로 제어 가능


(ㄷ)  Parameter : 저장 또는 불러오기 시 전달될 파라미터 값

3)      File : 원본이 될 수 있는 온프로미스 또는 타 클라우드 파일 시스템
(ex> AWS S3, FTP, HDFS
)

4)      General protocol : 전통적인 데이터 전달 API 방식

(ex> ODBC, OData, Rest API)

5)      Service and apps : 그 외 여러 다른 프로그램 Data

 

728x90

'Cloud > Azure' 카테고리의 다른 글

Azure Data Factory - Linked Server 및 Trigger  (0) 2021.04.20
Azure Data Factory - Data Flow  (0) 2021.04.20
Azure Data Factory - Pipeline  (0) 2021.04.19
Azure Data Factory (ADF) 란?  (0) 2021.04.19
Azure Storage Account  (0) 2021.04.19
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기