IT 트렌드 - Data Fabric을 통한 기업 데이터 관리의 민첩성과 탄력성 강화
이번 글에서는 최근 기업 데이터 환경이 더욱 복잡해지고 다양화되는 상황에서 분산된 데이터의 원활한 활용을 위해 새롭게 제시되고 있는 데이터 관리의 접근 방식인 Data Fabric에 대해 살표 보겠습니다.
Data Fabric 출현 배경
많은 기업들이 데이터를 활용하여 자신들의 비지니스에 도움이 되는 방향으로 적극적으로 활용해보려고 시도하고 있습니다.
기업은 이미 비지니스 운영을 위한 다양한 업무(운영) 시스템, 데이터 분석을 위한 데이터 웨어하우스, 빅 데이터 및 데이터 레이크 등을 갖추고 운영하고 있을 것입니다.
온프레미스, 클라우드, 하이브리드 등의 다양한 데이터 환경과 정형, 반정형, 비정형 등의 다양한 종류의 데이터 등의 다양한 시스템과 애플리케이션들이 여기에 해당될 것입니다.
데이터가 여러 분산된 시스템에 저장되어 있다 보니, 비지니스 사용자들은 본인들이 원하는 데이터를 찾고 접근하기가 더욱 어려워지고 또한 IT 관리자는 이런 요구 사항을 지원하기 위해 더 많은 시간과 노력을 데이터 관리에 소비하고 있습니다.
Gartner 등의 외부 컨설팅 및 평가 기관들은 이미 몇 년 전부터 이런 문제들의 해결책으로 Data Fabric 이라는 용어를 IT 트렌드 보고서에 제시해오고 있습니다.
Data Fabric 이란 무엇인가?
먼저, Fabric이라는 용어는 직물(Weave)처럼 여러 실(선)들이 교차 연결된 것처럼 서로 다른 데이터 소스들을 하나의 플랫폼으로 통합시키고 데이터 관리를 단순화한다는 것을 의미입니다.
Gartner는 Data Fabric을 데이터 및 연결 프로세스의 통합 레이어(패브릭) 역할을 하는 설계 개념으로 정의하고 있습니다.
Data Fabric은 기존의 메타 데이터에 대한 검색이 가능하고 추론된 메타데이터 자산에 대한 지속적인 분석을 활용하여 하이브리드 및 다중 클라우드 플랫폼을 포함한 모든 환경에서 통합되고 재사용 가능한 데이터의 설계, 배포 및 활용을 지원합니다.
Gartner - Data Fabric Architecture is Key to Modernizing Data Management and Integration
즉, 기업의 분산된 데이터 환경에서 원활한 데이터 액세스 및 공유를 지원하기 위해 여러 데이터 관리 기술이 조합하여 작동한다는 것으로, 사용자는 대량의 데이터를 중앙 저장소로 이동하지 않고도 데이터에 쉽고 빠르게 액세스할 수 있도록 하는 데이터 관리의 새로운 접근 방식인 것입니다.
예를 들어, Data Fabric을 사용하는 공급망 리더는 공급업체 지연과 생산 지연 사이의 알려진 관계에서 새로 발생하는 데이터를 빠르게 추가(데이터 이동없이)하고 새로운 데이터(또는 신규 공급업체 또는 신규 고객을 위해)로 신속한 의사결정을 통해 개선할 수 있습니다.
Data Fabric 요구 사항
Data Fabric에 대한 외부 컨설팅 및 시장 조사 기관에서 정의하는 요구 사항은 조금씩은 다를 수 있으나 일반적으로 다음과 같은 데이터 관리 기술들이 요구 됩니다.
1. Data Catalog - 자산 검색
2. Data Quality - 데이터 품질
3. Self-service Data Preparation - 데이터 민주화
4. Data Integration - 데이터 통합
5. Data Orchestration - 다양한 처리 엔진 재사용
6. Data Virtualization - 이기종 데이터 액세스
Data Fabric를 위한 SAP 솔루션
SAP의 Enterprise Data Fabric 솔루션은 SAP Business Technology Platform에 기반한 SAP Data Intelligence Cloud와 SAP HANA Cloud의 기능으로 구성됩니다.
SAP Data Fabric 솔루션의 핵심인 SAP Data Intelligence는 적절한 시점에 적절한 컨텍스트에서 분산된 데이터를 가치 있는 데이터로 변환하여 데이터 기반 애플리케이션을 지원합니다. 데이터 자산을 검색, 연결, 통합 및 중요한 비즈니스 통찰력으로 변환하는 기능을 갖춘 SAP Data Fabric 전략의 핵심입니다. SAP Data Intelligence는 IoT 데이터 스트림 관리, 데이터 웨어하우스 생성, 확장 가능한 기계 학습 운영을 가능하게 합니다. SAP Data Intelligence는 모든 엔터프라이즈 데이터와 메타데이터를 관리, 통합 및 처리하는 총체적이고 통합된 방법을 제공하여 비즈니스 애플리케이션이 지능형 엔터프라이즈의 약속을 이행할 수 있도록 합니다. 데이터 준비, 활성 메타데이터 관리, 데이터 품질 등을 위한 셀프 서비스 기능을 제공합니다.
SAP Data Intelligence Cloud의 Self-service Data Preparation를 사용하면 간단한 안내 사용자 인터페이스 상호 작용을 통해 데이터를 형성, 조화 및 강화할 수 있습니다. 열 작업을 수행하고, 새로운 정보를 도출하고, 서로 다른 소스를 조화시키고, 여러 데이터 세트를 병합하거나 결합할 수 있습니다. 그리고 모든 작업은 필요에 따라 편집할 수 있는 레시피에 기록됩니다.
SAP Data Intelligence에는 데이터 유형 또는 개인 정보와 같은 콘텐츠를 자동으로 식별하는 데이터 카탈로그도 포함되어 있습니다. 솔루션은 메타데이터가 추출될 때 콘텐츠 유형에 대한 정보에 자동으로 태그를 지정합니다. 그래프 엔진을 사용하여 연결된 데이터를 식별하고 통합할 수 있습니다. 그래프는 특히 복잡하거나 많은 양의 이종 데이터를 처리할 때 데이터를 연결하는 가장 빠른 방법입니다. 그래프가 없으면 동적 통합 및 오케스트레이션을 지원하기 위해 데이터를 연결하는 데 더 오래 걸릴 수 있습니다.
SAP HANA Cloud는 또한 Data Fabric 솔루션에 고유한 기능을 제공합니다. SAP HANA Cloud는 전례 없는 정보 민첩성을 제공하기 위해 기업 내 데이터에 대한 액세스를 가상화(Virtualization)하는 기본 제공 기능을 제공합니다. Smart Data Access를 사용하면 다른 데이터베이스, 웹 서비스, 파일, Apache Hadoop 및 Apache Spark와 같은 외부 데이터 소스에 대한 쿼리를 연합하여 값비싼 데이터 이동 없이 쿼리를 수행할 수 있습니다.
데이터를 일괄 또는 실시간으로 이동해야 하는 경우 SAP HANA Smart Data Integration을 통해 완전한 가시성으로 정보에 입각한 의사 결정을 지원할 수 있습니다. 또한 SAP HANA Smart Data Quality을 사용하여 이름 및 주소와 같은 속성을 구문 분석, 표준화 및 검증할 수 있습니다. 지오코딩을 수행합니다. 엔터티 간의 중복 및 관계를 식별합니다.