Data Intelligence 비지니스 사례 - Data Intelligence Cloud를 통한 고객 이탈 방지를 위한 데이터 프로세스 수행 절차
이번 글에서는 기업의 데이터 전문가 구성원들이 SAP Data Intelligence Cloud 솔루션의 도움을 받아서 데이터 중심의 혁신적 업무를 중단 없이 수행하는 모습을 설명합니다.
A통신사는 계속된 고객 이탈에 대한 대응책으로 이탈이 예상된 고객군을 선별하여 마케팅 프로모션을 진행하려고 합니다.
A통신사 데이터 전문가 구성원 - 데이터 엔지니어, 데이터 관리자, 데이터 과학자, 데이터 아키텍트 - 들은 SAP Data Intelligence Cloud 솔루션을 가지고 어떻게 자신들의 데이터 프로세스 업무를 구현할 것인지를 토론합니다.
A통신사는 현재 고객과 관련된 데이터가 SAP S/4HANA, SAP DWC, AWS S3에 보관되어 있습니다.
데이터 조직 구성원 별 데이터 업무 수행
1. 데이터 엔지니어
데이터 연결, 통합, 오케스트레이션
SAP Data Intelligence Cloud를 사용하면 원하는 방식으로 어디서나 모든 데이터를 검색하고 연결할 수 있습니다. 클라우드 및 온프레미스 전반에 걸쳐 정형, 비정형 및 스트리밍 데이터에 걸쳐 SAP 및 Non-SAP 시스템을 통합할 수 있습니다.
데이터 엔지니어인 김대리가 고객 이탈을 줄이기 위해 데이터를 연결하고 하는 방법을 살펴보겠습니다.
1단계 - 김대리는 고객과 고객 행동에 대한 사용 가능한 데이터를 연결하고 통합해야 합니다. S/4HANA와 S3에는 상세하고 집계된 고객 데이터가 있습니다.
2단계 - SAP Data Intelligence Cloud의 Modeler에서 김대리는 신규 Data Pipeline을 생성합니다. S/4HANA의 고객 데이터에 대해 ABAP CDS Reader와 ABAP Converter Operator로 작업을 사용합니다. Read File Operator는 AWS S3의 고객 기록 데이터에 대한 액세스하는 데 사용됩니다.
3단계 - Python Operator는 고객 행동 및 현재 고객 데이터를 기반으로 고객 이탈 가능성을 처리하는 데 사용됩니다. 그런 다음 SAP Analytics Cloud의 이탈 대시보드에 전달되어 사용됩니다. 김대리는 SAC 대시보드용 데이터를 제공하는 것 외에도 SAP HANA의 머신 러닝(ML)을 사용하여 이탈을 방지하기 위해 실행할 최상의 마케팅 캠페인을 결정합니다.
4단계 - HANA ML Inference Operator는 고객 이탈을 방지하기 위해 이탈 ML 모델을 가져오고 추론을 수행하는데 사용됩니다. 추론을 통한 Next Best Offer가 결정되면 SAP Integration Suite Operator는 마케팅 애플리케이션에서 마케팅 프로세스를 트리거하는 데 사용됩니다.
요약 - SAP Data Intelligence Cloud를 통해 김대리는 SAP 및 오픈 소스 처리 엔진을 사용하여 기업 전체에서 다양한 데이터를 연결, 통합, 오케스트레이션하는 방법을 확인할 수 있습니다.
2. 데이터 관리자
카탈로그와 프로파일링
SAP Data Intelligence Cloud는 엔터프라이즈 데이터 거버넌스를 지원하는 중앙 집중식 데이터 카탈로그를 제공합니다. DI 솔루션을 사용하면 데이터 프로파일링과 데이터 준비를 수행하고, 데이터 품질 규칙을 생성 및 모니터링하고, 데이터 리니지(계보)를 볼 수 있습니다.
데이터 관리자인 금과장이 어떻게 이를 실행하는지 살펴보겠습니다.
2단계 - Business Glossary는 기업 전체에서 명확하고 이해할 수 있도록 용어 및 정의의 중앙 공유 저장소를 제공합니다. Business Glossary는 용어 간의 관계를 보여줍니다.
3단계 - 금과장은 고객 데이터에 대한 Business Rule이 있는지 확인해야 합니다. 금과장은 정확성, 적합성, 일관성, 무결성을 검토(및 신규 규칙 생성)할 수 있을 뿐만 아니라 다른 규칙 및 범주를 생성할 수 있습니다. 금과장은 판매 데이터에 대해 규칙을 실행하여 결과를 봅니다. 이것은 데이터 품질의 변화를 쉽게 보여줄 수 있습니다.
4단계 - Data Preview 내에서 Data Preparation를 실행할 수 있습니다. 드래그 앤 드롭 작업을 통해 Recipe(데이터 작업)를 구축하기 위한 Data Preparation 작업을 쉽게 생성할 수 있습니다. 그런 다음 데이터 세트에서 준비를 실행하고 준비된 데이터를 저장할 수 있습니다.
요약 - 금과장이 Data Catalog를 사용하여 데이터에 대한 신뢰를 구축하고 검색 가능한 Data Fabric을 생성하는 방법을 보았습니다.
3. 데이터 과학자
머신 러닝 운영
SAP Data Intelligence Cloud를 통해 데이터 과학자는 도구를 사용하여 기계 학습(ML) 알고리즘을 개발합니다. SAP Data Intelligence Cloud는 예측 ML 알고리즘을 훈련하고 데이터 파이프라인에서 ML을 실행합니다.
데이터 과학자인 박과장이 이를 어떻게 수행하는지 살펴보겠습니다.
1단계 - 박과장은 ML Scenario Manager를 사용하여 고객 이탈 예측 알고리즘을 만들고 실행합니다. ML Scenario Manager에서 관련 Jupyter 노트북에 액세스하여 데이터를 탐색합니다.
2단계 - 박과장은 훈련, 추론, DWC로 예측 결과를 저장하는 3가지 Pipeline을 사용합니다. ML이 실행되는 추론 모델에 대해 더 자세히 살펴보겠습니다. Python은 ML 실행에 사용됩니다. 예측 결과는 HANA Data Lake에 기록됩니다. sklearn 모델은 고객 이탈을 예측하는 데 사용됩니다. 11행과 19행에서 시작하는 코드를 자세히 살펴보면 DWC에 대한 연결과 DWC 데이터 위에서 실행된 추론 모델을 볼 수 있습니다. HANA Data Lake에 대한 구성에서 데이터 레이크에 대한 연결과 데이터 레이크에서 데이터가 상주하는 위치를 볼 수 있습니다.
3단계 - 3번째 Pipeline은 결과를 DWC로 push합니다. 구성은 DWC에서 사용되는 table을 보여줍니다.
4단계 - 실행 후 박과장은 Metadata Explorer로 이동하여 ML에서 생성된 실제 예측 데이터를 보여주는 결과 Preview를 볼 수 있습니다.
요약 - 박과장이 SAP Data Intelligence Cloud를 사용하여 ML 모델링, ML 훈련, ML 알고리즘 실행을 위한 데이터를 탐색하는 방법을 확인했습니다.
4. 데이터 아키텍트
하이브리드 데이터 환경 관리
SAP Data Intelligence Cloud는 기존 SAP 도구를 재사용하고 분산 환경 전반에서 종단 간 환경을 관리합니다. 인프라에 구애받지 않고 기본적으로 클라우드 및 온프레미스 SAP 애플리케이션을 사용합니다.
이과장이 SAP Data Intelligence Cloud를 사용하여 하이브리드 환경을 관리하는 방법을 살펴보겠습니다.
1단계 - 이과장은 SAP Data Services 작업을 실행하는 데이터 파이프라인을 만듭니다. 결과 데이터는 Python Operator에서 Kafka 스트리밍 데이터와 결합하여 ML 상관 관계의 데이터를 DWC에 기록됩니다.
2단계 - ML 상관 관계를 위해 이과장은 SAP S/4HANA의 고객 데이터를 포함합니다. SAP Data Intelligence Cloud 데이터 파이프라인은 클라우드 및 온프레미스 처리 엔진에 모두 액세스할 수 있습니다.
3단계 - 기존 SAP Business Warehouse의 process chain도 데이터 파이프라인에서 실행할 수 있습니다. 이를 통해 하이브리드 및 다양한 환경에서 기존 온프레미스 SAP 도구를 ML과 결합하여 재사용할 수 있습니다.
4단계 - 이과장은 이전에 SAP Information Steward에서 데이터 품질 규칙을 구축했습니다. SAP Data Intelligence Cloud를 사용하면 IS와 연결하여 데이터 품질 규칙 가져오기를 통해 SAP Information Steward를 원활하게 재사용할 수 있습니다. 이는 rule을 공유, 유지, 관리, 통제함으로서 거버넌스와 품질 제어를 개선합니다.
요약 - 이과장이 SAP Data Intelligence Cloud를 사용하여 온프레미스 환경에서 기존 데이터 관리 솔루션을 재사용하는 방법을 확인했습니다. 이를 통해 클라우드에서 기존 데이터 시나리오를 재구축하는 대신 혁신에 집중할 수 있습니다.