28.2.17

SAP HANA Vora 소개 2/2

SAP HANA Vora 소개 I장에서 SAP HANA Vora 환경의 기본 소개를 다루었습니다.

여기에서는 SAP HANA Vora 버전 1.2 아키텍처에 대해 자세히 설명합니다.

Hadoop 환경은 수천 개의 노드가 복잡한 구조화되지 않은 데이터는 물론 구조화 대규모 데이터의 저장, 액세스 분석을 위한 플랫폼을 구성 있는 클러스터입니다. SAP HANA Vora 솔루션은 Hadoop 에코 시스템 위에 다른 서비스로 실행되도록 제작되었습니다.

Hadoop 대해 작업 적이 있다면 아마 플랫폼의 아키텍처를 알고있을 것입니다. Hadoop 처음 사용하는 사람들을 위해 Hadoop 환경을 SAP HANA Vora 배치하는 방법을 이해하는 도움이 되는 가지 기본 정보를 제공합니다.

Hadoop 대규모 데이터 세트의 분산 처리를 지원하기 위해 함께 작동하는 많은 오픈 소스 구성 요소의 조합입니다. 데이터는 Hadoop 분산 파일 시스템 (Hadoop distributed file systems, HDFS)에있는 클러스터의 여러 노드에 분산됩니다. 기본적으로 노드는 Linux 버전을 실행하는 저렴한 시스템입니다. 다른 주요 구성 요소는 YARN입니다. YARN 메모리 할당과 같은 모든 Hadoop 클러스터 리소스를 관리합니다. 아파치 스파크; Zookeeper Hadoop에서 실행되는 모든 서비스를 관리하는 코디네이터입니다. 이러한 노드 클러스터 위에서 실행되는 Hadoop 데이터베이스 HBase 데이터베이스가 있습니다.

Hive SQL, Spark SQL Pig Scripting 클러스터의 HDFS에서 Hadoop 데이터를 쿼리하는 사용할 있는 쿼리 언어입니다 (Part I 그림 1 참조). 도구는 수천 개의 노드로 실행되는 여러 노드의 클러스터 전체에 걸친 대형 구조화 데이터 세트와 구조화 데이터 세트의 분산 처리를 지원합니다. Apache Ambari (HDP 배포 ) 클러스터 내의 여러 노드에 서비스를 프로비저닝하는 사용됩니다.

SAP HANA Vora 플랫폼에서 하나의 서비스로 실행됩니다. SAP HANA Vora 인스턴스는 메모리에 데이터를 보유하고 Apache Spark 성능을 향상시킵니다. 인스턴스에는 처리를 위해 데이터를 보유하는 노드 (클러스터의 데이터 노드라고 ) 설치된 SAP HANA Vora 엔진과 Spark Worker 모두 포함됩니다. SAP HANA Vora Spark 메모리 데이터 처리 엔진과 상호 작용하여 성능을 향상시킵니다. SAP HANA Vora Hadoop 분석 프로세스를 가능하게 하고, Big Data 위에 계층을 구축 있게 함으로써 계층 보고를 가능하게 합니다.

그림 1 SAP HANA Vora Hadoop 플랫폼에서 Apache Spark 프레임 워크와 함께 작동하는 방법을 보여줍니다.


그림 1. Hadoop, Apache Spark SAP HANA Vora 아키텍처

SAP HANA Vora Components

SAP HANA Vora 가지 주요 구성 요소

1. SAP HANA Vora 엔진
2. SAP HANA Vora Apache Spark 확장 라이브러리

최신 SAP HANA Vora 버전 1.2 사용하면 SAP HANA Vora 메타 데이터 카탈로그 작성, 검색 분산 로깅과 같은 가지 서비스를 시작하여 Big Data 플랫폼과 작업 있습니다. 서비스의 세부 사항과 실행 프로세스에서 함께 작동하는 방법을 살펴 보겠습니다.

서비스는 클러스터의 주요 대시 보드에서 Apache Ambari 사용하여 관리 있습니다.


그림 2 : Apache Ambari 관리 화면에 표시된 SAP HANA Vora 서비스

SAP HANA Vora Base

SAP HANA Vora 기본 구성 요소는 서비스는 아니지만 필요한 모든 라이브러리와 바이너리를 포함합니다. 이는 모든 SAP HANA Vora 구성 요소가 효과적으로 작동하는 도움이  되는 기본 도구 세트입니다. 구성 요소는 클러스터의 모든 노드에 설치됩니다.

SAP HANA Vora Catalog Server

SAP HANA Vora 카탈로그 서버는 SAP HANA 메타 데이터를 요청할 때마다 필요한 정보를 제공합니다. 메타 데이터는 메타 데이터 지속성을 유지 관리하는 DLog 서버와 통신하여 식별합니다. SAP HANA Vora 카탈로그 서버를 사용하면 SAP HANA 일반 계층 버전 값을 저장 검색 있습니다. 값은 병렬 업데이트를 동기화하는 필요합니다.

카탈로그는 HDFS NameNode 같은 다른 메타 데이터 저장소에 대한 프록시 역할을 하며 나은 성능을 위해 로컬로 메타 데이터를 캐시합니다. 또한 데이터 블록의 위치를 ​​기반으로 HDFS 저장된 지정된 파일의 기본 위치를 결정합니다.

VORA Discovery Service

SAP HANA Vora 주요 지원 구성 요소는 Discovery 서비스입니다. SAP HANA Vora 카탈로그, SAP HANA Vora 엔진, SAP HANA Vora 도구와 같은 응용 프로그램의 런타임을 제공하는 AppServer, Zookeeper SAP HANA Vora 분산 로그 (DLog) 같은 클러스터의 서비스 끝점을 관리합니다. Discovery 서비스는 모든 노드에 서버 모드 또는 클라이언트 모드로 설치됩니다. 서비스는 나머지 노드에서 클라이언트 모드로 실행될 있지만 서버 모드에서는 최소 3 개의 노드가 전체 클러스터에서 실행되어야 합니다.

SAP HANA Vora Discovery Service HashiCorp Consul Discovery Service 사용하고 모든 서비스 등록을 관리하고 이에 대한 상태 확인을 실행합니다. Consul Discovery 서비스는 포트 8500 모든 Discovery Server 또는 클라이언트 노드의 브라우저를 사용하여 액세스 있습니다. 페이지에서 Consul Discovery Service 등록 모든 서비스의 상태와 클러스터의 특정 노드에서 제공하는 서비스 유형과 같은 서비스 SAP HANA Vora Discovery 서비스는 Zookeeper, Hadoop HDFS SAP HANA Vora Base 사용하여 서비스를 제공 있어야합니다.

SAP HANA Vora DLog (Discovery Log) Service

SAP HANA Vora DLog 서비스는 SAP HANA Vora Catalog 메타 데이터 지속성을 제공하는 관리자입니다. DLog 서비스를 실행하려면 SAP HANA Vora Discovery Service 실행 중이어야 합니다. 사용 가능한 노드 수에 따라 하나의 DLog 서버가 필요하지만 최대 5 개의 DLog 서버를 가질 있습니다.

SAP HANA Vora Thrift Server

SAP HANA Vora Thrift 서버는 단일 노드에 설치되는 Hive Java Database Connectivity (JDBC) 드라이버와 호환되는 게이트웨이입니다. Discovery Service, DLog Catalog Service 배포되지 않은 노드 (일반적으로 점프 노드 또는 에지 노드라고 ) 설치됩니다. 서비스는 SAP Lumira 같은 프런트엔드 도구가 SAP HANA Vora 또는 Apache Spark 데이터 위에 시각화를 실행하기 위해 일반 JDBC 연결을 수행 사용됩니다.

SAP HANA Vora Tool

SAP HANA Vora Tool 테이블 데이터 (처음 1,000 개의 행이 표시됨) 있는 기본 포트 (포트 9225) 연결하고 데이터를 쉼표로 구분 (CSV)으로 내보내는 브라우저 인터페이스를 제공합니다. 형식 (그림 4). 또한 브라우저에는 SQL Script 작성하고 실행하기위한 SQL Editor 사용자 정의 데이터 모델을 작성하기위한 모델러가 있습니다. SAP HANA Vora 컨텍스트의 테이블은 데이터 검색을 위해 프런트 엔드에서 자동으로 사용할 없습니다 (현재 버전 1.2 현재).

SAP HANA Vora 도구 브라우저에서 테이블 또는 뷰에 성공적으로 액세스하려면 Vora 도구 브라우저의 SQL 편집기를 사용하여 SAP HANA VORA 카탈로그 테이블 뷰를 register table 명령으로 등록해야 합니다.


그림 3 SAP HANA Vora 도구 브라우저

SAP HANA Vora V2Server

SAP HANA Vora V2Server 관계형 메모리 SQL 처리 엔진입니다. HDFS 플러그인을 통해 HDFS 통신하고 해시 파티션 데이터 로드 중에 다른 SAP HANA Vora 엔진과 통신합니다. SAP HANA Vora V2Server SAP HANA Vora 카탈로그 서비스가 실행 중이어야 하며 V2Server 데이터 처리를 위해 클러스터의 모든 데이터 노드에서 실행되어야 합니다.

SAP HANA Vora extension

SAP HANA Vora SAP HANA 데이터 소스는 Apache Spark SQLContext 표준 응용 프로그램 프로그래밍 인터페이스 (API) 함께 사용할 있습니다. 그러나 SAP HANA Vora 확장 데이터 소스 API SapSQLContext 사용하면 DDL / SQL 파서, 계층 구조 사용 가능 OLAP 모델링과 같은 추가 기능을 제공합니다. SAP HANA Vora 엔진이 관리하는 영구 테이블에 대한 의미를 추가합니다. 다음은 SAP HANA Vora 확장의 이점에 대한 세부 정보입니다.

·     SAP HANA Vora 함께 번들로 제공되는 확장 SapSQLContext API SAP HANA Vora Apache Spark 간의 완벽한 통합을 제공합니다. 이렇게 하면 데이터 원본을 필터링 있으며 데이터 집계 선택을 위해 원본 수준에서 데이터를 정리할 있습니다. 이것은 Apache Spark 작업의 성능을 크게 향상시킵니다.
·     확장 SapSQLContext API PrunedFilteredAggregatedScan, PrunedFilteredExpressionsScan, Catalystsource, ExpressionSupport, DropRelation, AppendRelation SqlLikeRelation 같은 고급 기능을 지원합니다.

·     SAP HANA 계층 구현을 포함하여 Hadoop 데이터에 OLAP 스타일의 기능을 제공합니다. Hadoop 데이터 위에 정의 계층 데이터 구조를 허용하여 부모 / 자식 계층 그룹화를 통해 데이터를 분석하고 계층 구조의 여러 수준에서 복잡한 계산을 수행하는 도움이 됩니다.

·     SAP HANA 또한 SAP HANA Hadoop 환경 간의 데이터 처리를 허용하며, 시스템간에 데이터를 결합한 다음 Apache Spark 또는 SAP HANA 응용 프로그램에서 데이터를 처리하는 기능을 제공합니다.

·     SAP HANA Vora Apache Spark SQL Scala, Java Python 같은 코딩 언어를 지원합니다. SAP HANA Vora 사용하면 확장을 사용하여 Spark 기반 환경에서 응용 프로그램을 개발할 있습니다.


SAP HANA Vora 사용하여 Hadoop 환경에서 Big Data 사용하는 방법과 다음 블로그에서 SAP HANA 같은 다른 시스템과 통합하는 방법에 대해 자세히 설명합니다.

No comments:

Post a Comment