28.2.17

VORA 란 무엇이며 기업 데이터와 빅 데이터 간의 격차를 해소하는 데 어떻게 도움이됩니까?

VORA에 대한 초보자의 의문을 해결하기 위해이 블로그를 작성했습니다.

먼저 VORA 주제에 들어가기 전에 Enterprise Data, Big Data, Hadoop, Spark이 무엇인지 이해하려고 노력합니다.

Enterprise Data(기업 데이터)란 무엇인가? 오늘날의 비즈니스 거래와 같은 데이터입니다. 판매 오더, 구매 오더 등

Big Data(빅 데이터)란 무엇인가? 정보 검색 모바일 장치, 공중 (원격 감지), 소프트웨어 로그, 카메라, 마이크, 무선 주파수 식별 (RFID) 판독기 및 무선 센서 네트워크, 소셜 미디어 및 보관 된 데이터에서 오는 데이터입니다.

일반적으로 엔터프라이즈 데이터는 고가의 하드웨어에 저장되며, 빅 데이터는 분산 된 저렴한 일반 하드웨어에 저장됩니다.

어떤 회사에서든 5 년 전까지 만해도 엔터프라이즈 데이터는 "반드시 보유해야하는 데이터"이고, 빅 데이터는 "데이터를 보유한 것이 좋습니다" 였습니다. 그러나 가트너 (Gartner)와 하버드 (Harvard)의 현재 연구에 따르면 커다란 데이터가 "반드시 데이터를 가져야 만한다"는 부분에 포함됩니다. Big Data Analytics는 다양한 통찰력을 보여주기 때문에 비즈니스 성장에 도움이되고 경쟁 업체에 Edge를 제공하는 데 실제로 도움이됩니다.
큰 데이터가 "데이터를 가져야 함"의 일부가 되는 즉시 우리는 다음과 같은 두 가지 주요 문제에 직면하게됩니다.
이러한 환경에서 복잡한 분석 쿼리를 실행하는 비용이 적게 드는 분산 환경에 큰 데이터가 저장 되어도 쿼리 성능이 떨어집니다.
두 데이터가 서로 다른 환경에 있기 때문에 Enterprise 및 Big 데이터를 결합해야하는 보고서는 매우 어려울 것입니다.

VORA는 이러한 두 가지 문제를 해결하고 Enterprise Data와 Big Data 사이의 격차를 좁히는 데 정말로 도움이됩니다.

VORA란 무엇입니까? VORA를 이해하려면 먼저 HADOOP 및 SPARK를 이해해야합니다.

HADOOP - 분산 컴퓨팅을위한 오픈 소스 소프트웨어입니다. 분산 환경에 방대한 양의 데이터를 저장하려면 HADOOP은 기본적으로 다음을 수행합니다.

1. HADOOP을 사용하면 가로에서 여러 시스템을 결합하여 분산 환경을 만들 수 있습니다.
2. HADOOP는 데이터 및 처리로드를 여러 시스템에 배포하는 데 유용합니다 .-로드 분산
3. HADOOP는 자동 장애 조치 기능을 제공하여 고 가용성을 지원합니다. (즉, 다른 노드가 다운되면 다른 백업 노드가 자동으로 사용됩니다).

HADOOP는 운영 체제보다 한 계층 만 작동하며 Hadoop 분산 파일 시스템 (HDFS)을 사용하여 분산 컴퓨팅을 수행합니다. 따라서 HADOOP는 파일 측면에서 데이터를 처리합니다. 대부분의 경우 비 구조적 파일 형식으로 저장 될 때 데이터를 처리하는 것이 쉽지 않습니다.

따라서 우리는 데이터를 구조화하기위한 소프트웨어가 필요합니다. 우리의 전통적인 시스템에서 우리는 항상 SAP IQ, SAP ASE, SAP HANA, MySQL, DB2 등과 같은 소프트웨어를 사용하여 데이터 파일을 구성합니다. 마찬가지로 HDFS 파일을 구조화하려면 몇 가지 소프트웨어가 필요합니다.

HBase
Hive
Spark

Apache Spark은 대규모 데이터 처리를위한 빠르고 일반적인 엔진입니다. Spark SQL, 스트리밍 및 복잡한 분석을 결합합니다.

SAP HANA Vora는 Apache Spark 실행 프레임 워크에 플러그인되어 Hadoop에서 풍부한 대화 형 분석을 제공하는 메모리 내 쿼리 엔진입니다.

요약하면,

첫째 - 하드웨어 OS와 동종 OS를 결합한 몇 가지 하드웨어를 HADOOP라는 소프트웨어와 결합하여 더 나은 방식으로 분산 컴퓨팅을 수행했습니다.

둘째 - HDFS 파일을 구조화하고 SQL을 통해 DATA를 처리하려면 SPARK라는 SQL 엔진 제공 소프트웨어가 필요합니다.

셋째 - In-Memory에서 데이터를 처리하고 Model 데이터에 대한 대화식 인터페이스를 처리하려면 VORA라는 소프트웨어가 필요합니다.

SAP HANA Vora는 독립형 솔루션으로 또는 SAP HANA 플랫폼과 협력하여 엔터프라이즈 급 분석을 Hadoop 클러스터로 확장 할 수 있습니다.


VORA 1.3에는 사용자가 다음 작업을 수행 할 수있는 모델링 도구가 포함되어 있습니다.

1. 데이터 브라우저 - Vora 엔진에서 사용 가능한 테이블, 뷰, 차원 및 큐브를 볼 수 있습니다. 또한 데이터의 미리보기를 가지고 CSV 파일로 데이터를 다운로드하고, 열을 필터링하고 새로 고칠 수 있습니다
2. SQL Editor - Vora SQL을 사용하여 Vora 엔진에 대한 쿼리를 실행할 수 있으며 선택 사항을 실행할 때 컴파일 경고, 오류 및 출력 및 쿼리 결과도 표시합니다.
3. 모델러 - SQL 뷰, 차원 또는 큐브를 만드는 데 사용할 수 있습니다.

이제 우리는 다음과 같은 두 가지 문제에 대한 해답을 살펴 보겠습니다.

1. Big Data는 복잡한 분석 쿼리를 실행하는 비용이 적게 드는 분산 환경에 저장합니다. 그런 환경에서는 좋은 쿼리 성능을 얻을 수 없습니다.
    A. Hadoop은 방대한 양의 상세 데이터를 저렴한 비용으로 저장하고 액세스 할 수 있지만 오늘날의 비즈니스 관련 질문에 대한 신속한 드릴 다운 특성에는 적합하지 않습니다. SAP HANA Vora는 Hadoop 클러스터에서 실행되며 Spark와 긴밀하게 통합 된 메모리 내 처리 엔진입니다. 큰 데이터를 처리하도록 설계되었습니다. SAP HANA Vora는 Hadoop에서 OLAP 스타일의 기능을 제공하고 SAP HANA와의보다 강력한 통합을 제공하여 고성능 분석을 가능하게합니다.
    B. VORA는 사용자가 HADOOP 데이터를 쉽게 모델링하고 데이터 분석을 쉽게 수행 할 수있는 사용자 인터페이스를 제공합니다.

2. Enterprise Data와 Big Data를 결합해야하는 보고서는 두 가지 데이터가 서로 다른 환경에 있기 때문에 매우 어려울 것입니다.
   A. Enterprise Data는 HANA에 저장되고 Big Data는 HADOOP에 저장되므로 두 데이터를 결합한 보고서가 필요한 경우 HADOOP 데이터를 가상화 (SDA)하고 HANA 데이터로 조인 한 다음보고 할 수 있습니다. 이 과정은 VORA 커넥터를 사용하여 쉽게 수행 할 수 있습니다.
   B. 또한 HANA에서 이전 데이터를 보관하고 HADOOP로 이동하여 다른 HADOOP 데이터와 결합하려는 경우 VORA Connector를 사용하는 HANA Data Warehouse Foundation Tool - DLM을 사용하여 원활하게 수행 할 수 있습니다. 이 경우 보관 된 데이터는 사용자가 원하는대로 HANA 측 또는 HADOOP 측에서 쿼리 할 수 ​​있습니다.

No comments:

Post a Comment