본문 바로가기

Thing about programming/Note

데이터 레이크 and 데이터 웨어하우스

데이터 레이크

 

대용량 데이터를 저장하는 저장소.  정형데이터, 비정형데이터, 반정형데이터 상관 없이 전체적으로 다 수집하고 심지어 원시 데이터 상태로 저장 가능한 저장소를 뜻한다. 정말 광범위한 데이터 탐색이나 수집 등을 목적으로 할 때 사용한다. 일단 수집하고 나중에 목적에 의해 사용할 때 선별해서 사용하게 된다.

물론 이 때에도 어느정도 데이터에 대해 꾸준히 관리하며 엑세스 가용성 등이 보장되게끔 해주어야 저장한 데이터들이 무가치하게 전락해버리는 Data Swamp가 되는 것을 방지할 수 있다.

 

사용처

 

옴니채널 마케팅 데이터 레이크: 고객들의 실시간 반응과 행동을 수집하여 비즈니스적으로 풀어내고자 한다.

디지털 공급망 데이터 레이크: 데이터들이 상호작용하는 공급망 근처에서 수많은 데이터들이 일시적으로 저장되고 커뮤니케이션한다. JSON, XML, 영상 등 다양한 방식의 데이터들이 저장되는 곳에서 데이터 레이크를 응용 가능하다.

단일 데이터 레이크: 중앙집중식 데이터 관리 구조에서 데이터 레이크가 사용될 수 있다고 한다. 

 

 

사용 방식

 

Hadoop, RDBMS, 클라우드 스토리지 등 다양하게 구현 가능하다. (나는 참고로 AWS 클라우드 공부하다가 해당 개념을 접했다.) 보통 클라우드 스토리지와 잘 결합되면 좋은데, 클라우드 스토리지가 확장성에 유리하기 때문이다.

 

 

 

 

데이터 웨어하우스

데이터 레이크와 달리 데이터 웨어하우스는 데이터 저장 시에 데이터를 선별하고 구조화해서 저장한다는 구별점이 있다.

어느정도 목적에 맞게끔 데이터를 가공해서 저장한다는 특징이 있다. 

 

 

 

 


 

데이터 레이크 단어 자체가 궁금해져서 알아본거라 데이터 웨어하우스 내용은 일단 간략히 했다.

 

점차 대용량 데이터의 쓰임이 많아지고, 데이터의 생김새가 다양해지고 쓰이는 방식도 다양하고 시기적절하게 요구되기 때문에 데이터 레이크가 중요하고, 구성 방식이나 최적화 방식이 중요해질 것 같다.

 

어느정도 스트럭쳐가 유지되지 않았는데도 효율적으로 데이터를 탐색하게 어떻게 구성되는지 다음에 기회 있으면 더 알아보면 좋겠다. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

https://www.oracle.com/kr/big-data/what-is-data-lake/

 

데이터 레이크란 무엇인가?

데이터 레이크와 이를 통해 기업이 구조적 데이터를 저장하는 방법과 서로 다른 소스에서 매우 다양한 데이터를 대량으로 구성하는 방법을 알아보세요.

www.oracle.com

 

 

 

https://www.redhat.com/ko/topics/data-storage/what-is-a-data-lake#%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%A0%88%EC%9D%B4%ED%81%AC%EC%99%80-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%9B%A8%EC%96%B4%ED%95%98%EC%9A%B0%EC%8A%A4-%EB%B9%84%EA%B5%90

 

데이터 레이크(Data Lake)란? 정의, 분석 및 솔루션

데이터 레이크(Data lake)는 대규모의 원시 데이터 세트를 기본 형식으로 저장하는 리포지토리를 뜻하며, 플랫 아키텍처로 확장성을 제공하여 비용 절감이 가능합니다.

www.redhat.com