1. 빅데이터 적재 아키텍처 요구 정의

 

프레임워크 vs 아키텍처 vs 플랫폼

  • 프레임 워크- 우리가 무언가 만들기 위한 기본적인 틀
  • 아키텍처- 프레임 틀에다가 내가 만들려고 하는 것이 다를 수 있으므로 그런 것을 반영해서 실제 구조 만드는 것
  • 플랫폼- 그런 소프트웨어들이 실행할 수 있는 환경

 

아키텍처란?

- 요구사항을 구현하기 위한 기반 기술을 정의하는 과정

- 요구사항을 반영하여 하드웨어와 소프트웨어 아키텍처를 정의하는데, 이는 정보시스템 개발, 테스트, 이관을 위한 기술적인 기반이 됩니다.

 

 

◈장비 요구사항 정의

서버 장비 규격 정의

  • 주요 서버는 분산 처리를 위한 네임 노드, 데이터 노드, 데이터 분석을 위한 분석 서버, 원천 데이터 획득을 위한 수집 서버 등이 있다

 

네트워크 장비 규격 정의

  • 용도에 따라 라우터, 스위치 등으로 구성
    스토리지나 백업 장비를 위한 망 구성의 경우 SAN(Storage Area Network) 스위치 도입 고려
  • 물리적 포트 수를 고려하여 가용 수량을 결정하며, 대역폭에 따라 네트워크 장비 용량 도출

 

스토리지 장비 규격 정의

  • 용도에 따라 SAN, NAS(Network Attached Storage)등에 대한 도입 검토
  • SAN 통합 스토리지를 구성하는 경우 볼륨 할당을 위해 RAID(Redundant Array of Independent Disks) 구성을 고려해야 하며, 통합 스토리지 할당하는 서버의 경우 별도의 HBA(Host Bus Adapter), NIC(Network Interfere Controller)가 필요
  • 최근 스트리지의 빠른 I/O 처리를 위해 SAS 디스크에서 Flash 디스크로 전환하고 있는 추세이므로, I/O 처리 속도 또는 스토리지 규격을 결정하는 중요한 요인

 

 

◈소프트웨어 도입 요구사항 정의

-빅데이터 적재를 위한 소프트웨어 구성 요구사항 도출

-자체적으로 시스템을 구축하는 온프레미스(On-premise)의 경우 상용 소프트웨어와 오픈 소스 소프트웨어 도입을 모두 고려

-자체 구축이 아닌 경우 상용 클라우드 서비스를 고려할 수 있으며, 클라우드 서비스 이용 시 인프라 제공 수준에 따라 Iaas, Paas, SaaS 유형 중 요구사항에 적합한 서비스 선택

 

 

◈성능 요구사항 정의

대상 성능 요구사항 내용 세부항목
서버 최적의 용량을 확보
성능 관련 이슈 예방 방안
CPU, 메모리, 디스크, 프로세스, 커널, 파일 시스템, 네트워크 I/O
네트워크 네트워크에 연결된 장비와 호스트 간의 트래픽에 대한 예상치 대역폭, 전송 속도, 처리 속도
DBMS 데이터의 현황 데이터를 수집, 관리하고 경향을 분석한 용량 계획 반영 데이터 모델링, 응용프로그램/SQL, 피라미터 설정, 인덱스 구성 등
응용 시스템 사용자 업무 관점에서 목표했던 서비스 수준 유지 여부 파악 및 개선 응용 프로그램, 응용 플랫품(WEB,WAS,EAI 등) 의 응답속도

 

◈인터페이스 요구사항 정의

-내부 연계, 외부 연계 대상 시스템을 고려하여 인터페이스 요구사항 정의

-데이터 수집 단계에서는 원천 데이터 대상이 외부(웹 사이트 페이지, SNS 등)에 위치하는지, 내부(접속 로그, CRM 등)에 위치하는지에 따라 인터페이스 방식이 상이

-데이터 분석 및 활용 단계에서는 가공된 데이터를 사용자 시스템으로 전송하기 위한 ETL시스템의 추가 도입 고려

 

 

 

2. 빅데이터 적재 하드웨어 아키텍처 정의

구분 설명
네임 노드 구성 정의 파일 시스템의 Metadate(디렉터리 구조, Access권한 등)를 관리하는 서버로 실제 작업 대상 데이터를 블록 단위로 나누어 데이터 노드에 분배하는 역할 수행
데이터 노드 구성 방안 정의 실제 데이터 저장 및 처리가 수행되는 노드로 데이터 노드에 저장되는 정보는 기본 3개 노드에 복제되어 저장되며, 필요에 따라 복제되는 노드 수를 늘릴 수 있음

 

◈데이터 아키텍처 정의

-빅데이터 플랫폼에는 기존 시스템에서 일반적으로 사용되는 RDB 외에도 NoSQL, 분산 파일 시스템 등의 다양한 데이터 기반 아키텍처를 구성

-데이터 아키텍처에서는 가장 핵심적인 요소로 처리하고자 하는 데이터의 유형과 성격을 검토

-정형화된 데이터 항목 혹은 엄격한 트랜잭션을 요구하는 데이터를 처리하기 위해서는 관계형 데이터베이스가 적합하며 멀티미디어 콘텐츠나 문서 정보 같은 비구조적인 데이터를 처리하는 데에는 NoSQL 적용을 고려

 

 

◈기반 소프트웨어 정의

구분 설명
하둡 도입 검토 -빅데이터 플랫폼의 핵심인 분산 파일 시스템과 분산 병렬 처리를 하는 맵리듀스로 구성된 오픈 소스 
-빅데이터 기반 프레임워크로 가장 널리 사용
인 메모리 데이터 베이스 도입 검토 -데이터를 저장하는 스토리지가 메인 메모리를 이용하는 방식의 데이터베이스 관리 시스템
-인 메모리 데이터베이스는 상대적으로 접근 속도가 높은 성능을 보이며 검색 및 조회 알고리즘은 더 단순함
데이터 분석 플랫폼 적용 검토 -수직화된 정형 데이터를 활용한 전통적인 분석 방법에서 발전하여 대용량의 데이터로부터 패턴 인식, 텍스트 미아닝, 소설 분석 등의 기법을 이용하여 표면적으로 드러나지는 않는 데이터간 관련성 분석 및 필요없는 정보 추출
데이터 시각화 적용 -데이터 시각화는 빅데이터 분석 결과를 사용자가 쉽게 이해할 수 있도록 시각적으로 표현하는 기법
-데이터의 정확한 분석만큼 중요한 것이 데이터의 의미를 전달하는 과정인 만큼 다양한 시각화 기법을 통해 효과적인 정보 전달 가능

 

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기