1. 빅데이터 적재 아키텍처 요구 정의
프레임워크 vs 아키텍처 vs 플랫폼
- 프레임 워크- 우리가 무언가 만들기 위한 기본적인 틀
- 아키텍처- 프레임 틀에다가 내가 만들려고 하는 것이 다를 수 있으므로 그런 것을 반영해서 실제 구조 만드는 것
- 플랫폼- 그런 소프트웨어들이 실행할 수 있는 환경
아키텍처란?
- 요구사항을 구현하기 위한 기반 기술을 정의하는 과정
- 요구사항을 반영하여 하드웨어와 소프트웨어 아키텍처를 정의하는데, 이는 정보시스템 개발, 테스트, 이관을 위한 기술적인 기반이 됩니다.
◈장비 요구사항 정의
서버 장비 규격 정의
- 주요 서버는 분산 처리를 위한 네임 노드, 데이터 노드, 데이터 분석을 위한 분석 서버, 원천 데이터 획득을 위한 수집 서버 등이 있다
네트워크 장비 규격 정의
- 용도에 따라 라우터, 스위치 등으로 구성
스토리지나 백업 장비를 위한 망 구성의 경우 SAN(Storage Area Network) 스위치 도입 고려
- 물리적 포트 수를 고려하여 가용 수량을 결정하며, 대역폭에 따라 네트워크 장비 용량 도출
스토리지 장비 규격 정의
- 용도에 따라 SAN, NAS(Network Attached Storage)등에 대한 도입 검토
- SAN 통합 스토리지를 구성하는 경우 볼륨 할당을 위해 RAID(Redundant Array of Independent Disks) 구성을 고려해야 하며, 통합 스토리지 할당하는 서버의 경우 별도의 HBA(Host Bus Adapter), NIC(Network Interfere Controller)가 필요
- 최근 스트리지의 빠른 I/O 처리를 위해 SAS 디스크에서 Flash 디스크로 전환하고 있는 추세이므로, I/O 처리 속도 또는 스토리지 규격을 결정하는 중요한 요인
◈소프트웨어 도입 요구사항 정의
-빅데이터 적재를 위한 소프트웨어 구성 요구사항 도출
-자체적으로 시스템을 구축하는 온프레미스(On-premise)의 경우 상용 소프트웨어와 오픈 소스 소프트웨어 도입을 모두 고려
-자체 구축이 아닌 경우 상용 클라우드 서비스를 고려할 수 있으며, 클라우드 서비스 이용 시 인프라 제공 수준에 따라 Iaas, Paas, SaaS 유형 중 요구사항에 적합한 서비스 선택
◈성능 요구사항 정의
대상 | 성능 요구사항 내용 | 세부항목 |
서버 | 최적의 용량을 확보 성능 관련 이슈 예방 방안 |
CPU, 메모리, 디스크, 프로세스, 커널, 파일 시스템, 네트워크 I/O |
네트워크 | 네트워크에 연결된 장비와 호스트 간의 트래픽에 대한 예상치 | 대역폭, 전송 속도, 처리 속도 |
DBMS | 데이터의 현황 데이터를 수집, 관리하고 경향을 분석한 용량 계획 반영 | 데이터 모델링, 응용프로그램/SQL, 피라미터 설정, 인덱스 구성 등 |
응용 시스템 | 사용자 업무 관점에서 목표했던 서비스 수준 유지 여부 파악 및 개선 | 응용 프로그램, 응용 플랫품(WEB,WAS,EAI 등) 의 응답속도 |
◈인터페이스 요구사항 정의
-내부 연계, 외부 연계 대상 시스템을 고려하여 인터페이스 요구사항 정의
-데이터 수집 단계에서는 원천 데이터 대상이 외부(웹 사이트 페이지, SNS 등)에 위치하는지, 내부(접속 로그, CRM 등)에 위치하는지에 따라 인터페이스 방식이 상이
-데이터 분석 및 활용 단계에서는 가공된 데이터를 사용자 시스템으로 전송하기 위한 ETL시스템의 추가 도입 고려
2. 빅데이터 적재 하드웨어 아키텍처 정의
구분 | 설명 |
네임 노드 구성 정의 | 파일 시스템의 Metadate(디렉터리 구조, Access권한 등)를 관리하는 서버로 실제 작업 대상 데이터를 블록 단위로 나누어 데이터 노드에 분배하는 역할 수행 |
데이터 노드 구성 방안 정의 | 실제 데이터 저장 및 처리가 수행되는 노드로 데이터 노드에 저장되는 정보는 기본 3개 노드에 복제되어 저장되며, 필요에 따라 복제되는 노드 수를 늘릴 수 있음 |
◈데이터 아키텍처 정의
-빅데이터 플랫폼에는 기존 시스템에서 일반적으로 사용되는 RDB 외에도 NoSQL, 분산 파일 시스템 등의 다양한 데이터 기반 아키텍처를 구성
-데이터 아키텍처에서는 가장 핵심적인 요소로 처리하고자 하는 데이터의 유형과 성격을 검토
-정형화된 데이터 항목 혹은 엄격한 트랜잭션을 요구하는 데이터를 처리하기 위해서는 관계형 데이터베이스가 적합하며 멀티미디어 콘텐츠나 문서 정보 같은 비구조적인 데이터를 처리하는 데에는 NoSQL 적용을 고려
◈기반 소프트웨어 정의
구분 | 설명 |
하둡 도입 검토 | -빅데이터 플랫폼의 핵심인 분산 파일 시스템과 분산 병렬 처리를 하는 맵리듀스로 구성된 오픈 소스 -빅데이터 기반 프레임워크로 가장 널리 사용 |
인 메모리 데이터 베이스 도입 검토 | -데이터를 저장하는 스토리지가 메인 메모리를 이용하는 방식의 데이터베이스 관리 시스템 -인 메모리 데이터베이스는 상대적으로 접근 속도가 높은 성능을 보이며 검색 및 조회 알고리즘은 더 단순함 |
데이터 분석 플랫폼 적용 검토 | -수직화된 정형 데이터를 활용한 전통적인 분석 방법에서 발전하여 대용량의 데이터로부터 패턴 인식, 텍스트 미아닝, 소설 분석 등의 기법을 이용하여 표면적으로 드러나지는 않는 데이터간 관련성 분석 및 필요없는 정보 추출 |
데이터 시각화 적용 | -데이터 시각화는 빅데이터 분석 결과를 사용자가 쉽게 이해할 수 있도록 시각적으로 표현하는 기법 -데이터의 정확한 분석만큼 중요한 것이 데이터의 의미를 전달하는 과정인 만큼 다양한 시각화 기법을 통해 효과적인 정보 전달 가능 |
'생활 정보' 카테고리의 다른 글
[경제학개론] 여러가지 비용 개념 (1) | 2022.04.27 |
---|---|
[경제학개론] 생산비용 (2) | 2022.04.27 |
[빅데이터] 데이터 품질검증 (0) | 2022.04.20 |
[빅데이터] 데이터 비식별화란? 대상·절차·처리기법 (0) | 2022.04.20 |
[빅데이터] 데이터 유형별 수집기술 (0) | 2022.04.19 |
최근댓글