빅데이터 데이터 유형별 수집기술
1) 데이터 유형별 수집 기술
- 정형 데이터 : ETL, FTP, API, DBtoDB, Rsync, Sqoop
- 비정형 데이터 : 크롤링, RSS, Open API, Scrapy 등
- 반정형 데이터 : Sensing, Streming, Flume, Scribe, Chukwa 등
※정형데이터
수집방식 | 설명 |
ETL | 수집대상 데이터를 추출, 가공하여 데이터 웨어하우스(DW) 및 데이터 마트(DM)에 저장하는 기술 |
FTP | TCP/IP 기반으로 파일을 송·수신하는 응용계층 통신 프로그램 |
API | 솔루션 제조사 및 3rd party 소프트웨어로 제공되는 도구 시스템 간 연동을 통해 실시간으로 데이터를 송·수신하는 인터페이스 기술 |
DBtoDB | 데이터베이스 시스템 간 데이터를 동기화하거나 전송하는 기능을 제공하는 기술 |
Rsync | 원격으로 파일과 디렉터리를 동기화하는 응용 프로그램 활용 기술 |
Sqoop | 관계형 데이터베이스와 하둡 간 데이터 전송 기능을 제공하는 기술 |
-파일을 가지고오는 형태 Rsync, FTP
-자동화해서 사용하는 방식 ETL, API, DBToDB, Sqoop
API = Applicaion Programming Interface
-응용프로그램에서 사용할 수 있도록 운영체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있도록 만든 인터페이스
-웹 서버, 웹 에플리케이션 중간에 있고 인터넷과도 연결
-연결해줄때 API사용
-외부 데이터와 연결할때에도 API 방식
-기본 명령 정의해두고 외부 요쳥 있으면 내부에 있는 데이터 정제해서 거기에 응답을 보내주는 중간역, 중간자 역할을 하는 것이 API
Apache Sqoop
-스쿱은 구조화된 관계형 데이터 베이스(RDBMS)와 아파치 하둡(Hadoop Flie System)간의 대용량 데이터들을 전달하기 위해 효율적으로 변환하여 주는 명령 줄 인터페이스 애플리케이션
-정형 데이터만 전달해줄수 있는 기능
※비정형데이터
수집방식 | 설명 |
Crawling | 다양한 웹 사이트로부터 데이터를 직접 수집하는 기술 |
RSS | XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는 기술 |
Open API | 공개된 API를 이용하여 데이터를 수집하는 기술 |
Scrapy | 파이썬 언어 기반으로 크롤링하여 데이터를 수집하는 기술 |
Apache Kafka | 대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼 기술 |
웹 크롤링
웹사이트 모든 링크 방문-> 데이터 인덱션 만듦-> 데이터베이스 저장하게끔 만들어줌
웹스크레핑
웹사이트 데이터-> 웹스크래퍼 통해 긁어옴->데이터 베이터에 저장하거나 SQL, XML,엑셀이라는 형태로 저장
RSS는 표현방법
-컨텐츠를 보여주는 방법
-뉴스나 블로그 같이 매일 주기적으로 생산이 되는 컨텐츠를 보여주는 방식
-RSS가 없다면 뉴스나 블로그 보기 위해서 웹페이 방문해야 하는데 정보수집에 오래 걸림. Without RSS 직접 방문해서 데이터를 가져와야 한다
-RSS 보유하고 있다면? RSS Reader를 이용해서 내 컴퓨터에서 자동적으로 보내주는 피드를 받아 그자리에서 바로 확인을 할 수 있기에 상당히 빠르다
Scrapy 스크래퍼
파이선으로 작성된 오픈소스 웹 크롤링 프레임 워크
※반정형데이터
수집방식 | 설명 |
Sensing | 데이터를 센서로부터 수집 및 생성된 데이터를 수집하는 기술 |
Streaming | 센서 데이터, 미디어 데이터를 실시간으로 수집하는 기술 |
Flume | 로그데이터를 Event와 Agent를 통해 자동화해서 수집하는 기술 |
Scribe | 로그데이터를 실시간으로 수집하는 기술 |
Chukwa | Agent와 Collector 구성을 통해 데이터를 수집하고 하둡에 저장하는 기술 |
Flume
아파치 플룸은 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어
flume의 뜻이 통나무(로그)를 쉽게 이동시키기 위한 수로라는 뜻을 가지고 있음
Scribe
스크라이브는 페이스북에서 개발된 대규모의 서버로부터 실시간으로 스트리밍 로그 데이터 수집을 위한 애플리케이션
Chukwa
척와는 분산되어 있는 노드들의 로그 데이터를 수집하고, 수집된 데이터를 저장하며 분석하기 위해 만들어진 오픈소스 프로젝트
2)빅데이터 수집 시스템 운영업무
구성 및 변경관리
- 빅테이더 수집 시스템을 구성하는 하드웨어, 소프트웨어 구성현황, 시스템 이력, 연관 시스템과의 데이터 연동 구성, 구성 파일, 파라미터, 시스템 구성도, 구성항목의 변경 사항 관리
운영상태관리
- 시스템 구성요소에 대한 상태 관리를 통한 시스템 가용성 향상
- 이상 징후 탐지, 기록, 분류, 통지하여 조치
- 관리항목: 하드웨어, 소프트웨어 모니터링, 데이터 수집 상태 관리
- 항목 임계치: CPU, 메모리 사용률, 데이터 수집 스토리지 사용률
- 적용기간: 주기적인 수집의 경우 수집기간 명시
성능관리
- 성능개선 및 최적의 용량 확보를 통한 문제점 예방 및 개선
- 서버: CPU사용률, 메모리 및 가상화 메모리 사용률, 스토리지 사용률, 스토리지 입출력 횟수 및 소요시간
- 솔루션: 데이터 수집시간, 소프트웨어 사용 중 응답시간
- 네트워크: 네트워크 처리량, 네트워크 장비의 CPU, 메모리 부하율
보안관리
- 내,외부의 무단 사용자에 의한 불법 유출, 변경으로부터 데이터 보호
- 안전하고 신뢰성있는 시스템 운영
- 소프트웨어: 응용 소프트웨어 보안 등급, 데이터보안, 산출률 보안 관리
- 운영: ID관리, 로그관리, 중요데이터 보안검증
- 인적보안: 데이터 수집 관리자의 접근 제어, 기밀준수, 협약, 보안교육 등
'생활 정보' 카테고리의 다른 글
[빅데이터] 데이터 품질검증 (0) | 2022.04.20 |
---|---|
[빅데이터] 데이터 비식별화란? 대상·절차·처리기법 (0) | 2022.04.20 |
아이폰 앱 구독취소, 자동결제·이중결제 막는법 (0) | 2021.09.13 |
코로나 백신, 금액 및 정리(장단점) (0) | 2020.12.16 |
고기 살때 유용한 구매팁 (4) | 2020.12.01 |
최근댓글