빅데이터 데이터 유형별 수집기술

 

1) 데이터 유형별 수집 기술

  • 정형 데이터 : ETL, FTP, API, DBtoDB, Rsync, Sqoop
  • 비정형 데이터 : 크롤링, RSS, Open API, Scrapy 등
  • 반정형 데이터 : Sensing, Streming, Flume, Scribe, Chukwa 등

 

※정형데이터 

수집방식 설명
ETL 수집대상 데이터를 추출, 가공하여 데이터 웨어하우스(DW) 및 데이터 마트(DM)에 저장하는 기술
FTP TCP/IP 기반으로 파일을 송·수신하는 응용계층 통신 프로그램
API 솔루션 제조사 및 3rd party 소프트웨어로 제공되는 도구
시스템 간 연동을 통해 실시간으로 데이터를 송·수신하는 인터페이스 기술
DBtoDB 데이터베이스 시스템 간 데이터를 동기화하거나 전송하는 기능을 제공하는 기술
Rsync 원격으로 파일과 디렉터리를 동기화하는 응용 프로그램 활용 기술
Sqoop 관계형 데이터베이스와 하둡 간 데이터 전송 기능을 제공하는 기술

-파일을 가지고오는 형태 Rsync, FTP

-자동화해서 사용하는 방식 ETL, API, DBToDB, Sqoop

 

API = Applicaion Programming Interface

-응용프로그램에서 사용할 수 있도록 운영체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있도록 만든 인터페이스

-웹 서버, 웹 에플리케이션 중간에 있고 인터넷과도 연결

-연결해줄때 API사용

-외부 데이터와 연결할때에도 API 방식 

-기본 명령 정의해두고 외부 요쳥 있으면 내부에 있는 데이터 정제해서 거기에 응답을 보내주는 중간역, 중간자 역할을 하는 것이 API

 

Apache Sqoop

-스쿱은 구조화된 관계형 데이터 베이스(RDBMS)와 아파치 하둡(Hadoop Flie System)간의 대용량 데이터들을 전달하기 위해 효율적으로 변환하여 주는 명령 줄 인터페이스 애플리케이션

-정형 데이터만 전달해줄수 있는 기능

 

 

 

※비정형데이터

수집방식 설명
Crawling 다양한 웹 사이트로부터 데이터를 직접 수집하는 기술
RSS XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는 기술
Open API 공개된 API를 이용하여 데이터를 수집하는 기술
Scrapy 파이썬 언어 기반으로 크롤링하여 데이터를 수집하는 기술
Apache Kafka 대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼 기술

 

웹 크롤링

웹사이트 모든 링크 방문-> 데이터 인덱션 만듦-> 데이터베이스 저장하게끔 만들어줌

 

웹스크레핑

웹사이트 데이터-> 웹스크래퍼 통해 긁어옴->데이터 베이터에 저장하거나 SQL, XML,엑셀이라는 형태로 저장

 

 

RSS는 표현방법

-컨텐츠를 보여주는 방법

-뉴스나 블로그 같이 매일 주기적으로 생산이 되는 컨텐츠를 보여주는 방식

-RSS가 없다면 뉴스나 블로그 보기 위해서 웹페이 방문해야 하는데 정보수집에 오래 걸림. Without RSS 직접 방문해서 데이터를 가져와야 한다

-RSS 보유하고 있다면? RSS Reader를 이용해서 내 컴퓨터에서 자동적으로 보내주는 피드를 받아 그자리에서 바로 확인을 할 수 있기에 상당히 빠르다

 

Scrapy 스크래퍼

파이선으로 작성된 오픈소스 웹 크롤링 프레임 워크 

 

 

 

※반정형데이터

수집방식 설명
Sensing 데이터를 센서로부터 수집 및 생성된 데이터를 수집하는 기술
Streaming 센서 데이터, 미디어 데이터를 실시간으로 수집하는 기술
Flume 로그데이터를 Event와 Agent를 통해 자동화해서 수집하는 기술
Scribe 로그데이터를 실시간으로 수집하는 기술
Chukwa Agent와 Collector 구성을 통해 데이터를 수집하고 하둡에 저장하는 기술

 

Flume

아파치 플룸은 많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 소프트웨어

flume의 뜻이 통나무(로그)를 쉽게 이동시키기 위한 수로라는 뜻을 가지고 있음

 

Scribe

스크라이브는 페이스북에서 개발된 대규모의 서버로부터 실시간으로 스트리밍 로그 데이터 수집을 위한 애플리케이션

 

Chukwa

척와는 분산되어 있는 노드들의 로그 데이터를 수집하고, 수집된 데이터를 저장하며 분석하기 위해 만들어진 오픈소스 프로젝트

 

 

 

2)빅데이터 수집 시스템 운영업무 

 

구성 및 변경관리

  • 빅테이더 수집 시스템을 구성하는 하드웨어, 소프트웨어 구성현황, 시스템 이력, 연관 시스템과의 데이터 연동 구성, 구성 파일, 파라미터, 시스템 구성도, 구성항목의 변경 사항 관리

 

 

운영상태관리

  • 시스템 구성요소에 대한 상태 관리를 통한 시스템 가용성 향상
  • 이상 징후 탐지, 기록, 분류, 통지하여 조치
  • 관리항목: 하드웨어, 소프트웨어 모니터링, 데이터 수집 상태 관리
  • 항목 임계치: CPU, 메모리 사용률, 데이터 수집 스토리지 사용률
  • 적용기간: 주기적인 수집의 경우 수집기간 명시

 

 

성능관리

  • 성능개선 및 최적의 용량 확보를 통한 문제점 예방 및 개선
  • 서버: CPU사용률, 메모리 및 가상화 메모리 사용률, 스토리지 사용률, 스토리지 입출력 횟수 및 소요시간
  • 솔루션: 데이터 수집시간, 소프트웨어 사용 중 응답시간
  • 네트워크: 네트워크 처리량, 네트워크 장비의 CPU, 메모리 부하율

 

 

보안관리

  • 내,외부의 무단 사용자에 의한 불법 유출, 변경으로부터 데이터 보호
  • 안전하고 신뢰성있는 시스템 운영
  • 소프트웨어: 응용 소프트웨어 보안 등급, 데이터보안, 산출률 보안 관리
  • 운영: ID관리, 로그관리, 중요데이터 보안검증
  • 인적보안: 데이터 수집 관리자의 접근 제어, 기밀준수, 협약, 보안교육 등

 

 

 

[빅데이터] 데이터 비식별화란? 대상·절차·처리기법

데이터 비식별화란? 데이터에 포함된 개인정보를 삭제하거나 다른 정보로 대체하여 데이터 내에서 특정 개인을 식별하지 못하게 하는 데이터 검증작업입니다. 데이터를 안전하게 활용하기 위

12370.tistory.com

 

 

[빅데이터] 데이터 품질검증

1.데이터 검증 절차 ○ 데이터 품질관리 비즈니스 목표에 부합한 데이터 분석을 위해 가치성, 정확성, 유용성 있는 데이터를 확보하고, 신뢰성 있는 데이터를 유지하는 데 필요한 관리 활동 ○

12370.tistory.com

 

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기