본문 바로가기

STATISTICS/ADsP

참고 - 빅데이터

[DBMS와 SQL]

1. DBMS (Data Base Management System)

1) DBMS란

  • 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어
  • 데이터베이스를 구축하는 틀을 제공하며, 효율적인 데이터 검색, 저장 기능 등을 제공
  • 대표적 데이터베이스 관리시스템: 오라클, 인포믹스, 액세스 등

2) 데이터베이스 관리시스템 종류

  • 관계형 DBMS: 테이블로 정리, 고유키가 row 식별
  • 객체지향 DBMS
  • 네트워크 DBMS: 레코드들이 노드로 표현
  • 계층형 DBMS: 트리 구조 기반

2. SQL (Structured Query Language) : 데이터베이스에 접근할 수 있는 데이터베이스의 하부언어로, 단순한 질의 기능 뿐만 아니라 완전한 데이터와 정의와 조작 기능을 갖추고 있음  - AVG , COUNT, SUM, STDDEV, MIN , MAX

 

[Data에 관련한 기술]

1. 개인정보 비식별 기술

데이터마스킹 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술
가명처리 개인정보 주체의 이름을 다른 이름으로 변경하는 기술, 다른 값으로 대체 시 규칙이 노출되지 않도록 주의
총계처리 데이터의 총합 값을 보임으로써 개별 데이터의 값을 보이지 않게 함. 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보 공개 주의
데이터값 삭제 데이터 공유, 개방 목적에 다라 데이터 셋에 구성된 값 중에 필요없는 값 또는 개인식별에 중요한 값 삭제. 개인과 관련된 날짜 정보 연단위 처리
데이터 범주화 데이터의 값을 범주의 값으로 변환하여 값을 숨김

2. 무결성과 레이크

1) 데이터 무결성 (Data intergrity): 데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경/수정 시 여러가지 제한을 두어 데이터의 정확성을 보증하는 것. - 개체 무결성, 참조 무결성, 범위 무결성

2) 데이터 레이크 (Data Lake): 수 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템으로 대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게할 수 있는 대규모의 저장소를 의미. Apach Hadoop, Teradata, Integrated Big Data Platform 1700 등과 같은 플랫폼으로 구성된 솔루션 제공

 

[빅데이터 분석 기술]

1. 하둡 Hadoop : 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술. 분산파일시스템(HDFS)을 통해 수 천대의 장비에 대용량 파일을 저장할 수 있는 기능을 제공하고 맵리듀스(Map Reduce)로 HDFS에 저장된 대용량의 데이터들을 대상으로 SQL을 이용해 사용자의 질의를 실시간으로 처리하는 기술로 이루어져 있음. 하둡의 부족한 기능을 서로 보완하는 '하둡 에코시스템'이 등장하여 다양한 솔루션 제공

2. Apache Spark : 실시간 분산형 컴퓨팅 플랫폼으로써 스칼라로 작성되어 있지만 스칼라, 자바, R, 파이썬, API를 지원. In-Memory 방식으로 처리하기 때문에 하둡에 비해 처리속도가 빠른 것이 특징

3. Smart Factory: 공장 내 설비와 기계에 사물인터넷 IoT이 설치되어, 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화 할 수 있는 기술

4. Machine Learning & Deep Learning: 인공지능의 연구 분야 중 하나로, 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자하는 기술 및 기법. 많은 데이터를 이용해 컴퓨터가 사람처럼 스스로 학습할 수 있게 하기 위하여 인공신경망(ANN: Artificial Neural Network) 등의 기술을 기반하여 구축한 기계 학습 기술 중 하나

 

[기타]

1. 블록체인 Block Chain: 거래정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래장부. 기존 금융회사의 경우 중앙집중형 서버에 거래 기록을 보관하는 반면, 블록체인은 거래에 참여하는 모든 사용자에게 거래 내역을 보내주며 거래 때마다 이를 대조해 데이터 위조를 막는 방식을 사용

2. 데이터의 유형

정형데이터 형태(고정된 필드)가 있으며, 연산이 가능. 주로 관계형 데이터베이스에 저장됨
데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬운 편
관계형 데이터베이스, 스프레드시트, CSV 등
반정형데이터 형태(스키마, 메타데이터)가 있으며, 연산 불가능. 주로 파일로 저장
데이터 수집 난이도 중간, 보통 API 형태로 제공되기 때문에 데이터처리 기술(파싱) 요구
XML, HTML, JSON, 로그형태(웹로그, 센서데이터) 등
비정형데이터 형태가 없으며 연산 불가능. 주로 NoSQL에 저장
데이터 수집 난이도 높으며 텍스트 마이닝 혹인 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때무에 수집 데이터 처리 어려움
소셜데이터, 영상, 이미지, 음성, 텍스트

* XML: Extensible Markup Language의 약자로 다목적 마크업 언어(태그를 이용한 언어). 인터넷에 연결된 시스템끼리 데이터를 쉽게 주고받을 수 있게 하여 HTML의 한계를 극복할 목적으로 만들어짐. XHTML, SVG 등