본문 바로가기

STATISTICS/ADsP

1-1. 데이터의 이해

[데이터와 정보]

1. 데이터의 유형

구분 형태 특징
정성적 데이터
(qualitative data)
언어, 문자 등 비정형 데이터
주관적 내용
통계분석 어려움
저장, 검색, 분석에 많은 비용 소모
정량적 데이터
(quantitative data)
수치, 도형, 기호 등 정형 데이터
객관적 내용
통계분석 용이
비용 소모 적음

 

2. 지식경영의 핵심 이슈

구분 의미 특징 상호작용
암묵지 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 사회적으로 중요하지만 공유되기 어려움 공통화, 내면화
형식지 문서나 매뉴얼처럼 형상화된 지식 전달과 공유가 용이함 표출화, 연결화

 

3. DIKW 피라미드

  • 지혜: 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
  • 지식: 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물
  • 정보: 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터
  • 데이터: 존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미

 

[데이터베이스 정의와 특징]

1. 데이터베이스 정의

1차개념확대
정형테이터 관리
EU 체게적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물
국내 저작권법 소재를 체계적으로 배열 또는 구성한 편집물로 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것
2차개념확대
빅데이터의 출현으로
비정형데이터 포함
국내 컴퓨터용어사전 동시의 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합
국내 Wikipedia 관련된 레코드의 집합, 소프트웨어로는 데이터베이스관리시스템(DBMS)을 의미
국내 데이터분석
전문가 가이드
문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의하여 체계적으로 수집, 축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체

 

2. 데이터베이스 특징

통합된 데이터 
(intergrated data)
동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미
데이터 중복은 관리상의 복잡한 부작용을 초래
저장된 데이터
(stored data)
자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미
데이터베이스는 기본적으로 컴퓨터 기술을 바탕으로 한 것
공용 데이터
(shared data)
여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미
대용량화되고 구조가 복잡한 것이 보통
변화되는 데이터
(changed data)
데이터베이스에 저장된 내용은 곧 데이터베이스의 현 시점에서의 상태를 나타냄
다만 이 상태는 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화화면서도 항상 현대의 정확한 데이터를 유지해야 함

정보의 축적 및 전달 측면

  • 기계가독성: 일정한 형식에 따라 컴퓨터 등의정보처리기가 읽고 쓸 수 있음
  • 검색가독성: 다양한 방법으로 필요한 정보를 검색
  • 원격조작성: 정보통신망을 통항 원거리에서도 즉시 온라인을 이용

 

[데이터베이스의 활용]

1. 기업내무 데이터베이스

  • OLTP (On-Line Trsnsaction Processing): 온라인으로 접속된 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 액세스하고, 바로 처리 결과를 돌려보내는 형태 - 주문입력시스템, 재고관리시스템
  • OLAP (On-Line Analytical Processing): 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술 - 제품의 판매 추이, 재무 회계 분석 프로세싱
구분 OLTP OLAP
데이터 구조 복잡 단순
데이터 갱신 동적으로 순간적 정적으로 주기적
응답 시간 수 초 이내 수 초 ~ 수 분
데이터 범위 수 십일 전후 오랜 기간 저장
데이터 성격 정규적인 핵심 데이터 비정규적인 읽기 전용 데이터
데이터 크기 수 GByte 수 TByte
데이터 내용 현재 데이터 요약된 데이터
데이터 특성 트랜잭션 중심 주제 중심
데이터 엑세스 빈도 높음 보통
질의 결과 예측 주기적이며 예측 가능 예측하기 어려움

 

2. 분야별 데이터베이스

제조분야 - ERP (Enterprise Resource Planning): 경영자원을 하나의 통합 시스템으로 재구축
- BI (Business Intelligence): 의사결정에 활용하는 일련의 프로세스
- CRM (Customer Relationship Management): 고객 중심 자원을 극대화
- RTE (Real-Time Enterprise): 회사 전 부문의 정보를 하나로 통합
금융부문 - EAI (Enterprise Application Intergration): 정보를 중앙 집중적으로 통합, 관리, 사용
- EDW (Enterprise Data Warehouse): BPR과 CRM, BSC 같은 다양한 분석 애플리케이션을 위한 원천
유통부문 - KSW (Knowledge Management System): 지식관리시스템
- RFID (RF, Radio Frequency): 주파수를 이용해 ID를 식별하는 시스템