² 데이터의 정의
데이터는 추론과 추정의 근거를 이루는 사실이다.
² 데이터의 특성
존재적 특성 | 객관적 사실 (fact) |
당위적 특성 | 추론을 위한 근거 (basis) |
² 데이터의 유형
정성적 데이터 | 언어,문자 | 검색과 분석에 많은 비용 소요 주관적이고, 통계분석이 어려움 |
회사 매출이 증가함 |
정량적 데이터 | 수치,도형 | 비용 소모가 적음 객관적이고, 통계분석이 용이함 |
나이,몸무게,주가 |
² 지식경영의 핵심 이슈
데이터는 지식경영의 핵심 이슈인 암묵지/형식지의 상호작용에 있어 중요한 역할을 함
암묵지 | 개인에게 체화되어 있음. (겉으로 드러나지 않음) |
사회적으로 중요/공유 어려움 | 공통화, 내면화 | 김장, 자전거 타기 |
형식지 | 매뉴얼처럼 형상화된 지식 | 전달과 공유 용이 | 연결화, 표출화 | DB, 교과서 |
² DIKW 피라미드
1. Data – 중요하지 않은 객관적 사실
2. Information – 데이터 간 연관 관계 속에서 의미가 도출된 것.
3. Knowledge – 데이터를 통해 도출된 정보를 구조화하여 고유의 지식으로 내재화된 것.
4. Wisdom – 지식 + 아이디어의 창의적인 산물
² 데이터베이스 정의
1차 개념 확대 [ 정형데이터 관리 ] |
EU | 체계적으로 정리되고 개별적으로 접근할 수 있는 독립된 저작물,데이터,수집물 |
국내 저작권법 | 소재를 체계적으로 배열, 구성한 편집물로서 개별적으로 접근하거나 검색 가능한 것 |
▼
2차 개념 확대 [ 빅데이터 출현-> 비정형데이터 포함] |
국내 컴퓨터 용어 사전 | 동시에 복수의 이용자의 요구에 대응해 데이터를 받아들이고 편성된 데이터의 집합 |
국내 위키피디아 | 관련된 레코드의 집합, DBMS | |
국내 데이터분석 가이드 | 다수의 콘텐츠를 체계적으로 수집하여 다양한 용도 이용할 수 있도록 정리한 정보의 집합체 |
² 데이터 베이스의 특징
1. 통합된 데이터
1. 동일한 내용의 데이터는 중복되지 않음.
2. 데이터 중복 -> 관리상의 복잡한 부작용
2. 저장된 데이터
3. 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것
4. 데이터베이스는 기본적으로 컴퓨터 기술을 바탕으로 함
3. 공용 데이터
5. 여러 사용자가 서로 다른 목적으로 데이터를 이용함.
6. 대용량, 구조 복잡
4. 변화되는 데이터
7. 데이터에 저장된 내용은 곧 데이터베이스의 현 시점
8. 데이터 삽입, 기존 데이터 삭제, 갱신 등으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 함.
² 데이터 베이스의 다양한 측면
1. 정보 축적, 정보 전달
2. 정보 이용
3. 정보 관리
4. 정보기술 발전
5. 경제,산업에 도움
² 기업내부 데이터베이스
1. 1980년대 기업내부 데이터 베이스
OLTP | -호스트 컴퓨터와 온라인으로 접속된 여러 단말 간의 처리 형태 / 데이터 갱신 -호스트 컴퓨터가 데이터베이스를 엑세스하고, 바로 처리 결과를 돌려보냄 -주문입력시스템, 재고관리시스템 |
OLAP | -정보 위주의 분석 처리 / 데이터 조회 -다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻게 해주는 기술 -트랜잭션 데이터를 분석해 제품의 판매 추이, 구매 성향 파악, 재무 회계 분석 |
(+) 특징
OLTP | 데이터 구조 복잡 응답 수 초 이내 질의 결과 주기적이며 예측 가능 데이터 크기 기가로 작음 |
OLAP | 데이터 구조 단순 응답 수 초 ~ 몇 분 질의 결과 예측 어렵다 데이터 크기 테라로 큼 |
2. 2000년대 기업내부 데이터 베이스
CRM | -고객관계관리 -기업이 고객과 관련된 자료를 분석,통합해 고객 중심 자원을 극대화하고, 이를 토대로 고객특성에 맞게 마케팅 활동을 계획,지원,평가하는 과정 -고객데이터의 세분화를 실시하여 고객을 적극적으로 관리하고 유도함 ( 평생고객화 ) |
SCM | -공급망관리 -원재료의 생산, 유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 것 -부품 공급 업체와 생산업체, 고객에 이르기까지 거래 관계에 있는 기업들간 실시간 정보 공유를 통해 시장이나 수요자들의 요구에 기민하게 대응하도록 지원하는 것 |
² 사회기반구조로서의 데이터베이스
-1990년대 사회 각 부문의 정보화가 본격화되면서 데이터베이스 구축이 활발하게 추진됨.
-정부를 중심으로 EDI를 활용하여 VAN을 통해 정보망이 구축되기 시작함.
-2000년대, 더욱 고도화되어 일반 국민들도 가정에서 손쉽게 정보를 습득하고 있음.
² 빅데이터의 정의
1. 3V로 요약되는 데이터 특성 변화에 초점을 맞춘 좁은 범위의 정의
2. 데이터 자체,처리,분석 기술적 변화까지 포함한 중간 범위의 정의
3. 인재,조직 변화까지 포함한 넓은 관점에서의 정의
² 3V
Variety [ 다양성 ] | Volume [ 양 ] | Velocity [ 속도 ] | (+) 4V |
-데이터의 유형과 소스 -정형, 비정형데이터 |
-데이터의 규모 -센싱데이터, 비정형데이터 |
-데이터의 수집과 처리 -데이터의 추출,분석 속도 |
Value [가치] Visualization[시각화] Veracity [정확성] |
² 빅데이터의 정의 범주 변화 과정, 효과
데이터 변화 à | 기술 변화 à | 인재,조직 변화 |
1.규모(volume) 2.다양성(variety) 3.속도(velocity) |
-데이터 처리, 분석,저장 기술 및 아키텍처 -클라우드 컴퓨팅 활용 |
-데이터 사이언티스트 같은 새로운 인재 필요 -데이터 중심 조직 |
² 빅데이터의 출현 배경
-새로 등장한 것이 아니라 기존의 데이터, 처리 방식, 다루는 사람과 조직 차원에서의 변화
산업계 | 고객 데이터 축적 | 데이터에 숨어있는 가치 발굴 |
학계 | 거대 데이터 활용, 과학 확산 | 통계 도구 발전 |
기술 발전 | 관련 기술 발달 | 디지털화,인터넷 보급 |
² 빅데이터의 기능
1. 산업혁명의 석탄, 철
- 제조업 뿐 아니라 서비스 분야의 생산성의 획기적으로 끌어올려 사회 전반에 변화를 줄 것.
2. 21세기의 원유
- 정보를 제공함으로서 산업 전반의 생산성을 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것.
3. 렌즈
- 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 영향을 미칠 것.
4. 플랫폼
- 공동 활용 목적으로 구축된 구조물으로서 다양한 비즈니스에 활용되면서 플랫폼 역할을 할 것.
² 빅데이터가 만들어 내는 본질적 변화
1. 사전 처리 à 사후 처리
- 필요한 정보만 수집하고 나머지는 버리는 시스템에서 가능한 한 많은 데이터를 모아 다양한 방식으로 조합해 숨은 정보를 찾아냄.
2. 표본 조사 à 전수 조사
- 데이터 수집 비용의 감소와 기술의 발전으로 데이터 처리비용이 감소하게 되었다. 이로 인해 샘플링이 주지 못한 패턴이나 정보를 발견하는 식으로 데이터 활용방법이 변화함.
3. 질 à 양
- 데아터가 지속적으로 추가될 경우 양질에 정보가 오류 정보보다 많아 전체적으로 긍정적인 영향을 끼침.
4. 인과 관계 à 상관 관계
- 데이터 기반의 상관 관계 분석이 주는 인사이트가 인과 관계에 의한 미래 예측을 압도할 것으로 예측.
² 빅데이터의 가치
- 여러 변수로 인해 가치를 측정하는 것이 쉽지 않다.
1. 데이터 활용 방식
- 재사용,재조합 데이터 개발이 일반화되면서 특정 데이터를 언제,누가 활용할지 알 수 없음.
2. 새로운 가치 창출
- 전에 없던 가치를 창출함에 따라 그 가치를 측정하기가 어려워짐.
3. 분석 기술 발전
- 현재에는 가치 없는 데이터일지라도, 추후에 새로운 분석 기법이 등장한다며 거대한 가치를 지닌 데이터가 될 수 있음.
² 빅데이터의 영향
기업 | 혁신, 경쟁력 재고, 생산성 향상 | 구글은 로그데이터를 활용해 검색 서비스를 개선함 |
정부 | 환경 탐색, 상황 분석, 미래 대응 | 실시간 교통상황 수집, 기후 정보 등 다양한 국가 안전 확보 활용을 위해 실시간 모니터링을 활용함 |
개인 | 목적에 따른 활용 | 정치인은 선거 승리를 위해 사회관계망 분석을 통해 유세 지역을 선정하고, 영향을 줄 수 있는 내용을 선정함. |
² 빅데이터 비즈니스 모델
연관규칙학습 | 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 | 커피를 구매하는 사람이 탄산음료를 더 많이 사가는가? |
유형 분석 | 문서를 보류하거나 조직을 그룹으로 나눌 때, 온라인 수강생들을 특성에 따라 분류할 때 사용 | 이 사용자는 어떤 특성을 가진 집단에 속하는가? |
유전자 알고리즘 | 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 같은 매커니즘을 통해 정신적으로 진화시켜 나가는 방법 | 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? |
기계학습 | 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법 | 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까? |
회귀 분석 | 독립 변수를 조작함에 따라, 종속 변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 | 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? |
감정 분석 | 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 | 새로운 환불 정책에 대한 소비자들의 반응은 어떤가? |
소셜 네트워크 분석 | 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용, 영향력있는 사람인지를 찾아낼 때 사용 | 고객들 간 관계망은 어떻게 구성되어 있나? |