데이터 분석 준전문가

[데이터분석준전문가] 3장 가치창조를 위한 데이터 사이언스와 전략 인사이트

shoney9254 2021. 5. 9. 14:51
반응형

1       빅데이터 분석과 전략 인사이트

   1.1       일차원적인 분석 vs 전략도출 위한 가치기반 분석

산업별 분석 애플리케이션
산업

일차원적 분석 애플리케이션

금융 서비스

신용점수 산정, 사기 탐지, 가격 책정, 프로그램트레이딩, 클레임분석, 고객 수익성분석

병원

가격 책정, 고객 로열티, 수익관리

에너지

트레이딩, 공급/수요 예측

정부

사기탐지, 사례 관리, 범죄 방지, 수익 최적화

소매업

판촉, 매대관리, 수요예측, 재고 보충, 가격 및 제조 최적화

제조업

공급사슬 최적화, 수요예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발, 신상품 개발

운송업

일정 관리, 노선 배정, 수익관리

헬스케어

약품 거래, 예비 진단, 질병 관리

커뮤니케이션

가격 계획 최적화, 고객 보유, 생산능력 계획, 네트워크 최적화, 고객 수익성 관리

서비스

콜센터 직원관리, 서비스-수익 사슬 관리

온라인

웹 매트릭스, 사이트 설계, 고객 추천

모든사업

성과관리

      1.1.1   일차적인 분석의 문제점
         환경변화와 같은 큰 변화에 제대로 대응하거나 고객 환경의 변화를 파악하고 새로운 기회를 포착하기 어려움. 급변하는 환경에서 분석을 일차원적으로 사용하면 성과가 미미할 것

      1.1.2   전략도출 가치기반 분석
         -
전략적인 통찰력 창출에 포커스를 뒀을 때, 분석은 해당 사업에 중요한 기회를 발굴하고, 주요 경영진의 지원을 얻어낼 수 있으며, 이를 통해 강력한 모멘텀을 만들어냄
         -
일차원적 분석을 통해 분석 경험을 쌓고, 분석의 활용 범위를 넓고 전략적으로 변화 시켜야함
         -
사업성과를 견인하는 요소들과 차별화 기회에 대해 전략적 인사이트를 주는 가치기반 분석단계 필요함

 

   1.2       전략 인사이트 도출을 위한 필요

      1.2.1   데이터 사이언스의 의미와 역할
        -
데이터 사이언스는 데이터공학/수학/통계학/컴퓨터공학/시각화/해커의사고방식 전문지식을 종합한 학문. 정형/비정형을 막론하고 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 분석, 효과적으로 구현 및 전달하는 과정을 포함하는 포괄적 개념
         -
데이터 사이언티스트는 비즈니스 성과를 좌우하는 핵심이슈에 답하고, 사업성과를 견인해 나갈 수 있어야함. 소통력 필요

      1.2.2   데이터 사이언스의 구성요소

         1.2.2.1   데이터 사이언스의 구성요소
            ①Analytics –
분석적 영역
             
수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습 불확실성 모델링 등
            
비즈니스 분석 비즈니스 컨설팅 영역
            
커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화
            ③IT –
데이터 처리와 관련된 영역
             
시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스, 고성능 컴퓨팅

         1.2.2.2   데이터 사이언티스트의 역할
            -
대용량 데이터를 구조화, 불완전한 데이터를 서로 연결
            - ‘
강력한 호기심을 갖춰야 함. 문제의 이면을 파고들고, 질문을 찾고, 검증 가능한 가설을 세우는 능력 필요
            -
스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력, 대화능력 필요

      1.2.3   데이터 사이언티스트 요구 역량

         1.2.3.1   Hard Skill
            -
빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득
            -
분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적

         1.2.3.2   Soft Skill
            -
통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
            -
설득력 있는 전달 : 스토리텔링, 비주얼라이제이션
            -
다분야간 협력 : 커뮤니케이션

 

 

기타. 빅데이터 상식

1       DBMS : 데이터베이스를 관리하여 응용 프로그램들이 데이터 베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어

   1.1       관계형 DBMS
      데이터를 columnrow를 이루는 하나이상의 테이블로 정리. 고유키(primary key)가 각 row를 식별.
      row
recordtuple로 부르며, 일반적으로 각 테이블/관계는 하나의 entity을 대표한다.

   1.2       객체지향 DBMS
      정보를 객체형태로 표현한다.

   1.3       네트워크 DBMS
      레코드들이 노드로, 레코드들 사이의 관계가 간선으로 표현되는 그래프 기반 DB모델

   1.4       계층형 DBMS
      트리 구조를 기반으로 하는 계층 DB모델

 

2       Data관견 기술

   2.1       개인정보 비식별 기술
      개인정보 식별 요소를 삭제/대체 등의 방법으로 알아볼 수 없게 함
      데이터 마스킹
         데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술
         ex>  
홍길동, 20, 궁미도 거주, 율도대 * * , 20, 궁미도 거주,  * *
      ② 가명처리
         개인 식별에 중요한 데이터를 식별할 수 있는 다른 값으로 변경하는 기술
         다른 값으로 대체 시 일정한 규칙이 노출되지 않도록 주의해야 함
         
난수화[Random number] : 규칙적이지 않게 나열되어 예측이 불가능한 숫자
         ex> 
홍길동, 20, 궁미도 거주, 율도대 재학  허균저, 20, 궁미도 거주, 국내대 재학
      ③ 총계처리
         데이터 총계 합을 보냄으로써 개인 데이터의 값이 보이지 않도록 하는 기술
         , 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인정보 공개와 동일한 결과를 초래하므로 주의
         ex> 
홍길동 180cm, 형길현 170cm, 부홍문 170cm, 모춘섬 160
         
홍길동 등장인물들의 키 합 : 680cm     평균 키 : 170cm
      ④ 데이터 값 삭제
         데이터공유, 개방목적에 따라 데이터셋에 구성된 값 중에 필요없는 값 또는 개인식별에 중요한 값을 삭제
         날짜와 관련된 개인 정보[자격취득일자, 출생일 등]는 연단위로 처리
         ex> 
홍길동, 20, 궁미도 거주, 율도대 재학  20, 궁미도 거주 
      ⑤ 데이터 범주화
         데이터 값을 범주의 값으로 변환하여 값을 숨김
         범주 : 동일한 성질을 가진 부류나 범위
         ex> 
홍길동, 20홍씨  , 20~29

   

   2.2       무결성과 레이크

      2.2.1   데이터 무결성(integrity)
         데이터에 대한 정확한 일관성, 유효성, 신뢰성 보장을 위해 데이터 변경/수정 시 제한을 두어 데이터의 정확성을 보증함.
         개체 무결성, 참조 무결성, 범위 무결성이 있다.

      2.2.2   데이터 레이크
         방식에 상관없이 데이터를 저장하는 시스템. 대용량의 정형/비정형 데이터를 저장, 접근도 쉽게 할 수 있는 저장소.

   

   2.3       빅데이터 분석 기술

      2.3.1   하둡
         여러 개의 컴퓨터를 하나인 것 처럼 묶어 대용량 데이터를 처리하는 기술
         분산파일시스템(HDFS)을 통해 수 천대의 장비에 대용량 파일을 저장할 수 있는 기능 제공
         Map Reduce
HDFS에 저장된 대용량의 데이터를 대상으로 SQL을 사용해 실시간으로 사용자 질의 처리

      2.3.2   Apache Spark
         실시간 분산형 컴퓨팅 플랫폼. In-Memory방식으로 처리하여 하둡보다 속도가 빠름

      2.3.3   Machin Learning / Deep Learning
         머신러닝은 인공지능 연구 분야중 하나로, 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술 및 기법이다.
         딥 러닝은 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있게 하기 위해, 인공신경망(ANN : Artificial Neural Network)등의 기술을 기반하여 구축한 기계 학습 기술

 

   2.4       데이터 유형

      2.4.1   정형데이터 : 고정된 필드가 있으며, 연산이 가능함. 주로 RDBMS에 저장됨. 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬움
      ) RDB, 스프레드시트, CSV

      2.4.2   반정형데이터 : 형태(스키마, 메타데이터)가 있으며, 연산이 불가능. 주로 파일로 저장됨. 데이터 수집 난이도가 중간. 보통 API 형태로 제공되기 때문에 데이터처리 기술(파싱)이 요구됨
      ) XML, HTML, JSON, 로그

      2.4.3   비정형데이터 : 형태가 없으며, 연산이 불가능, 주로 NoSQL에 저장됨.
      ) 소셜데이터(트위터, 페이스북), 영상, 이미지, 음성, 텍스트 등

반응형