데이터 분석 준전문가

[데이터분석준전문가] 2장 데이터의 가치와 미래

shoney9254 2021. 5. 9. 14:44
반응형

<2장 데이터의 가치와 미래>

1       빅데이터의 이해

   1.1       정의

   1.2       정의의 범주 및 효과
      데이터의 변화 -> 기술변화 -> 인재, 조직의 변화로 확대됨

      1.2.1   데이터의 변화
         , 다양성, 속도

      1.2.2   기술 변화
         데이터 처리, 저장, 분석 기술 및 아키텍처, 클라우드 컴퓨팅 활용

      1.2.3   인재, 조직 변화
         Data Scientist
같은 새로운 인재 필요, 데이터 중심 조직

 

   1.3       빅데이터의 기능(by 비유)

      1.3.1   산업혁명의 석탄,
         제조, 서비스 분야의 생산성을 획기적으로 끌어올려 생활전반에 혁명적 변화를 가져올 것

      1.3.2   21세기의 원유
         경제 성장에 필요한 정보를 제공하여 생산성을 향상시키고, 기존에 없던 산업을 만들어 낼 것

      1.3.3   렌즈
         렌즈를 통해 현미경이 생물학 발전에 큰 영향을 미쳤듯 데이터가 산업 발전에 영향을 미칠 것

      1.3.4   플랫폼
         공동 활용 목적으로 구축된 유무형의 구조물로써 다양한 비즈니스에 활용(카카오, 페이스북)

 

   1.4       빅데이터가 만들어 내는 변화

      1.4.1   사전처리 -> 사후처리 : 가능한 많은 데이터를 모으고, 조합해 숨은 정보를 찾아낸다

      1.4.2   표본조사 -> 전수조사 : 데이터 수집, 처리 비용이 감소하여 전수조사 가능

      1.4.3   -> : 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 영향을 미침

      1.4.4   인과관계 -> 상관관계

 

 

2       빅데이터의 가치와 영향

   2.1       가치산정이 어려운 이유

      2.1.1   데이터 활용방식
         특정 데이터를 누가/언제/어디서 활용하는지 알 수 없게 되어 가치 산정이 어렵다.

      2.1.2   새로운 가치창출
         기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어렵다.

      2.1.3   분석 기술 발전
         현재는 가치가 없는 데이터일지라도, 추후에 새로운 분석 기법이 등장하면 거대한 가치를 지닌 데이터가 될 수 있다.

 

   2.2       빅데이터의 영향

      2.2.1   기업 : 혁신, 경쟁력제고, 생산성향상

      2.2.2   정부 : 환경 탐색, 상황분석, 미래대응

      2.2.3   개인 : 목적에 따른 활용

 

3       비즈니스 모델

   3.1       빅데이터 활용 테크닉

테크닉 내용 예시
연관규칙학습 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 커피를 구매하는 사람이 탄산음료를 더 많이 사는가
유형분석 문서를 분류하거나 조직을 그룹으로 나눌 때 등 특성에 따라 분류 이 사용자는 어떤 특성을 가진 집단에 속하는가
유전자 알고리즘 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 진화 시켜 나가는 방법 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가
기계학습 훈련 데이터로부터 학습한 내용을 활용해 예측 기존의 시청 기록을 바탕으로 시청자가 보고싶어 하는 영화 추천
회귀분석 독립변수 조작에 따라 종속변수가 어떻게 변하는지 보면서 변인의 관계 파악 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가
감정분석 글을 쓴 사람의 감정을 분석 새로운 환불 정책에 대한 고객의 평가는 어떤가
소셜네트워크분석 특정인과 다른 사람이 어느정도 관계인지 파악 고객들 간 관계망 구성

 

 

 

4       위기 요인과 통제 방안(84p)

   4.1       위기요인

      4.1.1   사생활 침해
         내용 : 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어 사회/경제적 위협으로 변형될 수 있다.
         예시 : 여행 사실을 트위트 한 사람의 집을 강도가 노리는 사례 발생
         ->
익명화 기술 발전이 필요하다.

      4.1.2   책임 원칙 훼손
         내용 : 빅데이터 기본분석과 예측기술이 발전하면서 정확도가 증가한 만큼, 예측알고리즘의 희생양이 될 가능성이 높음
         예시 : 마이너리티 리포트, 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포, 자신의 신용도와 무관하게 대출이 거절되는 등
         ->
민주주의 국가의 형사 처벌은 잠재적 위협이 아닌 명확하게 행동한 결과에 대한 책임을 물음

      4.1.3   데이터 오용
         내용 : 미래를 예측하는 것은 항상 맞을 수는 없음. 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다.
         예시 : 전쟁에서 적군의 사망자 수로 전쟁의 진척상황을 나타내었음. 사망자 수가 과장보고됭 전쟁 상황을 오보하게됨

 

   4.2       통제 방안

      4.2.1   동의 -> 책임
         개인정보제공 동의에서 개인정보 사용자의 책임으로 변경하는 방안
         개인정보 유출로 발생하는 피해에 대해 사용자가 책임을 지게되어 사용 주체의 적극적 보호

      4.2.2   결과 기반 책임 원칙 고수
         예측 자료에 의한 불이익을 당할 가능성을 최소화 하는 장치 마련
         잘못된 예측을 통한 판단을 근거로 불이익을 줄 수 없음. 이에 따른 피해 최소화 장치 마련이 필요함

      4.2.3   알고리즘 접근허용
         
알고리즘에 대한 접근권을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것
         불이익을 당한 사람들을 대변할 전문가(알고리즈미스트)가 필요하게 되었다.

 

 

반응형