최보름달

[DATA] 빅데이터 기본 테크닉 본문

문송한 회사생활/DATA 공부

[DATA] 빅데이터 기본 테크닉

PieMoon 2020. 9. 17. 22:38

빅데이터의 정의

  • big data. 큰 데이터. 단순히 용량만 큰 것이 아니라 복잡성도 증가해서 관리 툴로 다루기 어려운 데이터세트의 집합.
  • 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터.
  • 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
  • 3V : 데이터의 양, 데이터 유형과 소스 측면의 다양성, 데이터 수집과 처리 측면에서 속도가 급격히 증가하면서 나타난 현상.
  • 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내는 일. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일.
  • 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식

 

빅데이터가 만들어 내는 본질적인 변화

  1. 사전처리 → 사후처리

  2. 표본조사 → 전수조사

  3. 질 → 양

  4. 인과관계 → 상관관계

 

빅데이터 활용 사례

구글 검색: 로그 데이터를 활용해 페이지 랭크 알고리즘 혁신. 다차원 신호를 추가해 검색 결과 개선중.

월마트: 구매 패턴을 활용해 상품 진열에 활용.

실시간 교통정보 수집, 기후 정보, 지질 활동 , 소셜미디어, CCTV, 통화기록, 문자 내역 등

 

빅데이터 활용 기본 테크닉

일곱가지 기본 테크닉

  1. 연관 규칙 학습 association rule learning

    '커피를 구매하는 사람이 탄산음료를 더 많이 사는가?' 라는 문제에 답하고자 할 때 주로 사용하는 기법

    변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법

    슈퍼마켓 등의 계산대에 있는 데이터를 활용해 개발되기 시작함.

  2. 유형 분석 classification tree analysis

    '이 사용자는 어떤 특성을 가진 집단에 속하는가?'라는 문제를 해결하기 위해 주로 사용됨.

    기존 자료를 바탕으로 만들어진 훈련용 분류틀이 있어야 한다.

    문서를 분류하거나, 조직을 그룹으로 나눌 때, 온라인 수강생을 특성에 따라 분류할 때 사용할 수 있음.

  3. 유전 알고리즘 genetic algorithms

    '최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?'

    '응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?'

    '연료 효율적인 차를 개발하기 위해 어떻게 원자재와 엔지니어링을 결합해야 하는가?'

    최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법.

  4. 기계 학습 machine learning

    '기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까?'

    훈련 데이터로부터 학습한 알려진 특성들을 활용해 '예측' 하는 일에 초점을 맞춘다.

    스팸 메일 걸러내기, 사용자 기호를 학습해 추천 서비스를 제공할 때 사용됨.

  5. 회귀 분석 regression analysis

    '구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?'

    분석가는 독립변수를 조작하며, 종속 변수가 어떻게 변하는지를 보며 두 변인의 관계를 파악한다.

    '사용자의 만족도가 충성도에 어떤 영향을 미치는가?'

    '이웃들과 그 규모가 집값에 어떤 영향을 미치는가?'

  6. 감정 분석 sentiment analysis

    '새로운 환불 정책에 대한 고객의 평가는 어떤가?'를 알고 싶을 때 활용한다.

    특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석한다.

    호텔에서 고객의 코멘트를 받아 서비스를 개선하거나 소셜 미디어에서 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 이 기법이 활용된다.

  7. 소셜 네트워크 분석 social network analysis

    '특정인과 다른 사람이 몇 촌 정도의 관계인가?'

    오피니언 리더 즉 영향력 있는 사람을 찾아낼 수 있다.

    고객들 간의 소셜 관계를 파악할 수 있다.

분석가는 이러한 기법으로 데이터를 분석해 흥미로운 상관관계를 발견하거나, 사용자를 특정한 유형으로 분류하고, 보유 자원을 적정하게 할당하거나, 서비스나 상품의 적정 요금을 책정하는데 도움을 받을 수 있다.

 

 

 

 

한국데이터진흥원에서 출간한 데이터 분석 전문가 가이드 2014 Edition을 요약했습니다. 

 

'문송한 회사생활 > DATA 공부' 카테고리의 다른 글

[DATA] 기술통계  (0) 2020.10.27
[DATA] 통계분석의 이해  (0) 2020.10.27
[DATA] 빅데이터의 어두운 면  (0) 2020.09.17
[DATA] 데이터베이스 정의와 특징  (0) 2020.09.17
[DATA] 데이터와 정보  (0) 2020.09.17