PM 트랙_강의/데이터 분석

데이터 분석/시각화와 파이썬 기초

은하_carol 2024. 12. 25. 00:48

PM이 되기 위한 중요한 역량 중에는 데이터 분석 능력이 있습니다.

데이터 기반으로 이루어지는 커뮤니케이션이 중요하기 때문입니다.

 

오늘부터 약 5주 동안 데이터 분석 종합반 강의를 학습할 예정입니다!

1주 차에는 기본적으로 데이터 분석이 무엇인지, 시각화가 왜 중요하며 어떻게 하는지, 파이썬의 기초 지식을 학습했습니다.

 


 

1. 데이터 분석

  • 데이터 분석은 복잡한 툴의 개념이 중요한 것이 아닙니다.
  • 데이터를 분석하는 사고 방식을 통해 지속적인 반복 분석과 회고가 핵심입니다.
  • 어떠한 기획이나 문제 해결을 할 때 그 주장을 뒷받침해 줄 근거나 증거가 필요합니다.
  • 그 근거나 증거를 데이터 기반으로 시각화할 줄 알아야 합니다.
  • 데이터 분석 "하고자 하는 바에 대한 명확한 근거"를 줄 수 있게 도와주는 도구입니다.

 

캐글(kaggle)

캐글(kaggle)이란 데이터 사이언티스트들 사이에서 유명한 커뮤니티 플랫폼입니다.
데이터 분석 및 머신러닝에 대한 학습을 경쟁하며 할 수 있습니다.


https://www.kaggle.com

 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

 

2. 타이타닉 생존율 분석

  • 타이타닉 생존자 명단을 보면 부유한 사람들이 많다는 것이 확인됩니다.
  • 이때, 타이타닉에 탑승한 사람 중 부유한 사람이 많다라는 가설을 세우며 그 연관성을 데이터를 확인해 보고자 합니다.
  • 컬럼 정보
    • [A] PassengerId: 탑승객 정보 (아이디)
    • [B] Survived: 생존 여부 (0: 사망, 1: 생존)
    • [C] PClass: 탑승 좌석 등급 (숫자 높을수록 좋은 좌석)
    • [D] Sex: 성별 (0: 남자, 1: 여자)
    • [E] SibSp: 형제/자매 수
    • [F] Parch: 함께 탑승한 부모 또는 자녀의 수
    • [G] Fare: 지불 금액
  • 데이터 중 공백이 있는 경우 정확한 분석에 방해가 되므로 제거합니다. 이를 데이터 전처리 과정을 거친다라고 합니다.
    • 데이터 전처리: 정확한 데이터 분석을 위해 형식에 맞는 데이터로 만드는 것으로, 본격적인 분석 전 준비하는 단계
  • 데이터를 분석하기에 앞서, 부유함을 알 수 있는 것은 탑승 요금(Fare) 탑승 좌석의 등급(PClass)입니다.
  • 구글 스프레드 시트에서 제공하는 확장 프로그램 중 XLMiner Analysis ToolPack을 설치하여 Correlation 기능을 활용해 데이터 분석을 진행합니다.
 

엑셀 "분석 도구"를 구글 스트레드시트에서 사용하는 방법

엑셀 통계 데이터 분석에 사용되는 "분석 도구"를 구글 스트레드시트에서도 사용하는 방법 알아보기 구글 (Google) 스트레드시트는 엑셀을 대체할 수 있는 구글 드라이브에서 사용 가능한 무료 온

analchem.tistory.com

 

  • 생존 여부에 영향을 미친 것은 탑승 좌석 등급(PClass)보다 성별(Sex)이 더 높은 비중을 차지한다는 것을 알 수 있습니다.
    • 수치가 양수인 경우: 변수가 증가함에 따라 다른 변수도 증가하는 경향을 보이는 것
    • 수치가 음수인 경우: 변수의 수치가 증가할 때 다른 변수는 감소하는 경향을 보이는 것
    • 음수, 양수와 상관없이 숫자가 클수록 상관관계가 큰 편
  • 성별이 왜 생존 확율에 영향을 미치는지는 그 당시의 시대상(레이디 퍼스트)을 보면 짐작할 수 있습니다.
  • 성별 외에도 지불 금액(Fare)도 생존 확율에 영향을 미친다는 것을 확인할 수 있는데, 그렇다면 요금을 많이 지불한 사람이 탑승 좌석 등급이 높은 좌석을 선택했을 수 있지 않을까요?
  • 실제로 높은 등급의 좌석을 선택한 사람이 지불 금액이 높기 때문에 지불 금액(Fare) 수치로 간접적인 영향을 미쳤다고 결론을 내릴 수 있습니다.
  • 결론적으로, 탑승 등급은 생존 여부에 영향을 미쳤다고 할 수 있습니다.

 

3. 데이터 분석의 기본 구조

   ① 문제 정의 및 가설 설정하기

   ② 데이터 분석 기본 세팅하기

   ③ 데이터 분석하기

   ④ 분석 결과 시각화하기

   ⑤ 최종 결론 내리기

 

4. 엑셀 분석의 한계

  • 속도 이슈: 대용량 데이터 분석은 어렵고, 양이 많을 경우 시간이 많이 소요된다는 단점이 있습니다.
  • 고도화된 분석: 파이썬 활용이라는 데이터 분석의 트렌드를 따라가는 것이 데이터 분석에 용이하며, 파이썬에서 라이브러리 사용으로 다양한 시각화가 가능합니다.
  • 문법: 엑셀의 문법보다 파이썬의 문법이 비교적 쉽습니다.
  • 공백 처리: 파이썬을 활용하면 공백 데이터를 쉽게 처리할 수 있습니다.

   ⇒ 이러한 이유로 엑셀로 데이터 분석을 하기보다는 파이썬을 활용하는 것을 추천드립니다.

 

5. 파이썬 라이브러리

  • pandas (참고 자료: https://velog.io/@euisuk-chung/파이썬-시각화-마스터하기-Pandas)
    • 데이터 분석에 사용되는 파이썬 라이브러리입니다.
    • 데이터를 여러 가지 방법으로 다룰 수 있도록 도와줍니다.
    • 엑셀뿐만 아니라 여러 종류 형태의 데이터 파일을 읽어낼 수 있습니다.
    • 데이터를 자르고, 붙이는 데 용이하며 결함이 있는 데이터를 도려낼 수 있습니다.
    • 원하는 데이터를 뽑아내기 위한 필터링 기능도 제공됩니다.
  • matplotlib (참고 자료: https://velog.io/@suminwooo/파이썬-Matplotlib-활용)
    • 데이터를 시각화해 주는 파이썬 라이브러리입니다.
    • 숫자로만 이루어진 데이터를 한눈에 알아보기 쉽게 만들어 줍니다.

 

6. 당뇨병 발병 원인 글루코스

  • 당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치라는 가설에 대해 참인지 확인해 보겠습니다.
  • 자료로는 애리조나 사막 지역 원주민인 피마 인디언의 데이터를 활용하였습니다.
  • 컬럼 정보
    • [A] Pregnancies: 임신 횟수
    • [B] Glucose: 혈당 (포도당 부하 검사 수치)
    • [C] BloodPressure: 혈압
    • [D] SkinThickness: 팔 삼두근 뒤쪽의 피하지방 측정 값
    • [E] Insulin: 혈청 인슐린
    • [F] BMI: 체질량 지수
    • [G] DiabetesPedigreeFunction: 당뇨 내력 가중치 값
    • [H] Age: 나이
    • [I] Outcome: 클래스 결정 값 (0: 거짓, 1: 참)
  • 결정 값(Outcome)을 기준으로 확인했을 때, 글루코스(Glucose) 수치가 가장 높게 확인된 것을 볼 수 있습니다.
  • 즉, 당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치라는 가설은 참이라는 것을 알 수 있습니다.

 


 

실제로 데이터를 가지고 활용하며 데이터 분석이 가설에 어떤 근거를 부여하는지 확인할 수 있었습니다.

 

가설만 들었을 때는 확실한 건지 알 수 없지만,

이런 수치화한 데이터가 있다면 어느 설득보다 명확하다고 할 수 있을 것 같습니다.

 

파이썬으로는 어떻게 표현될 수 있을지 궁금하네요. 🤔