📌 가설: 당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치이다.
📃 주어진 데이터: 피마 인디언 당뇨병 데이터 세트
💻 활용: 파이썬(Python), Pandas 라이브러리, matplotlib 라이브러리
1. 라이브러리 사용 선언
import pandas as pd
import matplotlib.pyplot as plt
2. 파일 읽어 오기 및 데이터 정제
diabetes = pd.read_table('diabetes.csv', sep = ',')
diabetes.head()
print(diabetes.isnull().sum())
diabetes = diabetes.dropna()
3. 데이터 분석
corr = diabetes.corr(method = 'pearson')
corr = corr[corr.Outcome != 1]
corr
4. 데이터 시각화
💡 그래프로 시각화할 때 두 방법을 각각의 코드로 작성하면 하나의 그래프로 통합해서 나타낸다.
corr['Outcome'].plot()
corr['Outcome'].plot.bar()
🔍 결론: 당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치라는 가설은 참(True)이다.
'PM 트랙_강의 > 데이터 분석' 카테고리의 다른 글
파이썬(Python) 실습하기 - 제품 수요가 많은 지역 찾기 (2) | 2025.01.13 |
---|---|
파이썬(Python) 실습하기 - 수강생들이 강의 듣는 시간과 요일 분석 (1) | 2025.01.08 |
파이썬(Python) 나아가기 - numpy, seaborn 라이브러리 (1) | 2025.01.07 |
파이썬(Python) 사용하기 - matplotlib 라이브러리 (3) | 2025.01.07 |
파이썬(Python) 사용하기 - Pandas 라이브러리 (0) | 2025.01.07 |