PM 트랙_강의/데이터 분석
파이썬(Python) 실습하기 - 파일 읽어 오기, 데이터 정제, 분석 및 시각화
은하_carol
2025. 1. 7. 12:27
📌 가설: 당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치이다.
📃 주어진 데이터: 피마 인디언 당뇨병 데이터 세트
💻 활용: 파이썬(Python), Pandas 라이브러리, matplotlib 라이브러리
1. 라이브러리 사용 선언
import pandas as pd
import matplotlib.pyplot as plt
2. 파일 읽어 오기 및 데이터 정제
diabetes = pd.read_table('diabetes.csv', sep = ',')
diabetes.head()
print(diabetes.isnull().sum())
diabetes = diabetes.dropna()
3. 데이터 분석
corr = diabetes.corr(method = 'pearson')
corr = corr[corr.Outcome != 1]
corr
4. 데이터 시각화
💡 그래프로 시각화할 때 두 방법을 각각의 코드로 작성하면 하나의 그래프로 통합해서 나타낸다.
corr['Outcome'].plot()
corr['Outcome'].plot.bar()
🔍 결론: 당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치라는 가설은 참(True)이다.