본문 바로가기

AI 공부53

(머신러닝) 모델튜닝 Model Tuning (Hyperparameter Optimization) 학습을 수행하기 전에 설정해야하는 값인 하이퍼파리마터의 최적값을 탐색 Grid Search 하이퍼파라미터별로 다양한 값들을 지정해서 모든 조합에 대해 성능 결과를 측정한 후 가장 높은 성능을 발휘했던 하이퍼파라미터 조합을 선정하는 방법 오래걸려서 잘 안쓰게 될 것 같다... from sklearn.model_selection import KFold cv = KFold(n_splits=5,shuffle=True,random_state=SEED) # cv =cross valid 적용 from sklearn.model_selection import GridSearchCV from lightgbm import LGBMClassifier.. 2022. 9. 13.
(머신러닝) 앙상블 기존 타이타닉 데이터를 이용하여 앙상블을 진행하겠다. 데이터 가져오기 import pandas as pd import numpy as np import seaborn as sns from sklearn.preprocessing import OneHotEncoder from sklearn.model_selection import train_test_split from sklearn.metrics import roc_auc_score df = sns.load_dataset('titanic') # 타이타닉 데이터 받아오기 cols = ["age","sibsp","parch","fare"] # 숫자니까 바로 사용 features = df[cols] # 피쳐 target = df["survived"] # 정답값 .. 2022. 9. 13.
(머신러닝) 머신러닝 모델 선형회귀(Linear regression) 원인이 되는 설명 변수(독립변수, Feature)에 따른 종속변수(class,label,target)의 결과를 예측 사이킷 런에서 제공해주는 당뇨병 진행도 데이터셋 받아오기 from sklearn.datasets import load_diabetes diabets = load_diabetes() data = diabets.data target = diabets.target from sklearn.model_selection import train_test_split SEED =42 x_train, x_valid, y_train, y_valid = train_test_split(data,target,random_state=SEED) x_train.shape, x_.. 2022. 9. 13.
(머신러닝) sklearn Scikit-learn https://scikit-learn.org/stable/# 다양한 머신러닝 관련한 기술들을 통일되고 쉬운 인터페이스로 사용할수 있게 해주는 라이브러리 머신러닝 관련 알고리즘과 개발을 위한 기능 제공 Getting Started with scikit-learn(자주 사용하는 사이킷런 모듈) - 데이터 정제(Data Cleasing) & 속성 공학(Feature Engineering) sklearn.preprocessing: 데이터 전처리(인코딩, 정규화 등) sklearn.feature_selection: 특성 선택 sklearn.feature_extraction: 특성 추출(이미지나 텍스트에서 속성 추출) - 모형 성능 평가와 개선 sklearn.model_selection: 데.. 2022. 9. 11.
(머신러닝) 교차검증과 과적합 머신러닝 검증방식 데이터 불러오기 (숫자) import numpy as np from sklearn.datasets import load_digits digits = load_digits() data = digits.data target = digits.target data.shape, target.shape Holdout 빠른 속도로 검증가능 이전에 test_split 한 것이 holdout 방식! K-Fold 교차검증(K-Fold cross validation) 전체데이터를 k등분하고, 각 등분을 한번씩 검증데이터로 사용 각 폴드의 성능 결과값을 평균내서 검증 Holdout 방식을 사용하는 것보다 교차검증을 사용하면 여러 valid 있어 성능의 검증을 더 신뢰할 수 있다. 교차검증 예시 from sk.. 2022. 9. 7.
(머신러닝) 결측치 및 스케일링 seaborn에 있는 타이타닉 데이터를 가져와서 결측치와 스케일링을 적용시켜 보겠다. import pandas as pd import numpy as np import seaborn as sns from sklearn.preprocessing import OneHotEncoder from sklearn.model_selection import train_test_split df = sns.load_dataset("titanic") SEED = 42 df_train, df_test = train_test_split(df, random_state=SEED, test_size=0.2) df_train 먼저 필요한 라이브러리를 불러와주고, 데이터를 train과 test에 담아준다. df_train = df_tr.. 2022. 9. 7.
728x90