본문 바로가기

전체 카테고리160

(머신러닝) 모델튜닝 Model Tuning (Hyperparameter Optimization) 학습을 수행하기 전에 설정해야하는 값인 하이퍼파리마터의 최적값을 탐색 Grid Search 하이퍼파라미터별로 다양한 값들을 지정해서 모든 조합에 대해 성능 결과를 측정한 후 가장 높은 성능을 발휘했던 하이퍼파라미터 조합을 선정하는 방법 오래걸려서 잘 안쓰게 될 것 같다... from sklearn.model_selection import KFold cv = KFold(n_splits=5,shuffle=True,random_state=SEED) # cv =cross valid 적용 from sklearn.model_selection import GridSearchCV from lightgbm import LGBMClassifier.. 2022. 9. 13.
(머신러닝) 앙상블 기존 타이타닉 데이터를 이용하여 앙상블을 진행하겠다. 데이터 가져오기 import pandas as pd import numpy as np import seaborn as sns from sklearn.preprocessing import OneHotEncoder from sklearn.model_selection import train_test_split from sklearn.metrics import roc_auc_score df = sns.load_dataset('titanic') # 타이타닉 데이터 받아오기 cols = ["age","sibsp","parch","fare"] # 숫자니까 바로 사용 features = df[cols] # 피쳐 target = df["survived"] # 정답값 .. 2022. 9. 13.
(머신러닝) 머신러닝 모델 선형회귀(Linear regression) 원인이 되는 설명 변수(독립변수, Feature)에 따른 종속변수(class,label,target)의 결과를 예측 사이킷 런에서 제공해주는 당뇨병 진행도 데이터셋 받아오기 from sklearn.datasets import load_diabetes diabets = load_diabetes() data = diabets.data target = diabets.target from sklearn.model_selection import train_test_split SEED =42 x_train, x_valid, y_train, y_valid = train_test_split(data,target,random_state=SEED) x_train.shape, x_.. 2022. 9. 13.
(머신러닝) sklearn Scikit-learn https://scikit-learn.org/stable/# 다양한 머신러닝 관련한 기술들을 통일되고 쉬운 인터페이스로 사용할수 있게 해주는 라이브러리 머신러닝 관련 알고리즘과 개발을 위한 기능 제공 Getting Started with scikit-learn(자주 사용하는 사이킷런 모듈) - 데이터 정제(Data Cleasing) & 속성 공학(Feature Engineering) sklearn.preprocessing: 데이터 전처리(인코딩, 정규화 등) sklearn.feature_selection: 특성 선택 sklearn.feature_extraction: 특성 추출(이미지나 텍스트에서 속성 추출) - 모형 성능 평가와 개선 sklearn.model_selection: 데.. 2022. 9. 11.
프로그래머스) 완주하지 못한 선수 문제 설명 수많은 마라톤 선수들이 마라톤에 참여하였습니다. 단 한 명의 선수를 제외하고는 모든 선수가 마라톤을 완주하였습니다. 마라톤에 참여한 선수들의 이름이 담긴 배열 participant와 완주한 선수들의 이름이 담긴 배열 completion이 주어질 때, 완주하지 못한 선수의 이름을 return 하도록 solution 함수를 작성해주세요. 제한사항 마라톤 경기에 참여한 선수의 수는 1명 이상 100,000명 이하입니다. completion의 길이는 participant의 길이보다 1 작습니다. 참가자의 이름은 1개 이상 20개 이하의 알파벳 소문자로 이루어져 있습니다. 참가자 중에는 동명이인이 있을 수 있습니다. 입출력 예 participant completion return ["leo", "kik.. 2022. 9. 9.
(머신러닝) 교차검증과 과적합 머신러닝 검증방식 데이터 불러오기 (숫자) import numpy as np from sklearn.datasets import load_digits digits = load_digits() data = digits.data target = digits.target data.shape, target.shape Holdout 빠른 속도로 검증가능 이전에 test_split 한 것이 holdout 방식! K-Fold 교차검증(K-Fold cross validation) 전체데이터를 k등분하고, 각 등분을 한번씩 검증데이터로 사용 각 폴드의 성능 결과값을 평균내서 검증 Holdout 방식을 사용하는 것보다 교차검증을 사용하면 여러 valid 있어 성능의 검증을 더 신뢰할 수 있다. 교차검증 예시 from sk.. 2022. 9. 7.
728x90