본문 바로가기

AI 공부/머신러닝11

(머신러닝) sklearn Scikit-learn https://scikit-learn.org/stable/# 다양한 머신러닝 관련한 기술들을 통일되고 쉬운 인터페이스로 사용할수 있게 해주는 라이브러리 머신러닝 관련 알고리즘과 개발을 위한 기능 제공 Getting Started with scikit-learn(자주 사용하는 사이킷런 모듈) - 데이터 정제(Data Cleasing) & 속성 공학(Feature Engineering) sklearn.preprocessing: 데이터 전처리(인코딩, 정규화 등) sklearn.feature_selection: 특성 선택 sklearn.feature_extraction: 특성 추출(이미지나 텍스트에서 속성 추출) - 모형 성능 평가와 개선 sklearn.model_selection: 데.. 2022. 9. 11.

(머신러닝) 교차검증과 과적합 머신러닝 검증방식 데이터 불러오기 (숫자) import numpy as np from sklearn.datasets import load_digits digits = load_digits() data = digits.data target = digits.target data.shape, target.shape Holdout 빠른 속도로 검증가능 이전에 test_split 한 것이 holdout 방식! K-Fold 교차검증(K-Fold cross validation) 전체데이터를 k등분하고, 각 등분을 한번씩 검증데이터로 사용 각 폴드의 성능 결과값을 평균내서 검증 Holdout 방식을 사용하는 것보다 교차검증을 사용하면 여러 valid 있어 성능의 검증을 더 신뢰할 수 있다. 교차검증 예시 from sk.. 2022. 9. 7.

(머신러닝) 결측치 및 스케일링 seaborn에 있는 타이타닉 데이터를 가져와서 결측치와 스케일링을 적용시켜 보겠다. import pandas as pd import numpy as np import seaborn as sns from sklearn.preprocessing import OneHotEncoder from sklearn.model_selection import train_test_split df = sns.load_dataset("titanic") SEED = 42 df_train, df_test = train_test_split(df, random_state=SEED, test_size=0.2) df_train 먼저 필요한 라이브러리를 불러와주고, 데이터를 train과 test에 담아준다. df_train = df_tr.. 2022. 9. 7.

(머신러닝) 성능측정 모델 성능 평가지표(Metric) 실제값과 모델에 의해 예측된 값을 비교하여 모델의 성능을 측정하는 것 모델 평가 목적: Over FItting을 방지하고 최적의 모델을 찾기 위해서 회귀 문제 성능측정 사이킷런에서 제공해주는 데이터셋 당뇨병 진행도를 예측하는 데이터셋 데이터 가져오기 from sklearn.datasets import load_diabetes diabetes = load_diabetes() diabetes.data, diabetes.target 학습셋과 검증셋 분리 SEED = 42 from sklearn.model_selection import train_test_split x_train, x_valid, y_train, y_valid = train_test_split(data,targ.. 2022. 9. 6.

인공지능과 머신러닝의 개념 인공지능(Artificial Intelligence, AI) 머신러닝과 딥러닝을 포괄하는 종합적인 분야 보통의 사람이 수행하는 지능적인 작업을 자동화하기 위한 연구하는 기술 또는 과학 파이토치가 좋다. 연구하는 사람들이 파이토치에 업로드한다. 손으로 쓴 숫자 “8”을 컴퓨터가 인식하게 하려면 어떤 코드(규칙)가 필요할까? "구멍이 2개이고 중간 부분이 홀쭉하며, 맨 위와 아래가 둥근 모양이 라면 8이다…" 많은 규칙이 필요하고, 유지보수가 어려움 이를 대체하기 위한 새로운 방법인 머신러닝이 등장 머신러닝(Machine Learning) 데이터로부터 규칙을 학습하여 정답을 예측 할 수 있도록 하는 알고리즘을 개발하는 연구 분야 예전 전통적인 프로그래밍을 보면 개발자가 데이터의 규칙을 찾아서 정답을 도출해내.. 2022. 9. 5.

이전 1 2 다음

728x90

티스토리툴바