728x90
교차검증
2

[실습] k-최근접 이웃(k-Nearest Neighbor, kNN)

[https://github.com/wikibook/machine-learning]에서 다운로드 받은 농구선수에 대한 데이터를 사용하여 kNN 알고리즘을 적용해보는 실습을 하였다. 목표는 임의의 농구선수의 포지션을 예측하는 것이다. 데이터 획득 import pandas as pd df = pd.read_csv(./data/basketball_stat.csv) df.head() colab에서 실행하였고 파일을 드라이브에 넣었기 때문에 경로를 "./data/basketball_stat.csv"로 지정해준 것이다. [출력] 각 데이터 속성 값의 의미는 다음과 같다. Player = 선수 이름 Pos = 포지션 3P = 한 경기 평균 3점슛 성공 횟수 2P = 한 경기 평균 2점슛 성공 횟수 TRB = 한 경기..

혼동 행렬과 교차 검증

혼동 행렬 혼동 행렬(confusion matrix)는 모델의 성능을 평가할 때 사용되는 지표이다. 예를 들어서 다음과 같은 표를 말한다. 예측값 A B C D 실제값 A 9 1 0 0 B 1 15 3 1 C 5 0 24 1 D 0 4 1 15 여기서 B를 C로, C를 A로, D를 B로 혼동한다는 정보를 알 수 있고 대략적인 모델의 성능도 한 눈에 확인할 수 있다. 모델의 성능은 바로 이 혼동 행렬을 기반으로 하나의 수치로 표현할 수 있다. TP(true positive) TP는 데이터의 실제값을 올바르게 예측한 케이스를 말한다. 아래의 혼동 행렬에서 대각선 부분이 TP이다. 예측값 A B C D 실제값 A 9 1 0 0 B 1 15 3 1 C 5 0 24 1 D 0 4 1 15 TN(true negat..

728x90