서론

머신러닝, 혹은 딥러닝의 학습에 있어 가장 중요한것은 데이터의 양과 질입니다. 데이터의 질을 개선하는데에는 여러가지 방법이 있겠지만, 편향되거나 너무 크거나 너무 작은 데이터를 제거하는것이 일반적인 방법입니다.

데이터에 따라 적용되는 기법은 여러가지가 있으며, 데이터의 분포와 형태 또한 고려해야합니다.

본 문서는 kaggle의 Outlier “detection methods!” 라는 글을 읽고 학습하며 정리한 글입니다.

import numpy as np
import pandas as pd
import seaborn as sns
from matplo
tlib import pyplot as plt

from collections import Counter

%matplotlib inline

Tukey's IQR method

Standard deviation method

Z-score method

Modified z-score

Isolation Forest