728x90 반응형 Programming/Machine Learning8 Seaborn boxplot으로 five-number summary 이해하기 Seaborn boxplot with 'tips' dataset seaborn 라이브러리에서 제공하는 "tips" 데이타셋으로 five-number summary에 대해서 알아보자. 다음과 같이 데이터를 로딩한다. import seaborn as sns tips = sns.load_dataset("tips") tips 위의 표에서 보듯이 총 7개의 컬럼이 있다. 이중 'total_bill' 컬럼 데이터에 대한 boxplot을 그려 보자. 참고로 x축의 tick의 개수는 'set_major_locator' 매서드와 matplotlib의 ticker로 조절할 수 있다. import matplotlib.pyplot as plt import matplotlib.ticker as ticker ax = sns.bo.. 2021. 5. 3. Information Gain (간단한 예제 & 파이썬 코드) 2021.08.21 - [Programming/Machine Learning] - Scoring Feature Importance by Information Gain 목차 Information Gain(IG)은 어떤 조건으로 데이터를 분류할 때 엔트로피가 얼마나 감소하는지를 측정하는 양이다. 여러 입력 데이터(input feature)를 통해 원하는 어떤 출력 값(output target)을 예측하고 싶을 때, 각각의 feature가 독립적으로 target을 얼마나 정확하게 예측할 수 있는지를 평가하는 지표로 활용된다. 대표적인 예는 Decision Tree를 구성할 때 노드들의 feature를 할당하는 것이다. 정보학 분야에서 엔트로피는 정보를 수치화하는 양으로 Shannon 엔트로피를 이용한다. $$.. 2020. 12. 12. Tensorflow: regression 기본 예제 (연료 효율성 예측) Tensorflow: regression 기본 예제 (연료 효율성 예측) 이 포스트는 텐서플로우를 이용한 기본적인 regression을 공부한 것을 정리한 것이다. 사용한 데이터는 엔진의 연료 효율성이다. 실린더의 개수, 이동거리, 마력, 가속력, 출시년도, 출시 국가 등의 feature 데이터가 있고, MPG(miles per gallon)가 예측값 (label)이다. 우선 데이터를 다운로드하여 신경망에 대입할 수 있는 형태로 처리할 것이다. linear regression와 뉴럴 네트워크 모델을 이용해서 MPG를 예측해 볼 것이다. 그리고 두 모델의 결과를 비교해본다. 내용은 텐서플로우 튜토리얼을 참고하였다. 목표 Multiple feature를 이용한 예측 모델을 공부한다. Linear regres.. 2020. 11. 14. [Tensorflow] House Price 예측 모델 (keras) (feat. 정확도 향상) House Price 예측 모델 (keras) 이 포스팅에선 예측 모델을 house price data로 공부하도록 하겠다. 집값 예측 모델이라고 할 수 있는 이 예제는 아주 기본적인 문제중 하나이다. 이 데이터는 머신러닝을 공부하기에 좋은 예제이다. 이유는 데이터의 종류가 숫자, 문자, 이미지의 조합으로 주어지기 때문이다. 따라서 데이터의 전처리 과정이 다소 복잡해진다. 이번 포스팅에서는 간단하게 숫자로만 주어진 데이터를 가지고 예측모델을 공부해보도록 하겠다. 또한, 모델의 정확도를 증가시키는 방법에 대해서도 살펴보기로 한다. 1. 데이터 내려받기 git으로 데이터가 있는 저장소를 내려 받는다. $ git clone https://github.com/emanhamed/Houses-dataset 2. 데.. 2020. 10. 30. 이전 1 2 다음 728x90 반응형