sons dataStory

글

라벨이 Infomation Gain인 게시물 표시

[ML]엔트로피와 정보획득(Entropy & Infomation Gain)

엔트로피와 정보획득(Entropy & Infomation Gain) 정보와 엔트로피(Infomation & Entropy) 정보의 기본개념은 이벤트, 확률변수, 분포와 같은 항목에서 정보의 양을 정량화하는 것으로 확률을 사용합니다. 직관적으로 정보를 정량화레 대한 기본 아이디어는 대상 이벤트에 대한 불확실성(uncertainty)을 측정한다는 것입니다. 드문 이벤트은 발생할 확률이 낮으므로 불확실성이 증가합니다. 불확실성을 감소시키기 위해 많은 정보가 필요합니다. 매우 다양한 정보량의 높은 정보를 가집니다. 예를 들어 여러 샘플이 포함된 박스에서 특정한 샘플을 선택하는 사건에서 낮은 확률은 샘플의 종류가 많은 경우일 것입니다. 이러한 상황은 데이터의 impurity가 높은 상황입니다. 이것을 엔트로피(entropy)로 나타냅니다. 반대의 상황, 높은 확률,은 낮은 엔트로피를 보입니다. 정리하면 다음과 같이 나타낼 수 있습니다. 낮은 확률 이벤트 : 높은 정보(놀라움) 높은 확률 이벤트 : 낮은 정보(놀랍지 않음) 사건(x)의 확률(p(x))로 부터 정보(info(x))를 정량화하기 위해 식 1과 같이 계산합니다. $$\tag{식 1}\text{Info}(x)=h(x) = -\log(p(x))$$ 결국 정보는 이벤트 설명에 필요한 메모리 수로 간주할 수 있습니다. 그러므로 식 1에서 2진법(bit 수)으로 나타내기 위해 log 2 를 사용할 수 있지만 정보의 절대량보다는 그 변화가 더 중요하므로 일반적으로 자연로그를 사용합니다. 식 1에서 p(x)가 낮을수록 정보(h)는 증가함을 알 수 있습니다. 사건의 확률 1 → h=0 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns sns.set_style("darkgrid") 다음 코드는 동전 던지기에서 앞면이 나올 확률 p=0.5인 ...

sons dataStory

이 블로그 검색

글

[matplotlib]quiver()함수

[ML]엔트로피와 정보획득(Entropy & Infomation Gain)