sons dataStory

글

라벨이 unique인 게시물 표시

R apply, lapply, sapply 그리고 tapply함수

Applying functions 자료에서 원자별, 그룹별로 함수등을 적용할 경우 apply 계열의 함수를 사용합니다. 예를 들어 행렬, 배열, 데이터 프레임의 지정된 차원에 함수를 적용하거나 리스트의 각 인덱스별로 함수등을 적용할 경우 control 문을 대신하여 사용합니다. 이 계열의 함수들의 기본 목적은 같지만 입력과 출력의 데이터 형태에서 차이를 보입니다. apply(x, margin, Fun, ...) margin: 차원인덱스, Fun: 적용할 함수 입력: array, dataframe, 출력: vector, list, array lapply(x, Fun, ...) 입력: list, vector, dataframe, 출력: list sapply(x, Fun, ...) 입력: list, vector, dataframe, 출력: vector, array lapply()와 동일하지만 벡터나 배열을 출력 tapply(x, index, Fun, ...) index: factor를 포함한 list 입력: list, vector, factor, dataframe, 출력: vector, array set.seed(10) da one two three four case 1 0.507 0.275 0.114 0.399 case 2 0.307 0.272 0.596 0.836 행기준의 평균 apply(da, 1, mean) case 1 case 2 case 3 case 4 case 5 case 6 0.32375 0.50275 0.56650 0.54175 0.39100 0.35325 열기준의 평균 apply(da, 2, mean) one two three four 0.3740000 0.4688333 0.3021667 0.6410000 열기준으로 최대와 최소 20%를 절삭하는 trim mean을 계산합니다. apply(da, 2, mean, trim=0.2)...

[data analysis] 중심척도: 최빈값(Mode)

중심척도 관련내용 최빈값(Mode) 평균(Mean) 중간값(Median) 최빈값(Mode) 통계에서는 종종 데이터의 많은 부분이 집중되는 지점의 정보가 중요하게 사용됩니다. 그 점은 전체 데이터에 대한 중심의 척도 로 사용됩니다. 예를 들어 여러가지 메뉴를 가지는 레스토랑에서 새로운 단장 이후에 경영자는 1가지 메뉴로 집중하고자 합니다. 이 경우 가장 많은 매출이 있는 메뉴를 선택하는 것은 합리적인 결정이 됩니다. 이와 같이 데이터 전체 중에서 가장 많이 관찰된 값을 최빈값(mode) 이라 합니다. [최빈값(mode)] 데이터 셋의 각 변수가 등장하는 빈도수에서 가장 높은 빈도수를 가진 값을 최빈값이 라고 합니다. 데이터 셋에서 최빈값은 1개 이상이 될 수 있습니다. 최빈값은 가장 높은 빈도수인 정상점(peak)을 나타내기 위해 사용하는 것으로서 파이썬의 여러 패키지로부터의 함수나 메소드를 사용하여 계산할 수 있습니다. np.unique(x, return_index=False, return_counts=False, axis=None) 객체 x에서 고유한 요소들과 각각의 빈도를 반환 return_index: 반환된 요소들의 인덱스 (첫 번째로 감지되는 인덱스) return_counts: 각 고유값(unique)의 빈도수 axis=None: 함수가 실행되는 기준 축, None는 객체를 1차원으로 전환 scipy.stats.mode(x, axis=0, keepdims=True) 객체 x의 지정한 축(axis)에 따라 최빈값(들)을 결정합니다. x는 수치형 으로 구성된 객체이어야 합니다. DataFrame.mode(axis=0, numeric_only=False, dropna=True) 지정한 축을 따라 최빈값을 반환 pd객체.value_counts(normalize=False, sort=True, ascending=False, dropna=True) 고유한 ...

sons dataStory

이 블로그 검색

글

[matplotlib]quiver()함수

R apply, lapply, sapply 그리고 tapply함수

[data analysis] 중심척도: 최빈값(Mode)