기본 콘텐츠로 건너뛰기

7월, 2024의 게시물 표시

[ML] 결정트리(Decision Tree) 모델

[data analysis] 변동: 사분위수(Quantile)

변동(Variation) 관련내용 범위(range) 4분위수(Quantile) 중간값 절대 편차(MAD) 분산(Variance) 표준편차(Standard Deviation) 분산계수(Variation Coefficient) 4분위수(Quantile) 4분위(quantile)는 변동을 측정하는 다양한 방법 중의 하나입니다. 예를 들어 자료 {4, 6, 2, 4, 6, −4, −7, 145}의 경우 이상치로 간주할 수 있는 현저하게 큰 값을 포함하고 있습니다. 이러한 경우 범위는 그 자료의 변동 특성을 올바르게 나타낼 수 없습니다. 대신에 전체 데이터들을 순서적으로 정렬하여 몇 개의 그룹으로 구분하여 각 그룹의 경계값들을 기준으로 데이터의 퍼짐의 정도 즉, 변동을 나타낼 수 있습니다. 그러므로 이상치에 대한 영향을 감소시킬 수 있습니다. 4분위수는 데이터 셋 전체를 4부분으로 구분하며 다음 과정으로 계산합니다. 오름차순으로 정렬 중간값(median)을 결정(Q 2 ) 2 번에서 결정한 중간값을 기준으로 작은 값들 사이에 중간값(Q 1 )과 큰 값들 사이에 중간값(Q 3 )을 결정합니다. 위의 과정으로 산출한 4 분위수Q 1 , Q 2 , 그리고 Q 3 는 각각 전체 데이터의 25%, 50%, 그리고 75%에 대응하는 값입니다. 이 분위수는 numpy의 quantile(x), percentile(x) 함수를 사용하여 결정할 수 있습니다. numpy.quantile(x, q, axis=none) 지정된 축을 따라 데이터(x)의 q번째 분위수를 계산합니다. q: [0, 1]사이의 값 또는 그 사이 값들로 구성된 리스트 예로 4분위수의 경우 :0.25, 0.50, 0.75 axis: 2차원이상의 객체의 경우 기준이 되는 축을 지정 axis = 1 → 행 axis = 0 → 열 axis를 지정하지 않는 경우 객체를 1차원으로 인식하여 모든 값들에 대해 계산합니다. np.precentile()

[data analysis] 변동: 범위(Range)

변동(Variation) 관련내용 범위(range) 4분위수(Quantile) 중간값 절대 편차(MAD) 분산(Variance) 표준편차(Standard Deviation) 분산계수(Variation Coefficient) 범위(range) 데이터 셋의 범위를 의미합니다. 식 1과 같이 그 범위는 최대값과 최소값의 차이를 나타냅니다. 범위 = 최대값 - 최소값 (식 1) 이 값은 numpy 함수인 max() 와 min() 을 사용하여 데이터 셋의 최대와 최소값을 결정한 후 두 값의 차이로 계산할 수 있습니다. 다음은 [1, 100) 사이에 랜덤수 50개를 추출한 후 그 범위를 산출한 것입니다. np.max(x, axis=None) 배열 객체 x에서 지정한 축에 따라 최대값을 반환 axis: None일 경우 1차원 벡터로 자동 변환 후 최대값 반환 array.max(axis), pd객체.max(axis) 와 같음 np.min(x, axis=None) 배열 객체 x에서 지정한 축에 따라 최소값을 반환 axis: None일 경우 1차원 벡터로 자동 변환후 최소값 반환 array.min(axis) , pd객체.min(axis)과 같음 np.random.seed(1) d=np.random.randint(1, 100, 5) d_max, d_min=np.max(d), np.min(d) d_max, d_min (76, 10) rng=d_max-d_min; rng 66 예) 다음 데이터들의 범위를 계산합니다. A = {4, 6, 2, 4, 6, −4, −7, 45} B = {4, 6, 2, 4, 6, −4, −7, 145} A 의 범위 = 45 - (-7) = 52 B의 범위 = 145 - (-7) = 152 위 예에서 두 그룹 A와 B는 하나의 값을 제외하고 같습니다. 그러나 B의 최대값은 다른 값에 비해 현저한 차이를

[data analysis] 중심척도: 중간값(median)

중심척도 관련내용 최빈값(Mode) 평균(Mean) 중간값(Median) 중간값(Median) 데이터의 중심은 값들이 몰려있는 부분에 집중되는 지점입니다. 평균(mean) 은 그 지점을 결정하는 방법이지만 이상치의 존재 등으로 전체의 중심을 왜곡할 가능성이 존재합니다. 평균의 약점을 보완할 수 있는 다른 중심 측정치로 중간값(Median) 을 사용할 수 있습니다. 예를 들어 인원 9명인 그룹의 다이어트 처방을 위해 약함과 강함으로 분류하고자 할 경우 처방의 근거는 그 그룹의 평균 몸무게를 기준으로 구분할 수 있습니다. 그러나 다음의 결과와 같이 문제를 제시할 수 있습니다. weight=np.array([38, 35, 45, 30, 48, 33, 42, 39,100]) print(weight) [ 38, 35, 45, 30, 48, 33, 42, 39, 100] print('%.3f'%weight.mean()) 45.556 print('%.3f'%weight[:-1].mean())#이상치를 제외한 경우 38.750 위 코드에서 나타낸 것과 같이 그 그룹의 일원 중 한 명의 몸무게는 나머지에 비해 현격한 차이를 보입니다. 즉, 이상치인 값이 포함되어 있습니다. 이 상태에서 평균 몸무게는 약 45.6 kg 이지만 이상치를 제외한 경우 평균은 약 38.8 kg으로 상이한 차이가 존재합니다. 강한 또는 약한 처방의 기준이 위의 두 값 사이에 존재하는 경우 불필요한 처방이 이루어질 수 있습니다. 이와 같이 이상치가 존재할 경우 평균은 그 값에 매우 민감하므로 바람직하지 않은 판단의 근거로 작용할 가능성을 가집니다. 평균 대신 데이터들 중간에 위치한 값을 중심을 대표하는 위치값으로 사용할 수 있습니다. 이러한 측정치를 중간값 (median) 으로 정의합니다. [중간값(Median)] 데이터 셋의 중간에 위치하는 값으로 다음 과정으로 산출합니다. 모든 값을 올림차순 또는 내림차순으

[data analysis]중심척도: 평균(Mean)

중심척도 관련내용 최빈값(Mode) 평균(Mean) 중간값(Median) 평균(Mean) 연속형 변수의 경우 데이터 셋의 최빈값을 결정할 수 없습니다. 대신에 식 1과 같이 계산한 산술평균(average)을 중심의 척도로서 사용합니다. 일반적으로 산술평균을 평균(mean, μ) 이라 합니다. $$\mu=\frac{\sum^N_{i=0} x_i}{N}$$ (식 1) 식 1에서 N은 데이터의 총수, x는 데이터 값을 나타냅니다. 예를 들어 다음은 한 학생의 1, 2학기의 중간과 기말의 등급은 [6, 8, 9, 5]입니다.이들의 평균을 계산하면 식 2와 같습니다. μ =  6 + 8 + 9 + 5 (식 2) 4 평균은 다음 코드와 같이 반복문을 사용하여 계산할 수 있지만 python의 다양한 패키지에서 제공하는 평균 산출을 위한 함수나 메소드를 사용할 수 있습니다. 다음 코드는 np.mean() 함수를 적용한 결과입니다. id="npMean"> numpy.mean(x, axis=none, skipna=na) 객체 x는 numpy array 형 지정한 축을 기준으로 산술평균을 계산 (= x.mean(axis=none) ) x.mean()의 경우 객체 x는 array, pandas 자료형인 DataFrame, Series 형 모두 가능 axis: 연산 기준 축 지정, axis: 0(기본값, 열평균), 1(행평균) 자료가 결측치를 포함할 경우 처리 방식을 인자 skipna에 지정하며 기본값은 결측치를 무시합니다. grade=[6, 8, 9, 5] total=0 for i in grade: total +=i total 28 mu=total/len(grade); mu 7.0 np.mean(grade) 7.0 예) 다음의 빈도표로부터 평균을 계산합니다. 값 빈도 2 4 5 8 8

[data analysis] 표준화(Standardization)

표준화(Standardization) 평균과 표준편차가 각각 0과 1인 표준정규분포를 따르는 데이터로 전환하는 것으로 회귀분석, 로지스틱회귀분석과 같은 알고리즘에 유용합니다. 식 1과 같이 계산됩니다. $$x_\text{std}=\frac{x-\mu}{\sigma}$$ (식 1) sklearn.preprocessing.StandardScaler() 클래스와 zscore() 함수를 적용합니다. sklearn.preprocessing.StandardScaler(x) x는 2차원 배열 객체 자료를 식 1과 같이 표준화시키기 위한 클래스 .transform() 메서드를 사용하여 자료 변환. .inverse_transform() 메서드로 변환된 값에 대응하는 원시 데이터(raw data)로 환원. 변환에 사용된 평균과 분산은 각각 .mean_, .var_ 속성으로 반환. scipy.stats.zscore(x, axis=0, ddof=0) 배열, dataframe등의 객체(x)를 지정한 축에 따라 표준화 ddof: 자유도를 고려하기 위한 인수로서 '자유도=n-1'인 경우 'ddof=1'이 됩니다. axis=0: 행단위 그러므로 각 열기준으로 표준화 axis=1: 열단위 그러므로 각 행기준으로 표준화 import numpy as np import pandas as pd from sklearn import preprocessing from scipy import stats np.random.seed(0) x=np.random.randint(0, 100, size=(5,3)) print(x) [[44 47 64] [67 67 9] [83 21 36] [87 70 88] [88 12 58]] xStScaler=preprocessing.StandardScaler().fit(x) xScale3=xStScaler.transform

[data analysis] Scaling

Scaling 데이터의 각 변수의 스케일은 다양할 수 있기 때문에 전체 데이터의 스케일을 통일시킬 필요가 있습니다. 이러한 과정을 스케일링(scaling) 이라고 합니다. 일반적으로 모든 변수를 [0, 1]사이로 스케일을 조정 합니다. 이러한 과정은 sklearn 라이브러리의 MinMaxScaler() 또는 MaxAbsScaler() 을 적용하여 달성할 수 있습니다. 각각의 변환은 식 1과 같습니다. MinMaxScaler:  $x_\text{scaled}=\frac{x-x_\text{min}}{x_\text{max}-x_\text{min}}$ (식 1) MaxAbsScaler:  $x_\text{scaled}=\frac{x}{\vert x_\text{max} \vert}$ sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1)) 데이터를 행 단위로 다음과 같이 스케일 합니다. 다음의 첫번째 식은 데이터의 표준화를 위한 것으로 분모에 분산 대신 데이터의 범위를 사용한 것입니다. $\begin{align}x_\text{std}&=\frac{x-\mu}{x_\text{max}-x_\text{min}}\\x_\text{scaled}&=x_\text{std}\left(x_\text{max}-x_\text{min}\right)+x_\text{min}\end{align}$ .fit() 메소드로 데이터에 적합시키고 .transform() 메소드로 데이터를 변형 .inverse_transform() 메소드를 사용하여 원 데이터로 환원 다양한 속성이 있음 sklearn.preprocessing.MaxAbsScaler() 변수의 최대값의 절대값을 기준으로 각 데이터의 비를 계산 .fit() 메소드로 데이터에 적합시키고 .transform() 메소드로 데이터를 변형 .inverse_transform() 메소드를 사용하여 원 데이터로 환원 다양한 속성이

[data analysis] 원-핫 인코딩을 위한 함수들

원-핫 인코딩을 위한 함수들 pandas.get_dummies pandas.get_dummies(x, prefix=None, dummy_na=False, dtype=None) 전달되는 데이터인 x는 1차원 Array, pandas Series, 그리고 DataFrame 모두 가능 데이터의 고유값(unique value)에 대응하는 클래스를 생성하여 값에 적합한 클래스에 True, 나머지 클래스에 False를 할당(one-hot encoding) True와 False로 표시가 기본값 인수 dtype = "int": True → 1, False → 0 dummy_na = True: 데이터의 포함된 Na를 포함 pd.get_dummies(['A', 'A', 'C', 'C', 'B']) A B C 0 True False False 1 True False False 2 False False True 3 False False True 4 False True False pd.get_dummies(['A', 'A', 'C', 'C', 'B'], dtype='int') A B C 0 1 0 0

[data analysis] 순서형 인코딩(Ordinal encoding)

순서형 인코딩(Ordinal encoding) 순서를 정할 수 있는 범주형 변수의 경우 정수 배열로 인코딩할 수 있습니다. 예를 들어 다음 자료는 3개의 변수와 두개의 샘플을 가집니다. 변수1 변수2 변수3 1 male from US uses Safari 2 female from Europe uses Firefox 각 변수에 따라 알파벳 순으로 순서를 지정할 수 있습니다. male과 female의 경우는 1, 0으로 변환됩니다. OrdinalEncoder() 클래스를 사용합니다. sklearn.preprocessing.OrdinalEncoder(categories="auto") 목록변수를 정수(배열형)로 인코딩하는 클래스 categories를 기본값(auto)으로 지정하면 고유값들을 올림차순으로 지정하고 각각에 대응하는 인덱스로 변환, 동일한 형태의 배열형태로 값을 지정하면 그 값에 대응하여 변환 odeco=preprocessing.OrdinalEncoder() X = [['male', 'from Europe', 'uses Safari'], ['female', 'from US', 'uses Firefox']] odeco.fit(X) print(odeco.categories_) [array(['female', 'male'], dtype=object), array(['from Europe', 'from US'], dtype=object), array(['uses Firefox', 'uses Safari'], dtype=object)] print(odeco.transform(X)) [[1. 0. 1.] [0. 1. 0.]] 위 결과와 같이 각 변수(열) 단위로 순서가 지정됩니다. new=odeco.t

[data analysis] 라벨 인코딩( Label encoding)

라벨인코딩(Label ecoding) 자료의 라벨(label)들을 컴퓨터에 입력할 경우 컴퓨터의 경우는 라벨 자체의 값보다는 라벨 그룹내에서 각 라벨의 인덱스를 인식합니다. 이렇게 컴퓨터가 인식할 수 있도록 변환하는 과정을 인코딩(encoding) , 그 반대를 디코딩(decoding) 이라 합니다. 예를 들어 객체 x([-1, 4, 7])의 각 값의 인덱스 0, 1, 2가 됩니다. 그러므로 x의 인코딩 결과는 식 1과 같으며 라벨인코딩이라 합니다. 디코딩(값) 인코딩 (식 A3.2.3) -1 ⇒ 0 4 ⇒ 1 7 ⇒ 2 클래스표시행렬 과 같이 라벨 인코딩의 각 라벨은 데이터의 고유값들을 올림차순으로 정렬한 상태의 인덱스를 사용합니다. 이 고유값들로부터 생성되는 라벨 생성과 데이터를 그 라벨로 전환하는 과정은 LabelEncoder() 클래스를 사용하여 실행할 수 있습니다. 이 클래스의 대상은 1차원 구조의 벡터 데이터 입니다. sklearn.preprocessing.LabelEncoder() 각 변수의 인덱스를 사용하여 명목변수를 수치형으로 전환하는 클래스 x=sklearn.preprocessing.LabelEncoder() x.fit(객체) x.class : 오름차순으로 정렬한 클래스의 이름을 나타냄 x.transform(객체): 클래스의 인덱스를 반환, 인코딩 x.inverse_transform(변환된 객체): 원시데이터로 환원, 디코딩 np.random.seed(2) x=np.random.randint(-10, 10, 10) print(x) [-2 5 3 -2 1 8 1 -2 -3 -8] enc=sklpre.LabelEncoder().fit(x) print(enc.classes_) [-8 -3 -2 1 3 5 8] x1=enc.transform(x) print(x1) [2 5 4 2 3 6 3 2 1 0] print(enc.inverse_transform(x1)) [-

[data analysis] 데이터 라벨링(Data Labeling)

데이터 라벨링(Data Labeling) 클래스 표시 행렬 다중 클래스 표시 행렬 클래스 표시 행렬 한 변수의 값들은 각 값에 적합된 그룹(클래스)에 1을, 나머지 그룹(클래스)에 0을 할당하는 방식으로 0과 1로 나타낼 수 있습니다. 표 1은 0, 1, 2, 3, 5의 값을 갖는 데이터를 5개의 클래스로 구분하여 각 값에 대응하는 클래스에만 1을 할당하는 과정을 나타낸 것입니다. 벡터 구조인 데이터의 각 값은 왼쪽을 시작으로 0 부터 부여되는 위치값을 가집니다. 이 위치값을 인덱스(index)라고 하며 클래스의 수와 인덱스의 갯수를 동일하게 하여 같은 위치에 1을 할당한 것입니다. 표 1 1차원 데이터의 클래스 표시행렬 data = [0, 1, 2, 3, 5] value index class 0 class1 class2 class 3 class 4 0 0 1 0 0 0 0 1 1 0 1 0 0 0 2 2 0 0 1 0 0 3 3 0 0 0 1 0 5 4 0 0 0 0 1 표 1의 결과는 식 1과 같이 벡터 형태인 데이터를 2차원 행렬 형태로 전환됩니다. 이 결과는 클래스표시행렬이라 합니다. $$\begin{bmatrix}1&2&3&4 \end{bmatrix}\Rightarrow \begin{bmatrix}1&0&0&0\\ 0&1&0&0 \\0&0&1&0\\0&0&0&1\end{bmatrix}$$ (식 1) 식 1의 데이터는 고유한 값들로 구성되어 있는 특수한 형태입니다. 다음 코드의 객체 x와 같이 중접된 값들을 가지는 경우 클래스를 생성하기 위해 고유한 값들만을 추출할 필요가 있습니다. 이러한 과정을 포함하여 클래스 표시행렬을 생성하기 위해 sklearn.preprocessing.LabelBinarizer() 클래스를 사용합니다. 고유

[data analysis] 이진화(Binarization)

이진화(Binarization) 지정한 값을 기준으로 0과 1과 전환합니다. .Binarizer() 클래스를 사용할 수 있습니다. 이 클래스의 매개변수 threshold에 지정한 값을 기준으로 이하인 경우 0, 초과된 경우 1로 반환합니다. sklearn.preprocessing.Binarizer(*, threshold=0.0, copy=True) 매개변수 threshold에 지정한 값을 기준 데이터를 이분화하는 클래스 x ≤ threshold → 0 x > threshold → 1 다음의 경우 50을 임계값으로 지정하여 그 이하를 0 그 이상을 1로 변환한 것입니다. import numpy as np from sklearn import preprocessing np.random.seed(0) x=np.random.randint(0, 100, size=(5,3)) print(x) [[44 47 64] [67 67 9] [83 21 36] [87 70 88] [88 12 58]] xBinary=preprocessing.Binarizer(threshold=50).fit(x) print(xBinary.transform(x)) [[0 1 0] [1 1 0] [1 1 1] [0 1 0] [1 0 1]]

[python] 시퀀스, 이터러블 & 이터레이터

시퀀스, 이터러블 & 이터레이터 내용 시퀀스(Sequence)와 이터러블(iterable) 이터레이터(iterator) 시퀀스의 메소드 시퀀스(Sequence)와 이터러블(iterable) 인덱스를 가진 요소들로 구성된 객체를 시퀀스(Sequence) 라고 하며 파이썬은 리스트, 바이트 배열, 문자열, 튜플, range, byte 와 같은 내장 시퀀스 형(type)들을 제공합니다. 시퀀스는 불변형 과 가변형 으로 구분할 수 있으며 한 객체내의 모든 요소의 자료형이 같은 동종형(homogeneous type) 과 그렇지 않은 이종형(heterogeneous type) 으로 분류할 수 있습니다. 예로서 문자열은 모든 요소가 문자로 이루어지므로 동종형입니다. 리스트는 수, 문자, 다른 리스트나 객체 등을 요소로 가질 수 있으므로 동종형 뿐만 아니라 이종형이 됩니다. 당연히 저장이나 연산에서 동종형이 이종형보다 효율적입니다. 이터러블(iterable) 은 요소들를 하나씩 호출할 수 있는 객체를 의미합니다. 그러므로 문자형, 리스트를 포함하는 모든 시퀀스는 이터러블입니다. 그러나 모든 이터러블이 시퀀스가 아닙니다. 예로서 사전(dictionary)형 객체의 요소들은 인덱스를 가지지 않지만 반복문 등을 사용하여 각각의 요소를 호출할 수 있으므로 이터러블입니다. 다음 객체 dic는 사전형 객체로 반복문 중의 하나인 for 문 을 사용하여 요소들 각각을 호출할 수 있습니다. 이 경우 사전의 키(key)만이 반환됩니다. 사전(dictionary) 형은 키와 값으로 구성되며 각각을 메소드로 호출할 수 있습니다. 그러나 다음 코드와 같이 사전 객체 자체에서 요소를 호출할 경우 인덱스 역할을 하는 키만이 호출됩니다. 값이나 키와 값을 모두 호출하기 위해서는 .values()와 .items() 메소드를 사용합니다. dic={'book':1, 'computer':2} for i in dic: print(i

[python] 컬렉션(Collection)

컬렉션(Collection) 관련내용 리스트(List) 튜플(Turple) 사전(Dictionary) 집합(Set) 시퀀스, 이터러블 & 이터레이터 1개 이상의 여러 객체를 포함하는 자료형을 컬렉션(collection) 이라 합니다. 컬렉션에 포함된 각 값을 요소(element) 라고 하며 각 요소의 자료형은 다른 것일 수도 있고 같은 형태로만 구성될 수도 있습니다. 그리고 요소(들)을 수정할 수 있는가변(mutable) 타입과 수정할 수 없는 불변(immutable) 타입으로 구분합니다. 불변형(immutable) 값을 수정할 수 없음 자료형: number, string, tuple, frozen set, range, byte 가변형(mutable) 값을 수정할 수 있음 자료형: list, set, dictionary, bytearray 다음은 정수 객체 10에 이름 x를 부여한 것입니다. 즉, x에 10을 할당한 것입니다. x=10 id(x) 2409664506448 hex(id(x)) '0x2310b326a50' 위 결과는 10진수 값을 16진수로 나타내기 위해 내장함수 hex(x) 을 사용한 것으로 x는 메모리 '0x2310b326a50'에 위치한 객체 10을 참조하는 상태입니다. 이 객체에 20을 할당하면 x의 참조위치는 달라집니다. x=20 hex(id(x)) '0x2310b326b90' 위 과정은 x의 참조점을 변경한 것으로 객체를 수정한 것이 아닙니다. 반면에 다음의 리스트 객체는 요소의 수정과 첨가 후에도 참조 위치가 같습니다. 다음 코드의 인덱스를 사용한 리스트 객체의 요소 수정, 메소드 append() 를 사용한 새로운 요소의 첨가 등은 리스트의 특성으로 기사 "리스트"에서 소개합니다. y=[1,2,3] hex(id(y)) '0x23110180400'

[matplotlib] 조각 함수 그리기

조각 함수(pairwise function) 작성 다음 함수 f(x)와 같이 일정한 구간별로 다른 값을 가지는 함수를 조각함수라고 합니다. $$f(x) =\begin{cases}4& \text{for}\; x\lt 0\\3-x^2& \text{for}\; 0\lt x \le 2\\ 2x-6& \text{for}\; x \gt 2\end{cases}$$ 선 그래프를 작성하기 위해 각 조건에 맞는 x와 y 값을 설정합니다. import numpy as np import matplotlib.pyplot as plt x=np.linspace(0, 2, 50) y=3-x**2 x1=np.linspace(2, 7, 50) y1=2*x1-6 x, y 축을 점 (0, 0)을 통과하도록 조정하기 위해 다음 함수를 적용합니다. plt.subplots(nrows=1, ncols=1, figsize=()) 여러개의 그래프를 그리기 위한 함수 그림들이 배열되는 구조는 nrows(행의 수), ncols(열의 수)로 지정 이 함수는 전체적인 그림을 위한 객체, 그 객체내에 각 그래프의 좌표의 수들을 반환 다음 코드는 1행, 1열로 1개의 그래프를 작성하므로 그림 객체를 나타내는 fig와 그 그래프의 좌표쌍을 나타내는 ax 객체를 반환 figsize=(가로, 세로), 그래프의 크기를 나타냄 fig, ax=plt.subplots(figsize=(4, 3)) ax.plot(x, y, color="g", label=r"y=3-$x^2$") ax.plot(x1, y1, color="brown", label="y=2x-6") .plot(x, y, color, ls, lw, label): x에 대응하는 y에 대한 선그래프를 작성 ls: linestyle , 선의 형태를 지정

[python] 문자열 형식 지정(표현 방식)

문자열 형식 지정 다음의 객체들을 문자열속에 삽입하여 나타낼 수 있습니다. num=20220421 name="Kim" name+", 안녕하세요" 'Kim, 안녕하세요' 위 코드는 문자열 연산자인 "+"를 적용한 것입니다. 이와 같이 어떤 객체를 문자열에 삽입하여 나타낼 수 있는 다양한 방법들이 존재합니다. 위 결과와 마찬가지로 다음의 방식들로 생성된 객체 역시 문자열입니다. printf-style Python의 문자열에는 % 연산자로 액세스할 수 있는 고유한 내장 연산이 있습니다. 다음 예는 %s 형식 지정자를 사용하여 문자열 객체인 name을 대체할 위치를 Python에 알려줍니다. 이것을 printf-style String Formatting 라고 합니다. '%s, 안녕하세요' % name 'Kim, 안녕하세요' 이 스타일로 하나 이상의 객체들에 접근하기 위해서는 % 연산자의 인수를 튜플 형식으로 전달합니다. "%s의 등록번호는 %d입니다." % (name, num) 'Kim의 등록번호는 20220421입니다.' 위 코드에서 문자열을 반환하기 위한 형식지정자 %s외에 정수를 나타내기 위해 %d 를 사용하였습니다. 외에 %f, %x 는 각각 부동소수와 16진수 값을 표현 형식을 위한 지정자입니다. cl="math" avg=75 sd=11.674 "%s의 평균 :%d, 표준편차: %f" %(cl, avg, sd) 'math의 평균 :75, 표준편차: 11.674000' 다음 코드와 같이 부동소수의 경우 소수점이하의 자릿수를 지정하기 위해 %와 f 사이에 .자릿수 를 입력합니다. "%s의 평균 :%d, 표준편차: %.3f" %(cl, avg, sd) 'math의 평균 :75, 표준편차: 11.674' 10진수 값

[python] 컴퓨터에서 숫자를 다루는 방식

컴퓨터에서 숫자를 다루는 방식 정수의 표현방식 부동소수점(float), 실수의 표현 숫자형의 표현범위 사용자가 입력한 값은 컴퓨터 저장 장치에 비트(bit) 단위로 1 또는 0으로 저장됩니다. 결과적으로 컴퓨터 연산은 2진수로 이루어집니다. 정수의 표현방식 다음 식은 컴퓨터에서 5를 저장하거나 연산하기 위해 이진수로 변환한 것입니다. 5 = 1 × 2 2 + 0 × 2 1 + 1 × 2 0 위와 같이 십진수 5는 이진수 101로 변환되며 그 이진수 값은 다음과 같이 아래첨자로 진수를 표현합니다. 일반적으로 십진수에 대한 아래첨자는 생략됩니다. 5 (10) = 101 (2) 1 비트로 표현할 수 있는 수는 0 또는 1이므로 비트수에 대한 표현 용량은 다음과 같이 계산됩니다. c = 2 n ,  c: Capacity, n: 비트수 그러므로 8비트에서의 표현할 수 있는 수는 다음과 같이 256이므로 0 ~ 255까지 나타낼 수 있습니다. 2**8 256 정수인 경우는 음과 양의 사인(sign)을 저장하기 위해 최왼쪽의 1비트가 예약되므로 숫자는 최대 7비트를 사용할 수 있습니다. 양수를 0 음수를 1로 처리합니다. 그러므로 수를 저장하기 위한 비트는 7개로 양수의 최대값은 0111111 (2) 이 됩니다. 이는 127 (10) 이 됩니다. 컴퓨터에서 음수를 직접적으로 표현할 수 없기 때문에 부호 비트를 지정하여 양수에 대한 음수는 2의 보수(tow's complement) 를 사용하여 나타낼 수 있습니다. 일정한 비트수를 기준으로 이진수로 변환할 수 있는 십진수의 범위는 다음과 같이 계산할 수 있습니다. -2 n-1 ~ 2 n-1 - 1, n: 비트수 십진수 정수를 2진수로 전환하기 위해 내장함수 int() , bin() 을 적용합니다. int('0b01111111', 2) 127 int('0b10000000', 2) 1

[python] 수치형의 형변환과 진수변환

수치형 변환 형변환 진수변환 형변환 >파이썬에서 표현되는 10 진수의 숫자형 자료형은 정수형, 실수형, 복소수형으로 구분되며 동일한 자료형들 사이에서만 연산이 이루어집니다. 그러므로 다른 자료형들 사이의 연산은 동일한 형으로 전환 후 실행되어야 합니다. 대부분의 프로그래밍언어에서 수치 자료형의 형변환을 위한 특별한 함수나 명령이 필요한 명시적 변환이 요구되지만 파이썬에서는 숫자형들 사이의 형변환은 암묵적으로 강제(coercion)됩니다. 그러나 문자형은 메모리 저장 과정에서 이미 변환된 상태로서 암묵적(자동적)으로 변환이 이루어지지 않습니다. 다음 코드에서 정수형과 실수형의 덧셈이 계산됨을 보여줍니다. 이것은 두 자료형의 형변환이 암시적 또는 강제적으로 이루어짐을 의미합니다. 21+2.78 23.78 위 계산의 결과는 실수형으로, 연산 중에 정수형은 실수형을 자동 전환됨을 알 수 있습니다. 명시적으로 형변환을 유도하기 위해 다음 함수들을 적용합니다. 표 1 형변환 함수 함수 내용 int(x) 객체 x를 정수형으로 변환 float(x) 객체 x를 부동소수형으로 변환 complex(x) 객체 x를 복소수형으로 변환 21+int(2.78) 23 float(21)+2.78 23.78 # 실수 → 정수 int(-3.21) -3 # 정수 → 실수 float(6) 6.0 # 정수 → 복소수 complex(3) (3+0j) # 실수 → 복소수 complex(3.2) (3.2+0j) 정수와 실수의 연산에서 정수는 실수로 자동변환되지만 그 반대 즉, 실수를 정수로 변환하기 위해서는 int() 함수를 사용하여야 합니다. 표 2의 함수들은 숫자형으로 변환 가능한 문자열에도 적용됩니다. 파이썬에서 문자열은 윗따옴표(' ' 또는 " ") 내에 입력합니다. 예를 들어 "23", &q

[python] 자료형(type)의 분류

자료형(type) 숫자형(number typer) 수치형의 형변환과 진수변환 문자와 문자열(character & string) 문자열 형식 지정(표현 방식) 컴퓨터에 입력되는 데이터 즉, 리터럴(literal, raw data)은 0과 1로 변환되어 메모리에 저장되기 때문에 데이터의 종류를 구분할 수 없습니다. 그러므로 입력된 데이터가 0과 1 변환되기 전에 문자인지 숫자인지를 지정할 필요가 있습니다. 메모리 입력되는 원시데이터로 자신을 참조하는 객체를 이미합니다. C, JAVA, Kotlin등과 같은 언어는 자료를 선언하는 단계에서 그 타입을 명시적으로 지정해야 하지만 파이썬의 경우는 자료형의 선언이 암묵적으로 이루어집니다. 그러나 동일한 자료형내에서만 연산이 이루어지므로 표 1에 제시된 자료형의 분류를 인지하고 있어야 합니다. 파이썬은 기본적으로 숫자형과 문자형으로 구분하며 리터럴의 1개 이상의 자료를 그룹화하기 위한 컬렉션(collection)(컬렉션 참조)을 가집니다. 표 1 자료형의 분류 분류 자료형 예 기본형 숫자형 int(정수형) -13, 0, 231 float(실수형) -2.31, 0.98, 2.31E2 complex(복소수형) 0.+3j, 1+0j 문자형 String(문자열) 'a', "string' 복합형 (Collections) list [1, 3, 'a', 'string'] tuple (1, 3, 'a', 'string') dictionary {"one": 1, "cha":'a', "str":'string'}

[python] 보수(complement)

보수(complement) 컴퓨터에서 음수를 직접적으로 표현할 수 없기 때문에 부호 비트를 지정하여 양수에 대한 음수는 2의 보수(tow's complement)를 사용하여 나타낼 수 있습니다. 보수는 어떤수를 보충하여 완전수를 만들게 하는 수로 1의 보수와 2의 보수 방법이 있으며 어떤수에 대응하는 음수의 이진수 표현은 2의 보수 방법을 적용합니다. 1의 보수 ⇒ 값의 반전, 즉 0 → 1, 1 → 0 예를 들어 4비트에서 완전수는 1111(2)이 됩니다. 그러므로 0010(2)에 1의 보수를 더하면 다음과 같이 완전수가 됩니다. 0 0 1 0  +  1 1 0 1  (1의 보수) 1 1 1 1  (완전수) 2의 보수⇒ 1의 보수 결과 + 1 (2) 예를 들어 위의 1의 보수법에 의한 결과인 1101 (2) 에 1 (2) 를 더하면 1110 (2) 이 됩니다. 기준이 되는 최왼쪽에 있는 비트는 부호를 나타내는 것으로 1이므로 음수임을 나타냅니다. 이 음수값을 직접적으로 십진수로 전환할 수 없습니다. 그러므로 이 값을 알기 위해서는 다시 2의 보수를 결정합니다. 1 1 1 0 1의 보수 →  0 0 0 1 2의 보수 +  0 0 0 1 2 ⇐  0 0 1 0 위 결과 1110 (2) 의 부호변환 결과는 2이므로 -2가 됩니다. 예) 16비트를 기준으로 2의 보수를 사용하여 십진수 7의 음수인 이진수를 결정해봅니다. 0 0 0 0 … 0 1 1 1 7에 대한 2의 보수:  1 1 1 1 … 1 0 0 1  ⇒ -7 -7의 2진수를 십진수로 확인하기 위해서는 다시 2의 보수를 적용합니다. -7에 대한 2의 보수:  0 0 0 0 … 0 1 1 1  ⇒ 7 numpy 패키지의 binary_repr() 함수를 적용하여 확인할 수 있습니다. from numpy import binary_repr binary_repr(-7, width=16) '1111111111111001'

[python] 연산자 II: 비트 연산자, 특수한 연산자

연산자 II 비트 연산자(Bitwise operators) 특수한 연산자 재할당연산자 다중할당 in, is 연산자 가변연산자('*') 비트 연산자(Bitwise operators) 컴퓨터 연산은 2진법에 의해 진행됩니다. 데이터가 입력되면 2진수로 변환되고 그 결과는 메모리에 한 개(1비트)당 0 또는 1로 저장 됩니다. 입력된 두 데이터의 연산은 다음의 순서로 이루어집니다. 2진수로 변환 동일한 위치에 저장된 값들 사이에 비트단위로 연산 예를 들어 십진수 2와 10의 경우 2진수로 b0010, b1010이 됩니다. 두수의 각 비트의 연산은 표 1과 같습니다. 표 1 2와 10의 비트 연산 십진수 이진수 2 0 0 1 0 10 1 0 1 0 (+)12 1 1 0 0 비트로 표현된 객체 또는 객체들 사이에 연산은 표 2에 소개한 연산자를 사용합니다. 비트 연산을 위해서는 이진수로 전환이 필요하며 음의 이진수로의 변환을 위해서는 보수법 을 적용합니다. 표 2 비트 연산자 연산자 의미 x & y 비트 단위로 AND x | y 비트 단위로 OR ~x 비트 단위로 NOT, 1의 보수(complement) x^y 비트 단위로 XOR (다른 값: True(1), 같은 값: False(0)) x >> a 객체 x를 오른쪽으로 a 비트 이동 x << a 객체 x를 왼쪽으로 a 비트 이동 표 1에서 나타낸 것과 같이 표 2에서 소개한 비트연산자 역시 동일한 위치의 비트 사이에서

[python] 리터럴(literal)

Literals(리터럴) 리터럴(literal) 은 메모리에 입력되는 원시데이터(raw data) , 즉 자신을 참조하는 객체를 의미합니다. 파이썬에서는 다양한 타입의 리터럴이 존재합니다. 숫자형 리터럴 숫자형 리터럴에는 3가지 타입이 있습니다(표 1). 표 1 숫자형 리터럴 숫자형 리터럴 정수형 2진수, 8진수, 10진수, 그리고 16진수로 표시 실수형 3.14, 3e-2 등 복소수형 .imag: 허수부분, .real: 실수부분 a=100 #Int a 100 b=3.14 #float b 3.14 c=3e-3 #float, 3e-3 ==3*10 -3 c 0.003 d=3+3.14j #complex d (3+3.14j) d.imag 3.14 d.real 3.0 문자형 리터럴(String) 문자형 리터럴은 일반적으로 단일, 이중 따옴표 를 사용하여 나타냅니다. 문자열을 여러 줄로 나타낼 경우 삼중 따옴표 로 나타냅니다. ch='a' ch2="b" ch, ch2 ('a', 'b') st='한 줄에 문자열을 표시할 때 단일 또는 이중 따옴표를 사용합니다.' print(st) 한 줄에 문자열을 표시할 때 단일 또는 이중 따옴표를 사용합니다. st2="한 줄에 문자열을 표시할 때 단일 또는 이중 따옴표를 사용합니다." print(st2) 한 줄에 문자열을 표시할 때 단일 또는 이중 따옴표를 사용합니다. st3="""여러줄에 걸쳐 문자열을 표시할 경우 삼중 따옴표를 사용합니다.""" print(st3) 여러줄에 걸쳐 문자열을 표시할 경우 삼중 따옴표를 사용합니다. Boolean literals True 또는 False를 반환합니다. True =1, False=0으로 숫자형으로 전환

[python] 다줄(multiline) 입력과 주석(comments)

Multi line 입력 긴 단일 명령은 괄호나 역슬래시(\)를 사용하여 여러줄로 구분하여 입력할 수 있습니다. a = 1 + 2 + 3 +\ 4 + 5 + 6 +\ 7 + 8 + 9 a 45 또는 다음과 같이 괄호 '()', '[ ]','{}' 등으로 자료를 여러줄로 구분하여 입력할 수 있습니다. str=["apple","watermelon", "computer","car", "book", "pencile"] str ['apple', 'watermelon', 'computer', 'car', 'book', 'pencile'] 주석(comments) 주석은 코드에 대한 설명 등 정보를 입력하기 위한 것으로 코드를 실행하는 과정에서 무시되는 부분입니다. 그러나 코드를 사용하는 다른 사용자(user)들이나 자신이 작성한 코드를 추후에 다시 고려할 때 그 코드를 이해하는 중요한 키가 됩니다. 한 줄 주석은 hash(#) 시작으로 작성합니다. 여러줄의 주석은 세개의 작은 따옴표(''' ~''') 또는 세개의 큰 따옴표(""" ~ """)로 작성할 수 있습니다. #주석은 hash를 시작으로 작성됩니다. #다음은 "Hello"를 출력하라는 코드입니다. print("Hello") Hello """ 여러줄에 코드를 분리하여 작성할 경우 역슬래시를 사용합니다.""" a= 1+2+3+\ 4+5+6+\ 7+8+9 a 45 위에서 소개한 3개의 따옴표는 Docstring을 작성하기 위해 사용됩니다

[python]Block(블럭)과 들여쓰기(Indentation)

Block(블럭)과 들여쓰기(Indentation) 문(statement)과 식(expression) 으로 구성되는 파이썬 코드들의 실행 순서는 기본적으로 입력 순서대로 이루어집니다. x=3  #(1) y=x+10 #(2) y   #(3) 13 위 코드는 (1), (2) 그리고 (3)의 순서대로 실행된 결과 13을 반환한 것입니다. 다음 코드들은 식 1과 같이 if ~ else 문을 적용하여 특정한 수가 짝수 또는 홀수인지를 판단하기 위해 작성한 프로그램입니다. if 조건: 명령 1 #조건이 참이면 명령 1을 실행 else : 명령 2 #조건이 거짓일 경우 명령 2를 실행 (식 1) (1) x=23 (2) if x%2 == 0:  #메인명령(main statement) (3)  print("짝수")  #하위 명령, (2)-(3)은 블럭1 (4) else:  #메인명령 (5)  print("홀수")  #하위 명령 (4)-(5)은 블럭2 홀수 (1)은 할당문입니다. 이 문을 실행하면 어떠한 결과도 반환되지 않습니다. (2)는 식 x%2 == 0를 포함하는 if 문으로 그 자체의 실행으로 결과를 반환하지 않습니다. 그러므로 이 결과를 반환하거나 출력할 다른 명령이 필요합니다. 이 문에 국한된 다른 문을 작성하기 위해서는 문 끝에 콜론(:) 을 첨가해야 합니다. 연산자인 % 는 나머지를 반환합니다. (3)은 (2)의 결과를 출력하는 print 문으로 if 문의 결과를 나타냅니다. 즉 이 문의 실행은 (2)에 좌우됩니다. 이러한 구조는 (2)에서 줄바꿈 후 4칸 들여쓰기 로 파이썬에게 알립니다. print() 문은 위에서 소개한 것과 같이 결과를 출력하는 문입니다. 줄바꿈 후 4칸 들여쓰기 구조는 주(main) 명령과 그에 포함되는 것으로 하위명령들을 구분하기 위해 사용합니다. 이 하위명령은 들여쓰기가 끝나는 지점까