기본 콘텐츠로 건너뛰기

[ML] 결정트리(Decision Tree) 모델

[python] 파일 운용(File Operation)

내용

File Operation

파이썬 인터프리터에서 실행한 여러 작업들은 RAM(random access memory)에 저장됩니다. 이 저장소는 인터프리터가 종료되면 함께 중지되므로 영구적으로 저장되는 하드디스크에 그 작업을 저장할 필요가 있습니다. 또한 저장된 결과들의 수정이 필요할 수 있습니다. 이러한 과정은 파이썬의 내장함수들을 사용하여 다음 단계로 실행할 수 있습니다.

  • Open the file : 파일 열기
  • Read or write : 작업 실행
  • Close the file : 파일 닫기

파일 열기

file을 인터프리터로 가져오기 위해 내장함수인 open()을 사용합니다.

open(file, mode='r', encoding=None)
함수의 인수 file은 file이름 뿐만 아니라 경로를 입력할 수 있습니다.
파일의 저장 디렉토리가 인터프리터가 실행되는 디렉토리와 동일한 경우 경로는 생략 가능
mode: "읽기전용" 등 파일의 형식을 위한 인수 (표 참조)
encoding: 파일의 인코딩 방법을 지정합니다. 윈도우 OS의 경우 'cp1252', 리눅스의 경우 'utf-8'이 기본
mode 의미
'r' 읽기전용(기본값)
'w' 쓰기 전용,
파일이 존재하지 않으면 새로운 파일이 생성되고
파일이 존재한다면 이전 내용은 지워집니다.
'x' 파일 생성, 파일이 존재한다면 에러발생
'a' 파일의 기존 내용의 끝에 첨가되고
파일이 존재하지 않는 경우 새 파일이 생성
't' 파일을 text 모드로 엽니다.(기본)
'b' 파일을 이진모드로 엽니다.
'+' 파일을 업데이트하기 위해 엽니다.(읽고 쓸수 있습니다.)

파일을 열거나 새로운 파일을 생성한 후 저장을 위해서는 인터프리터에서 그 파일을 종결시켜야 합니다.이 경우 다음 메서드를 사용합니다.

파일이름.close()
open file을 닫습니다. 이미 종결된 파일일 경우 작동되지 않습니다.
f=open("test.txt", 'r', encoding='UTF-8')
f
<_io.TextIOWrapper name='test.txt' mode='r' encoding='UTF-8'>
f.close()

일반적으로 open 된 파일은 위와 같이 close()메서드를 사용하여 종결시킵니다. 그러나 파일이 실행중에 있는 경우 에러가 발생하면서 종결되지 않습니다. 이 방식보다 안전하게 try ~ finally 구문을 사용할 수 있습니다.

try:
    f.open('test.txt')
finally:
    f.close()

파일에 쓰기

파일에 내용을 입력하기 위해서는 open() 사용시 mode를 'w', 'a', 또는 'x'를 적용해야 합니다. 'w'는 기존의 파일이 존재하는 경우 덮어쓰기로 이전의 내용은 지워지므로 주의해야 합니다. 쓰기 모드로 연후 하기 다음 메서드를 사용합니다.

파일.write()
문자열 또는 bytes의 시퀀스를 입력

하나의 객체에 여러가지 작업을 할 경우 다음과 같이 with 구문을 사용하는 것이 편리합니다. 또한 with 구문은 실행을 위한 명령들의 하위문을 포함하는 블럭(block)을 형성합니다. 그러므로 이 블럭의 모든 코드가 실행되면 자동적으로 종료되므로 file.close()함수를 별도로 실행할 필요가 없습니다.

with 대상 as 별칭:
  내용

다음은 test.txt라는 새로운 파일을 생성하고 문자열을 입력한 것입니다. 입력 내용들 중 줄바꿈을 위해 이스케이프 문자 '\n'를 사용하였습니다.

with open("test.txt", 'w', encoding='UTF-8') as f:
    f.write("This is test file for open(). \n")
    f.write("Escape characters, '\n' is used for newline.")

파일 내용 읽기

열린 파일의 내용을 읽기 위해 다음 메서드를 사용합니다.

파일.read(size)
지정한 크기 만큼의 내용을 읽습니다. size를 지정하지 않으면 모든 내용을 호출합니다.
파일.readline(size)
한 줄씩 읽습니다. size를 지정하면 그 줄의 지정한 문자만큼을 호출합니다.
파일.readlines()
모든 내용을 줄단위로 읽습니다. 리스트로 반환합니다.
파일.tell()
읽어들인 최종위치를 반환합니다.
파일.seek(0)
읽기 모드를 파일의 최초위치로 초기화 합니다.

열린 파일에서 읽어들인 내용을 다시 호출할 수 없습니다.

f=open('test.txt')
f.read()
"This is test file for open(). \nEscape characters, '\n' is used for newline."
f=open('test.txt')
f.read(3)
'Thi'
f=open('test.txt')
    f.read()
"This is test file for open(). \nEscape characters, '\n' is used for newline."
f=open('test.txt')
    f.read(3)
'Thi'
f.tell()
3
 f.read(3)
 's i'
f.read()
"s test file for open(). \nEscape characters, '\n' is used for newline."
f.tell()
 74
 f.read()
 ''
 f.seek(0)
0
f.tell()
0
f.read(1)
 'T'

파일을 open 한 후 최초 인덱스 0부터 조건에 따라 읽기 시작합니다. 위와 같이 3 즉, 인덱스 3까지 읽은 후 위치는 3으로 이동되어 그 이전의 값들은 다시 읽을 수 없습니다. 이렇게 최종 호출되는 위치는 tell() 메소드에 의해 확인되며 다시 최초 시작 점으로 이동하기 위해 seek(0)를 사용합니다.

read()는 글자 단위로 지정한 크기만큼의 내용을 읽습니다. 이외에 다음 메소드를 사용하여 줄단위로 읽어들일수 있습니다.

f=open("test.txt")
    f.readline()
'This is test file for open(). \n'
f.seek(0)
0
f.readlines()
 ['This is test file for open(). \n',
     "Escape characters, '\n",
     "' is used for newline."]

댓글

이 블로그의 인기 게시물

[Linear Algebra] 유사변환(Similarity transformation)

유사변환(Similarity transformation) n×n 차원의 정방 행렬 A, B 그리고 가역 행렬 P 사이에 식 1의 관계가 성립하면 행렬 A와 B는 유사행렬(similarity matrix)이 되며 행렬 A를 가역행렬 P와 B로 분해하는 것을 유사 변환(similarity transformation) 이라고 합니다. $$\tag{1} A = PBP^{-1} \Leftrightarrow P^{-1}AP = B $$ 식 2는 식 1의 양변에 B의 고유값을 고려한 것입니다. \begin{align}\tag{식 2} B - \lambda I &= P^{-1}AP – \lambda P^{-1}P\\ &= P^{-1}(AP – \lambda P)\\ &= P^{-1}(A - \lambda I)P \end{align} 식 2의 행렬식은 식 3과 같이 정리됩니다. \begin{align} &\begin{aligned}\textsf{det}(B - \lambda I ) & = \textsf{det}(P^{-1}(AP – \lambda P))\\ &= \textsf{det}(P^{-1}) \textsf{det}((A – \lambda I)) \textsf{det}(P)\\ &= \textsf{det}(P^{-1}) \textsf{det}(P) \textsf{det}((A – \lambda I))\\ &= \textsf{det}(A – \lambda I)\end{aligned}\\ &\begin{aligned}\because \; \textsf{det}(P^{-1}) \textsf{det}(P) &= \textsf{det}(P^{-1}P)\\ &= \textsf{det}(I)\end{aligned}\end{align} 유사행렬의 특성 유사행렬인 두 정방행렬 A와 B는 'A ~ B' 와 같

[matplotlib] 히스토그램(Histogram)

히스토그램(Histogram) 히스토그램은 확률분포의 그래픽적인 표현이며 막대그래프의 종류입니다. 이 그래프가 확률분포와 관계가 있으므로 통계적 요소를 나타내기 위해 많이 사용됩니다. plt.hist(X, bins=10)함수를 사용합니다. x=np.random.randn(1000) plt.hist(x, 10) plt.show() 위 그래프의 y축은 각 구간에 해당하는 갯수이다. 빈도수 대신 확률밀도를 나타내기 위해서는 위 함수의 매개변수 normed=True로 조정하여 나타낼 수 있다. 또한 매개변수 bins의 인수를 숫자로 전달할 수 있지만 리스트 객체로 지정할 수 있다. 막대그래프의 경우와 마찬가지로 각 막대의 폭은 매개변수 width에 의해 조정된다. y=np.linspace(min(x)-1, max(x)+1, 10) y array([-4.48810153, -3.54351935, -2.59893717, -1.65435499, -0.70977282, 0.23480936, 1.17939154, 2.12397372, 3.0685559 , 4.01313807]) plt.hist(x, y, normed=True) plt.show()

R 미분과 적분

내용 expression 미분 2차 미분 mosaic를 사용한 미분 적분 미분과 적분 R에서의 미분과 적분 함수는 expression()함수에 의해 생성된 표현식을 대상으로 합니다. expression expression(문자, 또는 식) 이 표현식의 평가는 eval() 함수에 의해 실행됩니다. > ex1<-expression(1+0:9) > ex1 expression(1 + 0:9) > eval(ex1) [1] 1 2 3 4 5 6 7 8 9 10 > ex2<-expression(u, 2, u+0:9) > ex2 expression(u, 2, u + 0:9) > ex2[1] expression(u) > ex2[2] expression(2) > ex2[3] expression(u + 0:9) > u<-0.9 > eval(ex2[3]) [1] 0.9 1.9 2.9 3.9 4.9 5.9 6.9 7.9 8.9 9.9 미분 D(표현식, 미분 변수) 함수로 미분을 실행합니다. 이 함수의 표현식은 expression() 함수로 생성된 객체이며 미분 변수는 다음 식의 분모의 변수를 의미합니다. $$\frac{d}{d \text{변수}}\text{표현식}$$ 이 함수는 어떤 함수의 미분의 결과를 표현식으로 반환합니다. > D(expression(2*x^3), "x") 2 * (3 * x^2) > eq<-expression(log(x)) > eq expression(log(x)) > D(eq, "x") 1/x > eq2<-expression(a/(1+b*exp(-d*x))); eq2 expression(a/(1 + b * exp(-d * x))) > D(eq2, "x") a * (b * (exp(-d * x) * d))/(1 + b