기본 콘텐츠로 건너뛰기

12월, 2022의 게시물 표시

[ML] 결정트리(Decision Tree) 모델

Pickle: 객체의 직렬화(Serialization)

내용 Pickling Pickling Files Unpickling Files Pickle 파일 압축 Pickle: 객체의 직렬화(Serialization) 데이터는 사전, DataFrame 또는 기타 형식으로 저장하거나 전송하기 위해 객체화할 수 있습니다. 이러한 객체들을 직렬화하여 파일에 저장하고 나중에 프로그램에 다시 로드할 수 있습니다. [직렬화] 객체의 직렬화란 객체의 내용을 바이트 단위로 변환하여 파일 또는 네트워크를 통해서 스트림(송수신)이 가능하도록 하는 것을 의미합니다. Pickling Pickle은 마샬링 또는 평면화라고도 하는 Python 개체 구조를 직렬화 및 역직렬화하는 데 사용됩니다. 직렬화는 메모리의 개체를 디스크에 저장하거나 네트워크를 통해 보낼 수 있는 바이트 스트림으로 변환하는 프로세스를 나타냅니다. 나중에 이 문자 스트림을 검색하여 Python 객체로 역직렬화할 수 있습니다. pickling는 compression(압축)과는 다릅니다. 즉, 전자는 개체를 한 표현(RAM(Random Access Memory)의 데이터)에서 다른 표현(디스크의 텍스트)으로 변환하는 반면 후자는 디스크 공간을 절약하기 위해 더 적은 비트로 데이터를 인코딩하는 프로세스입니다. Pickle의 용도와 주의사항 pickle은 데이터에 어느 정도의 지속성이 필요한 애플리케이션에 유용합니다. 프로그램의 상태 데이터를 디스크에 저장할 수 있으므로 나중에 계속 작업할 수 있습니다. 또한 TCP(Transmission Control Protocol) 또는 소켓 연결을 통해 데이터를 보내거나 데이터베이스에 Python 개체를 저장하는 데 사용할 수 있습니다. Pickle은 머신 러닝 알고리즘으로 작업할 때 모든 것을 다시 작성하거나 모델을 다시 훈련할 필요 없이 나중에 새로운 예측을 할 수 있도록 저장하려는 경우에 매우 유용합니다. 다양한 프로그래밍 언어에서 데이터를 사용하려면 pickle을 사용하지 않는 것

R 데이터의 재구성

내용 기본 행에 영향을 주는 함수 열에 영향을 주는 함수 그룹화 함수 피봇팅(Pivotting) pivot_longer() pivot_wider() 데이터 변환 기본 library(nycflights13) library(tidyverse) ## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ── ## ✔ ggplot2 3.4.0 ✔ purrr 0.3.5 ## ✔ tibble 3.1.8 ✔ dplyr 1.0.10 ## ✔ tidyr 1.2.1 ✔ stringr 1.4.1 ## ✔ readr 2.1.3 ✔ forcats 0.5.2 ## Warning: 패키지 'ggplot2'는 R 버전 4.2.2에서 작성되었습니다 ## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ── ## ✖ dplyr::filter() masks stats::filter() ## ✖ dplyr::lag() masks stats::lag() library(rstatix) ## Warning: 패키지 'rstatix'는 R 버전 4.2.2에서 작성되었습니다 ## ## 다음의 패키지를 부착합니다: 'rstatix' ## ## The following object is masked from 'package:stats': ## ## filter flights 데이터 : tibble 구조로 처음 몇 행만을 출력합니다. 전체를 보기 위해서는 View(flignts) 를 실행 dplyr을 사용한 데이터 변환 기본 코드 형태는 다음과 같이 파이프라인을 사용하여 데이터를 함수에 전달하는 것입니다. 적용할 데