home
운영체제(Operating System)컴퓨터 하드웨어를 관리하는 소프트웨어컴퓨터 시스템은 하드웨어, 운영체제, 응용 프로그램, 사용자로 구분할 수 있음일반적으로 하나 이상의 CPU와 버스(Bus, I/O 장치 컨트롤러, 디스크 컨트롤러, CPU 등이 메모리에 접근할 수 있도록 연결해 주는 선), 여러 장치 컨트롤러로 구성되어 있음운영체제에는 각 장치 컨트롤러마다 장치 드라이버가 있음*장치 드라이버: 장치 컨트롤러의 작동을 파악해 장치에 대한 일관된 인터페이스를 운영체제에 제공컴퓨터 시스템의 구성1. 인터럽트인터럽트: CPU가 특정 작업을 수행하는 도중에 급하게 다른 일을 처리하고자 할 때 사용하는 기능인터럽트 핸들러가 관리함인터럽트 받음 -> 수행하고 있던 위치를 저장 -> 인터럽트 실행 -> 인터럽트..
강화학습의 특징No supervisor - 딥러닝의 지도 학습처럼 정답 레이블이 없음agent가 선택한 답에 대한 Feedback이 즉각적이지 않음시간이 중요(순서!!)(non iid data - 같은 확률 분포를 가진 독립적인 데이터들)agent의 행동이 나중에 agent에게 영향을 줌강화학습 문제 공식state(상태) - action(행동) - reward(보상)S0, A0, R1, S1, A1, R2, ..., Sr-1, Ar-1, Rr, Sr강화학습의 목적: 누적 보상 최대화Marcov Decision Process마르코프 결정 과정: 미래는 현재에 의해서만 결정된다. 미래는 과거와 독립적이다.St+1에 영향을 주는 것은 St뿐임POMDP(Partially Observable Markov Deci..
Marcov Assumption마르코프 가정: 상태 St+1은 상태 St에 의해서만 결정된다.즉, 미래를 결정하는 것은 현재뿐이다. 과거는 상관없다.Marcov Process마르코프 가정을 만족하는 연속적인 일련의 확률 과정일련의 상태 와 상태 전이 확률 P로 이루어짐MP = (S, P)상태 전이 확률 P_ij = Pr(St+1 = sj | St = si): 상태 i에서 상태 j로 바뀔 확률*P_ij: P에 아래첨자 i, j+) Marcov Reward Process각 상태에서의 보상 측정마르코프 과정, 보상 R, 감가율 γ(감마)로 이루어짐MRP = (S, P, R, γ)상태 집합 S = {s1, s2, ..., s}: MDP에서 가질 수 있는 모든 상태의 집합상태 전이 확률 P_ij = Pr(St+1..
· C
A -> 1, B -> 2, C -> 3, ..., Z -> 26, AA -> 27, AB -> 28,...과 같은 원리로 문자를 바꿔야 한다. 딱 보기에도 규칙이 보이지만 코드로 써 보려니 어려웠다. 뼈대 코드 #include #include int col_to_num(char col[]) { int len = strlen(col); long long num = 0; int i=0; while (i
· C
구조체 사용자가 C언어의 기본 타입들을 가지고 새롭게 정의하는 사용자 정의 타입 같은 타입의 변수 집합이 배열이라면, 구조체는 다양한 타입의 변수 집합 구조체를 구성하는 변수를 구조체의 멤버/멤버 변수라고 함 문법 선언 구조체는 struct 키워드를 이용해 정의 struct Person { char name[20]; int age; char address[100]; }; 이때, name, age, address는 구조체 Person의 멤버 변수 구조체를 더 편하게 사용하려면 앞에 매번 struct를 붙여야 함(Person 단독 사용 불가) 더 편하게 쓰기 위해 typedef를 같이 사용 (*typedef: 이미 존재하는 타입에 새로운 이름을 붙이려고 사용하는 키워드) typedef struct Perso..
ecc1
알아두면 쓸데있는 신비한 컴퓨터 잡학사전