🔢 수학/통계

[그림으로 배우는 딥러닝] 1부 2장. 필수 통계

오브 🧙‍♂️ 2025. 1. 2. 14:53

각 고유한 확률을 가진 옵션에서 무작위로 값을 선택하는 프로세스 -> 확률 변수

반환값의 수가 유한한 경우 확률 질량 함수 (pmf)라고 하고, 때에 따라 이산 확률 분포라고도 불림

 

연속 분포

 

균등 분포 

1의 값을 갖는 0과 1 사이를 제외하고 모든 곳에서 0

0과 1 사이 값만 들어올 수 있음

0~1 범위 사이에 있는 모든 값의 확률은 동일함

 

정규 분포 (가우스 분포)

균등 분포와 달리 매끄럽고 날카로운 모서리나 급격한 점프가 없음

부드럽게 상승하는 언덕을 제외하고 거의 모든 곳에서 0에 가깝다

값이 튀어 올라간 언덕에서 측면으로 갈수록 0에 가까워지지만, 결코 0에 도달하지 않는다. (=분포의 폭이 무한하다)

실전에서는 거의 0에 가까운 값을 실제로 0으로 취급해 유한 분포를 제공한다

정규 분포의 확률 변수에 의해 생성된 값을 정규 편차라고 하며 정규 분포를 이룬다고도 한다. (정규 분포에 적합하거나 정규 분포를 따른다고 한다)

평균은 중앙값이면서 최빈값이다

표준 편차는 그래프가 튀어 올라간 언덕의 너비를 알려주는 시그마로 표시된다. 

평균은 곡선의 중심이 어디에 있는지 알려주고 표준 편차는 곡선이 얼마나 퍼져 있는지 알려준다. 

 

베르누이 분포

0과 1 두 가지 값만 반환한다 (ex. 동전)

멀티누이 분포

2개의 값만을 반환하는 베르누이 분포를 여러 개의 결과로 일반화한 것

(ex. 악어 사진이 있고 그 사진이 다섯 번째 항목에 있다. 알고리즘이 이미지가 무엇인지 확신하지 못한다면 3마리의 동물이 가능한 동물로 식별되는 결과를 얻을 수 있다. 시스템은 1인 악어를 제외하고 모든 항목에서 0이 출력되길 원한다)

 

독립 항등이 분포된 변수

많은 머신러닝 학습 기술의 알고리즘은 분포가 동일한 확률 변수에서 추출되고 서로 독립적인 여러 값으로 작동되도록 설계됐다.

-> 동일한 분포에서 계속해서 값을 가져오고 연속된 값 사이에는 관련이 없다. 

 

복원 추출 (SWR)

동일한 개체가 두 번 이상 나타날 수 있다.

극단적으로는 새로운 데이터 세트 전체가 동일한 개체의 여러 복사본에 불과할 수 있다

원본보다 작거나 같은 크기 또는 훨씬 더 큰 새로운 데이터 세트를 만들 수 있다.

원래 데이터 세트는 변경되지 않으므로 원하는 만큼 요소를 계속 선택할 수 있다

선택이 서로 독립적이다. 

선택에 대한 히스토리가 없으므로 선택은 이전 선택의 영향을 전혀 받지 않으며, 미래의 선택에도 영향을 미치지 않는다.

(ex. 커피숍)

 

비복원추출(SWOR)

원래 데이터 세트에서 개체를 삭제하므로 한 개체가 두 번 이상 선택될 수 없다.

새로운 데이터 세트는 원본보다 작거나 같은 크기일 수 있지만 결코 더 클 수는 없다.

선택이 의존적이다.

 

부트스트랩

SWOR를 사용해 원래 모집단에서 표본 집합을 생성한다.

SWR을 사용해 새로운 집합을 만들고자 만든 표본 집합을 다시 샘플링한다.

이러한 새로운 집합 각각을 부트스트랩이라 한다. 

 

공분산

관계의 정도를 결정할 수 있다.

(ex. A가 3 증가하면 B가 6 증가한다, A가 2 증가하면 B는 4 증가한다, A가 4 감소하면 B가 8 감소한다. -> 고정배수는 2이다. -> 두 변수가 공변 한다고 말한다.)

공분산이라는 숫자를 이용해 두 변수의 연결 정도 또는 공변의 일관성을 측정한다. 한 값의 변화가 다른 값을 변화를 일관되게 따라갈수록 공분산은 더 강해진다.

 

공분산을 표현하는 고전적인 방법은 2차원으로 점을 그리는 것이다

변화 값이 서로의 배수인 경우에만 변수 간의 관계를 갖는다

수학적으로 정의되는 방식 때문에 두 개별 변수 간의 관계를 고려하지 않아 서로 다른 공분산의 연결 정도를 비교하기 어렵다

 

양수 값은 양의 상관관계를 의미하고, 음수 값은 음의 상관관계를 의미한다

상관관계는 항상 -1~1 사이의 값을 제공하는 공분산의 확장된 버전이다.

값 +1은 완벽한 양의 상관관계가 있음을, 값 -1은 완벽한 음의 상관관계를 보여준다. 

점이 직선에 가까울수록 상관값은 1에 가깝다. (상관관계가 강하다)