CSDS01 Week 3 : Statistics Review

Rooney Donghoon Lee
6 min readSep 18, 2020

--

Intro

나는 지난주에 처음 bayesian statistic 이라는 것을 처음 듣고 접했다.
보통 처음 접하는 이론은 이해 하는데 시간이 오래 걸린다, 더군다나 기동안 배워왔던 통계와는 조금 다른 컨셉의 통계학을 배우면, “아니, 이건 또 뭐야?” 라는 생각부터 들기 마련이다.

“The fear of the unknown.” 이라는 말이 있다 ‘모르는 것에서 부터 오는 두려움’이란 말인데 사람들은 본질적으로 자신이 경험해보지 못하였거나, 익숙하지 않거나, 모르는 것들로 부터 오는 두려움을 가지고 있다. (‘난 아닌데?’ 하면 말고…)

처음 보는 Bayesian statistics 에 지레 겁을 먹고 시작 했지만, 이번주 수업에 들어가기에 앞서, Bayesian statistics를 조금이라도 이해하고 있으면 좋을 것 같아서 youtube에서 bayesian statistics를 검색하고 많은 영상을 보았다. (공교롭게도 Week3 Day 3 warm-up에 공유된 영상 2개는 이미 시청을 한것이었고, 마지막 링크는 동기들에게 추천한 영상이었다.)

Part. 1 — Frequentists & Bayesians

우선 우리가 알고 넘어가야 할 것이 있다. Probability Theory (확률론)

Frequentist와 Bayesian 이 정의하는 확률의 의미는 다르다!

Frequentist 에게 동전을 던졌을 때 앞면이 나올 확률을 물어보면…
동전을 n번 던졌을때 앞면이 관찰되는 수를 기록하고, 세어 봤을때 나온 확률 = (동전 앞면이 나온 횟수/ 동전을 던진횟수)를 알려 줄 것이고…(관찰된 수, Observed result)

EX) ‘내가 동전을 1000번 던져 봤는데, 앞면은 501 관찰 되었네. 501/1000은 50.1% 이니까 앞면이 나올 확률은 50.1%.

Bayesian 에게 동전을 던졌을 때 앞면이 나올 확률을 물어보면…
관찰된 횟수와 관계 없이 이전에 알고 있는 합리적인 사전지식에 기반된 확률을 알려준다.

EX) 동전에는 앞면과 뒷면이 있으니 , 앞이나 뒷면으로 떨어지겠지… 앞면이 나올 확률 50% 뒷면이 나올 확률 50%

위의 예시 에서 ‘동전에는 앞면과 뒷면이 있으니’라는 사전지식과(Prior Knowledge), ‘앞면이나 뒷면으로 떨어지겠지’(Reasonable Expectation) (합리적인/정당한 기대?)를 바탕으로한 확률을 말해준다.

어떻게 보면, Frequentist들이 힘들게 관찰하고 기록한 덕분에 Bayesian 들이 그들의 이론을 진행 할 수 있는것 같다.

Confidence Interval (신뢰구간) vs Credibility

Bayesian Credible Region: 95%의 Parameter는 우리가 정의한 Credible Region에 포함될것이다.
예) 우리가 공을 100번 떨어트렸을때 95번은 공이 신뢰 구간에 떨어진다.

Frequentists Confidence Interval: 우리는 여러가지 Confidence Interval을 제시하는데 이중 95%의 Confidence Interval 들은 Parameter를 포함하고 있을것이다.

예) 우리는 100가지의 신뢰 구간을 구해냈는데(100 observation of 100 different samples of Population) 그 100가지 신뢰구간중에서 저 공을 포함하는 신뢰구간은 95개가 있다.

Part. 2 — Probability of WHAT?

내가 좋아하는 과학유튜브 채널중 하나인 Veritasium의 Bayesian Statistics 영상을 보면서 문득 든 생각이 있다.

현재 우리는 Hypothesis : T-test와, Chi-square Test 그리고 Bayesian Statistics 를 배웠는데… 그냥 배우기만 했지 왜 배우는지에 대한 질문은 하지 않았다.

Veritasium의 비디오에서, 이해를 돕기위한 가정을 세웠다

  1. 당신은(나는) 전세계 인구의 0.1%만 걸리는 희귀병에 걸렸다.
  2. 그 병의 진단 확률은 99%이고
  3. False Positive는 1% 라고 할때. (병에 걸리지 않았는데, 걸렸다고 나올 확률)
  4. 내가 진짜로 그 병에 걸렸을 확률은 9%라고 한다.

9%는 정말 낮은 확률인것 같지만…

1000명중에 1명이 그 병에 감염 되어있을때
그 한명이 검사를 받아서 양성 결과가 나올 확률 99% = 1명
1000명을 검사 했을때 false positive가 나올 확률 1% =10명
1000명 중에 양성 결과가 나올 인원은 총 11명
11명중에 진짜 양성인원은 1명
1/11 = 0.090909090909… = 9%

9%의 의미는 당신이 전체 인구에서 그 병에 걸려있을 확률.

만약 당신이 첫번째 검사 결과에 혹시나 하는 생각이 들어서,
다른 병원에 방문하여 똑같은 테스트를 다시 한번 진행했을때 양성이 나온다면.

당신이 그 병에 걸려있을 확률은 91%로 급상승한다.

그동안 정민님이나 진환님께서 ‘Bayesian Statistics 가 나중에 Machine Learning 에서 엄청 많이 쓰입니다.’라고 말 하셨고 우리는 그냥 ‘그런가보다…’ 하고 넘어갔지만 Veritasium의 영상을 보면서 문득 Data Science(Machine Learning, Deep Learning)에서 Bayesian Statistic를 이용해 Data Scientist 들이 세운 Statistical Modeling을 검증하는데서 사용하는게 아닐까? 라는 생각이 들었다.

Part. 3 - the Infamous n124a 음주측정 문제.

100%의 true positive rate
8%의 false postive rate
전체인구 1/1000이 음주운전을 한다.

라는 가정을 보고 많은 분들이 혼란스러워 하셨던것 같은데…

사실 TPR = 1 (100%) 여도 상관이 없습니다.
아니 음주측정을 해서 100%가 나오는데, 왜 False Positive 가 8% 인데 왜!
1 + 0.08 = 1.08이라서 백분률로 했을땐 말이 안되는데!!
라고 생각하신다면 잘 보셔요.

어떤 형사의 검거율은 = 100% 이다.
(이 형사는 마음만 먹으면 자기가 수사하는 사람들을 다 잡어 넣을수 있다.)

근데 잘못 검거를 할 확률은 5%.

검거를 당할 사람이 아닌데 검거될 확률을 말하는것이다.
다른 말로 하자면 억울하게 잡혀들어가는 사람들.
ㅋㅋㅋㅋ 아니 선생님 저는 잘못한게 없는뎁쇼? 왜 연행하시는거에욧?

검거율과, 잘못 검거를 할 확률은 별개의 확률로 봐야 한다.

다시 음주운전 문제로 넘어가보면,

예전에 인터넷에서 *크*이(배맛 쭈쭈바 아이스크림)을 먹고, 아니면 가글을 하고 운전하다가 음주단속에 걸리는 경우가 있다는것을 본 기억이 난다.

음주단속기/알콜탐지기는 입안에 있는 알콜을 탐지하는 기기라서, 입안에 알콜이 있으면 거의 무조건 감지를 하고, 수치를 알려준다.

가글하고 운전한 사람이나, *크*이(배맛 쭈쭈바 아이스크림)을 먹은 사람들이 사람은 음주단속에 걸리는데. 사실 음주 운전을 한건 아니지 않는가???!!!!???!!?

그것에 불복하는 사람들은, 채혈로 음주단속을 해서, 더 정확한 측정 방법을 사용한다.

Sign up to discover human stories that deepen your understanding of the world.

--

--

Responses (1)

Write a response