통계유전학 (2): Case Control Study & Cohort Study 소개
읽던 책의 1/3을 다 읽어서 질병유전학의 이론적 배경에 대해서는 대충 알게 됐으니 그걸 설명하기에 앞서 질병/건강에 영향을 미치는 요인을 분석하는 기본적인 틀을 복습하고 그 내용을 여러분에게 소개하고자 합니다.
쉬운 예로, 담배가 폐암에 미치는 영향이 있는지 없는지 알아보는 상황을 생각해봅시다. 어떻게 하면 담배와 폐암이 연관이 있는지 없는지 알 수 있을까요?
Cohort Study와 Case-Control Study는 특정 요인과 건강상태의 연관성을 알아보는 가장 대표적인 연구 디자인에 속합니다. 오늘은 이 두 개에 대해서 알아보겠습니다.
Cohort Study
만약 담배가 폐암에 걸릴 확률을 증가시킨다면 흡연자(Exposed to smoking) 중에 폐암에 걸리는 사람(Disease Develops)의 비율이 비흡연자(Not exposed to smoking) 중에 폐암에 걸리는 사람의 비율보다 더 클 것으로 추측할 수 있습니다. 아래 그림은 이 상황을 요약하고 있습니다.
그림 1. Cohort Study의 연구 디자인
이렇게 최초에 흡연자와 비흡연자를 수집한 후 그들을 추적 관찰하여 각 그룹에서 몇 명이 폐암에 걸리는지 확인하는 연구 디자인을 Cohort Study라고 부릅니다.
담배를 피는 사람 중 폐암에 걸린 사람/걸리지 않은 사람을 각각 a/b명 그리고 담배를 피지 않은 사람 중 폐암에 걸린 사람/걸리지 않은 사람을 각각 c/d명이라고 합시다. 이 상황은 아래 표에 요약되어 있습니다.
표 1. 각 그룹의 인원 수와 폐암 발생율
그러면 우리는 이를 바탕으로 각 집단의 폐암 발생율을 계산할 수 있습니다. 담배를 핀 그룹의 폐암 발생율은 a/(a+b)이고 담배를 피지 않은 그룹의 폐암 발생율은 c/(c+d)가 됩니다.
첫 번째 값을 두 번째 값으로 나눈 것을 Relative Risk(RR)이라고 하는데 RR이 1보다 크면 담배가 폐암에 걸릴 확률을 높인다고 생각할 수 있고 RR이 1보다 작으면 담배가 폐암에 걸릴 확률을 낮춘다고 볼 수 있겠습니다. RR을 산출하는 구체적인 방법(예컨데 Logistic Regression)은 이 글에서 다루지 않겠습니다.
Case-Control Study
Cohort Study와 비슷하지만 살짝 다르게 생각해봅시다. Cohort Study에서처럼 사람들을 흡연자와 비흡연자로 나눠서 생각해볼 수도 있지만 폐암에 걸린 사람(Cases)과 걸리지 않은 사람(Controls)으로 나누어 생각해볼 수도 있겠죠. 담배가 폐암에 걸릴 확률을 높인다면 폐암에 걸린 사람들 중 흡연자의 비율은 폐암에 걸리지 않은 사람들 중 흡연자의 비율보다 높을 것입니다.
그림 2. Case-Control Study의 연구 디자인
이처럼 폐암에 걸린 사람과 걸리지 않은 사람들을 수집한 후 각 그룹을 과거의 흡연이력에 따라 나누는 것을 Case-Control Study라고 부릅니다. 정의에서 알 수 있듯이 Case-Control Study는 추적관찰의 필요성이 없으므로 실제 상황에서 Cohort Study에 비해 비용과 시간이 절약된다는 장점이 있습니다. 물론 장점만 있는 것은 아니지만요(Cohort 및 Case-Control의 장단점은 다음 기회에 소개하겠습니다).
폐암에 걸린 사람 중 흡연자/비흡연자의 수를 각각 a/c명, 폐암에 걸리지 않은 사람 중 흡연자/비흡연자의 수를 b/d명이라고 합시다. 이 상황은 아래 표에 요약되어 있습니다.
표 2. 각 그룹의 인원 수와 흡연 노출 빈도
이 표를 이용하면 우리는 폐암 환자/비환자 그룹에서 흡연에 노출된 빈도를 구할 수 있습니다. 폐암 환자 그룹의 흡연 노출 빈도는 a/(a+c) 이고 폐암 비환자 그룹의 흡연 노출 빈도는 b/(b+d)입니다.
그런데 실제로는 a/(a+c)와 b/(b+d)를 계산하기 보다는 a/c와 b/d를 계산한 후 첫 번째 값을 두 번째 값으로 나눈 Odds Ratio(OR) 값을 더 많이 사용합니다. a/(a+c)와 b/(b+d)의 대소관계가 a/c와 b/d의 대소관계와 똑같기 때문에 어떤 것을 택하든 단순히 1보다 크고 작음을 논할 때는 그 비율을 해석하는 데에는 큰 차이가 없습니다. 단순 대소가 아니라 구체적인 값을 생각할 때는 물론 큰 차이가 있을 수 있습니다(아래 댓글의 예시 참고).
Cohort 이든 Case-Control 이든 흡연을 유전자로 바꾸면 질병유전학 연구에도 똑같이 적용할 수 있다는 것을 알 수 있습니다. 참고로, 두 연구 디자인 모두 Randomized Controlled Trial보다 여러가지 문제(예컨데 Bias)에 더 취약하며 따라서 연구를 설계할 때 신중함이 요구됩니다. 더 자세한 상황은 아래 레퍼런스로 달아놓은 책을 읽으면 좋겠습니다.
근데 저 책 6판 곧 나온다는데 언제 나오는지 아시는 분 =.=...?
- 그림은 모두 Epidemiology 5th edition, Leon Gordis에서 가져왔습니다.
우연히 들릅니다.
라고 적어주셨는데, 그렇지는 않은 것으로 압니다.
Carsten Oliver Schmidt 와 Thomas Kohlmann의 When to use the odds ratio or the relative risk?를 참조하시면 바로 첫번째 단락이 Discrepancies between relative risk and odds ratio 입니다.
a/a+c 와 b/b+d의 비는 RR이 아닙니다. RR은 a/a+b와 c/c+d의 비입니다(글의 표기법 하에서는요).
저는 rr과 or이 비슷한 값이라고 적은 것이 아닌데 혹시 문자 순서를 잘못 읽으신 게 아닐까요?