[Fait Book] Kaleidoscope 2015와 C사의 문과 추정치에 대한 비교

게시글 주소: https://test.orbi.kr/0005267426

저희는 지금까지 타사의 추정치에 대한 논평을 거절해왔습니다. 왜냐하면 각 입시 기관은 고유의 주관과 노하우를 통해 추정치를 발표하며, 평가원이 확정치를 발표하지 않는 이상 추정에는 오차가 있게 마련이기 때문입니다. 그런 이유로 저희는 항상 오르비 뿐만 아니라 여러 입시 기관의 자료를 참조할 것을 권장해오기도 하였습니다.

그럼에도 불구하고 관례를 깨고 타사의 추정치에 대한 입장을 밝히게 된 이유는, 15일 밤 C사가 대학별 석차백분위 추정치를 발표한 후, 이를 오르비 혹은 Fait의 석차백분위 추정치와 비교하며 지속적으로 오르비/Fait의 추정치가 지금 잘못된 혹은 과거부터 잘못되어왔던 것 같은 인상을 줄 수 있는 글과 댓글을 남기는 분들이 있었기 때문입니다.

아래 도표는 12월 15일 기준으로, 인문계 최상위권의 표준점수 합과 대학별 점수의 석차백분위 추정치를 Fait와 C사 간에 서로 비교한 것입니다. (도표가 작아 잘 보이지 않으면 http://i.orbi.kr/0005267426 를 클릭하세요)

우선 두 회사의 추정치에 대한 저희의 결론을 말씀드리자면, 인문계 대학별 점수 백분위 추정값에 대해

- 정확도(accuracy)에 있어서는 저희는 전반적으로 옳거나 혹은 전반적으로 틀리거나 둘 중 하나이며, C사의 경우 일부만 옳거나 혹은 전반적으로 틀리거나 둘 중 하나일 것이라 판단합니다.

- 정밀도(precision)에 있어서는 저희가 99.9% 이상의 확률로 더 정밀한 추정을 하고 있다고 믿습니다.

정확한 추정: 임의의 단순 표준점수 합에 대해 추정한 전국석차가 실제 전국석차와 얼마나 인접한가와 관련되어 있습니다. 예를 들어 단순 표준점수합 520점을 3,400등으로 추정하였다면 (평가원만 알 수 있는) 실제 전국석차가 3,400등으로부터 얼마나 떨어져 있는지와 관계가 있습니다.

정밀한 추정: 임의의 단순 표준점수 합에 대응하는 임의의 대학별 점수 쌍이 얼마나 적은 오차로 연결되어 있나와 관련되어 있습니다. 예를 들어 단순 표준점수합 520점의 전국석차가 n등이라 한다면, 그에 대응하는 연세대 점수가 586.64점의 전국석차가 n으로부터 얼마나 떨어져 있는지와 관계가 있습니다.

높은 정확도는 수능 전체 응시 집단으로부터 얼마나 난수적으로(randomly) 추출하였는지에 좌우됩니다. 난수적으로 표본을 추출할 수 없는 모든 입시 기관들은, 그 추정치에 편향(bias)이 있을 수밖에 없고 그것을 보정하는 기술력이 정확도를 좌우합니다. 편향은 표본이 크다 해서 피해갈 수 있는 것도 아닙니다. 그런 점에 있어서, C사가 인문계 석차백분위를 산정할 때 모집단의 기준을 어떻게 간주하였는지 공식적으로 밝히고 있지 않지만, 예를 들어 저희가 그러하였듯 사회탐구에 응시한 사람을 모집단으로 간주하였다면, 각 석차백분위에 대한 단순표점합이 거의 일치하고 있으므로, 정확도에 있어서는 저희와 C사가 모두 옳거나, 모두 틀리거나 혹은 모두 비슷한 정도로 틀리거나입니다.

저희와 C사가 명백히 차이가 나는 부분은 정밀도에 관한 것입니다. 즉, 특정 단순표점합에 대응하는 대학별 점수에 관한 것인데, 이 부분에 있어서 저희는, 상기 도표에 표시된 점수대에서 국내에서 가장 많은 수의 표본을 바탕으로, 모든 입시 기관 중에서 가장 정밀도가 높은 추정을 할 수 있다고 확신하고 있습니다. 무엇보다도 저희는 C사가 인문계 대학별 점수를 추정하는 과정에서 어떠한 오류를 발생시켰는지도 추정할 수 있습니다. 이것은 추정치를 산출한 담당자의 착오로 인한 오류였을 것이며, 그 오류는 자연계에서는 발생하지 않았고 인문계에서만 발생하였을 것입니다.

(아마도 분모에 들어가는 변수 하나를 잘못 입력한 것이 전체 추정치를 오염시켰을 거라 생각이 됩니다. 저흰 그렇게 추측합니다.

더 구체적으로 얘기하면 전체 수능 응시자가 59.4만, 사탐 응시자가 33.3만 정도 되는데 33.3/59.4 ~ 0.56 이고, 국수영탐에 의한 석차백분위 대비 각 대학별점수의 석차백분위가 딱 0.56배 수준으로 위로 밀려올라가 있습니다. 황당할 수 있지만 이게 가장 가능성 높은 가설이고,

그 다음으로는 임의의 국수영탐 표준점수에 대해서, 그 점수대 응시자들의 영역별 평균점수를 대학별 공식에 대입해 대학별 점수를 계산할 경우에도 이 정도 수준의 오차가 날 수 있습니다.

하지만 후자의 경우에는 계열과 무관하게 체계적인/전반적인 오류가 발생해야 하는데 자연계에서는 그런 오류가 발생하지 않았던 것으로 보아,

(전자의 가설처럼) 그냥 사람이 손으로 입력해야 하는 변수를 넣을 때 단순히 딱 한 번 실수를 했는데 그것이 너무 중요한 변수였어서 모든 값에 영향을 미쳤을 거라는 추측입니다.)

따라서, 정확도에 있어서는 저희와 C사과 동등한 전망을 취하고 있으므로 격차가 없을 것이고, 정밀도에 있어서는 매우 높은 확률로 저희가 더 높을 것을 믿고 있기 때문에, 추정의 종합적인 신뢰성(reliability)은저희가 높다고 할 수 있을 것이며, 아마도 타당성(validity)도 더 높을 것입니다.

다시 말해, 정확도를 모르는 상태에서 다음 두 가지 경우가 있을 수 있습니다.

1) Fait: reliable, not valid | C사: not reliable nor valid | Validity: probably Fait > C

2) Fait: both reliable and valid | C사: not reliable but valid | Validity: probably Fait > C

C사의 정밀도가 떨어질 것이라는 사실은 어렵지 않게 시험해 볼 수 있습니다. 인문계 수험생 30명 이상이 모여 본인의 전과목 표준점수 단순합에 따른 C사의 석차백분위와, 본인의 연세대, 서강대, 성균관대, 한양대 점수에 따른 석차백분위를 나열해 보면, 드물게 표준점수 단순합이 나머지에 비해 좋은 경우도 있겠지만 (특히 사회탐구 영역의 점수가 높은 경우) 전체적인 경향을 보거나 여러 명의 평균을 내면 분명히 단순 표준점수 합에 의한 백분위보다 대학별 점수에 의한 백분위가 높을(좋을, 낙관적일) 것입니다.

단순 표준점수보다 더 신뢰성 있는 지표는 탐구 영역을 배제하고 국수영 표준점수 합과 대학별 점수를 비교하는 것입니다. 이레 도표의 값을 가지고 인문계 학생들이 모여 점수를 대조해 보면, 분명히 C사의 국수영 표준점수에 비해 C사의 대학별 점수의 석차백분위가 좋게(낙관적으로, 작은 숫자로) 나오는 편향이 있을 것입니다.