로그인


f

모두의공원

사용규칙을 준수하며 자유롭게 이용하세요.

더플랜 K값 관련 마지막글을 올립니다. 논문에 함정이 있습니다.

http://www.todayhumor.co.kr/board/view.php?table=science&no=63238

 

 

이 글의 서론 부분만 보시면 됩니다.

 

논문에서 전제한것은 유효표가 '랜덤하게' 무작위하게 미분류되었을 때 라는 가정이 존재합니다.

 

 

즉, 우리가 이렇게 K값 가지고 따져봤자 논문은 현실과는 괴리가 생기는것이지요.

 

K값에 영향을 받을 수 있는 요소들을 전제하지 않고 계산한 값인거에요.

 

가령 K값에 영향을 줄만한 요소들은 다음과 같겠죠.

 

- 특정 지지군 지지자들이 투표에 대한 이해가 낮아 인주가 선에 걸치거나 번지거나 하여 기기가 인식하지 못한다면?

 = 유효표지만 기기가 인식을 못해 미분류표로 빠짐 하지만 다시 사람이 판정하여 유효표가 됨

 

- 선에 걸쳐 생긴 미분류표에서 1번 후보가 가져갈 확률이 더 높은 투표용지라면?

 

 

이러한 경우들에 유효하지 않은 미분류표가 다시 유효표로 바뀌게 되죠.

 

이런 점들을 고려를 하지 않고 쓴 논문이기 떄문에

 

 

우리가 모공에서 열심히 따져봤자. K값때문에 달라지는건 없습니다.

 

 

해킹이나 시간역전 부분에 더 집중을해야해요.

  • 루미님
  • (2017-04-22 04:19)
생뚱맞은 댓글이지만 글쓴이님께선 관찰자 타입이 아니신 듯합니다. 이전 글에서 스스로 관찰자 타입이라 하셨는데 제가 보기에는 사람들과의 상호작용(목적이 무엇이든)에 더 초점을 두고 계시네요. 즐거운 모공 생활되시기 바라겠습니다.
from CV
  • 지병관리본부님
  • (2017-04-22 04:21)
제가 관찰자 타입일 수도 있고 아닐수도 있습니다. ㅎㅎ;;  아무쪼록 즐거운밤되세요!
  • 두부렌츠님
  • (2017-04-22 04:20)
기기가 얼마나 인식을 정확하게 하든지 말든지 상관은 없어요
소프트웨어로 제어가능하니까요 .
기기가 도장 번진거나 걸친거 랜덤하게 미분류나 혹은 특정후보로 보내게 소프트웨어 업데이트 하면그만이죠
  • 지병관리본부님
  • (2017-04-22 04:22)
그러니까요. K가 1이든 2든 소프트웨어에 대한 믿음을 심어주고 눈속임하면되죠.
  • 두부렌츠님
  • (2017-04-22 04:25)
즉 미리 데이터를 계획하고 (그 값이 1.5, 다음엔 1.3이나 1로도 짤수있음) 로 랜덤 짜면 유효표 미분류표 섞여서 결국 정규분포곡선을 그리게 된거죠 .
해당 데이터를 가지고 시뮬레이션 하니 실제결과값(득표수) 98%동일하니 말다했죠 .
  • 두부렌츠님
  • (2017-04-22 04:27)
또한 한가지 문제는 저게 논문 어디부분인가요? 저거만 툭 짤라서 가져오니 어딘지 하나도 알수가 없네요. 논문 자주 읽어보시면 알겠지만 기본적으로 배경이나 그런쪽 이야기도 상당히 많습니다.
중요한건 메인 스토리죠 .
  • 지병관리본부님
  • (2017-04-22 04:36)
정규분포는 제가 설명하지 못하겠습니다.
논문에 대한 원문은 구글링해보니 여기 111에서 보실수 있습니다.
http://pgr21.com/pb/pb.php?id=election&no=2744
  • 두부렌츠님
  • (2017-04-22 04:48)
해당 논문을 대충 읽어봤는데, 기대값이 1일때 이야기 아닌가요?
Theoretical expectation of K: E[K]=1  논문에서 제목은 괜히 있는게 아닙니다.
저 오유는 본인인지 모르겠지만 바로 윗줄을 왜 잘라버렷는지 이해할수가 없네요;
  • 두부렌츠님
  • (2017-04-22 04:52)
Abstract와 백그라운드 있는 쪽을 한번 보시기바랍니다.
  • (2017-04-22 05:04)
두부렌츠님
지금 문제제기하는 사람들은 대부분 저 전제가 잘못되었을 가능성이 있다거나, 혹은 저 전제 안에서만 성립하기에 실제로는 다른 상황일 수도 있다는 반론을 하고 계십니다.
w.ClienS
  • 노란육교님
  • (2017-04-22 04:20)
가정을 근거로 제시하고 계시네요.
#CLiOS
  • 지병관리본부님
  • (2017-04-22 04:23)
음.. 단순 가정입니다. 논문의 전제도 '가정'에서 출발하는걸요.
  • 노란육교님
  • (2017-04-22 04:28)
지병관리본부님
가정과 가설을 구분하지 못하시는군요.
#CLiOS
  • (2017-04-22 04:30)
노란육교님
"가정하면 어떨 것이다"가 가설아닌가요?
진짜 그런지 검증하는게 본문이고.
w.ClienS
  • 노란육교님
  • (2017-04-22 04:33)
rheey119님
아닙니다. 관찰을 통해 발견한 '사실'을 근거로 가설을 세워가는 것이죠. 그게 없으면 가설이 아닌 그저 상상이 됩니다.
#CLiOS
  • (2017-04-22 04:34)
노란육교님
그건 가설이 아닌데요? 귀납적 추론이지...
귀납적 추론을 통해 가설을 세울수도 있겠지만, 연역적 추론을 통해 가설을 세우는 것도 가능하지 않을까요?
w.ClienS
  • 지병관리본부님
  • (2017-04-22 04:37)
제가 통계쪽과 논문쪽은 약해서 정확한 의미까지 알지는 못합니다.
  • 노란육교님
  • (2017-04-22 04:47)
rheey119님
아닙니다. 본문은 검증(혹은 반증) 가능한 사실관계가 아닌 상상을 근거로 하고 있습니다. 실제로 표를 까봐도 검증가능하지 않은 사항을 근거로 하니까요. 이런 경우를 그저 막연한 주장이라고 합니다.
#CLiOS
  • (2017-04-22 04:56)
노란육교님
먼저 제가 위에 댓글을 오해할 수 있게 작성했네요
제가 말씀드린 "가설"과 "본문"은 한 논문에서 제기한 "가설"과 그 논문의 "본문"을 의미합니다.

그리고 검증은 가능하다고 생각합니다. 전향적으로 해보면 되는 거니까요.
다만, "인주가 번진" 과 같은 서술적 조건을 어떨게 객관적 선정조건화 하는지가 문제이지, 해당 조건에서 현재의 분류기에서 100회 이상 실험했을 때 실제 결과가 어떻게 나오는지를 보여주면 통계적 검증이 가능하다고 봅니다.
w.ClienS
  • 노란육교님
  • (2017-04-22 05:13)
rheey119님
아직 해보지 않았으니, 사실(데이터) 근거가 없고, 가설의 범주에 들지 못하는 그저 막연한 가정일 뿐입니다.
#CLiOS
  • (2017-04-22 05:20)
노란육교님
뭔가 평소 업무의 영역이 달라서 그럴까요. 갭이 느껴지내요.
저는 평소 가설을 세우고 필요한 데이터를 생산(수집?)해서 검증하는 일을 하기에 가설이 데이터보다 앞에 존재하는거라고 생각합니다만, 노란육교님은 이미 수집된 데이터에서 가설을 뽑아내는 영역의 일을하고 계시는 듯 합니다.

그리고 가설 설정을 위한 데이터와 검증을 위한 데이터를 혼용하시는 듯도 하고요.

제 쪽에서는 엄밀히 말하면 어떤 가설을 검증하기 위해 수집한 데이터를 다른 가설 검증을 위해 활용하는 것 자체를 일종의 비뚤림으로 보고 있습니다.
w.ClienS
  • 별나라왕자님
  • (2017-04-22 04:28)
가정 설정은 필요한 일입니다.

다만 본문에서 세운 가정들이 돗수가 충분히 많아짐으로 인해서 희석되거나 사라질 수 있다는 점도 고려해야하지 않을까 생각합니다.

예를 들면 어떤 특정한 패턴의 기표의 오류가 발생할 가능성은 충분히 생각할 수 있지만 투표의 참여자 수가 충분히 많아서 이 오류가 전반적인 경향에 미치는 영향이 무의미해 질 수 있다는 생각이 들어서죠.
w.ClienS
  • (2017-04-22 04:33)
별나라왕자님
10, 20, 30과 1010, 1020, 1030은 다르다는 말씀이시군요
w.ClienS
  • 지병관리본부님
  • (2017-04-22 04:40)
네 참여자 수가 충분히 많기 때문에 영향을 주지않을 부분이라고 생각할 수 있지만.. 참여자가 많음에도 노인층이 많을 수록 미분류율이 높아지는 것을 보면 고려해야하는게 아닌지 의심이됩니다.
  • 어부바님
  • (2017-04-22 04:31)
노인가설을 동의는 못하지만 그 의견은 존중하려 합니다.
비아냥이 난무하던데 그건 좀 안타깝고요.

사실 K값을 가정하여 시물레이션을 해보니 R값이 0.98이라는 것이 더 엄청난 것이죠.
물론 해당 조작기기로 실제 보관 중인 투표용지를 분류하여 개표를 해본 것이 아니기에 이 R값도 할 말이 많다는 의견도 있을 거라고 봅니다.

처음부터 계속 말하지만 더플랜에서 가장 중요한 것은
K값이 아니라 지금과 같은 방식이라면 개표를 조작할 수 있다는 것을 검증해 준 것이고 개표방식을 어떻게든 개선할 필요가 있다는 것이죠.
  • (2017-04-22 04:37)
어부바님
+1
개인적으로 k값에 집중해서 스토리 풀어나가는게 이슈화에는 좋아도 근본적인 문제를 제기하는 방식으로는 적절하지 않다고 봅니다.
"뭣이 중헌디.." 생각이 납니다;
w.ClienS
  • imaru님
  • (2017-04-22 04:42)
어부바님
+1
  • 지병관리본부님
  • (2017-04-22 04:45)
저도 이젠 소모성 논쟁에 지쳤기에.. 다들 다른 저마다 다른 전제에서 이야기하니 토론이 되지않는 것같았습니다. 같은 전제에서 이야기해야 토론이 가능할 것같아. 논문에 이러한 전제가 있다는걸 알려드리고 싶어 모공에 게재합니다.

이슈화를 위해서 K값을 확대해서 한것에는 문제가 있지만
이 중요한 순간에 사람들에게 부정선거가 일어났었을 수도 있고 이번에도 일어날수 있다! 투표에 대한 경각심을 일으키기에 충분했고 성공적이였기 때문에 매우 칭찬합니다.
  • 노란육교님
  • (2017-04-22 04:52)
어부바님
노인가설이야말로 실제로 표를 까봐도 증명할 수 없죠. 표에는 연령 데이터가 없으니까요. 상상을 근거로 하면 가설이라 부를 수 없는 막연한 주장일뿐 입니다.
#CLiOS
  • (2017-04-22 05:09)
노란육교님
데이터가 없으면 데이터를 생산하면 됩니다. 어차피 결과가 아닌 비뚤림이 대한 것이라면 좋아하는 가수에 대해 투표하라해서 용지에 체크하게 한 후 돌려보면 됩니다. 전국 대표집단 천 명정도 대면으로 조사하려면 4천만원 내외 들겁니다.
w.ClienS
  • 노란육교님
  • (2017-04-22 05:15)
rheey119님
그 실험을 거친 후에야 가설 세우기가 가능하죠. 현재는 그저 아이디어 수준의 가정일뿐이고요.
#CLiOS
  • (2017-04-22 05:25)
노란육교님
그럼 그렇게 세운 가설의 검증은 어떻게 해야할까요?
w.ClienS
  • (2017-04-22 05:35)
노란육교님
위 아래로 채팅하면서 약간 이해가 되는 것도 같습니다. "가설의 제시과정도 근거가 있어야 한다"로 받아들이겠습니다.
다만 "사실"이 있어야 한다고 말씀하신데 대해 제 경우 "논리적 사고"의 결과면 충분하다.로 말씀드리겠습니다.

좋은 말씀 감사합니다.
w.ClienS
  • 노란육교님
  • (2017-04-22 05:41)
rheey119님
현재까지 일방적 주장일뿐 가설이 되지 못한다는 말씀을 드린 겁니다. 이 실험 혹은 검증은 우리가 아닌 전적으로 선관위 몫입니다.
논리적 사고는 아이디어 수준의 가정입니다.
#CLiOS
  • drylandscape님
  • (2017-04-22 06:44)
노란육교님
사실 논문에서 보여준 것은 관찰값이 1.5라는 현상인데 그게 가설인 1하고 다르다를 말한 것입니다. 그렇다고 그것이 k=1 이라는 가설이 맞다고 판단한 건 아닙니다. 다만 분포가 가설과 단지 다르다 입니다. 그런데 그 가설은 어디서 나왔는가에 대한 의문이 드는 것인데 단지 직관적으로 그렇다고 말하는 것은 대답이 안되니까요. 즉 k=1 이라는 가설이 어떤 가정/근거를 기반으로 했는지가 해결이 안되는 거죠.

가설은 검증, 실험 전에 설정하는 것이 보통 맞는 것입니다 연역적으로. 어떤 합리적인 근거/가정을 기반으로요 (보통 이론이나 다른 논문의 증거들은 중심으로 말입니다) 여기서는 가설이 정말로 랜덤하다면 (어떤 체계적으로 영향을 주는 요인이 없다고 가정하고) 비율이 같을 것이다 를 가정/근거로 합니다. 그렇지 않으면 통계적 추론이 아니라 현상적 기술의 수준에서 끝나는 거죠. 즉 1.5이고 정규분포이다로 끝나는 거죠. 만약 가설이 채택되지 않는다면, 그것의 원인이 무엇인지에 대해서 논의 해보고, 다시 가설을 세워서 실험하는 것이 바른 실험법이라고 생각합니다.

이 논문은 연역적으로 가설을 잘 세웠고, 검증 했으나, 논란이 있는 것이 가설인 k가 직관적으로 1이라는 것이 너무 편하거나 쉬운 방식의 가정을 통해서 세운 가설이라서 와닿지 않는 것이 핵심인 듯 합니다. 보통 인간행동은 랜덤하지 않기 때문에 경향성을 띕니다. 연령은 그럼 왜 값이 증가했는가에 대한 여러 요인 중 하나를 사람들이 가정하는 거죠. 노인연령이 미분류와 제법 높은 상관이 있다는 근거가 있으니까요. 만약 가능하다면 실험을 해서 노인 가설을 검증하는 게 좋죠. 독립적으로.
 현재 투표용지는 연령정보는 없으니까 아쉽네요. 젊은이와 노인 그룹을 나누어서 미분류율의 분포에서 통계적인 차이가 있는지를 보면 되는데, 그게 참 천호식품 산수유 같은 거라서.

w.ClienS
  • 가방싸개님
  • (2017-04-22 09:44)
논문은 읽지도 않고 왜곡하시면 않되지요. K값은 이항분포인지 아닌지를 보는 지표입니다.
이전글 문캠의 여성장관 쿼터정책은 지향점 설정입니다[14] 별나라왕자 04-22 04:22
다음글 터미네이터 시리즈 다시보면 어떨까요?[5] 두부렌츠 04-22 04:13