시작페이지로 시작페이지로
즐겨찾기추가 즐겨찾기추가
로그인 회원가입 | 아이디찾기 | 비밀번호찾기 | 장바구니 모바일모드
홈으로 와싸다닷컴 일반 상세보기

트위터로 보내기 미투데이로 보내기 요즘으로 보내기 싸이월드 공감
[쉬어가는 페이지] 올해 프로야구 4강 예측 - 회귀분석
자유게시판 > 상세보기 | 2009-04-27 19:30:43
추천수 0
조회수   1,100

제목

[쉬어가는 페이지] 올해 프로야구 4강 예측 - 회귀분석

글쓴이

이동옥 [가입일자 : ]
내용
오늘 게시판이 뜨겁네요..

작업하다.. 내가 지금 무슨짓을 하는건가 하는 한심한 생각이 들긴 했지만.. 개인적으로.. 재미는 있었습니다.

쉬어가시라고 올립니다..





통계 툴을 이용해서 올해 프로야구 4강 예측을 해봤습니다.



데이터는 한국야구위원회의 기록실에 있는 데이터입니다.

1982년부터 2008년까지 각 팀의 승률, 출루율, 장타율, 팀 타율, 방어율, 홈런 수입니다.





1) 승률과 가장 관련이 큰 항목은 무엇인가



승률과 다른 항목의 상관관계 분석을 했습니다.

당연히 모든 항목이 높습니다만..



1982년부터 작년까지 모든 데이터를 이용했더니 아래와 같은 결과가 나왔습니다.



------------------------------------------

출루율 방어율 팀타율 장타율 홈런 수

0.601 -0.588 0.581 0.515 0.322

------------------------------------------



출루율이 근소하지만 가장 중요한 것으로 나왔고, 타격이 투수력보다 조금 더 중요하다는 결과를 볼 수 있습니다.(방어율이 마이너스인 것은 방어율이 낮을 수록 승률이 높아진다는 의미입니다)



위 결과를 5년마다 나누어 살펴 보았습니다.



1986년까지는 팀타율과 평균 자책점이 상대적으로 중요합니다.

------------------------------------------

출루율 장타율 팀타율 평균자책 홈런

0.672 0.632 0.768 -0.760 0.288

------------------------------------------



87~91년은 특이하게 장타율과 평균 자책점이 높네요..

그리고 홈런 수가 다른 시기에 비해 매우 높은 관련성을 보이는 것으로 나타났습니다.

------------------------------------------

출루율 장타율 팀타율 평균자책 홈런

0.706 0.730 0.665 -0.770 0.639

------------------------------------------



92~96년은 상대적으로 다 낮습니다.. 원인 분석이 필요합니다..

------------------------------------------

출루율 장타율 팀타율 평균자책 홈런

0.575 0.573 0.557 -0.597 0.366

------------------------------------------



97~01년도 다 낮지만.. 장타율과 평균 자책점이 상대적으로 중요하네요..

------------------------------------------

출루율 장타율 팀타율 평균자책 홈런

0.572 0.614 0.554 -0.620 0.498

------------------------------------------



02~08년은 출루율과 평균 자책점이 매우 중요한 것으로 나타났습니다.

------------------------------------------

출루율 장타율 팀타율 평균자책 홈런

0.751 0.490 0.586 -0.690 0.343

------------------------------------------



시기 별로 야구하는 방식, 감독들이 중요시하는 요인이 변화면서 위와 같은 차이가 보일 것입니다.. 하지만 시기 별 특성과 위 결과를 비교하는 것은 짧은 지식으로 불가능 하고.. 해보려고 하면 자료를 많이 봐야 하는 일일 것이기 때문에 포기했습니다.



특히 91년 이전 까지인 초창기, 그리고 최근에 출루율과 평균 자책점의 중요성이 높다는 것은 야구 하는 방식의 흐름이 있기 때문이 아닌가 싶어 궁금합니다..





2) 09년 4월 27일까지의 성적을 기반으로 올해 4강 팀 예상



대표적인 예측 모델인 회귀 분석을 실시했습니다.



승률을 예상하기 위한 항목으로는 전 기간 동안, 그리고 2000년대에 가장 중요한 항목으로 나타난 출루율과 방어율을 사용했습니다. 모든 항목을 다 사용하면 좋겠지만 타격 관련 항목들의 관련성이 너무 커서 왜곡이 발생(출루율이 높은 팀이 장타율이나 팀 타율이 다 높네요.. 당연하겠죠..)하기 때문에 출루율만 사용했습니다.



모델의 설명력인 R스퀘어는 0.76이 나왔습니다. 참고로 말씀 드리면 실험실 수준으로 높게 나온 것입니다. 따라서 현실에서는 좀처럼 보기 힘든 수준이라고 할 수 있습니다. 결과가 매우 잘 나온 것이죠..



이렇게 만들어진 모델에 4월 27일까지의 각 팀 출루율과 방어율을 대입해보았습니다.





전체 기간동안의 데이터를 사용한 결과입니다..



--------------------------------------------------------

SK 두산 삼성 한화 LG KIA 히어로즈 롯데

74.7 67.8 53.4 41.7 44.1 54.7 32.1 29.4

--------------------------------------------------------



1위 SK, 2위 두산, 3위 기아, 4위 삼성입니다..

저는 기아 팬입니다만.. 엘롯기라는 끈끈한(?) 연대감이 있는 팀 중 롯데의 승률이 안타깝습니다.





올해는 기아가 가을에 야구 할 수 있나요..? 아들놈과 가을에 야구장에 가보는 것이 소원입니다.. ㅠ.ㅜ
추천스크랩소스보기 목록
  • 광고문의 결제관련문의