지방재정 혹은 지방행정 연구를 하다보면 회귀/패널분석 등을 위해 데이터를 수집하고 전처리 할 경우가 생깁니다. 이 과정은 필요한 데이터를 탐색하고 수집해서 합치는 과정이 주를 이룹니다. 이번 글에서는 그 중에서도 다운받은 데이터를 전처리하는 과정(수집한 데이터를 필요한 하나의 데이터로 만드는 과정)에 대해서 다뤄볼까 합니다.

연구 주제 및 가설 수립

이론적 배경은 무시하고, 목표로하는 테이블을 구체화하기 위해 간단하게 연구가설을 구성해보겠습니다.

연구 가설

  • ”기초지방자치단체장”과 “광역지방자치단체장”의 정당 일치 여부가 예산집행률에 양의 영향을 미칠 것이다.

변수

  • 종속변수: 예산집행률 = (세출결산액 - 세입결산액) / 세입결산액
  • 독립변수: 광역지방자치단체장과 기초지방자치단체장의 정당 일치 여부
  • 통제변수
    • 기초지방자치단체장의 재선 여부
    • 기초지방자치단체장의 선거 득표율
    • 고령인구비율(해당 지방자치단체장의 고령인구 비율)

목표로 하는 데이터 형태

간단하게 연구 주제와 연구 가설을 수립했습니다. 위 분석을 위해서는 아래와 같은 형태의 테이블이 필요합니다.

테이블 변수 설명

위 변수들은 직관적으로 무엇인지 알 수 있습니다. 일부 설명이 필요한 변수는 아래와 같습니다. 

  • 자치단체명 및 연도
    • 자치단체명은 광역+기초 형태로 구성합니다. 기초자치단체명만 있을 경우, 서로 다른 지역이 같은 자치단체명을 사용하는 경우가 있습니다.
    • 광역+기초 형태의 자치단체명과 연도를 데이터 merge(join) 과정에서 key로 사용합니다.
  • 득표율, 재선여부, 정당일치
    • 득표율은 해당 연도의 지방자치단체장의 지방선거 득표율(%)입니다.
    • 재선여부는 (N-1)년차 지방선거와 N년차 지방선거의 지방자치단체와 연도가 같으면 1, 다르면 0입니다. 
    • 정당일치는 해당연도 기초지방자치단체장과 광역지방자치단체장의 정당이 같으면 1, 다르면 0입니다.

다음 글은 위 테이블을 만들기 위해 고령인구 데이터를 가공하는 과정을 좀 더 상세하게 설명합니다.