Development Micro-econometrics Study Group: Code Notes

日本語で経済学分析に有用なコードの備忘録を作成しています。We provide explanations of useful codes in Japanese for data cleaning, analysis, visualization like memorandum. Our software focuses on STATA, R, Python.

Stataで重複する観測値を残す(duplicates keep)。

Stataで重複する観測値がある場合にduplicatesコマンドを用いることができる。例えば、duplicates drop variable, forceとすれば、重複するvariableを落とすことができる。 しかし、重複する観測値だけを残すというオプションは筆者の探す限り見つからなかった。そこで、以下の手順を踏んだ。

gen a = 1 
egen dup = sum(a), by(ID)
keep if dup != 1

具体的には、全て1をとるような変数を作り、それを重複しているもの(ここではID)ごとに足しあげることで、重複するIDに関しては1より大きい値が記録されることになる。 それらを落とせば、残るのは重複するもののみである。ちなみに、この後、sort IDとすれば重複が見やすくなる。