Stataで重複する観測値を残す(duplicates keep)。
Stataで重複する観測値がある場合にduplicates
コマンドを用いることができる。例えば、duplicates drop variable, force
とすれば、重複するvariable
を落とすことができる。
しかし、重複する観測値だけを残すというオプションは筆者の探す限り見つからなかった。そこで、以下の手順を踏んだ。
gen a = 1 egen dup = sum(a), by(ID) keep if dup != 1
具体的には、全て1をとるような変数を作り、それを重複しているもの(ここではID
)ごとに足しあげることで、重複するIDに関しては1より大きい値が記録されることになる。
それらを落とせば、残るのは重複するもののみである。ちなみに、この後、sort ID
とすれば重複が見やすくなる。