하이브에서 랜덤 샘플링 하는 방법 (셔플링) 하이브에서 수백만 수천만의 행이 있다고 생각을 해보자, 효율적으로 고정된 숫자를 임의로 샘플링을 하고 싶다면, 어떻게 효율적으로 할 수 있을까? 샘플링(Sampling) sql select * from my_table limit 1000; 아래와 같이 샘플링을 하면, 고정된 1000개의 rows를 위에서 부터 순서대로 데이터를 가져올 수 있다. 하지만, 동일한 방법으로 1000개를 가져오는 쿼리를 수행하면 같은 데이터가 샘플링이 된다. order by sql select * from my_table order by rand() limit 1000; 그렇다면, 임의로 정렬을 한뒤에 샘플링을 하면 어떨까? 아래와 같이 샘플링을 하면, 임의로 데이터를 정렬을 한 뒤..