먼저 하둡에 데이터가 잘 올라가는지 체크 먼저 해보겠습니다.
stat-computing.org/dataexpo/2009/the-data.html
The data. Data expo 09. ASA Statistics Computing and Graphics
Data expo ‘09 Get the data The data comes originally from RITA where it is described in detail. You can download the data there, or from the bzipped csv files listed below. These files have derivable variables removed, are packaged in yearly chunks and h
stat-computing.org
위 홈페이지에서 미 항공 데이터를 받을 수 있습니다. 연도와 원하는 데이터를 설정해서 받을 수 있습니다.
데이터를 살펴보면 항공기 출발 지연, 도착 지연, 결항 등의 데이터들이 들어있습니다.
저는 mobaxterm을 사용하고 있기 때문에 다운받은 csv 파일을 쉽게 옮길 수 있습니다.
아니면, windows를 사용하시는 중이라면 cmd를 이용하여 현재 vm으로 사용중인 리눅스로 파일을 옮길 수 있습니다.
window to linux (윈도우에서 리눅스로)
$ scp (window경로)파일 (linux경로)계정@서버주소:목적경로
ex) $scp C:\Users\username\airline_delay_causes user@127.0.0.1:/home/username/
반대로 리눅스에서 윈도우로 보내는 방법도 있습니다.
cmd에서 실행할 경우 관리자 권한으로 실행시켜줘야 합니다.
혹시 기본 포트인 22를 사용하지 않고 리눅스에서 22002 포트를 사용하고 있어 이 포트를 이용하려면
$ scp -P (포트번호) (window경로)파일 (linux경로)계정@서버주소:목적경로
위와같이 포트 추가해주시면 됩니다.
linux to window ( 리눅스에서 윈도우로 )
파일 보내기
$scp (linux 계정@서버주소:)파일 (window)목적경로
디렉토리 보내기
$scp (linux 계정@서버주소:)디렉토리 (window)목적경로
ex) $scp user@127.0.0.1:/home/file/ C:\Users\
windows host 설정
C:\Windows\System32\drivers\etc\hosts 로 이동
hosts 파일 검색 -> 메모장으로 실행 -> 맨 밑에 (ip주소) tap (host이름) tap (서버이름) 순서대로 입력
centos7 에서 service httpd start 로 시작했다는 가정하에 (ip주소)/(/www/html/)레포지터리 명 을 입력하면 웹상에서도 간단하게 html을 통해 경로를 볼 수 있습니다.
분산저장 ( 미 항공 데이터 )
해당 데이터의 경우 로컬에 있는 데이터를 hdfs로 가져오는 저장 방식입니다.
아래와 같이 경로를 지정하면 HDFS에 데이터를 저장할 수 있습니다.
§ hdfs dfs -put ‘Local Directory OR File’ ‘HDFS Directory OR File’
$ hdfs dfs -ls / 파일 경로 탐색
파일 경로 탐색을 사용하여 잘 옮겨졌나 확인해보세요.
분산처리
mapreduce를 활용한 작업입니다.
-docs.microsoft.com/ko-kr/azure/hdinsight/hadoop/apache-hadoop-run-samples-linux
HDInsight에서 Apache Hadoop MapReduce 예제 실행 - Azure
HDInsight에 포함된 jar 파일의 MapReduce 샘플을 사용하여 시작하세요. SSH를 통해 클러스터에 연결한 다음 Hadoop 명령을 사용하여 샘플 작업을 실행합니다.
docs.microsoft.com
wordcount 작업이 잘 되면 mapreduce가 정상적으로 작동하는 것입니다. 파일은 davinci.txt 대신 위에서 저장했던 항공데이터를 적용하여 실습해보세요.
'리눅스' 카테고리의 다른 글
서버 시간 지역 설정 ( Seoul로 설정 ) (0) | 2021.09.08 |
---|---|
Anaconda, jupyternotebook 설치 ( Centos 7 ) (0) | 2021.09.08 |
IPV4 ,IPV6 설정 및 Swap Memory, 시스템 파일 개수 설정 (하드링크, 소프트 링크) (0) | 2020.10.19 |
OS Repository 과정 (0) | 2020.10.19 |
yum error : base/7/x86_64 대처방법 (0) | 2020.10.19 |