Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
Tags
- kerberos
- PFX
- distcp
- ssh
- CRT
- supserset
- Keygen
- setdefault
- hadoop
- webhdfs
- airflow
- python3
- Python
- encoding
- OpenSSL
- pyhive
- python2
- unquote
- Celery
- install
- kerberosClient
- OutOfMemory
- OOM
- Spark
- Linux
- hive
- executor
Archives
- Today
- Total
목록webhdfs (1)
복싱하는_개발자.dev
[python] hdfs pickle 그리고 kerberosClient 사용하기
보통 spark를 사용할 때는 하둡과 연동하여 직접 spark driver를 이용하여 쉽게 읽을 수 있다. 하지만 하둡 파일 시스템 내에 pickle 파일이 저장되어 있다면 해당 파일은 python 라이브러리의 pickle 명령어로 읽어야 한다. 이 때, 보안 하둡이 아닌 경우는 hdfs client 라이브러리인 InsecureClient 를 사용한다. (참고: https://hdfscli.readthedocs.io/en/latest/api.html) 하둡의 webhdfs 포트를 이용하여 붙으며 해당 클라이언트로 하둡과 연결되면 직접 파일을 읽을 수 있다. 하. 지. 만 보안 하둡일 경우 이야기가 달라진다...ㅠ InsecureClient 는 라이브러리 이름만 봐도 보안과는 거리가 멀어보이는 것 처럼....
Python
2022. 4. 12. 14:50