Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
Tags
- Python
- unquote
- encoding
- kerberos
- ssh
- kerberosClient
- install
- python2
- OOM
- PFX
- Spark
- airflow
- hadoop
- hive
- python3
- OutOfMemory
- webhdfs
- OpenSSL
- supserset
- Linux
- CRT
- distcp
- Celery
- setdefault
- executor
- Keygen
- pyhive
Archives
- Today
- Total
목록OOM (1)
복싱하는_개발자.dev
[Spark] spark 작업 시 Java OOM(Out Of Memory) ERROR 처리
스파크 작업 도중에 가장 많이 보는 에러라고 하면 단연코 Java GC 관련 에러가 아닐까 싶다... java.lang.OutOfMemoryError: GC overhead limit exceeded 보통 스파크 내에서 데이터 프레임 작업이 아닌, 해당 데이터 프레임들을 RDD로 변환 시켜서 사용 될 때, 메모리를 너무 많이 사용하게 되면서 발생하는 에러이다. 이 때는 작업이 죽지도 않고, pending 되어 계속 자원을 가지고 있는 경우가 많아서 이후 작업들에도 영향력이 상당하다. 사실 이 에러를 정확하게 처리하기 위해서는 데이터프레임 >> RDD 로 변환되는 작업들을 줄이는 것이 좋지만 로직 상 어쩔 수 없다면 spark-submit 옵션 중 driver-memory를 늘려 주어야 한다. spark ..
Spark
2022. 3. 16. 11:13