본문 바로가기

복싱하는_개발자.dev

검색하기
복싱하는_개발자.dev
프로필사진 개복자

  • 분류 전체보기 (22)
    • Python (4)
    • Spark (3)
    • Hadoop (3)
    • Airflow (4)
    • DB (2)
    • Linux (4)
Guestbook
Notice
Recent Posts
Recent Comments
Link
«   2026/04   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
Tags
  • Python
  • unquote
  • encoding
  • kerberos
  • ssh
  • kerberosClient
  • install
  • python2
  • OOM
  • PFX
  • Spark
  • airflow
  • hadoop
  • hive
  • python3
  • OutOfMemory
  • webhdfs
  • OpenSSL
  • supserset
  • Linux
  • CRT
  • distcp
  • Celery
  • setdefault
  • executor
  • Keygen
  • pyhive
more
Archives
Today
Total
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록OOM (1)

복싱하는_개발자.dev

[Spark] spark 작업 시 Java OOM(Out Of Memory) ERROR 처리

스파크 작업 도중에 가장 많이 보는 에러라고 하면 단연코 Java GC 관련 에러가 아닐까 싶다... java.lang.OutOfMemoryError: GC overhead limit exceeded 보통 스파크 내에서 데이터 프레임 작업이 아닌, 해당 데이터 프레임들을 RDD로 변환 시켜서 사용 될 때, 메모리를 너무 많이 사용하게 되면서 발생하는 에러이다. 이 때는 작업이 죽지도 않고, pending 되어 계속 자원을 가지고 있는 경우가 많아서 이후 작업들에도 영향력이 상당하다. 사실 이 에러를 정확하게 처리하기 위해서는 데이터프레임 >> RDD 로 변환되는 작업들을 줄이는 것이 좋지만 로직 상 어쩔 수 없다면 spark-submit 옵션 중 driver-memory를 늘려 주어야 한다. spark ..

Spark 2022. 3. 16. 11:13
Prev 1 Next

Blog is powered by AXZ / Designed by Tistory

티스토리툴바