*** 답변 댓글이 있을 때 글 내용 삭제시 경고 없이 계정이 정지됩니다. ***
*** 개인정보가 포함된 경우 혹은 불법적인 요소의 수정은 가능합니다.***
-------------------------------------------------------------------------------
안녕하세요?
마이닝풀허브 운영자입니다.
최근 풀 점검이 2~3차례 있었는데요.
제가 점검을 좋아해서 자주 하는건 아닙니다;;;;
제 딴에는 최선을 다해 이것 저것 하는데
답변이 좀 늦거나 자세히 설명드리지 않았던 것 같습니다.
좀 더 자세한 설명과 경과보고가 있으면 더 낫겠다 싶어서 이렇게 글을 올리게 되었습니다.
최근 아마존 클라우드 서버를 쓰다가 파일 읽기/쓰기 퍼포먼스에 문제가 생겼었습니다.
어제 저녁 8시쯤부터 평소보다 급격히 성능이 떨어지는게 보이더라구요.
참고로 전 IOPS 라고 읽기/쓰기 성능을 보장받는 추가 과금 서비스를 쓰고 있었기 때문에 절대로 이렇게 떨어지면 안 됩니다.
어쨌든 느닷없이 아마존 서버 쪽에서 문제가 발생하였습니다.
1주일 전에도 비슷한 문제가 있어서 아마존에서 서버를 교체하고 관련 이슈를 보고했었습니다.
(아무리 클라우드 서버여도 서버 교체가 그리 만만하고 쉬운 일은 아닙니다)
아마존을 탓하면서 원인도 모른채 새 가상 서버를 새로 구축하고 넘어갔었는데요;;;
이럴 수밖에 없었던게 두가지 이유가 있습니다.
(1) 일반적으로 아마존 회사는 연락할 방법 자체가 없습니다.
고객지원 문의를 남겨도 여태 답변 하나 안 달려있구요.. 유저들끼리 얘기 나누라는 포럼이나 있고 그렇습니다.
이 포럼은 아마존 직원이 답변을 주기도 하지만 의무적인건 아닙니다.
(2) 그맘 때 쯤 아마존 S3 라는 스토리지 서버스가 다운되는 사태가 벌어졌었습니다.
이미 IT업계의 큰 뉴스라 아실만한 분들은 아실텐데요, 저도 그냥 아마존 S3 때문에 어쩔 수 없이
영향을 받았나보다 하고 새 서버로 넘어갈 수밖에 없었습니다.
왜냐하면 똑같은 가상 서버인데도 새 서버는 성능이 잘 나오고 이전 서버는 영 이상했거든요.
게다가 S3 자체가 스냅샷 파일 I/O 쪽이라 연관성도 크구요.
어쨌든 이게 풀에 영향을 주기 때문에 최대한 빨리 작업을 했었습니다.
그렇게 서버 이전을 완료한 후 며칠을 잘 지냈는데...
13일 월요리 저녁 쯔음부터 새 서버에서도 다시 같은 문제가 발생했습니다.
이 때부터 잠도 거의 못자고 정신없이 일했습니다.
서버 관리하시는 분들은 아실텐데요 이런 일이 자주 발생하면 정말 정말 힘듭니다.
전 그 때 숨이 다 턱턱 막히더라구요;;;
또 서버를 옮겨야 되나... 서버를 옮긴다고 해결이 될까... 하는 온갖 복잡한 심경이 있었습니다.
제가 아마존 문의넣었던 글은 여태 답변도 없고 아마존에 대한 실망이 이만저만이 아니었습니다.
아시다시피 풀은 다른 웬만한 사이트보다 훨씬 가용성이 높아야 합니다.
5분만 접속이 안 되어도 마이너가 일을 안 한다고 문의를 받게 되고
1시간만 접속이 안되면 돈 먹고 튄다고 SCAM 사기꾼 아니냐는 소리까지 듣는 서비스입니다.
이런 부담감 때문에 더 힘들었던 것 같습니다.
아마존 인프라 쪽 문제가 확실하다고 생각되었지만 정말 아무리 찾아봐도 연락할 방법이 없었습니다.
고객지원도 돈을 내면 더 빨리 지원을 해 주는게 있어서 $100 를 결제해서
비즈니스 플랜으로 바꾼 후 외국 스태프와 전화 연결이 되었습니다.
도대체 아마존 인프라 쪽 문제를 왜 내가 돈까지 내고 얘기해야되는지 이해가 안 갔지만
사안은 급하고 달리 방법이 없어서 이렇게 할 수밖에 없었습니다.
그러면서 다른 클라우드 업체로 옮길 것도 감안해서 digitalocean, linode 등 다른 곳들도 알아보기도 했구요;;
거의 한 시간 넘게 외국 얘랑 힘들게 대화하고 원인 분석했습니다.
전 원어민도 아니고, 이런 국제 전화는 통화 음질도 안 좋아서 정말 말 알아듣기도 힘듭니다.
아무튼 이래저래 서버는 정상화 되었습니다.
그 후, 그 사이 서버 작업 때문에 잠시 멈춰 둔 블럭 분배 작업을 다시 시작했었구요.
문제는.... 이더리움이었습니다.
다른 풀들은 발견하는 블럭 개수가 비교적 적은데, 이더리움은 발견하는 블럭이 블럭 보상 계산하는 것보다 더 빨랐습니다.
100개 블럭을 계산할게 남아있는데, 5개를 계산하는 동안 8개가 더 추가되는 그런 상황이었습니다.
이대로 가다가는 끝이 안 나게 될 판이었습니다.
이는 부차적인 데이터가 많이 쌓여있어서 그런 것인데요
관련된 처리를 해주면 속도도 개선되고 이전처럼 자동으로 해결될 문제였지만..
그러기에는 시간이 너무 촉박했습니다.
아시다시피 이런 서버 점검이 생기면 땡글의 최근글들 중 절반이 마풀허 얘기입니다.
최대한 빨리 정상화 시켜야만 했습니다.
그래서 블럭 분배하는 로직에서 성능을 지나치게 잡아먹는 부분을 좀 바꿔서 처리하도록 바꿨습니다.
근데 이 부분에서 작은 버그가 있었고 몇 몇 블럭들에서는 이중, 삼중으로 처리가 되어 몇 배로 분배가 되었습니다.
예를 들어 한 블럭의 보상이 5 ETH 인데 정작 각 개인에게 나눠진 것들을 다 합치면 10 ETH 이 되는 상황이었습니다.
다 그랬던 건 아닙니다. 몇몇 적립 내역들을 찾아서 원상복귀했습니다.
줬다가 뺐은게 아닙니다 ㅠㅜㅠㅠㅜ
그냥 오류를 수정한 것입니다.
적립이 되어있을 때 이미 출금해 가신 분들도 계십니다.
어쩔 수 없죠.. 이미 제 수중에 없는데 그걸 어떻게 원복하겠어요.
아주 큰 금액은 아니지만 제 주머니에서 탈탈 나갔습니다;;
혹시 평소보다 채굴량이 많이 느신 분들 중 반납하고 싶으시면 아래 주소로 보내주시기 바랍니다.
0xb2930b35844a230f00e51431acae96fe543a0347
강요는 아닙니다.
아무튼.. 보상으로 드린 것도 아니구요.
그럴 시간적 정신적 여유도 없었습니다. 서버 정상화하기에도 바빴는걸요;;;
풀 운영이 뭐 이래... 라면서 실망하신 분들도 계실 것이고
채굴량이 이상하다고 생각하시는 분들도 계실텐데...
아무튼 제가 할 수 있는 범위 내에서는 늘 최선을 다했습니다.
참고로 이더리움 채굴 서버들은 전혀 영향을 받지 않았습니다.
완전히 분리된 서버들입니다.
여기까지가 얼추 최근에 있었던 서버 점검의 내막입니다.
원래 I/O 문제는 원인 파악을 했기 때문에 완전히 해결되었습니다.
어제 오늘이 정말 풀 운영하면서 제일 힘들었던 날 같습니다.
벌써 풀을 3년째 운영하고 있습니다.
어르고 달래고 여기까지 왔네요. 지금은 풀이 꼭 자식 같은 느낌입니다ㅎㅎ
미숙한 점은 이해해 주세요. 최선을 다하지만 사람인지라 완벽하지는 않습니다.
감사합니다.