제가 회사에서 담당하는 서비스가 지난 월요일 저녁시간에 장애가 발생했습니다.
비교적 빠른시간에 장애대처를 할 수 있어서, 서비스는 비교적 빠른 시간 내에 정상화 되었습니다.
회사의 업무 프로세스에 따라,
장애 원인을 보고하고, 장애 재발 방지 대책도 제출했습니다.
그런데, 어느 QA팀장님께서,
저에게는 정말 높으신 분들 줄줄이.., 그리고 수많은 개발 그룹분들을 참조로 넣어서 두가지를 물어오셨습니다.
1. 장애의 원인과 재발방지 대책은?
2. 그리고, 수많은 참조자들에게 보내는.. 이런 장애가 나지 않게 조심하라는 경고.
그런데, 수많은 참조자 앞에서 마치 제가 장애를 일으킨 듯한 저 이메일과..
저는 이미 프로세스를 통해서 보고한 내용(원인과 재발방지 대책) 을..
굳이 저 많은 참조자들을 넣어서 저에게 되물음을 하는 이유는 무엇일까요?
장애 내용 전파를 저에게 원인과 재발방지 대책을 묻는 것과 별개로
사례로서 따로 사내 전파를 하면 안되는 것이였을까요?
굳이 장애 원인 제공자를 따지자면, (제 주관적인 생각입니다만) 저에게는 약 10%의 책임이 있다고 생각됩니다.
제 입장에서 겪은 일은 별것 아닌 일이지만, 신경이 쓰입니다.
이런 일 자체가 신경이 쓰이는 것이 아니고,
회사에서 저런식으로 일하는 분(배려가 부족한..)이 윗분들에게 인정을 받을 것을 생각하면.. 흠..
제가 이런 조직에 있다는 것 자체가...ㅡㅡ;;
My interests: Computer Science, Software Engineering, Web2.0, SNS, Ruby on Rails, Starting business and Google.
2009년 6월 25일 목요일
2009년 6월 18일 목요일
지난 약 2일 동안의 리플링 서비스 장애 사과문
지난 일요일 오후부터 수요일 새벽까지 repling.com 서비스의 장애가 있었습니다.
장애의 원인은 호스팅 서버의 하드디스크 물리적 결함이었고,
대부분의 데이터는 복구가 되었습니다.
그런데 아쉽게도 사용자 프로필 이미지 데이터가 손실되었습니다. 죄송합니다.
번거로우시더라도,
http://repling.com 에 접속하셔서, 다시한번 사용자 프로필 이미지를 등록해 주세요.
앞으로 고객님의 소중한 데이터가 유실되지 않도록 더욱 주의하겠습니다.
앞으로도 지속적인 서비스 이용 부탁드립니다.
PS. 언제나 고객님의 소중한 의견을 기다리고 있습니다.
http://www.repling.com/about/feedback
장애의 원인은 호스팅 서버의 하드디스크 물리적 결함이었고,
대부분의 데이터는 복구가 되었습니다.
그런데 아쉽게도 사용자 프로필 이미지 데이터가 손실되었습니다. 죄송합니다.
번거로우시더라도,
http://repling.com 에 접속하셔서, 다시한번 사용자 프로필 이미지를 등록해 주세요.
앞으로 고객님의 소중한 데이터가 유실되지 않도록 더욱 주의하겠습니다.
앞으로도 지속적인 서비스 이용 부탁드립니다.
PS. 언제나 고객님의 소중한 의견을 기다리고 있습니다.
http://www.repling.com/about/
2009년 6월 15일 월요일
repling.com, newscast.kr 서버장애
호스트웨이에서 서버호스팅을 받고 있는데,
일요일 저녁에 서버 장애가 났습니다.
이용자가 거의 없습니다만,
서버 장애로 인해 불편을 겪으셨다면 죄송하다는 말씀을 우선 드립니다.
아직 정확한 원인 파악이 되지는 않았지만, 하드디스크의 물리적인 장애로 판단됩니다.
jaehyun@newscast:~$ top
-bash: /usr/bin/top: Input/output error
jaehyun@newscast:~$ du
-bash: /usr/bin/du: Input/output error
거의 모든 리눅스 명령어에 위와 같은 IO에러가 발생합니다.
우선, 서버를 복구 해야 하는데..
이 시점에서 장기적인 서버 운영에 대한 여러가지 고민을 하게됩니다.
1. 생각보다 서버호스팅이 책임져 주는 것이 없다는 것입니다.
HDD물리적 고장인데도 불구하고,
서버호스팅 업체에서는 HDD교체 후, OS설치비를 요구할 듯 합니다.
저에게는 적은 금액이 아니라서 OS설치를 해야 하는지 고민입니다.
2. 최근 Google App Engine for JAVA에 Java web project 를 deploy해 보았는데,
생각보다 쓸만합니다. 구글이라 믿을 수도 있습니다.
불편한 점은, JDO, JPA와 같이 Java Persistence Layer를 제공하고,
MySQL등의 RDB를 제공하지 않는다는 것 입니다.
JDO, JPA는 좋은 개념이라고 생각은 되는데, 새로 배워야 한다는 부담과,,
아직 RDB모두를 포괄 할 만큼은 성장하지 않았다고 느껴집니다.
3. Google App Engine for JAVA를 사용하기에 또 다른 불편한점 한가지는
Ruby on Rails를 사용할 수 없다는 것입니다.
Java도 익숙해서 큰 문제는 안됩니다만,
기존 개발된 repling, newscast 서비스가 Ruby on Rails로 개발되어 있습니다.
4. 왠지 믿음이가는 스마일서브 http://www.1000dedi.net 에서 풀 가상화 호스팅 서비스를 시작하였습니다.
이 서비스는 올해 초쯤 시작한듯 하더군요.
http://www.1000dedi.net/docs/renew/core_host/core_host02_01.htm
개인적인 의견이지만 지금 이용하고 있는 호스트웨이보다 스마일서브가 믿음이 갑니다.
월 이용료도 더 저렴한 서비스를 이용할 수 이겠군요..
성능이 어느정도나 나올지는 잘 모르겠습니다.
한가지 걸리는 것은 해외 접속 트래픽을 제한을 한다는 것입니다. (왜 제한을 하는 것인지 궁금하네요.)
작은 서비스이긴 합니다만, 해외 접속도 생각하고 있기에, 이 내용이 조금 걸리긴 하네요.
이번 장애로서 백업의 중요성, 이중화의 필요성을 느끼네요.. (운영장비의 이중화는 비용이 문제.)
작게나마 서비스를 운영해 보면서.. 느끼는것이 많네요..
오래간만에 쓰는 글인데,
두서없이 주저리주저리~~
호스팅 관련하여 좋은 대안이 있으시면 추천해주세요.~~
일요일 저녁에 서버 장애가 났습니다.
이용자가 거의 없습니다만,
서버 장애로 인해 불편을 겪으셨다면 죄송하다는 말씀을 우선 드립니다.
아직 정확한 원인 파악이 되지는 않았지만, 하드디스크의 물리적인 장애로 판단됩니다.
jaehyun@newscast:~$ top
-bash: /usr/bin/top: Input/output error
jaehyun@newscast:~$ du
-bash: /usr/bin/du: Input/output error
거의 모든 리눅스 명령어에 위와 같은 IO에러가 발생합니다.
우선, 서버를 복구 해야 하는데..
이 시점에서 장기적인 서버 운영에 대한 여러가지 고민을 하게됩니다.
1. 생각보다 서버호스팅이 책임져 주는 것이 없다는 것입니다.
HDD물리적 고장인데도 불구하고,
서버호스팅 업체에서는 HDD교체 후, OS설치비를 요구할 듯 합니다.
저에게는 적은 금액이 아니라서 OS설치를 해야 하는지 고민입니다.
2. 최근 Google App Engine for JAVA에 Java web project 를 deploy해 보았는데,
생각보다 쓸만합니다. 구글이라 믿을 수도 있습니다.
불편한 점은, JDO, JPA와 같이 Java Persistence Layer를 제공하고,
MySQL등의 RDB를 제공하지 않는다는 것 입니다.
JDO, JPA는 좋은 개념이라고 생각은 되는데, 새로 배워야 한다는 부담과,,
아직 RDB모두를 포괄 할 만큼은 성장하지 않았다고 느껴집니다.
3. Google App Engine for JAVA를 사용하기에 또 다른 불편한점 한가지는
Ruby on Rails를 사용할 수 없다는 것입니다.
Java도 익숙해서 큰 문제는 안됩니다만,
기존 개발된 repling, newscast 서비스가 Ruby on Rails로 개발되어 있습니다.
4. 왠지 믿음이가는 스마일서브 http://www.1000dedi.net 에서 풀 가상화 호스팅 서비스를 시작하였습니다.
이 서비스는 올해 초쯤 시작한듯 하더군요.
http://www.1000dedi.net/docs/renew/core_host/core_host02_01.htm
개인적인 의견이지만 지금 이용하고 있는 호스트웨이보다 스마일서브가 믿음이 갑니다.
월 이용료도 더 저렴한 서비스를 이용할 수 이겠군요..
성능이 어느정도나 나올지는 잘 모르겠습니다.
한가지 걸리는 것은 해외 접속 트래픽을 제한을 한다는 것입니다. (왜 제한을 하는 것인지 궁금하네요.)
작은 서비스이긴 합니다만, 해외 접속도 생각하고 있기에, 이 내용이 조금 걸리긴 하네요.
이번 장애로서 백업의 중요성, 이중화의 필요성을 느끼네요.. (운영장비의 이중화는 비용이 문제.)
작게나마 서비스를 운영해 보면서.. 느끼는것이 많네요..
오래간만에 쓰는 글인데,
두서없이 주저리주저리~~
호스팅 관련하여 좋은 대안이 있으시면 추천해주세요.~~
피드 구독하기:
글 (Atom)