はじめまして、fukuda-yoです。
KLabで毎月行われているALM(All Layer Meeting)という勉強会のレポートをお伝えします。

ALMとは
ALMとはAll Layer Meetingの略で、職種・役職・発表内容を問わない勉強会・発表会です。
内容的に高度なものである必要はありませんが、発表者自身が工夫した箇所があることを求められます。
また、発表者にはプレゼン練習、聴衆には質問する能力を養う機会を提供する目的もあります。
開催は東京六本木の本社で行われますが、TV会議システム、インターネットを通じて国内外の拠点に配信を行っています。

4月の発表テーマは「障害」ということで、
今までに経験した障害を通して学んだことや注意すべきことについて発表してもらいました。


山田大久「ネットワーク障害のはなし」(福岡より発表)
IMG_2355
まず最初はネットワーク障害についての発表でした。
対象ネットワーク内で運用している全てのサービスが停止してしまった、
という特に影響の大きかったものです。
冗長化された複雑なネットワーク内で外部からの接続ができない状況で
データセンターでハードウェア障害の箇所を特定していく過程を話してもらいました。
途中、一緒に障害対応をしていたCTOの安井からも補足説明があり
普段インフラを触る事の少ないエンジニアには貴重な話となりました。


牧内大輔「ドッペルゲンガー事件」
IMG_2363
あるゲームの対戦イベントで起こった障害で、
本来戦えないはずの自分自身と戦えてしまい、
勝利すると自分のステータスが下がってしまうという障害についての話。
原因はプログラムのバグとインスタンスプールの誤用で
該当バグの説明とともに、
SymfonyでPropelを使った時のインスタンスプールの挙動についても説明してもらいました。
復旧の際に思ったよりも時間がかかってしまったことも反省点として、
これ以降の開発に生かされています。
この障害を通して周りの人に聞いたりいろいろ調べたりして
最終的に自分自身が成長できたことから、
「他案件の障害でも積極的に手伝おう」ということを心がけているそうです。


新田祐介「お正月をかえせ!」
IMG_2379
3番目は年末に起こった障害についての発表でした。
障害が起こった時間はなんと年越し直前。
SQL文のオペレーションミスとバックアップ不備が重なり復旧がかなり難しい状況に。
「なんで正月から仕事してるの?」という家族や親戚からの発言に心を削られながらも
開発・企画メンバーの協力があって、なんとか復旧できたようです。
一人でクリティカルな作業をしないとか、チェック後にコミットするとか
「あたりまえの事をあたりまえにしよう」という教訓を得たそうです。


【特別枠】死にそうになった話
水島和洋「死〜_YASASHISA_2013_Remix」
佐藤雄一「死にそうになった話」
IMG_2392
IMG_2398
今までの経験で死にそうになった時の話をしてもらいました。
各人が危機的な状況からいかにして生き延びる事ができたのかを聞きつつ、
状況(技術的・精神的)の凄まじさに驚愕したりしながら盛り上がりました。

今回のALMは過去の障害について振り返り、
実際に経験しなかった人にも情報を共有する場として
多くのエンジニアが参加し盛り上がりました。
IMG_2380

次回のレポートもご期待ください!