発生頻度低いとたいへん (#4482435) | Linuxの起動を29万2612回も繰り返し、1000回に1回発生するバグの原因を特定

「Linuxの起動を29万2612回も繰り返し、1000回に1回発生するバグの原因を特定」記事へのコメント

記事ページを表示すべてのコメント取得

検索109コメント Log In/Create an Account

発生頻度低いとたいへん (スコア:2, 参考になる)

by Anonymous Coward on 2023年06月22日 18時33分 (#4482435)

同じく linux カーネルで 5000台のサーバで、1週間に1回くらいのペースで起こるバグを調査したことあるけど、すごい大変だった。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  おれだったら宇宙線のせいにするかそういうもんだと諦めて運用でカバーする方法を探る
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    何の徴候もなく死んでくれれば、ハード故障とか宇宙線とかのせいにもできたんだけどねー。
    毎回場所が違うけど、どれも明らかにカーネルのバグっぽい死亡メッセージ出してから死ぬ。
    当然ながらディストリビュータは「再現できない」で終わり。
    運用スタッフでは対応できないので、詳しいやつ呼び出せってなって、深夜や休日でも週1のペースで呼び出される。
    めんどうなやつ。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      むかーし昔、Linuxをインストールしたサーバを製造している場所で仕事をしていましたが、
      保守契約があるお客様からそういう話があったら、dump がどこそこに出てるので提供してください。
      bug があったので修正版カーネルを提供いたします。って個別にビルドして提供してたけど、最近は品質下がったのかなぁ
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        単価が下がったのかも
- Re: (スコア:0)
  
  by Anonymous Coward
  
  自分も諦めそうなバグだなあ。
  解決したような感じなのでどうやって糸口を見つけたのか聞いてみたい。
  - Re:発生頻度低いとたいへん (スコア:4, 興味深い)
    
    by Anonymous Coward on 2023年06月23日 12時08分 (#4482939)
    
    1. 発生か所はバラついてるんだけど、発生か所や運用状況に基いて関係しそうなところ全部にログ出力や情報追加などを仕込んだ特殊カーネルを準備して全台を入れ換えて発生を待つ（ライブマイグレーションでタスクを一時的に別のサーバに逃がしてその間に再起動）
    2. 発生したら、その時出力された情報を元にさらに場所を絞り込んで、カーネルを修正して入れ換えという地味な作業を繰り返す
    3. 原因っぽいものが特定できたら、対策（したつもりの）カーネルを準備して半分だけ入れ換えて発生頻度を見る
    4. 次に対策した半分を元に戻し、対策してなかった半分を対策したものに入れ換えて発生頻度を見る（ハードや実行タスクの影響の可能性を排除するため）
    5. 対策版と未対策版に発生頻度に違いがあれば原因に近い何かであることが確定
    （この時のはロックのレース・コンディションだった。ロックの場所じゃなくて、ずっと先のリソースのアクセス中でこけるので特定がやっかいなやつ。それも似たようなのが2個所あって、1か所の対策では頻度が減るだけで直らなかった）
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      これは嬉しい。貴重な話をありがとうございます。
      ライブマイグレーションを使われているということは既に稼働している本番環境でのデバッグということで、さぞかし神経をすり減らすような仕事だったんでしょう。今更ながら本当にお疲れさまでした。
      4の作業には目からウロコが落ちました。わざわざ問題があるものに戻すという発想はなかったです。でも理由も納得なプロフェッショナルな仕事ですね。
      大昔にUNIXのドライバを書いたときに排他制御のために使うプライオリティレベルの設定に関係するバグで悩んだことを思い出しました。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  5000台のサーバとなると自前のテスト環境ではなく顧客先の本番環境だろうし、プレッシャーが半端なさそうで想像するだけで胃が痛くなってきそうだw

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

Linuxの起動を29万2612回も繰り返し、1000回に1回発生するバグの原因を特定 More ログイン

「Linuxの起動を29万2612回も繰り返し、1000回に1回発生するバグの原因を特定」記事へのコメント

発生頻度低いとたいへん (スコア:2, 参考になる)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:発生頻度低いとたいへん (スコア:4, 興味深い)

Re: (スコア:0)

Re: (スコア:0)

スラド