パスワードを忘れた? アカウント作成
15819734 story
Linux

リーナス・トーバルズ氏が使用するPCのメモリ不良のためLinuxカーネルの開発が滞る 55

ストーリー by nagazou
突然死 部門より
Linuxの生みの親であるLinus Torvalds氏はメーリングリストで、Linuxカーネルのバージョン6.1のコードのマージが遅れていると告知した。「新しいECCメモリDIMMが届く」のを待っているためだという。同氏によればここ2、3日ほどメインのデスクトップPCが不安定となっており、allmodconfigのビルドがコンパイラの内部エラーで失敗する事例が多発していたらしい(Linus Torvalds氏のメールThe Register)。

こうした場合は、たいていは新しいカーネルのバグだとして原因を探していたがものの、バグではなく原因はPC側の不調だったそうだ。Memtest86+を回して確認したところ、メモリエラーが起きていたことが判明したとしている。仕方ないのでメモリが届くまでラップトップを使って、ゆっくりとカーネルのマージをおこなっていたとのこと。
この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2022年10月12日 12時26分 (#4342569)

    カーネル開発のトップなんだから、予備含めてメモリ3ダース位送ってあげてよ。

    • by Anonymous Coward

      カーネル開発のトップなんだから、予備含めてメモリ3ダース位送ってあげてよ。

      つか今どきローカルリソースしか使えないってのもなんだかなぁってとこじゃないかな
      マージもテストビルドもクラウドでできんもんなのかね
      「マージしといたよ けど俺のマシーンはメモリ交換必要だから さきにおまいらでテストしててちょ」
      ってかんじで

      • by Anonymous Coward

        コメント主ではありませんが;
        近頃こういう手合いが増えた気がして世間の世知辛さが身に染みる

        # ほんとにカーネル・サンダースって聞いたことないの?

        • by Anonymous Coward
          マジレスとマージをかけた高度なジョークとか
          ちゃうか?
        • by Anonymous Coward

          そういうやつには、トラック9台分のテープを送りつけてやれ
          # だっけ?

    • by Anonymous Coward

      気の早いクリスマスですか。

      • by Anonymous Coward

        クリスマスが今年もやってくる♪

        // クリスマスにケンタッキーを食べるのは日本人だけ

        • by Anonymous Coward

          // ケンタというか、チキンを食うというと、本場の人(ターキーを食う人)は笑うそうですよw

    • by Anonymous Coward

      マルチバースからやってきた悪のカーネルサンダースを倒すために全マルチバースの正義のカーネルサンダースがジャスティスリーグにさんかするんですか?

      • by Anonymous Coward

        バースが何人もいたら、悪のカーネルサンダースはすぐに道頓堀に沈められてしまうのでは

        #今年はまだ可能性がわずかに

  • by Anonymous Coward on 2022年10月12日 12時37分 (#4342577)

    Ryzen SEGV Battleを思い出しますね

  • by Anonymous Coward on 2022年10月12日 12時49分 (#4342585)

    ECCメモリって壊れると不安定になるの?
    異常が発生したらエラーを出すとか、コンピュータを停止するなどして不定な結果を残すさないなどの仕組みがあると思っていた。
    不安定になっておかしな挙動をするなら普通のメモリと変わらないんじゃない?

    • by Anonymous Coward

      ECCメモリって壊れると不安定になるの?

      べつにECCでなくてもメモリエラーならコンパイルエラーでるもんでしょ
      小さなものならたまたまエラー領域踏まずに通ることもあるけどね

    • by Anonymous Coward

      ECCメモリって壊れると不安定になるの

      ECCのチェックは物理故障のためではなくデータ化けなどのソフトエラー訂正なので
      今回のような物理故障は訂正の対象外なのですよ

      • by Anonymous Coward

        単純なSECDEDとすると、固定故障も1つなら救えるけど、救ってる段階でただのパリティーつきメモリみたいなものになる。
        それはECCではない。でも救ってる。

        ログ見て怪しかったら即交換しないとECCメモリの意味ないよね。パリティーメモリとほぼ同じ。

    • by Anonymous Coward

      今まで非ECCメモリ使ってたけど不安定になったからECCメモリに切り替えたと読んだけど違うのかな。
      ECCメモリ使ったことないから故障時の挙動が分からんというか、使ったことあってもメモリが壊れる事態は稀か。

      • by Anonymous Coward

        物理故障ならECCの有無に差はないよ
        データ化けのエラー訂正があるか否かの違いしか無い
        物理故障で正しくぶっ壊れているなら訂正しようがない

        • by Anonymous Coward

          メモリの物理故障って大抵データが化けるんじゃないか?
          書き込み時・読み込み時に狂ったデータを返すってんなら分からない理屈だろうけど、メモリの故障って正常に書き込んだデータを読み出す時に違う値になってるってもんじゃないの?
          ただでさえメモリの故障は稀だけど、ECCで訂正できないだけじゃなくMemtest86+回すまで確信できない壊れ方なんてするもんかな。

          実はCPU側とかが壊れてるなら分かるけど。

  • by Anonymous Coward on 2022年10月12日 12時51分 (#4342586)

    メモリーチェッカー使わないと故障がわからないのか

    • そらそうよ。kernelがエンバグしたのと、メモリ周りのハード理由のどちらでメモリ破壊の果てにクラッシュしたのかはぱっと見区別がつきにくい。
      ECCは64bit中1bitまで補正(回復)できて、2bitまでは検出できる、とかなのでそれを超えたら無力。
      --
      # rm -rf ./.
      親コメント
    • by Anonymous Coward on 2022年10月12日 13時55分 (#4342622)

      一般的なLinuxディストリビューションなら/var/messagesにエラーが出力されますよ。
      Mon DD HH:MM:SS machine-name kernel: EDAC MC1: 16 CE error on CPU#1Channel#1_DIMM#0 (channel:1 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
      Mon DD HH:MM:SS machine-name kernel: EDAC MC1: 6 CE error on CPU#1Channel#1_DIMM#0 (channel:1 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
      Mon DD HH:MM:SS machine-name kernel: EDAC MC1: 32745 CE error on CPU#1Channel#1_DIMM#0 (channel:1 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
      こんな感じ。

      親コメント
      • by Anonymous Coward

        Windowsだとログに出ないから見られないよね。

        • by Anonymous Coward

          >Windowsだとログに出ない

          本当に?ちゃんと確認した?

        • by Anonymous Coward

          NT4時代でもシステムログにBMCやIPMIとかのドライバが吐いてくれたぞ。
          今時の標準的な実装なら、ソースが Microsoft-Windows-WHEA-Logger [microsoft.com](GUIならWHEA-Logge)で記録されてる。
          メモリエラー時の中身はこんなの [microsoft.com]

          • by Anonymous Coward

            > 自動的に該当メモリブロックを使わないようになる
             
            Linuxにもこれに相当する悲しきパッチとかありませんでしたっけ。
            たしか手動でメモリブロックを指定した気が。

            • by Anonymous Coward

              BadRAM [linuxjf.osdn.jp]かな?

              # 20年近く前のDebianのインストールガイドとかに避け方とか書いて有ったような薄い記憶。

            • by Anonymous Coward

              パッチを当てなくても使用するか使用しない物理アドレスを指定できて歯抜けもできたよ。
              昔特定アドレスが故障したDIMM使ってた。
              カーネルコマンドラインのこれかなあ?
              memmap=

    • by Anonymous Coward on 2022年10月12日 15時37分 (#4342680)

      Linus本人がメールに書いてる

      普段はECC付きを使うんだけど、今使ってるデスクトップを組んだ時はコロナ禍でECCが高くて買う気になれず、そのままECC無しRAMを購入、そのまま使い続けていた。で、今回メモリエラー発生。ECC付きメモリを購入。 ってことみたい。

      親コメント
      • by Anonymous Coward

        あれだけIntelは一般向けにECC使わせないのはけしからん!!って騒いだのに?
        それにLinusほどの人がメモリの代金ケチってECC無しを買うというのがちょっと意外。
        それなりに稼いでると思ってたけど。
        立場を考えればECC有無どころかマシンだって何重にも予備があってもよさそうなのに。

        • by Anonymous Coward on 2022年10月12日 17時26分 (#4342756)

          以前、Linusが新調したPCのスペックで
          CPUだけで80万ぐらいしてたのを見て
          わいのメインPC何台買えるんだよ!とか目をむいてたわwww

          親コメント
          • by Anonymous Coward

            藤井聡太竜王のようにRyzen Threadripperですかね?
            Linusは以前にAVX512を嫌う発言をしてたので、Xeonではないと思いますし。

            • by Anonymous Coward

              コンパイル速度では、今はAMDがかなり強いのですよね。
              https://www.phoronix.com/review/amd-ryzen-7900x-7950x-linux/4 [phoronix.com]

              これはコンシューマ向けのCPUだけど、サーバ向けも同様。
              EPYC使わない理由が無いぐらいに差があるので、この分野でXeonを選ぶ理由が無い。

    • by Anonymous Coward

      1ビットのパリティだと偶数個ビット死んだとき分からないんじゃなかったかな。
      あとは、負荷かけたときに不意にエラー出るとか癖が悪いとECCすり抜けるかも。
      月に一回はmemtest86回すといいかもね。
      windows update掛かったときとかにでも。

      • by Anonymous Coward

        あと、#4342592が書いてるようにメモリセル以外の場所、たとえばエラー訂正ロジックやアドレス選択などの部分が不安定になったらECCではどうにもならない。
        部品点数やDRAMの原理的な不安定さから、一番エラーが発生しやすいのはメモリセルだけどね。

  • by Anonymous Coward on 2022年10月12日 13時01分 (#4342593)

    以前にも、ECCメモリを標準にすべし!とか吠えていなかったっけこの人。
    他の人も言ってるけど、マシンまるごと予備機スタンバっておけばいいのにね
    マシンまるごとミラーリングするのってなかったっけ?

    • by Anonymous Coward

      BCPがなってないというか何というか

      何かあったときのバックアップ環境を用意する費用やら人員やら余裕で調達できそうなものだけど

    • by Anonymous Coward

      きっと安心して使えるこだわりのものがあるんですよ。
      Linusの安心毛布って奴で。

    • by Anonymous Coward

      マシンを正副予備の三系統用意すると。

    • by Anonymous Coward

      普通のPCでもメモリミラーリングぐらいできてもよさそうなのにそんなに難しい技術なんか

      • by Anonymous Coward

        ミラーリングって、どっちかが稼働しないくらいに壊れたときにしか意味無いのでは?

  • by Anonymous Coward on 2022年10月12日 13時57分 (#4342626)

    言ってくれればこっちでやるのに。

  • by Anonymous Coward on 2022年10月12日 16時16分 (#4342697)

    なんか少し前にもPCが不調でコミット遅れてなかったっけ?それだけカーネル開発はPCを酷使するってこと?

    • by Anonymous Coward

      Linux世界の事実上のトップともあろう人物が障害対策出来てないって正直どうなん。
      Linusが突然ポックリ逝った場合誰も何も出来ないというオチにならないよね?

      • by Anonymous Coward

        バックアップ機が移動用のノートしかないというのは驚きだが、
        趣味のボランティアだと考えたらそんなものか。
        Linusの本業が今はなんなのか知らないが、本業用の環境を濫用とかはしてないんだね。

  • by Anonymous Coward on 2022年10月12日 16時25分 (#4342704)

    一人のPCが使えなくなるだけでリリースが遅れるもんなのか……
    Linuxの文化はよくわからないけど中央集権的なものなのかね

    • by nekopon (1483) on 2022年10月12日 16時28分 (#4342708) 日記

      cf. <A HREF="https://ja.wikipedia.org/wiki/%E5%84%AA%E3%81%97%E3%81%84%E7%B5%82%E8%BA%AB%E3%81%AE%E7%8B%AC%E8%A3%81%E8%80%85">これ
      // 単に最終的な決定者であるって話ではある

      親コメント
    • by Anonymous Coward on 2022年10月12日 18時05分 (#4342795)

      最終的なマージを中央集権にしなかったらコンフリクト(単にコードの字面上の意味でも、変更されたコード間の整合性の意味でも)が起こって動かないものができるだけやんけ

      親コメント
typodupeerror

ソースを見ろ -- ある4桁UID

読み込み中...