[Çözüldü] Sistem sürekli yeniden başlatılıyor (mce: Machine Check Exception, Kernel Panic)

Başlatan aysberg313, 07 Temmuz 2016 - 21:05:30

« önceki - sonraki »

0 Üyeler ve 2 Ziyaretçi konuyu incelemekte.

aysberg313

Selamlar, konu başlığından da anlaşılacağı gibi sistem sürekli olarak yeniden başlatılıyor. Belli bir süre veya belirli bir işlem esnasında değil. Bazen birkaç dakika içerisinde bazen yarım/bir saat sonra. Ve dediğim gibi belirli bir süreç esnasında değil, bazen bir dosyayı düzenlerken bazen de youtube'da video izlerken vs.

Bu sorun bugün başladı. İlk önce aklıma donanım geldi işlemci veya ram'da bir arıza olabilir diye düşündüm. Bu yüzden mavi ekran verecek mi diye bir de Windows tarafına geçmek istedim. 700 gündür açmamışım Windows'u, tahmin edebileceğiniz gibi güncellemeler... Sistem güncellemelerini yaptım, yazılımları güncelledim (antivirüsten, firefox'a kadar herşeyi). İyice yüklendim sisteme üstüne birkaç saatte oyun oynadım. Tek bir sefer yeniden başlatmadı/mavi ekran vermedi. Forumda konu açmak için tekrar Ubuntu'ya döndüğümde birkaç dakika içinde tekrar siyah ekran verdi hatta mesajı yazabilmek için tty'ye geçmek zorunda kaldım çünkü sürekli gidiyor (bu arada tty'de hiç sorun çıkarmadı).

Hata görüntüsü;

http://s2.dosya.tc/server2/ny3nql/DSC00063.JPG.html

mcelog'u sisteme kurduğumda log dosyasını oluşturdu (sanırım mcelog'u kurduğumda log dosyasını oluşturdu öncesinde var mıydı bilmiyorum). log dosyasının içeriği;

21:02:42 ✘ zifiri@zifiri:~$ cat /var/log/mcelog
mcelog: failed to prefill DIMM database from DMI data
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 0
TIME 1467905381 Thu Jul  7 18:29:41 2016
MCG status:
MCi status:
Uncorrected error
Error enabled
Processor context corrupt
MCA: BUS Level-0 Local-CPU-originated-request Generic Memory-access Request-did-not-timeout Error
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
STATUS b200004000000800 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 23
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 4
TIME 1467896529 Thu Jul  7 16:02:09 2016
MCG status:
MCi status:
Corrected error
Error enabled
MCA: Instruction CACHE Level-1 Instruction-Fetch Error
STATUS 9000000000010151 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 23
mcelog: failed to prefill DIMM database from DMI data
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 0
TIME 1467911218 Thu Jul  7 20:06:58 2016
MCG status:
MCi status:
Uncorrected error
Error enabled
Processor context corrupt
MCA: BUS Level-0 Local-CPU-originated-request Generic Memory-access Request-did-not-timeout Error
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
STATUS b200004000000800 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 23
mcelog: failed to prefill DIMM database from DMI data
Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 0
TIME 1467918244 Thu Jul  7 22:04:04 2016
MCG status:
MCi status:
Uncorrected error
Error enabled
Processor context corrupt
MCA: BUS Level-0 Local-CPU-originated-request Generic Memory-access Request-did-not-timeout Error
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
STATUS b200004000000800 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 23


21:42:21 ✔ zifiri@zifiri:~$ sudo mcelog --ascii < /var/log/mcelog
failed to prefill DIMM database from DMI data
Hardware event. This is not a software error.
MCE 0
Hardware event. This is not a software error.
CPU 0 BANK 0
TIME 1467905381 Thu Jul  7 18:29:41 2016
STATUS 0 MCGSTATUS 0
Uncorrected error
Error enabled
Processor context corrupt
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
Hardware event. This is not a software error.
CPU 0 BANK 0
MCG status:
MCi status:
Uncorrected error
Error enabled
Processor context corrupt
MCA: BUS Level-0 Local-CPU-originated-request Generic Memory-access Request-did-not-timeout Error
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
STATUS b200004000000800 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 23
Hardware event. This is not a software error.
MCE 0
Hardware event. This is not a software error.
CPU 0 BANK 4
TIME 1467896529 Thu Jul  7 16:02:09 2016
MCG status:
MCi status:
Machine check not valid
Corrected error
MCA: No Error
STATUS 0 MCGSTATUS 0
Corrected error
Error enabled
Hardware event. This is not a software error.
CPU 0 BANK 0
MCG status:
MCi status:
Corrected error
Error enabled
MCA: Instruction CACHE Level-1 Instruction-Fetch Error
STATUS 9000000000010151 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 23
failed to prefill DIMM database from DMI data
Hardware event. This is not a software error.
MCE 0
Hardware event. This is not a software error.
CPU 0 BANK 0
TIME 1467911218 Thu Jul  7 20:06:58 2016
MCG status:
MCi status:
Machine check not valid
Corrected error
MCA: No Error
STATUS 0 MCGSTATUS 0
Uncorrected error
Error enabled
Processor context corrupt
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
Hardware event. This is not a software error.
CPU 0 BANK 0
MCG status:
MCi status:
Uncorrected error
Error enabled
Processor context corrupt
MCA: BUS Level-0 Local-CPU-originated-request Generic Memory-access Request-did-not-timeout Error
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
STATUS b200004000000800 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 23
failed to prefill DIMM database from DMI data
Hardware event. This is not a software error.
MCE 0
Hardware event. This is not a software error.
CPU 0 BANK 0
TIME 1467918244 Thu Jul  7 22:04:04 2016
MCG status:
MCi status:
Machine check not valid
Corrected error
MCA: No Error
STATUS 0 MCGSTATUS 0
Uncorrected error
Error enabled
Processor context corrupt
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
Hardware event. This is not a software error.
CPU 0 BANK 0
MCG status:
MCi status:
Uncorrected error
Error enabled
Processor context corrupt
MCA: BUS Level-0 Local-CPU-originated-request Generic Memory-access Request-did-not-timeout Error
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
STATUS b200004000000800 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 23
failed to prefill DIMM database from DMI data
Hardware event. This is not a software error.
MCE 0
Hardware event. This is not a software error.
CPU 0 BANK 0
TIME 1467926288 Fri Jul  8 00:18:08 2016
MCG status:
MCi status:
Machine check not valid
Corrected error
MCA: No Error
STATUS 0 MCGSTATUS 0
Uncorrected error
Error enabled
Processor context corrupt
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
Hardware event. This is not a software error.
CPU 0 BANK 0
MCG status:
MCi status:
Uncorrected error
Error enabled
Processor context corrupt
MCA: BUS Level-0 Local-CPU-originated-request Generic Memory-access Request-did-not-timeout Error
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
STATUS b200004000000800 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 23


Tam bu sırada bunlarla uğraşırken aşağıdaki e-maili aldım;

Hi,

In an effort to support a wider variety of hardware within the Ubuntu 14.04 LTS release, the 14.04.2 and newer point releases shipped with hardware enablement stacks composed of updated kernels and graphics stacks.  The intention has always been for these hardware enablement stacks to only remain supported until the introduction of the kernel and graphics stack derived from 16.04.  On August 4, 2016, the 5th and final point release for 14.04 (ie. 14.04.5) will deliver the kernel and graphics stack derived from 16.04.  At that time, security updates and bug fixes for older hardware enablement stacks will no longer be provided.  All users of older hardware enablement stacks will be encouraged to update to the 16.04 hardware enablement stack or fully upgrade to the Ubuntu 16.04 LTS release.  Instructions for updating will be provided in the 14.04.5 release notes and added to the following wiki as we approach the 14.04.5 point release.

https://wiki.ubuntu.com/Kernel/LTSEnablementStack

Thanks,
The Ubuntu Kernel Team


Sistem bilgisi;

21:03:37 ✘ zifiri@zifiri:~$ lsb_release -a
LSB Version: core-2.0-amd64:core-2.0-noarch:core-3.0-amd64:core-3.0-noarch:core-3.1-amd64:core-3.1-noarch:core-3.2-amd64:core-3.2-noarch:core-4.0-amd64:core-4.0-noarch:core-4.1-amd64:core-4.1-noarch:security-4.0-amd64:security-4.0-noarch:security-4.1-amd64:security-4.1-noarch
Distributor ID: Ubuntu
Description: Ubuntu 14.04.4 LTS
Release: 14.04
Codename: trusty


21:37:52 ✔ zifiri@zifiri:~$ uname -a
Linux zifiri 3.13.0-91-generic #138-Ubuntu SMP Fri Jun 24 17:00:34 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux


Dün ve ayın ikisinde de bir kaç güncelleme gelmişti, bunlar şüpheli olabilir mi?;

19:45:47 ✔ zifiri@zifiri:~$ cat /var/log/apt/history.log

Start-Date: 2016-07-02  08:08:00
Commandline: aptdaemon role='role-commit-packages' sender=':1.127'
Upgrade: oxideqt-codecs-extra:amd64 (1.15.7-0ubuntu0.14.04.1, 1.15.8-0ubuntu0.14.04.1), p7zip-full:amd64 (9.20.1~dfsg.1-4+deb7u1build0.14.04.1, 9.20.1~dfsg.1-4+deb7u2build0.14.04.1), p7zip:amd64 (9.20.1~dfsg.1-4+deb7u1build0.14.04.1, 9.20.1~dfsg.1-4+deb7u2build0.14.04.1), chromium-codecs-ffmpeg-extra:amd64 (50.0.2661.102-0ubuntu0.14.04.1.1117, 51.0.2704.79-0ubuntu0.14.04.1.1121), chromium-browser-l10n:amd64 (50.0.2661.102-0ubuntu0.14.04.1.1117, 51.0.2704.79-0ubuntu0.14.04.1.1121), liboxideqtcore0:amd64 (1.15.7-0ubuntu0.14.04.1, 1.15.8-0ubuntu0.14.04.1), liboxideqtquick0:amd64 (1.15.7-0ubuntu0.14.04.1, 1.15.8-0ubuntu0.14.04.1), liboxideqt-qmlplugin:amd64 (1.15.7-0ubuntu0.14.04.1, 1.15.8-0ubuntu0.14.04.1), chromium-browser:amd64 (50.0.2661.102-0ubuntu0.14.04.1.1117, 51.0.2704.79-0ubuntu0.14.04.1.1121)
End-Date: 2016-07-02  08:09:18

Start-Date: 2016-07-06  14:24:56
Commandline: apt-get upgrade
Upgrade: gimp:amd64 (2.8.10-0ubuntu1, 2.8.10-0ubuntu1.1), unity:amd64 (7.2.6+14.04.20151021-0ubuntu1, 7.2.6+14.04.20160408-0ubuntu1), libunity-core-6.0-9:amd64 (7.2.6+14.04.20151021-0ubuntu1, 7.2.6+14.04.20160408-0ubuntu1), libgimp2.0:amd64 (2.8.10-0ubuntu1, 2.8.10-0ubuntu1.1), tzdata-java:amd64 (2016d-0ubuntu0.14.04, 2016f-0ubuntu0.14.04), unity-services:amd64 (7.2.6+14.04.20151021-0ubuntu1, 7.2.6+14.04.20160408-0ubuntu1), libimobiledevice4:amd64 (1.1.5+git20140313.bafe6a9e-0ubuntu1, 1.1.5+git20140313.bafe6a9e-0ubuntu1.1), libservlet3.0-java:amd64 (7.0.52-1ubuntu0.3, 7.0.52-1ubuntu0.6), libldap-2.4-2:amd64 (2.4.31-1+nmu2ubuntu8.2, 2.4.31-1+nmu2ubuntu8.3), libldap-2.4-2:i386 (2.4.31-1+nmu2ubuntu8.2, 2.4.31-1+nmu2ubuntu8.3), gimp-data:amd64 (2.8.10-0ubuntu1, 2.8.10-0ubuntu1.1), libtomcat7-java:amd64 (7.0.52-1ubuntu0.3, 7.0.52-1ubuntu0.6), tzdata:amd64 (2016d-0ubuntu0.14.04, 2016f-0ubuntu0.14.04)
End-Date: 2016-07-06  14:26:00

Start-Date: 2016-07-07  15:32:13
Commandline: apt-get install mcelog
Install: mcelog:amd64 (100-1fakesync1)
End-Date: 2016-07-07  15:32:3


Çözümü var mı acaba? Yükseltmemiz mi gerekecek, 16.04'mü istiyor yoksa çekirdeği mi yükseltsek? Araştıramıyorum da kapanıp duruyor elim kolum bağlandı. Şimdiden teşekkürler.

Ek olarak, sistem ısılarıda normal düzeyde. Malum yaz geldi, bir iki hafta kadar önce fanları falan temizlemiştim.

08:57:24 ✔ zifiri@zifiri:~$ sensors
radeon-pci-0100
Adapter: PCI adapter
temp1:        +49.5°C  (crit = +120.0°C, hyst = +90.0°C)

coretemp-isa-0000
Adapter: ISA adapter
Core 0:       +44.0°C  (high = +78.0°C, crit = +100.0°C)
Core 1:       +35.0°C  (high = +78.0°C, crit = +100.0°C)

f71882fg-isa-0a00
Adapter: ISA adapter
+3.3V:        +3.28 V 
in1:          +1.17 V  (max =  +2.04 V)
in2:          +0.96 V 
in3:          +0.78 V 
in4:          +0.97 V 
in5:          +1.10 V 
in6:          +0.90 V 
3VSB:         +3.28 V 
Vbat:         +3.22 V 
fan1:        2683 RPM
fan2:        1738 RPM
fan3:        1775 RPM
fan4:           0 RPM  ALARM
temp1:        +35.0°C  (high = +85.0°C, hyst = +81.0°C)
                       (crit = +100.0°C, hyst = +96.0°C)  sensor = transistor
temp2:        +40.0°C  (high = +85.0°C, hyst = +81.0°C)
                       (crit = +104.0°C, hyst = +100.0°C)  sensor = thermistor
temp3:        +38.0°C  (high = +70.0°C, hyst = +68.0°C)
                       (crit = +85.0°C, hyst = +83.0°C)  sensor = transistor


Ek.2, Aşağıdaki bağlantıda belirtildiği üzere, mce (machine check exceptions) hemen hemen her zaman donanımsal sorunlardan kaynaklanmakta.

http://www.advancedclustering.com/act-kb/what-are-machine-check-exceptions-or-mce/

Ramlari memtest ile test ettim, ramlarla sorun yok. İşlemci arızalı olsa ramlari test ettiği sırada makina yeniden başlatılması gerekmez mi? Bu açıdan şimdilik işlemci üzerinde durmuyorum kaldı ki birkaç saat Windows tarafına geçtim dediğim gibi orada hiç sorun çıkmadı. Şu an tam olarak ne yapmam gerektiğini bilmiyorum. Sanırım çekirdek yükselteceğim.

Ek.3, Çekirdeği yükselttim, aşağıdaki paketleri yükledim. Değişen bir şey yok, fayda etmedi;

12:01:57 ✔ zifiri@zifiri:~$ ls -al İndirilenler/hata/kernel/
toplam 62264
drwxrwxr-x 2 zifiri zifiri     4096 Tem  8 11:24 .
drwxrwxr-x 3 zifiri zifiri     4096 Tem  8 11:23 ..
-rw-rw-r-- 1 zifiri zifiri  9074736 Tem  8 11:24 linux-headers-3.16.36-031636_3.16.36-031636.201606152333_all.deb
-rw-rw-r-- 1 zifiri zifiri   686982 Tem  8 11:23 linux-headers-3.16.36-031636-generic_3.16.36-031636.201606152333_amd64.deb
-rw-rw-r-- 1 zifiri zifiri 53980300 Tem  8 11:24 linux-image-3.16.36-031636-generic_3.16.36-031636.201606152333_amd64.deb


Ek.4, Şu an Windows'da da mavi ekran aldım. Ram'larda sorun yok, dediğim gibi memtest ile test ettim. İşlemciyi, ekran kartını ve anakartı Linux üzerinde test edebileceğim, arıza tespiti yapabilecek bir yazılım var mı?
Sevmezdim kabuklu yemiş, Linux çekirdeği tadıncaya dek !..

heartsmagic

Windows tarafında hemen olmaz, bizim taraf daha hassas davranabiliyor bu konularda ya da tam tersi olabiliyor diyecektim ki Windows'ta da mavi ekran görmüşsün. mcelog tarafı da hata yakaladığına göre olay çok yüksek ihtimalle donanıma kaymakta. O konuda da büyük ölçüde işlemci tarafı gibi, hata kaydında da ona işaret ediyor sanki. İşlemciyi zorlamak için stress aracını kullanabilirsin:

sudo apt-get install stress
stress -c 4


Dört çekirdek için yukarıdaki gibi kullanılıyor. Kendine göre ayarlarsın. Takip edersen dört çekirdeğin birden %100 oranında kullanıldığını görürsün.
Hayattan çıkarı olmayanların, ölümden de çıkarı olmayacaktır.
Hayatlarıyla yanlış olanların ölümleriyle doğru olmalarına imkân var mıdır?


Böylece yalan, dünyanın düzenine dönüştürülüyor.

aysberg313

@heartsmagic, saygılar. Allah sizi başımızdan eksik etmesin :) Bu sefer sizin bile çözebileceğinizi sanmıyordum ;D O kadar ümitsizdim ama şıp diye koydunuz teşhisi çok utandım.

Konuyu kapatmak için sipariş ettiğim işlemcinin gelmesini bekliyordum. Sıkıntı işlemciden kaynaklanmakta, işlemci arızalanmış. Aynı veya benzer sorunu ileride yaşayabilecek arkadaşlar için olanı biteni çok kısaca özetleyip konuyu kapatacağım. Ama önce bir de gelecek olan yeni işlemciyle test edip emin olmak isterim. Şimdilik konuyu çözüldü olarak etiketlemiyorum, bir aksilik çıkmazsa yarın veya yarından sonra sorun çözülmüş olacak, tekrar teşekkürler.
Sevmezdim kabuklu yemiş, Linux çekirdeği tadıncaya dek !..

heartsmagic

O güzel duaya amin denir, sonra da hepimize sağlıklı, uzun bir ömür dilenir :)
Geçmiş olsun diyeyim, umarım yeni işlemcidir kesin sorun yapan ve güzelce çalışır da aldığını geri vermeyle uğraşmazsın bir daha.
Hayattan çıkarı olmayanların, ölümden de çıkarı olmayacaktır.
Hayatlarıyla yanlış olanların ölümleriyle doğru olmalarına imkân var mıdır?


Böylece yalan, dünyanın düzenine dönüştürülüyor.

aysberg313

Sorun benim açımdan çözülmüştür. Problemin işlemci arızası olduğu kesinleşti. Yaklaşık 1.5-2 gün kadar elimdeki eski işlemcilerden biri ile test ettim (Pentium 4). Dün öğleden itibaren de yeni işlemciyi kullanıyorum (Core 2 Duo E8400). Artık herhangi bir hata vermiyor. Yalnızca işlemci sıcaklığı biraz artmış durumda. Daha önce, eski işlemci ile (Core 2 Duo E8200) 45-55 derece arasıydı. Şu an 55-65 derece arası. Bu da sanırım frekanstan kaynaklanmakta. Önceki işlemci 2.7GHz'di yeni işlemci 3.0GHz.

Elbette bu ve buna benzer sorunları hatta hiçbir sorunu kimsenin yaşamasını istemem ancak şüphesiz ki her yeni hatada her yeni sorunda yeni bir şeyler öğreniyoruz ve problem her ne kadar Ubuntu'dan kaynaklanmasada ileride bu durumla karşılaşacak arkadaşlar için belirtmek istediğim bir şeyler var.

GNU/Linux'ta ki siyah ekran Windows'ta ki mavi ekrana karşılık gelmekte. Biraz daha teknik bir dille yaklaşmak gerekirse Machine Check Exceptions/MCE hatası olarak adlandırılmakta. Sistem çapında yani yazılımsal veya donanımsal bir tutarsızlık ortaya çıktığında kalıcı ve daha büyük bir arızaya sebebiyet vermemek için sistemin şalteri indirdiği bir güvenlik mekanizması diyebiliriz buna. Bu durum ilk kez ortaya çıktığı zaman sistemi yeniden başlatmanız yeterli olacaktır ancak sürekli olarak tekrar ediyorsa teşhis edilip giderilmesi gereken nur topu gibi bir arızaya sahip olduğunuz anlamına gelmekte. Yani başınız belada ancak endişelenmeyin, sebebine biraz sonra geleceğim. Bu noktada değinmek istediğim bir şey var. Bu sorun ortaya çıktığında donanımsal olup olmadığından emin olmak için bir de Windows tarafına geçip mavi ekran alıp almayacağımı görmek istedim. Neredeyse tüm gün Windows'u tam yükte kullanıdığım halde ve Ubuntu 1-30 dakikalık periyodlarla hata ekranı verdiği halde Windows mavi ekran vermedi, ertesi gün verdi. Bu sorunla karşılaşan diğer kullanıcıların tecrübe ettiği ve @heartsmagic'in de işaret ettiği gibi Windows bu konuda biraz daha töleranslı (avantaj mıdır tartışılır). GNU/Linux yani en azından Ubuntu çok daha kısa sürelerde hata ekranına düşüyor ve insanı çileden çıkarıyor (dezavantaj mıdır tartışılır). Ancak bu noktada bizim taraf yani GNU/Linux kullanıcıları biraz daha şanslı çünkü kullanıcıya sunulan hata raporu daha okunaklı. Ve bu hata raporu üzerinde çalışabilmek ve analiz yapabilmek için geliştirilmiş mcelog ve benzeri yazılımlar mevcut (Windows tarafında mcat vb.).

Bu hata ekranında (Machine Check Exceptions (ya da MCE)) dikkat edilmesi gereken husus hatanın tipi. İki büyük hata tipi mevcut. Birincisi sistemin kapatılmasına sebep olmayan ve raporun log dosyalarına yönlendirildiği uyarı hatası. İkincisi ise sistemin kapatılmasına sebep olan ve yaygın şekilde "fatal error" olarak bilinen ölümcül hata. Sanırım, isimleri ve tiplerinden ziyade neden kaynaklandığı/sorunun nasıl teşhis edileceği ve nasıl giderileceği üzerinde durmak daha isabetli olur.

MCE/Machine Check Exceptions, işlemci tarafından tespit edilen donanım sorunlarıdır. Ortaya çıkmasının en yaygın sebepleri arasında işlemci önbellek sorunları, bellek arızaları, sistem yolu ve işlemcinin yetersiz soğutulması gösterilmekte. Bazı kullanıcılar CPU-BIOS uyumluluğuna da dikkat çekmekte. Yani yanlış BIOS versiyonu da bu soruna sebep olabilmekte. Microcode-CPU uyumsuzluğunu düzeltelecek olan doğru BIOS versiyonunu tercih ederek sorunu çözenler de var. MCE ile ilgili daha detaylı bilgiyi aşağıdaki linklerden edinebilirsiniz;

https://en.wikipedia.org/wiki/Machine-check_exception
http://www.advancedclustering.com/act-kb/what-are-machine-check-exceptions-or-mce/

Peki sorunu nasıl teşhis edeceğiz? Karşılaşmış olduğumuz siyah ekrandaki hata raporunu bir dosya içerisine ekleyerek mcelog'a girdi olarak vermeniz yeterli.

Örnek hata raporu (Makinanın kapatıldığı anda ekrana yansıtılan rapor);

CPU 0: Machine Check Exception: 5 Bank 5: b200221024080400
RIP !INEXACT! 10:<ffffffff815d56f8> {do_drv_write+0x58/0xa0}
TSC e1d0b68b9f8
PROCESSOR 0:10676 TIME 1467900346 SOCKET 0 APIC 0 microcode 60b
Run the above through 'mcelog --ascii'

CPU 1: Machine Check Exception: 4 Bank 0: b200004000000800
TSC e1d0b68f6d8
PROCESSOR 0:10676 TIME 1467900346 SOCKET 0 APIC 1 microcode 60b
Run the above through 'mcelog --ascii'

CPU 1: Machine Check Exception: 4 Bank 5: b200221010040400
TSC e1d0b68f6d8
PROCESSOR 0:10676 TIME 1467900346 SOCKET 0 APIC 1 microcode 60b
Run the above through 'mcelog --ascii'

CPU 0: Machine Check Exception: 5 Bank 0: b200004000000800
RIP !INEXACT! 10:<ffffffff815d56f8> {do_drv_write+0x58/0xa0}
TSC e1d0b68b9f8
PROCESSOR 0:10676 TIME 1467900346 SOCKET 0 APIC 0 microcode 60b
Run the above through 'mcelog --ascii'

Machine check: Processor context corrupt
Kernel panic - not syncing: Fatal Machine check
drm_kms_helper: panic occurred, switching back to text console
Rebooting in 30 seconds..


Bu hata raporunu log adında bir dosyaya eklediğimizi düşünürsek vermemiz gereken komut aşağıdaki gibidir;

13:58:48 ✔ zifiri@zifiri:~$ mcelog --ascii < log
mcelog: Cannot open /dev/mem for DMI decoding: Permission denied
Hardware event. This is not a software error.
CPU 0 BANK 5 TSC e1d0b68b9f8
RIP !INEXACT! 10:ffffffff815d56f8
TIME 1467900346 Thu Jul  7 17:05:46 2016
MCG status:RIPV MCIP
MCi status:
Uncorrected error
Error enabled
Processor context corrupt
MCA: Internal Timer error
STATUS b200221024080400 MCGSTATUS 5
CPUID Vendor Intel Family 6 Model 23
RIP: do_drv_write+0x58/0xa0}
SOCKET 0 APIC 0 microcode 60b
Run the above through 'mcelog --ascii'
Hardware event. This is not a software error.
CPU 1 BANK 0 TSC e1d0b68f6d8
TIME 1467900346 Thu Jul  7 17:05:46 2016
MCG status:MCIP
MCi status:
Uncorrected error
Error enabled
Processor context corrupt
MCA: BUS Level-0 Local-CPU-originated-request Generic Memory-access Request-did-not-timeout Error
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
STATUS b200004000000800 MCGSTATUS 4
CPUID Vendor Intel Family 6 Model 23
SOCKET 0 APIC 1 microcode 60b
Run the above through 'mcelog --ascii'
Hardware event. This is not a software error.
CPU 1 BANK 5 TSC e1d0b68f6d8
TIME 1467900346 Thu Jul  7 17:05:46 2016
MCG status:MCIP
MCi status:
Uncorrected error
Error enabled
Processor context corrupt
MCA: Internal Timer error
STATUS b200221010040400 MCGSTATUS 4
CPUID Vendor Intel Family 6 Model 23
SOCKET 0 APIC 1 microcode 60b
Run the above through 'mcelog --ascii'
Hardware event. This is not a software error.
CPU 0 BANK 0 TSC e1d0b68b9f8
RIP !INEXACT! 10:ffffffff815d56f8
TIME 1467900346 Thu Jul  7 17:05:46 2016
MCG status:RIPV MCIP
MCi status:
Uncorrected error
Error enabled
Processor context corrupt
MCA: BUS Level-0 Local-CPU-originated-request Generic Memory-access Request-did-not-timeout Error
BQ_DCU_READ_TYPE BQ_ERR_HARD_TYPE BQ_ERR_HARD_TYPE
timeout BINIT (ROB timeout). No micro-instruction retired for some time
STATUS b200004000000800 MCGSTATUS 5
CPUID Vendor Intel Family 6 Model 23
RIP: do_drv_write+0x58/0xa0}
SOCKET 0 APIC 0 microcode 60b
Run the above through 'mcelog --ascii'
Machine check: Processor context corrupt
Kernel panic - not syncing: Fatal Machine check
drm_kms_helper: panic occurred, switching back to text console
Rebooting in 30 seconds..


Yada /var/log/mcelog dosyası da referans olarak alınabilir. Sorunun hangi donanım biriminden kaynaklandığından eminseniz bu raporu direk olarak üreticiye paslayabilceğiniz söylenmekte.

Peki arıza hangi birimde bilmiyor ve teşhisi biz kendimiz koymak istiyorsak? Bu opsiyonda işler biraz karışıyor. Kaldı ki benim sorunumda arıza işlemcide olduğu halde ve bizzat işlemci üreticisi tarafından işlemci sorunlarını teşhis etmek için geliştirilmiş olan yazılım ile (Intel Processor Diagnostic Tool) işlemciyi test ettiğim halde arızalı işlemci testten geçti. Ve başka donanım birimine yönelmiş oldum. Tüm opsiyonlar tükenince elimdeki eski bilgisayarlardan bir tanesinin işlemcisi ile işlemciyi değiştirip sorunu tespit etmiş oldum ve yeni işlemci siparişi verdim.

Kısacası, rengi ne olursa olsun, mavi veya siyah, hata ekranıyla karşılaşıyorsanız elinizde arıza tespit için kullanabileceğiniz yeterli donanım, yedek parça, sabır, zaman ve tecrübe yoksa hiç uğraşmayın en kısa zamanda en yakın yetkili servisin veya bilgisayar tamircisinin yolunu tutun. Son olarak, her ne kadar bizim bilgisayar kullanım alışkanlıklarımız arasında yer edinememiş olsa da bir UPS edinmek şart. Benim yaşadığım bölgede ve binada olduğu gibi çok sık yaşanan elektrik kesintileri ve voltaj dalgalanmaları işlemci (ve aslında başta HDD olmak üzere tüm birimlerin) arızalarının en büyük sebebleri arasında.
Sevmezdim kabuklu yemiş, Linux çekirdeği tadıncaya dek !..

heartsmagic

Hayattan çıkarı olmayanların, ölümden de çıkarı olmayacaktır.
Hayatlarıyla yanlış olanların ölümleriyle doğru olmalarına imkân var mıdır?


Böylece yalan, dünyanın düzenine dönüştürülüyor.