Saturday, October 22, 2005

สารพัดปัญหา Samurai

เกี่ยวกับเครื่อง Samurai ที่ประกอบเองลง Linux ไว้ตั้งแต่ปลายปีที่แล้ว

  1. ต้นเดือนตุลา 2005: ขณะอยู่เมืองไทย ssh เข้ามา Samurai สั่งก็อปปี้ไฟล์หนักๆ ปรากฏว่าเครื่องเดี้ยงไปเลย กลับมาญี่ปุ่นเปิดดูหน้าจอ พบว่ามันมีปัญหาในการอ่าน Disk แล้ว Kernel Linux ค้าง (ไม่รู้เมื่อไรจะเลิกค้างเพราะ Disk สักที)

    เห็น Windows Vista โม้ว่าจะมี API ใหม่สำหรับ I/O Cancellation เพื่อแก้ปัญหาโปรแกรมช้าลงหรือค้างจาก I/O ต้องรอดูว่า Windows Vista ออกมาเมื่อไร Linux อาจจะมีตามมา)

    Samurai เครื่องนี้มี Disk 250GB สองตัว อาการ Disk2 บ่งบอกว่าเริ่มไว้ใจไม่ได้ แต่ก็ไม่ได้ทำไรกับมันมาก เพราะเก็บไฟล์ที่ไม่ค่อยได้ใช้ (เพลง & รายการทีวีที่อัดไว้)

  2. พฤหัสที่ผ่านมา: ตัดสินใจล้างเครื่อง Samurai เพราะขาด Windows แรงๆไว้ทำงาน ทำ Partition 40GB บน Disk2 อันนึงให้ว่างเพื่อลง Windows XP ญี่ปุ่น เก็บ Partition Linux ทั้งหมดที่เหลือเอาไว้ เพราะกะว่าจะใช้จาก Windows ผ่าน coLinux คือ ใน Windows ให้ coLinux รันเหมือนเป็น Samurai เครื่องเดิม

    แผ่น WindowsXP ญี่ปุ่นที่กะจะย้าย License มาจากเครื่องเก่าติดตั้งไม่ได้ เพราะมันเห็น HD แค่ 137GB !! อ่านบนเว็บเขาบอกว่าต้องใช้แผ่น Windows XP SP2

    หาแผ่น XPSP2 มาติดตั้ง Windows และ coLinux เสร็จ ลองแก้ config.xml ของ coLinux ให้ root fs เป็น Disk1/Partition1 (Root /) เดิมของ Samurai ดีใจที่ coLinux บูทได้ แต่สักพักพอถึง script knoppix-autoconfig จะตายไปเลย เพราะดูเหมือนพยายามทดสอบหรือติดตั้ง Hardware Module อะไรที่ Kernel ของ coLinux ไม่สนับสนุน

    ลองเอา knoppix-autoconfig ออก (โดยบูทจาก debian image ของ coLinux แล้ว mount / เดิมขึ้นมาแก้) ก็บูทได้จนถึงหน้าจอ Login ของ Samurai เดิม แต่ว่าทำอะไรต่อไม่ได้ (Freeze)

    พยายามลองอีกพักใหญ่ ไม่ดีขึ้น ก็เลยเลิกๆๆ ใช้ Root FS ของมันเองก็ได้(วะ) จัดการ Copy ไฟล์ทั้งหมดจาก debian image ลงใน Partition / จริง แล้วให้ coLinux บูทจาก Partition นี้

    จากนั้นก็ copy sources.lst ฯลฯ จากของเดิม แล้วก็ apt-get upฯลฯ จนได้ Linux Samurai เกือบเหมือนเดิมรันด้วย coLinux อยู่บน Windows Samurai เครื่องเดิม เน็ตเวิร์คก็ให้มัน Bridge เอา มองเห็นจากเครื่องใน LAN เหมือน Samurai เดิมเดี้ย !

  3. มีความสุขได้วันเดียว วันรุ่งขึ้นศุกร์ หัวค่ำ พยายาม Login เข้า Samurai Linux จากที่ทำงาน มันช้าๆๆๆๆมาก ping ได้ประมาณเกือบ 2 วินาที

    กลับมาดูพบว่ามันมีปัญหาในการอ่านข้อมูลจาก Disk2/Partition2 (อีกแล้ว !) ขึ้น I/O Error เต็มไปหมด ดูเหมือน Disk นี้เจ๊งแล้ว แต่ก็ไม่แน่ใจว่าเจ๊งจริงหรือเปล่า เพราะว่าระบบ S.M.A.R.T ของ HD บอกว่ายัง PERFECT !! BIOS ก็บอกว่า OK เอาโปรแกรมดูข้อมูล S.M.A.R.T ที่ทำงานบน Windows มาดูก็ OK จำนวนครั้งในการ Retry แก้ไขข้อผิดพลาด ฯลฯ ไม่เกิน Threshold ที่กำหนด ชักสงสัยว่า S.M.A.R.T จะเชื่อถือไม่ได้

    Disk2 มันมีอยู่ 3 Partition Partition1 ลง Windows ไปแล้ว, Partition2 นี่มี Error ประจำ ส่วน Partition3 เอา fsck -c ตรวจสอบทั้งหมดดูแล้วไม่พบปัญหาอะไร

    อาการเริ่มไม่น่าไว้ใจ ค่อยๆย้ายข้อมูลใน Disk2/Partition2 ออกมาใส่ Disk1 หรือ Disk2/Partition3 กะว่าจะลอง Format Disk2/Partition2 ใหม่ดู

    ย้ายข้อมูลนานมาก เพราะเป็นการย้ายจากคนละ Partition บน HD เดียวกัน หัวอ่านวิ่งไปมาก็ช้าอยู่แล้ว รู้สึกว่าทำบน coLinux ยิ่งช้าลงไปอีก ตกลงปล่อยทิ้งไว้ทั้งคืน

  4. ตอนเช้าดูเหมือนจะเสร็จเรียบร้อยดี ก็เลยลงโปรแกรมเพิ่มเติมบน Windows (Disk2/Partition1) ลงไปสักพักเริ่มมีอาการเพี้ยนๆ Windows ไม่ตอบสนอง รีบูทปุ้บคราวนี้ไม่ขึ้นเลย ลองบูทด้วย Safe Mode ก็ไปตายตอนโหลดไฟล์ อะไร.sys สักอย่างประจำ

  5. OK ลง Windows ใหม่ก็ได้(วะ) !! เลือกติดตั้งใน Disk2/Partition1 เหมือนเดิม คราวนี้ให้มัน Format แบบเต็มๆเพื่อจะดูว่า Partition1 มีปัญหาตรงไหนหรือเปล่า (ปกติเวลาลง Windows จะใช้ QUICK Format ตลอดเพราะขี้เกียจรอ) พบว่ามันมีปัญหาที่หลายจุด คือเลข % ความคืบหน้าในการ Format จะค้างบางตำแหน่งนานๆ และ ณ ตำแหน่งเหล่านั้นตัว Disk2 จะส่งเสียงครวญครางก้อกแก้กตลอด

    เวลาผ่านไปนานมาก ในที่สุดการ Format ก็เสร็จเรียบร้อย แต่ตัดสินใจปิดเครื่องเลย ไม่ลง Windows ต่อแล้ว

  6. เปลี่ยนเสื้อผ้าออกไปร้านคอมซื้อ HD300GB มาใหม่ (ราคาเท่ากับ 250GB ที่ซื้อเมื่อปลายปีก่อนเลย) Disk2 250GB ตัวนี้เลิก ไม่ใช้มันแล้ว แต่คงต่อเป็น Disk3 เอาไว้คัดลอกข้อมูลที่ยังพออ่านได้ออกมาก่อน (โดยใช้ coLinux เหมือนเดิม)

  7. ยังสงสัยว่าทำไมเครื่องประกอบเอง ที่ใส่ HD หลายๆตัว ใช้ไปไม่นานต้องมี HD เจ๊งเป็นประจำ สงสัยว่าดันไปซื้อ HD จากร้านถูกๆแถว Akihabara หรือเปล่า Disk2 อันที่เจ๊งไปนี่ก็เพิ่งหมดประกัน (10 เดือน) ไปพอดีเด๊ะ (เหมือนตั้งเวลาไว้งั้นแหละ) เครื่องมียี่ห้อหลายเครื่อง ที่เป็น Disk IDE เหมือนๆกัน ที่ใช้อยู่ที่ที่ทำงานไม่เห็นจะมีปัญหาจุกจิกแบบนี้

    หรือไม่ก็กล่องของเครื่องประกอบเองระบายความร้อนไม่ค่อยดี จับๆดู HD ก็ร้อนเหมือนกัน (เปิดดูขณะทำงาน SATA บอกว่าอุณหภูมิของ HD ประมาณ 47-49C) ปกติเปิดทิ้งไว้ 24 ชม.ตลอด มันก็เลยเจ๊งเร็วหรือเปล่า

    น่าสังเกตว่าพวก SCSI HD ที่ใช้กับ Server เช่น thaigate (disk 6 ตัว), sgi (disk เป็นตู้รวมแล้วมี 28 ตัว)ฯลฯ ไม่เคยมีปัญหาเลยสักตัว ทุกเครื่องเปิด 24 ชม.มา 4-5 ปี ยังไม่เจ๊ง สาเหตุหนึ่งอาจเป็นเพราะพวกนี้อยู่ในห้องแอร์ตลอด ?

4 comments:

balloon said...

power ของเครื่องเท่าไรครับ
อาจจะเป็นที่ power ก็ได้นะครับ
หรือไม่ก็ลองเปลื่ยน สาย power hdd สองตัวให้มันอยู่กันคนละเส้น

Hui/ฮุ้ย said...

400W น่าจะพอนะสำหรับ HD 2 ตัว และอาการนี้ก็เพิ่งจะมาเป็น สาย Power แบบ SATA ตัว PowerSupply มันแยกมาคนละเส้นอยู่แล้ว ไม่ได้พ่วงกันครับ

balloon said...

แล้วก่อนหน้านี้ copy file แบบนี้
ไม่มีปัญหาใช่เปล่าครับ งันก็คงเป็นที่ hdd
พอดีผมเคยเจออาการ คล้ายๆ แบบนี้
ใน้ p4 ตัวใหม่ๆ เวลา peak มันจะกินไฟมาก
แล้ว power ใช้ 400W แต่ไม่เต็ม hdd มันก็เริ่มอาการประหลาด พอเปลื่ยน power ก็หายเลยครับ

Hui/ฮุ้ย said...

ก่อนหน้านี้ไม่เป็นครับ ความจริงที่บอกว่าก็อปหนักๆ คือ งานทั้งหมดมันหนัก (สั่งให้ก็อปประมาณ 4-5GB) แต่นี่เริ่มทำได้แค่ 1-2 นาทีก็ไปซะก่อน