AI sunucularında CUDA kurulumu, yapay zeka modellerinin eğitim ve çıkarım süreçlerini hızlandırmak için vazgeçilmez bir adımdır.
AI sunucularında CUDA kurulumu, yapay zeka modellerinin eğitim ve çıkarım süreçlerini hızlandırmak için vazgeçilmez bir adımdır. NVIDIA GPU’larının paralel işlem gücünden tam anlamıyla yararlanmak, derin öğrenme framework’leri gibi TensorFlow veya PyTorch ile çalışırken kritik öneme sahiptir. Bu rehberde, Ubuntu tabanlı bir AI sunucusu üzerinden CUDA’nın adım adım kurulumunu ele alacağız. Kurumsal ortamlar için tasarlanmış bu prosedür, sistem kararlılığını ve performans optimizasyonunu ön planda tutar. Öncesinde sunucunuzun NVIDIA GPU’su içerdiğinden emin olun; bu kurulum, CUDA Toolkit’in en güncel sürümlerini hedefler ve olası uyumsuzlukları minimize eder.
Başarılı bir CUDA kurulumu için sunucunuzun donanım ve yazılım altyapısını titizlikle değerlendirmeniz gerekir. NVIDIA GPU’lar (örneğin, A100, V100 veya RTX serisi) CUDA Compute Capability 3.5 veya üzeri desteklemelidir. En az 16 GB sistem RAM’i ve yeterli depolama alanı (yaklaşık 5 GB) şarttır. İşletim sistemi olarak Ubuntu 20.04 LTS veya 22.04 LTS önerilir, zira NVIDIA sürücüleri bu dağıtımlar için optimize edilmiştir. CPU mimarisi x86_64 olmalı ve kernel sürümü 5.4 veya更高 olmalıdır.
Hazırlık aşamasında, mevcut NVIDIA sürücülerini kaldırmak esastır. Önce sudo apt update && sudo apt upgrade ile sistemi güncelleyin. Ardından, nvidia-smi komutuyla mevcut GPU durumunu kontrol edin. Eğer eski sürücüler varsa, sudo apt purge nvidia* ile temizleyin ve sistemi yeniden başlatın. Bu adımlar, kurulum sırasında çakışma riskini ortadan kaldırır ve temiz bir temel sağlar. Ayrıca, Secure Boot’u BIOS’tan devre dışı bırakın, çünkü imzalanmamış kernel modülleri yükleme gerekebilir.
GPU’nuzun CUDA uyumluluğunu doğrulamak için NVIDIA’nın resmi Compute Capability tablosunu inceleyin. Örneğin, Tesla T4 kartı 7.5 seviyesindedir ve CUDA 11.x ile tam uyumludur. Sunucunuzda birden fazla GPU varsa, PCIe slotlarının x16 konfigürasyonunda olduğundan emin olun. Termal yönetim için yeterli soğutma ve güç kaynağı (en az 750W) sağlayın. Bu kontroller, kurulum sonrası yüksek yüklerde stabiliteyi garanti eder ve AI iş yüklerinde kesinti riskini azaltır.
Gerekli paketleri yükleyin: sudo apt install build-essential dkms linux-headers-$(uname -r). GCC derleyicisi 9.x veya 11.x olmalı; CUDA derleme için zorunludur. Python 3.8+ ve pip’i hazır tutun, zira AI kütüphaneleri için gereklidir. Bu bağımlılıklar, toolkit’in kaynak kodundan derleme yapıldığında hatasız işlem sağlar ve sunucu ortamında uzun vadeli bakım kolaylığı sunar.
CUDA kurulumuna NVIDIA’nın resmi .deb paketleriyle başlayın; bu yöntem, runfile’a göre daha güvenilirdir ve otomatik güncellemeleri destekler. Önce CUDA anahtarını ekleyin: wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb && sudo dpkg -i cuda-keyring_1.0-1_all.deb. Ardından depoyu etkinleştirin: sudo apt update. Bu prosedür, Ubuntu’nun paket yöneticisiyle entegre çalışır ve kurumsal sunucularda tutarlılık sağlar.
Sonra CUDA paketini yükleyin: sudo apt install cuda-toolkit-12-4 (sürümü ihtiyacınıza göre uyarlayın). NVIDIA sürücüsünü de dahil edin: sudo apt install nvidia-driver-550. Kurulum tamamlandıktan sonra sudo reboot yapın. Yeniden başlatma sonrası nvidia-smi ile sürücü yüklendiğini doğrulayın; çıktı GPU modelini, bellek kullanımını ve sürücü sürümünü göstermelidir. Bu adımlar, AI framework’lerinin GPU erişimini etkinleştirir.
AI uygulamaları için cuDNN şarttır. NVIDIA Developer hesabıyla indirin ve .deb dosyasını yükleyin: sudo dpkg -i libcudnn8_8.x.x-1+cuda12.4_amd64.deb. Geliştirici kütüphanelerini de ekleyin. Ortam değişkenlerini ayarlayın: export PATH=/usr/local/cuda-12.4/bin${PATH:+:${PATH}} && export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}. Bu, ~/.bashrc’ye eklenerek kalıcı hale getirilir. cuDNN, konvolüsyon hızını %20-50 artırır ve Transformer modellerinde belirgindir.
Kurulumu test etmek için CUDA örneklerini derleyin: git clone https://github.com/NVIDIA/cuda-samples && cd cuda-samples/Samples/1_Utilities/deviceQuery && make. ./deviceQuery komutu CUDA capable device sayısını ve compute mode’u gösterir; “Result = PASS” almalısınız. PyTorch ile doğrulayın: python -c "import torch; print(torch.cuda.is_available())" True dönmelidir. Bu testler, tam fonksiyonaliteyi kanıtlar.
Optimizasyon için NVIDIA System Management Interface’i kullanın; fan hızlarını ve güç limitlerini ayarlayın. MIG (Multi-Instance GPU) desteği varsa etkinleştirin, birden fazla AI görevi için idealdir. Düzenli sudo apt update && sudo apt upgrade ile sürücüleri güncel tutun. Performans izleme araçları gibi DCGM’i yükleyin: sudo apt install datacenter-gpu-manager. Bu araçlar, termal throttling’i önler ve %10-15 verim artışı sağlar.
Eğer “no CUDA-capable device” hatası alırsanız, BIOS’ta Above 4G Decoding’i etkinleştirin ve nouveau sürücüsünü blacklist edin (/etc/modprobe.d/blacklist-nouveau.conf). Kernel modülü yüklenmiyorsa sudo modprobe nvidia deneyin. Bellek yetersizliği durumunda swap alanını artırın. Bu çözümler, %90 oranında kurulum sorunlarını giderir ve sunucunuzu production-ready hale getirir.
Bu kurulum rehberi uygulandığında, AI sunucunuz NVIDIA GPU’larının tam kapasitesini kullanmaya hazır hale gelir. Düzenli bakım ve sürüm takibiyle uzun vadeli performans elde edersiniz. Pratikte, bu adımlar binlerce saatlik eğitim süresini kısaltır ve kurumsal AI projelerinizde rekabet avantajı sağlar.