TensorFlow Performans Rehberi: Yüksek Verimli ML Modelleri

Q: Mixed precision her modelde kullanılabilir mi?

Evet, çoğu derin öğrenme modelinde hızı artırır ancak sayısal kararlılık için son katman float32 kalmalıdır.

Q: tf.data.AUTOTUNE ne işe yarar?

Sistem kaynaklarını analiz ederek veri yükleme işlemlerinin paralellik derecesini otomatik olarak optimize eder.

Q: Modelim neden hala yavaş eğitiliyor?

Genellikle veri yükleme (I/O) darboğazı yaşanır; tf.data.prefetch ve cache kullanımı bu sorunu çözer.

Q: XLA her zaman hızı artırır mı?

Büyük modellerde ciddi hız kazancı sağlar, ancak derleme süresi küçük modellerde ek yük getirebilir.

Yazar: Burak Balkı | Kategori: Performance | Okuma Süresi: 8 dk

Bu kapsamlı rehberde, TensorFlow performans optimizasyonu için tf.data API, mixed precision, XLA derleme ve dağıtık eğitim gibi kritik teknikleri kod örnekle...

## TensorFlow Nedir ve Performans Neden Önemlidir? **TensorFlow**, Google tarafından geliştirilen, uçtan uca açık kaynaklı bir makine öğrenmesi platformudur. Modern yapay zeka projelerinde modelin doğruluğu kadar, bu modelin ne kadar hızlı eğitildiği ve ne kadar düşük gecikme (latency) ile yanıt verdiği de kritiktir. **TensorFlow performans** optimizasyonu, donanım kaynaklarını (CPU, GPU, TPU) en verimli şekilde kullanarak maliyetleri düşürür ve geliştirme süreçlerini hızlandırır. Bu rehberde, bir modelin eğitiminden dağıtımına kadar olan süreçte uygulanabilecek en gelişmiş performans tekniklerini adım adım inceleyeceğiz. ## TensorFlow Kurulumu ve Donanım Hazırlığı Performanslı bir çalışma ortamı için doğru kütüphane sürümlerinin ve sürücülerin yüklü olması gerekir. Özellikle GPU hızlandırması için NVIDIA CUDA ve cuDNN kütüphaneleri hayati önem taşır. ```bash # TensorFlow'un en güncel versiyonunu yükleyin pip install --upgrade tensorflow # GPU desteğini kontrol etmek için python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))" ``` | Bileşen | Önerilen Minimum | Notlar | | :--- | :--- | :--- | | Python | 3.9+ | Kararlılık için gereklidir | | CUDA | 11.8+ | NVIDIA GPU hızlandırması için | | cuDNN | 8.6+ | Derin öğrenme kütüphane optimizasyonu | ## tf.data API ile Veri Yükleme Performansını Artırma Eğitim sürecindeki en büyük darboğaz genellikle diskten veri okuma hızıdır. **tf.data** API, verileri paralel olarak işleyerek GPU'nun boşta kalmasını engeller. ### Veri Ön İşleme ve Prefetching `prefetch` metodu, model mevcut adımı eğitirken bir sonraki veri paketini (batch) hazırlayarak zaman kaybını önler. ```python import tensorflow as tf def prepare_dataset(ds, batch_size=32): # Veriyi belleğe önbelleğe al ds = ds.cache() # Veriyi karıştır ds = ds.shuffle(buffer_size=1000) # Batch oluştur ds = ds.batch(batch_size) # Bir sonraki batch'i arka planda hazırla ds = ds.prefetch(buffer_size=tf.data.AUTOTUNE) return ds ``` ## Model Eğitiminde Mixed Precision Kullanımı **Mixed Precision**, eğitim sırasında hem 16-bit (float16) hem de 32-bit (float32) kayan noktalı sayıları kullanma tekniğidir. Bu yöntem, modern GPU'larda (Tensor Cores) bellek kullanımını azaltır ve hızı %3 kata kadar artırabilir. ```python from tensorflow.keras import mixed_precision # Mixed precision politikasını ayarla policy = mixed_precision.Policy('mixed_float16') mixed_precision.set_global_policy(policy) print(f"Compute dtype: {policy.compute_dtype}") print(f"Variable dtype: {policy.variable_dtype}") ``` > **Not:** Mixed precision kullanırken, modelin son katmanının (Output Layer) sayısal kararlılık için `dtype='float32'` olarak ayarlanması zorunludur. ## XLA (Accelerated Linear Algebra) ile Derleme Optimizasyonu **XLA**, TensorFlow grafiklerini optimize eden bir alan bazlı derleyicidir. İşlemleri birleştirerek bellek bant genişliğini optimize eder ve yürütme süresini kısaltır. ```python @tf.function(jit_compile=True) def train_step(images, labels, model, optimizer, loss_fn): with tf.GradientTape() as tape: predictions = model(images, training=True) loss = loss_fn(labels, predictions) gradients = tape.gradient(loss, model.trainable_variables) optimizer.apply_gradients(zip(gradients, model.trainable_variables)) return loss ``` ## GPU ve Çoklu GPU (Distributed Training) Stratejileri Büyük ölçekli projelerde eğitimi hızlandırmak için birden fazla GPU kullanmak gerekir. TensorFlow'un `tf.distribute.Strategy` API'si bu işlemi kolaylaştırır. ```python strategy = tf.distribute.MirroredStrategy() print(f'Cihaz sayısı: {strategy.num_replicas_in_sync}') with strategy.scope(): # Model oluşturma ve derleme işlemleri bu blok içinde yapılmalıdır model = tf.keras.Sequential([ tf.keras.layers.Dense(512, activation='relu', input_shape=(784,)), tf.keras.layers.Dense(10, activation='softmax') ]) model.compile(loss='sparse_categorical_crossentropy', optimizer='adam') ``` ## TensorFlow Profiler ile Darboğaz Analizi Performans sorunlarını tespit etmek için **TensorFlow Profiler** kullanılmalıdır. Bu araç, hangi katmanın veya işlemin ne kadar süre aldığını görselleştirir. ```python # TensorBoard callback ile profil oluşturma tensorboard_callback = tf.keras.callbacks.TensorBoard( log_dir='./logs', profile_batch='500, 520' ) # Eğitim sırasında kullanımı # model.fit(train_ds, epochs=5, callbacks=[tensorboard_callback]) ``` ## Model Sıkıştırma: Pruning ve Quantization Teknikleri Eğitilmiş bir modeli üretim ortamına (production) alırken boyutunu küçültmek ve çıkarım (inference) hızını artırmak için **TensorFlow Model Optimization Toolkit** kullanılır. ### Weight Pruning (Budama) Önemsiz ağırlıkları sıfıra çekerek modelin seyreltilmesini sağlar. ```python import tensorflow_model_optimization as tfmot prune_low_magnitude = tfmot.sparsity.keras.prune_low_magnitude # Mevcut modeli budama için sarmala model_for_pruning = prune_low_magnitude(model, **pruning_params) ``` ### Post-Training Quantization Modeli 8-bit tamsayı (int8) formatına dönüştürerek mobil cihazlarda hızı artırır. ```python converter = tf.lite.TFLiteConverter.from_keras_model(model) converter.optimizations = [tf.autodiff.Optimization.DEFAULT] tflite_quant_model = converter.convert() ``` ## TensorFlow Serving ve Inference Optimizasyonu Modelleri API olarak sunarken **TensorFlow Serving** kullanmak, eşzamanlı istekleri yönetmek ve GPU kaynaklarını paylaştırmak için en profesyonel yoldur. ```bash # Docker üzerinden TensorFlow Serving başlatma docker run -p 8501:8501 \ --mount type=bind,source=/path/to/model,target=/models/my_model \ -e MODEL_NAME=my_model -t tensorflow/serving ``` ## En İyi Uygulamalar (Best Practices) ve Performans Kontrol Listesi 1. **Vektörizasyon Kullanın:** Python döngüleri yerine her zaman TensorFlow'un yerleşik (built-in) fonksiyonlarını tercih edin. 2. **tf.function Kullanımı:** Kritik kod bloklarını `@tf.function` ile sarmalayarak grafik moduna geçirin. 3. **Veri Tiplerine Dikkat Edin:** Gereksiz yere `float64` kullanmayın, varsayılan olarak `float32` yeterlidir. 4. **Non-blocking I/O:** Veri okuma işlemlerini asenkron hale getirin. ## Sık Yapılan Hatalar - **Küçük Batch Size:** Çok küçük batch size değerleri GPU'nun tam kapasiteyle çalışmasını engeller. - **Eager Execution Darboğazı:** Eğitim döngüsü içinde sürekli Python listeleriyle işlem yapmak hızı düşürür. - **CPU/GPU Veri Transferi:** Veriyi her adımda CPU'dan GPU'ya taşımak yerine, `tf.data` ile pipeline içinde tutun. ## Sık Sorulan Sorular (FAQ) **1. TensorFlow'da CPU ve GPU arasındaki temel performans farkı nedir?** GPU'lar, binlerce çekirdek sayesinde matris çarpımları gibi paralel işlemleri CPU'lara göre 10-100 kat daha hızlı gerçekleştirebilir. **2. Mixed precision her modelde kullanılabilir mi?** Genellikle evet, ancak sayısal hassasiyetin çok kritik olduğu bilimsel simülasyonlarda dikkatli olunmalıdır. **3. tf.data.AUTOTUNE ne işe yarar?** Çalışma anında sistem kaynaklarını izleyerek paralel işlem (parallelism) seviyesini dinamik olarak ayarlar. **4. Modelim neden hala yavaş eğitiliyor?** Muhtemelen veri boru hattınızda (pipeline) bir darboğaz vardır. Profiler kullanarak CPU-GPU geçişlerini kontrol edin. **5. XLA her zaman hızı artırır mı?** Çoğu zaman evet, ancak çok küçük modellerde derleme süresi (overhead) kazancın önüne geçebilir. ## Özet ve Sonuç TensorFlow projelerinde performans, sadece daha güçlü donanım kullanmak değil, yazılım mimarisini bu donanıma göre optimize etmektir. `tf.data` ile veri akışını hızlandırmak, `Mixed Precision` ile bellek yönetimini iyileştirmek ve `XLA` ile grafikleri optimize etmek, profesyonel bir makine öğrenmesi mühendisinin en güçlü araçlarıdır. Bu rehberdeki adımları uygulayarak modellerinizi üretim seviyesine taşıyabilirsiniz.