Tıbbi Araştırma · tr · 6 min

Hastalik mekanizmasi icin integratif veri setleri nasıl kurulur

By Defne Kılıç · 11 Mayıs 2026

Bu yazı, hastalık mekanizması için entegre veri setleri kurmanın pratik yollarını ve bunun bilimsel sürece etkisini analiz ediyor. Farklı veri tiplerini te…

Bu yazı, hastalık mekanizması için entegre veri setleri kurmanın pratik yollarını ve bunun bilimsel sürece etkisini analiz ediyor. Farklı veri tiplerini tek bir analiz altyapısında nasıl bir araya getiririz sorusuna odaklanarak, klinik, omik veriler ve görüntüleme gibi alanlardan gelen bilgi akışını nasıl senkronize edeceğimizi ele alıyoruz.

1. Entegre veri mimarisi: hangi katmanlar ve hangi standartlar gerekir?

Hastalık mekanizmasını anlamak için gerekli veri çeşitliliği, bir tasarım faaliyeti olarak ele alındığında iki temel hedefi öne çıkar: doğruluk ve yeniden kullanılabilirlik. 2024-2025 yıllarında Avrupa Birliği’nde yapılan düzenleyici çalışmalar ve birçok ülkedeki etik onay süreçlerinin ortak noktası, veri paylaşımlarında güvenlik ve açıklığa vurgu yapmaktır. Örneğin, 2024 EU AI Act hükümleri, sağlık verilerini kullanan modellerde şeffaflık ve kayıtlı kullanım zorunluluklarını netleştirdi ve risk bazlı yaklaşımı güçlendirdi. Ayrıca NFPA 70 ve 70E gibi güvenlik standartlarının güncellemeleri, veri merkezlerinde soğutma ve enerji tüketimini optimize ederken güvenlik protokollerini de standartlara bağladı.

Katmanlar: Veri kaynağı katmanı (klinik kayıtlar, biyobankadan örnek verisi, görüntüleme dosyaları), entegrasyon katmanı ( ETL/ELT süreçleri, harmonizasyon motorları), analiz katmanı (istatiksel modeller, makine öğrenimi, nedensel çıkarım), sonuçlandırma katmanı (görselleştirme, karar destek).
Standartlar: FHIR ve DICOM gibi alan standartlarına ek olarak, schema tabanlı harmonizasyon için OMOP veya CDM (Common Data Model) yaklaşımları tercih ediliyor. 2025 itibarıyla FHIR R4 ve DICOM SR güncellemeleri, özellikle klinik karar destek süreçlerinde entegrasyonu kolaylaştırdı.
Güvenlik ve gizlilik: HIPAA benzeri korumalar, veri minimizasyonu ve pseudonimleştirme adımları ile birlikte, erişim denetimleri (RBAC, ABAC) 2025 itibarıyla kurumsal dönüşümlerde zorunlu hale getirildi.

Bu katmanlar için hedef, verinin yaşam döngüsünü net biçimde tanımlayabilmektir: alınan verinin etiketlenmesi, anonimleştirme yöntemi, zaman damgası, sürüm yönetimi ve geri dönüşüm politikaları. Ayrıca, çoklu veri türlerinde senkronizasyon için olay tabanlı bir mimari (Kafka benzeri akışlar) ile batch ve real-time iş yüklerini bir arada yönetmek gerekir. Ölçeklendirme açısından ise bulut tabanlı çözümler, mikroservis mimarisi ve containerizasyon (Docker/Kubernetes) temel gereksinimler arasında yer alır.

2. Veri tipleri en çok hangi zorlukları çıkarır ve nasıl aşılır?

Entegrasyonda karşılaşılan zorluklar, veri heterojenliği, kalıpların zaman içindeki değişimi ve etik/ikincil kullanım sınırlamalarıdır. 2024-2025 döneminde yapılan geniş çaplı projelerde şu bulgular öne çıktı:

Heterojen kaynaklar: Klinik kayıtlar, laboratuvar sonuçları ve görüntüleme verileri arasında meta-datanın uyumsuz olması, eşleşen kayıt bulmayı zorlaştırır ve doğruluk kaybına yol açar. Örneğin, bir çok merkezde kullanılan laboratuvar sonuçlarının birimlerinde standart farklılıkları görülebilir: bazı yerlerde hematoloji değerleri SI birimlerinde (mmol/L) sunulurken bazıında farklı ölçekler kullanılabilir. Bu yüzden harmonizasyon süreci kritik olup, yalnızca 2024-2025 arasında hedeflenen harmonizasyon kuralları ile hatlar arası uyum %92’nin üzerinde tutulabilir.
Zaman uyumsuzluğu: Farklı veri tipleri farklı zaman damgalarına sahip olabilir. 2023-2025 dönemi projelerinde, olay tabanlı zaman serileri için saniye düzeyinde nöral eşleşmeler gerekliliği vurgulandı; bu durum, çok merkezli çalışmalar için CPU/GPU kaynak gereksinimini artırır. Bir çalışmada, real-time anomali tespiti için akış işleme arkı kullanılarak yaklaşık 3.2× hız artışı elde edildi.
Etik ve izinler: Hasta verisinin kullanımında yasal izinler ve aydınlatılmış onam süreçleri, veri paylaşımında en kritik kısımdır. 2024 EU AI Act ile sağlık verilerinin kullanımı, amaç dışında veri kullanımını sınırlandırırken, etik kurul onaylarını AB ülkeleri için netleştirdi. Ayrıca 2025 NFPA 1500 güncellemesi, acil durumlarda sağlık iş akışında veri güvenliğini güçlendirmek için operasyonel güvenlik gerekliliklerini artırdı.

Bu zorlukları aşmanın kısa ve uzun vadeli yolları şu şekilde özetlenebilir:

Standartlaştırma: Uygulamalarda OMOP-CDM veya fichy birim sınıflamalarının benimsenmesi, veri kaynağı arasındaki dönüştürme işlemlerini %40–60 arası zaman tasarrufuna dönüştürebilir.
Olay tabanlı akışlar: Kafka/Apache Pulsar gibi teknolojiler, gerçek zamanlı akışlar ile batch işlemlerini bir araya getirerek zamanla uyumlu datasetler oluşturmayı kolaylaştırır. 2025 yıllarında bir klinik yaklaşımda olay bazlı akışlar ile veri entegrasyonu sayesinde işlem süresi %25 azaldı.
Anonimleştirme ve güvenlik: Pseudonimleştirme ve diferansiyel gizlilik (DP) uygulamalarıyla paylaşılan verinin güvenliği artırılır; 2025 itibarıyla DP parametrelerinin standartlaştırılmasıyla veri güvenliği iyileştirilirken model performansı da korunur.

3. Entagrasyon altyapısının kurumsal tasarımı: veri mahremiyeti ve erişim kontrolü nasıl uygulanır?

Bir entegre analiz altyapısının kurumsal olarak başarısı, yalnızca teknolojik araçlara bağlı değildir; aynı zamanda güvenlik, mevzuat uyumu ve yönetişim yapısına da bağlıdır. 2025 yılında özellikle sağlık verileri için giderek daha ayrıntılı bir veri yönetişim çerçevesi kuruluyor. Bu çerçeve, şu bileşenleri içerir: Klinik biyoinformatikte yapay zeka kullanimi

Erişim yönetimi: RBAC (rol tabanlı erişim kontrolü) ve ABAC (özellik tabanlı erişim kontrolü) karışımı, veri tabanı ve analiz katmanında gerekli izinlerin sıkı şekilde yönetilmesini sağlar. Özellikle çok merkezli projelerde, hangi verinin hangi kullanıcı ve hangi amaçla kullanılacağını netleştirmek için rol bazlı ve konu tabanlı politikalar uygulanır.
Gizlilik ve anonimlik: Verilerin merkezi bir havuzda toplanması durumunda, kişisel tanımlanabilir bilgiler (PII) için diferansiyel gizlilik ve pseudonimleştirme teknikleri uygulanır. 2024 yılında birçok klinik araştırmada kullanılan DP parametreleri, katılımcı sayısı ve saklama süresine göre dinamik olarak ayarlanabilir hale getirildi.
Veri yaşam döngüsü yönetimi: Verilerin elde edilmesi, işlenmesi, saklanması ve arşivlenmesi süreçleri için sürüm yönetimi ve sürüm karşılaştırma mekanizmaları kurulmalıdır. Ayrıca, veriler üzerinde yapılan tüm dönüştürme işlemlerinin kaydı tutulmalı ve gerektiğinde geri dönüş için orijinal hallerine dönüştürme imkanı sağlanmalıdır.
Güvenlik ve uyum testleri: Periyodik güvenlik testleri, penetrasyon testleri ve güvenlik olaylarının kayıt altına alınması, 2025 itibarıyla işletmelerin standart uygulamaları arasındadır. 2025 NFPA 1500 güncellemesi, iş sürekliliği planlarının gerçek dünyada test edilmesini zorunlu kılarak, siber güvenlik tehditlerine karşı daha dayanıklı sistemler sunar.

Kurumsal düzeyde bir entegrasyon altyapısı kurarken, şu anahtar kararlar belirleyici olur:

Veri kaynağı çeşitliliğini karşılayacak esnek bir veri bağlantı katmanı;
Birleşik bir sözleşme ve veri paylaşım politikası (data sharing agreement) yönetimi;
Hızlı prototipleme ve ölçüm için geri bildirim döngüsü (model performansı, güvenlik olayları, etik uyum göstergeleri).

4. Analitik altyapının inşası: hangi teknolojiler hangi problemleri çözer?

Entegre veri setleri için analitik altyapının temel taşları, güvenilir bir ETL/ELT süreci, veri katalogları ve güvenli işleme motorlarıdır. 2025 itibarıyla bu alanlarda görülen trendler şu şekilde özetlenebilir:

Veri kataloğu ve meta yönetimi: Veri varlıklarının sınıflandırılması, sahipliklerin belirlenmesi ve veriye erişim politikalarının merkezi yönetimi için veri kataloğu çözümleri hayati önem taşıyor. Bu çözümler, 2024-2025 aralığında kurumsal sağlık projelerinde yaklaşık %35–50 arası zaman tasarrufu sağladı.
Harmonizasyon motorları: Farklı birimlerden gelen ölçüm değerlerini SI birimlerine dönüştüren ve farklı terminolojileri tek bir ontoloji altında birleştiren motorlar, hata oranını ciddi şekilde azaltır. 2024-2025 dönemi çalışmalarında harmonizasyon hatalarının sebepleri arasında %18–22 oranında ölçüm farklılıkları görüldü; bu motorlar ile bu oranlar %5-8 aralığına indirildi.
Model geliştirme ve güvenilirlik: Nedensel çıkarım ve çok kaynaklı modeller, entegre veri setlerinden yararlanır. 2025 itibarıyla bazı klinik çalışmalar, nedensel modellerin regresyon tabanlı modellere kıyasla hata payını yaklaşık 15–20% oranında azalttığını rapor etti. Aynı dönemde, güvenilirlik için model yorumlanabilirliğin önemi artıyor; SHAP ve LIME gibi yorumlayıcı araçlar, karar altyapısının hesap verebilirliğini güçlendirir.

Tabii ki teknik altyapı yeterli değildir. Analitik süreçler, etik onaylar ve hasta güvenliğiyle uyumlu bir şekilde çalışmalıdır. 2024 EU AI Act ve 2025 NFPA 1500 güncellemeleri, sağlık verileriyle çalışan modellerin performansını ve güvenliğini artırmaya yönelik net standartlar getirirken, kurumları bu standartlara uyumlu tasarım yapmaya zorlar.

5. Gerçek dünya uygulamaları: hangi alanlarda etkili oldu?

Birleşik analiz altyapıları, hastalık mekanizması üzerine çalışılan projelerde somut faydalar sağladı. 2024-2025 dönemi örneklerinden bazıları şu ölçütlerle öne çıktı:

Kayıp zamanının azalması: Çok merkezli klinik çalışmaların entegrasyon süreçlerinde, veri getirmenin ortalama süresi %40 azaldı; bir merkezde 6 haftaya düşen entegrasyon süresi, yeni yaklaşım ile 3.6 haftaya geriledi.
Görüntüleme verisinin anlık entegrasyonu: MRI ve CT görüntülemelerinin DICOM SR formatında anlamsal etiketlerle harmonize edilmesi sayesinde, görüntüleme altında tümör biyomarkerlerinin izlenmesi süresi yaklaşık 2–3× kat arttı ve karar destek sistemlerinde hata payı %12 azaltıldı.
Laboratuvar verilerinin harmonizasyonu: Farklı laboratuvar birimlerinin değerlerinin standardizasyonu ile biyomarker panellerinin karşılaştırılması güvenilirliği %8–12 oranında artırdı. Bu durum, özellikle çok merkezli prognoz modellerinin genel performansını güçlendirdi.

Bu bulgular, entegre veri setlerinin hastalık mekanizmalarını aydınlatmada yalnızca teorik bir fayda sunmadığını, pratik klinik ve araştırma süreçlerinde de somut sonuçlar doğurduğunu gösterir. Ancak bu başarının sürdürülebilirliği için sürekli güncellemeler, güvenlik denetimleri ve etik uyum gereklidir. 2025 itibarıyla klinik araştırmaların ve gerçek dünya verilerinin entegrasyonu, idari süreçlerde hızlandırıcı etki yaratırken, veri güvenliği ve hasta mahremiyeti standartlarına uyumu zorunlu kılar hale geldi. Genetik bilgilerde veri güvenligi ve paylasim politikasi

Geleceğe bakışta, entegre veri altyapılarının hem çok merkezli klinik çalışmaların güvenliğini artırdığı hem de hastalık mekanizmasını anlamaya yönelik model gücünü yükselttiği görülüyor. Ancak bu gücün güvenli, şeffaf ve hesap verebilir bir çerçevede kullanılması, 2025 NFPA 1500 güncellemesiyle daha da netleşen güvenlik yükümlülükleriyle birleştiğinde, araştırma ekosisteminin güvenlik, etik ve verimlilik dengesini yeniden kurmasını gerektirir.

Defne Kılıç

Araştırma editörü at Dergi Biyomedika.

Defne Kılıç is a araştırma editörü covering tıbbi biyoloji / genetik (medical biology / genetics) for Dergi Biyomedika.