Blog / Yeni Nesil Dizileme Verilerinin Kalite Kontrolü

Yeni Nesil Dizileme Verilerinin Kalite Kontrolü

January 21, 2026 Protokol 7 min read
Yeni Nesil Dizileme Verilerinin Kalite Kontrolü

Bu protokol yazısı, yeni nesil dizileme (NGS) verilerinin biyoinformatik analiz öncesinde kalite kontrolünün nasıl yapılacağını açıklamayı amaçlamaktadır.

Yazan: Hilal Körükcü


Veri formatı ve yazılım

  • NGS verisi (fastq ya da fastq.gz formatında)
  • FastQC yazılımı


Analiz aşamaları

1.    QC raporlarının oluşturulması

İlk adımda FastQC1 ile kalite kontrol raporu oluşturulur. Bu işlem grafik arayüzü ya da komut satırı kullanılarak yapılabilir. FastQC aşağıdaki gibi her dizileme dosyası için iki sonuç dosyası üretir. Paired-end dizilenmiş örneklerde iki ham dizileme dosyası oluştuğu için toplam dört sonuç dosyası üretilir. İnteraktif kalite kontrol değerlendirmesi için .html uzantılı dosya kullanılır.

Şekil 1. Çift uçlu okuma için FastQC sonrası oluşan rapor dosyaları.


2.  Grafiklerin yorumlanması

FastQC raporu aşağıdaki sonuçları içerir:

  • Özet
  • Baz başına düşen dizi kalitesi
  • Bölme başına düşen dizi kalitesi
  • Dizi başına düşen kalite skoru
  • Baz başına düşen dizi içeriği
  • Baz başına düşen GC içeriği
  • Baz başına düşen N içeriği
  • Dizi uzunluk dağılımı
  • Dizi duplikasyon seviyeleri
  • Beklenenden fazla gözlenen diziler
  • Adaptör içeriği

Aşağıda her bir sonucun grafiği/ tablosu örneklerle açıklanmıştır.

Özet istatistik (Basic statistics)

Bu tabloda dizilemenin genel durumu hakkında bilgi verilir. Aşağıda örnek bir özet tablosu verilmiştir.

Şekil 2. Özet istatistik tablosu

Bu tablodaki satırlar aşağıdaki bilgileri sunar:  

  • Toplam diziler (Total Sequences): Bu satır dizilemede elde edilen okuma sayısının kontrol edilebildiği yerdir. Örnek tipine göre (WES, RNA_seq vb.) farklı miktarda okuma beklenebilir ve bu satır elde edilen okuma sayısının yeterliliği gösterir.
  • Baz uzunluğu (Sequence Length): Bu satır cihazın okuma uzunluğunu gösterir. Genelde sabit bir değer olsa da bazı durumlarda bir aralık da görülebilir.
  • GC miktarı (%GC): Bu satır dizilemedeki ortalama GC yüzdesini temsil eder. Her örnek tipinde beklenen yüzde burada kontrol edilip GC grafiğinde daha ayrıntılı incelenebilir.

Baz başına düşen dizi kalitesi (Per base sequence quality)

Bu bölümdeki grafik FastQC raporunda en çok değerlendirilen bölümlerden biridir. Aşağıda sırasıyla iyi ve kötü okumadaki grafik verilmiştir.

Şekil 3. Kaliteli okumadaki (sol) ve kalitesiz okumadaki (sağ) baz kalitesi grafiği.

Bu grafikte x ekseni okunan bazın konumunu, y ekseni ise okunan bazın okuma kalitesini gösterir. Bu kalite skoru Phred kalite skoru adı verilen logaritmik bir skorlama yöntemine göre oluşturulur.2 Arka plandaki bölge renklendirmesi de bu skorlamaya göre yapılmıştır.

Phred kalite skorlama değerleri aşağıdaki gibidir:

Q30: 1000 bazda 1 hata demektir (%99.9 doğruluk). Altın standart kabul edilir ve grafikte yeşil gösterilir.

Q20: 100 bazda 1 hata demektir (%99 doğruluk). Kabul edilebilir alt sınırdır ve grafikte sarı gösterilir.

Q10: 10 bazda 1 hata demektir (%90 doğruluk). Bu veri genelde kırpma aşamasında temizlenen, yapılan analiz için değersiz veridir. Grafikte kırmızı renkte gösterilir.

Grafikte bulunan sütunlardaki birimler de aşağıdaki gibi açıklanabilir:

Merkezi Kırmızı Çizgi: Medyan (ortanca) değerdir.

Sarı Kutu: Verinin %50'sinin bulunduğu alanı (Interquartile Range) gösterir.

Siyah Çizgiler (Whiskers): Verinin %10 ve %90'lık dilimlerini gösterir.

Mavi Çizgi: Tüm okumaların kalite ortalamasını (mean) temsil eder.

Yukarıda açıklanan bilgiler ışığında örnek verilen iki grafik şu şekilde değerlendirilebilir:

Soldaki Grafik: Oldukça iyi okunmuş bir örnek dosyasıdır. Kalite skoru 32’nın altına düşmemiştir ve kalite ortalaması 37’dir. Bu dosyanın kırpma işlemine girmesine gerek yoktur, ancak analizi yapan kişi tercihine göre hafif kırpmalar yapabilir.

Sağdaki Grafik: Yarıya kadar kabul edilebilir giden ancak son bazlarda neredeyse kabul görülemeyecek kadar düşük kalitede okunmuş bir örnek dosyasıdır. Ortanca değer 32-26 arasındadır. Kalite ortalaması 32-20 arasında değişmektedir. Bu örnek verisi kabul edilebilir analiz değerleri için en az 20’nin üzerindeki kalite skoruna sahip dizileri kullanarak devam etmelidir. İstenirse daha agresif bir kırpma işlemi gerçekleştirilebilir ancak verinin genel kalitesi göz önünde bulundurularak orta bir değerin baz alınması ve veri kaybının önüne geçilmesi önemlidir.

Bölme başına düşen dizi kalitesi (Per tile sequence quality)

Bu grafik, sadece Illumina platformu okumalarında ve FASTQ başlıklarında koordinat bilgisi içeren verilerinde görülür. Illumina cihazlarında okumalar akış hücreleri (flow cell) denen cam bir yüzey üzerinde yürütülür ve bu yüzey bölmelere ayrılmıştır.3 Her bir bölmedeki okuma homojenliği cihazın yüzünde fiziksel bir sorun olup olmadığı hakkında fikir verir.

Aşağıda sırasıyla iyi ve kötü okunan örneklerin grafikleri verilmiştir.

Şekil 4. İyi kalitedeki (sol) ve kötü okumadaki (sağ) bölmelerin okunma kalitesi.

Yukarıdaki grafiklerde x ekseni bazların sırasını, y ekseni ise akış hücresindeki bölme numaralarını (koordinatları) temsil eder. Mavi renkler ortalama okumayı, turuncu- kırmızı renkler ise düşük kalitedeki okumayı gösterir.

Örnek verilen grafikler şu şekilde değerlendirilebilir:

Soldaki grafikte okuma düzgündür ve herhangi bir fiziksel sorun yoktur. Sağdaki grafikte ise en az 11 bölgede (kırmızı kutucuklar) düşük kalite okuma vardır. Bu cihazla alakalı bir probleme işaret ediyor olabilir.

Dizi başına düşen kalite skoru (Per sequence quality scores)

Bu bölümde her bir bazın okuma kalitesi yerine bütün okumaların ortalama kalitesi hesaplanarak bir grafik oluşturulur.

Aşağıda örnek bir grafik verilmiştir.

Şekil 5. Dizi başına düşen kalite grafiği.

Yukarıdaki grafikte x ekseni phred kalite skorlarını, y ekseni ise okuma sayısını temsil eder. Görüldüğü üzere grafik sağ tarafta 37 değerinde zirve (peak) yapmıştır. Bu ortalama okuma kalitesinin 37 olduğunu ve başarılı bir okuma olduğunu ifade eder.

Baz başına düşen dizi içeriği(Per base sequence content)

Bu bölümde okuma boyunca her bazda görülen nükleotidlerin yüzdeleri grafikle gösterilir. Aşağıda iyi kalitedeki ve kötü kalitedeki iki örneğin grafiği verilmiştir.

Şekil 6. Kaliteli okumadaki (sol) ve kalitesiz okumadaki (sağ) nükleotidlerin baz başına dağılım grafiği.

Grafikteki x ekseni okunan bazın numarasını, y ekseni ise bazın yüzdesini temsil eder. Her bir nükleotid grafiğin sağ üstünde tanımladığı gibi renklere ayrılmıştır. Standart bir okumada genel baz dağılımının paralel gitmesi beklenir. Ani sıçramalar beklenenden fazla okunan dizilere veya adaptör kontaminasyonu haline gelebilir.

Yukarıda verilen örneklerde soldaki grafik standart bir dağılım gösterirken soldaki örnekte çok fazla sıçrama ve dengesizlik görülmektedir. Bu bir probleme işaret edebilmekle beraber örnek türüne göre beklenen bir sonuç olabilir (Ayrıntıları “Önemli Notlar ve İpuçları” bölümünde verilmiştir.).

Baz başına düşen GC içeriği (Per base GC content)

Bu bölümde her bir okumadaki Guanin ve Sitozin bazlarının toplam oranın hesaplanması ve dağılımı gösterilir. Bu grafik örnek kontaminasyonu ve kütüphan hazırlığını tespit etmek için kullanılabilir.

Aşağıda standart bir örneğin GC grafiği verilmiştir.

Şekil 7. Standart bir dizilemenin GC yüzde grafiği.

Grafikte x ekseni GC içeriğinin yüzdesini, y ekseni ise her bir GC yüzdesine sahip olan okuma sayısını gösterir. Mavi çizgi var olan okumaya göre hesaplanan GC dağılımını, kırmızı çizgi ise örnekteki dağılımı temsil eder.

Baz başına düşen N içeriği (Per base N content)

Bu bölümde her bir bazdaki “N” yani A, T, G, C bazlarından herhangi biri olarak tanımlanamayan bazların yüzdesini grafik ile gösterilir. Aşağıda örnek görsel verilmiştir.

Şekil 8. Baz başına düşen N yüzdesi grafiği.

Grafikteki x ekseni bazların sırasını, y ekseni ise N’lerin yüzdesini ifade eder.

Dizi uzunluk dağılımı (Sequnce length distrubution)

Bu bölümde veri setindeki her bir okumanın kaç baz uzunluğunda olduğu analiz edilir ve bu uzunlukların sıklığı gösterilir. Aşağıda örnek görsel verilmiştir.

Şekil 9. Dizi uzunluk dağılımı grafiği.

Grafikteki x ekseni okunan baz uzunluğunu baz çifti olarak temsil ederken, ekseni bu uzunluktaki dizilerin okuma sayısını gösterir. Bu örnekte bütün bazlar aynı boyda okunmuştur.

Dizi duplikasyon seviyeleri (Sequence duplication levels)

Bu bölümde veri setindeki benzersiz (unique) dizilerin sayısını ve bunların kaç kez okunduğu gösterilir. Aşağıda örnek grafik verilmiştir.

Şekil 10. Dizi duplikasyon seviyelerinin grafiği.

Beklenenden fazla gözlenen diziler (Overrepresented sequences)

Bu bölümde, veri setindeki tüm okumaların küçük bir kısmı (ilk 100.000 okuma) örneklenerek toplam verinin %0.1'inden fazlasını oluşturan birebir aynı diziler listelenir. Standart bir okumada bu bölümde bir grafik gözlenmez. Aşağıda örnek bir tablo verilmiştir.

Şekil 11. Beklenenden fazla gözlenen dizileri içeren tablonun bir kısmı.

Tablodaki bölümler şunları ifade eder:

  • Sequence: Tespit edilen dizinin nükleotid dizilimi burada verilir.
  • Count: Bu dizinin örneklenen veri setindeki görülme sayısı verilir.
  • Percentage: Bu dizinin toplam veriye oranını gösterir.
  • Possible Source: Dizinin muhtemel kaynağı (Illumina Adapters, rRNA vb.) Eğer tespit edilememişse “No hit” yazısı gözlenir.

Adaptör İçeriği (Adapter contents)

Bu bölümde veri setindeki okumaların uç kısımlarında dizileme işlemi için kullanılan yapay adaptör dizilerinin varlığı (varsa) gösterilir. Aşağıda örnek grafik verilmiştir.

Şekil 12. Standart bir örnekte görülen adaptör içeriği grafiği.

Grafikte x ekseni baz pozisyonunu, y ekseni ise adaptör içeriğinin genel içeriğe oranını yüzdelik olarak gösterimini temsil eder. Sağ üstte farklı adaptör türleri renk kodlarıyla verilmiştir.


Önemli notlar ve ipuçları

FastQC ideal dağılımlı bir okumaya göre hazırlanmış bir araçtır ve bazı durumlarda normal beklenen sonuçları hata veya uyarı gibi gösterebilir. Bu durumlar aşağıda listelenmiştir.

  • Standart bir Illumina okumasında baz başına düşen kalite grafiğinde sağa doğru kalitenin düşmesi beklenen bir görüntüdür. Okumanın sonlarına doğru cihazda çok fazla sinyal oluşur ve bu gürültü artışına sebep olduğu için kalitenin düşmesine sebep olur. Burada dikkat edilmesi gereken nokta kalitenin kabul edilebilir sınırın altına inmemesidir.
  • FASTQC programı baz başına düşen dizi grafiğinde bazlar arasındaki dengesizlik %10’un üstündeyse uyarı, %20’nin üzerindeyse hata verir ancak her uyarı veya hata bu bölümün gerçekten hatalı olduğu anlamına gelmeyebilir. RNA_seq, sRNA dizileme, amplikon dizileme ve bisülfit dizilemede; kullanılan adaptörler, dizilerin kısalığı, örneğin çeşitli olması (mikrobiyom analizi gibi) veya bazların işlem sonucu kimyasal olarak değişmesinden dolayı baz dengesi doğal olarak hatalı görünür. Belirli uygulamalar için bu beklenen bir sonuçtur ve analizi etkilemez. Dolayısıyla dizileme uygulamasına göre karar verilmelidir.
  • Baz başına düşen GC içeriğinin beklenen değer aralığı örnek tipine göre değişmektedir, ancak FASTQC teorik eğrinin 15’inin üzerinde bir değişim varsa uyarı, %30’un üzerinde değişim varsa hata verir. Bu durum metagenomik, amplikon, bisülfit ve RNA_seq analizlerinde hedeflenen bölgelerin GC yüzdesince fakir veya normalden zengin olması beklenen bir durum olabilir. Elde edilen sonuçlarla literatürdeki karşılaştırılarak bu doğrulama yapılabilir.
  • Sekans duplikasyon seviyesi grafiği RNA_seq, amplikon dizileme, Chip_seq veya derin okumalarda (kısa genomlar için) aynı bölgenin çoğaltılması işlemi olduğu için uyarı veya hata verebilir. Ancak bu tür işlermlerin temeli belirli bölgeyi hedefleyen bir çoğaltma işlemi olduğu için bu beklenen bir sonuçtur.
  • Beklenenden fazla gözlenen diziler başlığında toplam okumanın 0.1’inden fazlasını içeren diziler tabloda listelenir. Ancak RNA_seq, amplikon dizileme ve sRNA dizilemede normalden fazla ifade edilmesi normal bir durumdur. Ayrıca çok kısa dizilerde adaptörler de dizinin bir parçası gibi görülebilir ve bu tabloda belirtilir. Bu durumlar beklenen durumlar olduğu için sonraki adımlara geçilebilir.
  • Eğer çok fazla örneğiniz varsa ve farklı örneklere ait QC raporlarını toplu bir şekilde incelemek isterseniz MultiQC aracını kullanabilirsiniz.
  • GC grafiği birden fazla yerde zirve (peak) yapıyorsa ve bu durum eğer analizin türüne bağlı gözlemlenen (örneğin shotgun metagenomik) bir durum değilse örnek kontaminasyonu olabilir. Bu durumda özellikle “overrepsented” dizilerin detaylı incelenmesi gerekebilir.
  • Kısa dizilerle çalışmıyorsanız veya örneğinizin tipine göre adaptör gözlenmesi normal değilse örneklerinizde adaptör kirliliğini tespit etmek oldukça önemlidir. Normalde adaptörler kırpma aşamasında temizlenebilirler, ancak nereden geldiklerini anlamak oldukça önemlidir.


Kaynaklar

1 Andrews, S. (2010). FastQC: A Quality Control Tool for High Throughput Sequence Data. Babraham Bioinformatics. Erişim adresi: http://www.bioinformatics.babraham.ac.uk/projects/fastqc

2 Ewing, B., & Green, P. (1998). Base-calling of automated sequencer traces using phred. II. Error probabilities. Genome Research, 8(3), 186–194. https://doi.org/10.1101/gr.8.3.186

3 Illumina Inc. (2023). Quality Scores for Next-Generation Sequencing: Illumina Technology. Teknik Belge. Erişim adresi: https://www.illumina.com/science/technology/next-generation-sequencing/plan-experiments/quality-scores.html


Not: Grafik görselleri için FASTQC (Babraham Informatics) sitesindeki örnek raporlar ve EGA arşiv dosyaları kullanılmıştır:

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/good_sequence_short_fastqc.html

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/bad_sequence_fastqc.html

https://files.ega-archive.org/EGAF00007854587/

https://files.ega-archive.org/EGAF00004898125/


Summary

Bu protokol yazısı, ham yeni nesil dizileme (NGS) verilerinin biyoinformatik analiz öncesinde kalite kontrolünün nasıl yapılacağını açıklamayı amaçlamaktadır.

#yeni nesil dizileme #kalite kontrol #fastqc #ngs #bioinformatik #yeni nesil dizileme #kalite kontrol #fastqc #ngs #bioinformatik
163 views Published January 21, 2026

Share this article

Recent Blog Posts

MikroRadar: 3

MikroRadar: 3

Mikrobiyom alanında öne çıkan güncel bilimsel yayınların haftalık olarak derlendiği bir literatür...

Read More
MikroRadar: 2

MikroRadar: 2

Mikrobiyom alanında öne çıkan güncel bilimsel yayınların haftalık olarak derlendiği bir literatür...

Read More
MikroRadar: 1

MikroRadar: 1

Mikrobiyom alanında öne çıkan güncel bilimsel yayınların haftalık olarak derlenip paylaşıldığı bi...

Read More
Translating...