Di era data modern, banyak perusahaan membutuhkan sistem yang bisa memproses data secara real-time (langsung saat data masuk). Salah satu teknologi yang sering digunakan adalah Apache Flink.
Flink adalah framework open-source yang dirancang untuk mengolah data dalam dua cara:
-
Streaming (real-time) → data diproses terus-menerus
-
Batch (sekali proses) → data diproses dalam jumlah besar sekaligus
Berbeda dengan Apache Spark yang awalnya fokus ke batch, Flink sejak awal dibuat untuk real-time sehingga lebih cocok untuk aplikasi yang butuh respon cepat seperti:
-
Sistem pembayaran real-time
-
Deteksi fraud (penipuan)
-
Machine learning
-
Analitik data langsung
Kenapa Flink Butuh Storage yang Kuat?
Flink bekerja dengan konsep state (data sementara saat proses berjalan). Agar sistem tetap aman saat terjadi error, Flink menggunakan fitur checkpoint.
Checkpoint ini berfungsi seperti “save progress”:
-
Menyimpan kondisi proses secara berkala
-
Jika terjadi error, sistem bisa melanjutkan dari titik terakhir
Biasanya checkpoint disimpan di:
-
Sistem file seperti HDFS atau S3
-
NFS (Network File System)
Selain itu ada juga savepoint, yaitu snapshot manual yang biasanya digunakan untuk:
-
Backup
-
Upgrade sistem
Tantangan: Beban Berat ke Storage
Masalahnya, proses checkpoint ini bisa sangat berat untuk storage karena:
-
Terjadi secara berkala
-
Melibatkan banyak file kecil
-
Berjalan paralel
Jika storage tidak kuat, bisa terjadi:
-
Antrian data (queueing)
-
Backpressure (aliran data melambat)
-
Performa sistem menurun
Peran ONTAP dalam Solusi Ini
Untuk mengatasi masalah tersebut, digunakan solusi storage dari NetApp yaitu ONTAP.
ONTAP adalah platform storage yang bisa menangani berbagai jenis penyimpanan dalam satu sistem:
-
NFS
-
SMB
-
S3 (object storage)
-
NVMe (block storage super cepat)
Dengan pendekatan ini, semua kebutuhan storage Flink bisa disatukan dalam satu platform.
Cara Kerja Flink dalam Sistem Nyata
Alur kerja Flink biasanya seperti ini:
-
Data masuk dari sumber (misalnya sensor atau transaksi)
-
Diproses oleh Flink sesuai logika bisnis
-
Hasil dikirim ke tujuan (database, data warehouse, dll)
Seringkali data berasal dari Apache Kafka yang berfungsi sebagai sistem pengiriman data real-time.
Contoh Studi Kasus: Sistem Pembayaran Real-Time
Dalam pengujian, digunakan skenario:
-
Sistem pembayaran dengan banyak mesin kasir
-
Data transaksi dikirim ke Kafka
-
Flink memproses transaksi tersebut
Lingkungan uji:
-
Cluster Flink (4 node)
-
Cluster Kafka (4 node)
-
Storage ONTAP (2 node)
Hasilnya:
-
Latensi checkpoint sangat cepat (hitungan milidetik)
-
Latensi storage rata-rata hanya ~0.5 ms
-
Storage bukan bottleneck utama
Justru yang menjadi batas adalah:
-
Jaringan
-
Koneksi TCP
Optimasi Menggunakan NFS
Jika menggunakan NFS untuk checkpoint, ada beberapa tips:
1. Gunakan FlexGroup
FlexGroup memungkinkan data tersebar ke banyak node, sehingga:
-
Proses paralel lebih cepat
-
Cocok untuk banyak file kecil
2. Gunakan nconnect
Biasanya NFS hanya pakai 1 koneksi TCP. Dengan nconnect:
-
Bisa membuka banyak koneksi sekaligus
-
Performa meningkat
Rekomendasi awal:
-
nconnect=4
-
Sesuaikan berdasarkan performa
3. Perhatikan Jaringan
Untuk performa maksimal:
-
Gunakan 25–100 GbE
-
Aktifkan jumbo frame (MTU 9000)
Alternatif: Menggunakan ONTAP S3
Selain NFS, Flink juga bisa menggunakan S3.
Keunggulan ONTAP S3:
-
Tidak perlu konfigurasi NFS
-
Lebih mudah di Kubernetes
-
Cocok untuk data besar
-
Skalabilitas lebih natural
Selain itu:
-
Bisa digunakan untuk AI/ML dan analitik
-
Mendukung snapshot dan backup
NFS vs S3: Pilih yang Mana?
Gunakan:
-
NFS → jika banyak file kecil
-
S3 → jika data besar dan butuh fleksibilitas cloud
Banyak perusahaan menggunakan:
-
NFS untuk checkpoint
-
S3 untuk savepoint
Penyimpanan State: RocksDB
Flink menggunakan RocksDB untuk menyimpan state secara lokal.
Rekomendasi:
-
Gunakan NVMe lokal untuk performa terbaik
-
Jika pakai storage remote, pastikan latensi sangat rendah
ONTAP dengan NVMe juga bisa memenuhi kebutuhan ini.
Kesimpulan
Apache Flink adalah solusi powerful untuk pemrosesan data real-time, tetapi membutuhkan storage yang cepat dan stabil.
Dengan ONTAP dari NetApp, perusahaan bisa:
-
Menggabungkan semua jenis storage dalam satu platform
-
Mengurangi biaya dan kompleksitas
-
Meningkatkan performa dan skalabilitas
Hasilnya adalah sistem yang:
-
Cepat
-
Stabil
-
Siap untuk kebutuhan data modern seperti AI dan analytics
Infrastruktur IT yang kuat adalah kunci produktivitas perusahaan. Dengan netapp indonesia, merupakan bagian dari PT. iLogo Indonesia, yang merupakan mitra terpercaya dalam solusi Infrastruktur IT dan Cybersecurity terbaik di Indonesia.
Hubungi kami sekarang atau kunjungi netapp.ilogoindonesia.id untuk informasi lebih lanjut!
