Kolaborasi Data Engineering, Detection Engineering, dan SecDataOps sebagai Pilar Transformasi Modern

oleh Digit Oktavianto

Latar Belakang

Apakah Anda menghadapi tantangan ini dalam data dan security engineering pada Security Operations Anda?

  • Terlalu banyak data sources? Mengelola log dan telemetri dalam jumlah besar itu rumit, apalagi dengan keterbatasan penyimpanan dan indeksasi.

  • Biaya SIEM yang mahal? Semakin banyak data yang masuk, semakin tinggi biaya lisensi, membuat Anda harus memilih data mana yang akan disimpan.

  • Kesulitan dalam detection engineering? Menulis dan memelihara detection rules sulit dilakukan tanpa pendekatan yang terstruktur untuk normalisasi data.

  • Data pipeline tidak efisien? Log yang tidak konsisten atau tidak terstruktur membuat korelasi, enrichment, dan analisis menjadi sulit.

  • Deteksi ancaman dan respons yang lambat? Tim keamanan kewalahan dengan terlalu banyak false positive atau kehilangan ancaman penting akibat pemrosesan data yang kurang efektif.

  • Membangun atau membeli? Haruskah Anda berinvestasi dalam platform SecDataOps, atau membangun data pipeline sendiri untuk analitik keamanan yang lebih scalable?

Jika tantangan ini terdengar familiar, mari kita bahas bagaimana data engineering (rekayasa data), detection engineering (rekayasa deteksi), dan SecDataOps dapat mengubah security operations (SecOps) di Organisasi Anda menjadi lebih modern.

Platform Security Operations Center (SOC) Modern (sumber: https://softwareanalyst.substack.com/p/the-future-of-soc-automation-platforms)

Dalam artikel ini, saya hanya akan menjelaskan informasi umum mengenai data engineering (rekayasa data), detection engineering (rekayasa deteksi), dan SecDataOps. Jika saya menjelaskan setiap bagiannya secara detail, artikel ini akan terlalu panjang. Mungkin di lain waktu, saya akan menulis lebih rinci tentang masing-masing topik tersebut.

Data Engineering

Mari kita bahas data engineering terlebih dahulu. Jika Anda mencari tentang data engineering di Google, mungkin Anda akan kebingungan dengan banyak istilah seperti data science (ilmu data), data lake (danau data), data mining (penambangan data), Extract Transform Load (ETL), big data (data besar), data analytics (analisis data), dan berbagai istilah lain yang berhubungan dengan data. Tapi... ya, semua itu adalah dasar dan fondasi utama dari data engineering.

Menurut situs web IBM (sebagai referensi):

“Data engineering is the practice of designing and building systems for the aggregation, storage and analysis of data at scale. Data engineers empower Organizations to get insights in real-time from large datasets.”

Data engineer (insinyur data) adalah seseorang yang bertanggung jawab untuk mengumpulkan, memproses, mengelola, dan menyimpan data dari berbagai sumber agar dapat mendukung proses bisnis yang membutuhkannya. Secara umum, tugas utama seorang data engineer adalah membangun sistem atau infrastruktur sehingga data yang telah dikumpulkan dapat digunakan oleh data analysts (analis data) dan data scientists (ilmuwan data) dengan cepat dan mudah.

IBM menjelaskan secara spesifik perbedaan antara data scientists, data analysts, dan data engineer sebagai berikut:

  • Data scientists menggunakan pembelajaran mesin (machine learning), eksplorasi data, dan bidang akademis lainnya untuk memprediksi hasil di masa depan. Data science adalah bidang interdisipliner yang berfokus pada pembuatan prediksi yang akurat melalui algoritma dan model statistik. Seperti data engineering, profesi ini juga membutuhkan keahlian pemrograman yang mendalam.

  • Data analysts bertugas memeriksa kumpulan data besar untuk mengidentifikasi pola dan mendapatkan wawasan yang dapat membantu organisasi dalam mengambil keputusan berbasis data. Jika data scientists menerapkan teknik komputasi tingkat lanjut untuk memanipulasi data, data analysts bekerja dengan dataset yang sudah ada untuk menemukan informasi penting dan menarik kesimpulan yang bermakna.

  • Data engineers adalah software engineers (insinyur perangkat lunak) yang membangun dan memelihara infrastruktur data suatu perusahaan. Mereka mengotomatisasi proses integrasi data, menciptakan model penyimpanan data yang efisien, serta meningkatkan kualitas data melalui pemantauan pipeline data. Data scientists dan data analysts sangat bergantung pada data engineers untuk mendapatkan data yang andal dan berkualitas tinggi untuk pekerjaan mereka.

  • Namun, bukan hanya data scientists dan data analysts yang bergantung pada data engineers. Dalam keamanan siber, threat detection engineer (insinyur deteksi ancaman), SOC Analyst (analis SOC), bahkan Digital Forensics and Incident Response Analyst (Analis DFIR) juga membutuhkan data engineers untuk menyediakan data yang berkualitas tinggi, andal, dan memiliki konteks yang jelas agar dapat digunakan secara efektif dalam deteksi ancaman dan investigasi keamanan.

Data pipeline adalah proses pengolahan data yang terdiri dari beberapa tahap. Dimulai dari sumber data, kemudian data diproses, hingga akhirnya disimpan di tujuan akhir. Data yang sampai di tahap akhir pipeline bisa berupa data yang sudah diproses atau masih dalam bentuk mentah yang siap digunakan untuk keperluan lain.

Agar lebih mudah dipahami, bayangkan data mentah seperti butiran beras dalam karung. Beras ini akan dimasukkan ke dalam pipeline, yaitu rice cooker. Di dalam rice cooker, beras akan diproses hingga matang menjadi nasi. Setelah matang, ada yang langsung mengonsumsinya, ada juga yang memilih untuk mengolahnya lebih lanjut untuk dijadikan menu sebagai bubur.

Di sisi lain, ada juga yang menyimpan nasi di kulkas untuk diolah keesokan harinya menjadi nasi goreng. Proses ini menggambarkan konsep data pipeline: data mentah masuk, diproses, lalu menjadi data yang siap digunakan atau diolah lebih lanjut. Setiap proses tersebut terjadi di dalam pipeline. Dimulai dari “butiran beras” yang masuk, hingga menjadi “nasi”, “bubur”, lalu diolah lagi menjadi “menu lain” seperti “nasi goreng” atau “nasi uduk” di Indonesia.

Seperti halnya makanan, data yang telah diproses juga perlu disimpan dengan baik. Dalam data engineering, data disimpan secara terstruktur agar dapat digunakan secara efektif. Tanpa tahap penyimpanan yang baik, data akan berantakan dan tidak dapat dimanfaatkan dengan optimal. Di beberapa kasus, data perlu dikorelasikan, diberi konteks tambahan, atau dikombinasikan dengan data lain agar dapat memberikan manfaat maksimal bagi para pengguna akhir. Inilah mengapa proses data engineering yang baik sangat penting.

Detection Engineering

Detection engineering, atau yang kadang disebut juga sebagai Content Engineering, SIEM Engineering, Threat Detection and Response, atau Intrusion Detection Engineering, adalah bidang yang berfokus pada pengembangan sistem deteksi ancaman siber yang kuat dan efektif. Tujuannya adalah menciptakan model deteksi yang benar-benar bernilai, dengan memahami secara mendalam bagaimana ancaman terus berkembang.

Dalam Security Operations Center (SOC), detection engineering adalah fungsi penting yang memungkinkan tim keamanan tetap selangkah lebih maju dari ancaman yang muncul. Hal ini mencakup evaluasi teknologi keamanan yang sudah ada, memperkuatnya dengan detection rules khusus, serta terus menyempurnakan mekanisme deteksi agar lebih akurat dan efektif.

Penerapan deteksi ancaman yang efektif dalam operasi SOC bukan hanya soal mengadopsi teknologi, tetapi juga membangun pola pikir keamanan yang proaktif. Pendekatan ini memastikan integrasi yang optimal antara alat otomatis dan analisis ahli, dengan mengandalkan identifikasi ancaman berbasis pola. Meskipun metode ini dapat menghasilkan banyak peringatan (alerts), penyempurnaan terus-menerus tetap menjadi kunci untuk meningkatkan efisiensi deteksi.

Saya mengambil penjelasan dari Splunk dan Crowdstrike mengenai detection engineering:

Splunk: “A specialized discipline within cybersecurity, Detection Engineering (DE) is focused on designing, building, and fine-tuning systems and processes to detect malicious activities or unauthorized behaviours. As organizations contend with an ever-evolving threat landscape, they must continuously update their defences and improve their ability to detect potential security incidents. Detection engineering aids in this effort by bridging the gap between raw data from various sources and actionable security alerts.” Crowdstrike: “Detection engineering is the process of identifying threats before they can do significant damage. Detection engineering is about creating a culture, as well as a process of developing, evolving, and tuning detections to defend against current threats. It aligns content developers, threat hunters, threat intelligence, red teams, risk management, and so forth, to build a threat-informed defence system.”

Peran Detection dan Response (sumber: Gambar diambil dari https://cyb3rops.medium.com/about-detection-engineering-44d39e0755f0)

Detection engineering berpusat pada proses menganalisis data, membuat aturan deteksi, dan mengidentifikasi kemungkinan ancaman. Sederhananya, ini seperti memasang kamera keamanan dan sensor gerak di sebuah gedung untuk menangkap penyusup. Detection engineers merancang sistem yang dapat menangkap tanda bahaya agar tim keamanan bisa segera merespons ancaman dengan cepat.

Saya mengambil penjelasan Crowdstrike tentang detection engineering karena ada beberapa kata menarik terkait budaya dalam bidang ini. Di perusahaan besar dengan tingkat kematangan keamanan siber yang tinggi, mereka sudah memiliki proses detection engineering yang matang. Mereka menerapkan konsep Detection as Code, yaitu pendekatan modern dalam deteksi ancaman yang mengadopsi prinsip pengembangan perangkat lunak, seperti version control (pengelolaan versi), pengujian, otomatisasi, dan Continuous Integration/Continuous Deployment (CI/CD). Metodologi ini memungkinkan tim keamanan untuk mengembangkan, memelihara, dan menerapkan detection rules serta tanda-tanda ancaman dengan cara yang modular, skalabel, dan konsisten di seluruh infrastruktur keamanan.

Proses Detection as a Code (sumber: Gambar diambil dari https://www.picussecurity.com/resource/blog/understanding-detection-as-code)

Memahami deteksi berarti mengetahui cara menemukan ancaman dengan menggunakan data dan teknik serangan (Tactics, Techniques, and Procedures). Saat merancang strategi deteksi yang kuat, tujuan utamanya adalah mengenali aktivitas berbahaya dengan akurat sambil mengurangi kesalahan deteksi (false positive). Jika sistem deteksi sering menandai aktivitas yang sebenarnya tidak berbahaya, ini justru menambah beban kerja analis dan mengurangi efisiensi.

Solusi deteksi memberikan nilai dengan mengungkap ancaman sebenarnya. Namun, banyak alat deteksi cenderung berhati-hati dengan menangkap lebih banyak kejadian agar tidak melewatkan potensi ancaman. Sayangnya, hal ini bisa menimbulkan terlalu banyak peringatan (noise) yang membuat tim keamanan kewalahan dan kurang efisien.

Pentingnya Detection Engineering

  • Detection engineering adalah pendekatan sistematis untuk menilai dan mengadopsi alat keamanan siber terbaru yang sesuai dengan ancaman yang terus berkembang. Karena penyerang juga menggunakan teknologi canggih, Organisasi harus mengutamakan solusi yang gesit, efektif, dan efisien.

  • Memperkuat pertahanan dengan membuat detection rules dan analisis perilaku yang disesuaikan untuk mengatasi risiko spesifik.

  • Meningkatkan visibilitas di semua lingkungan (cloud, lokal, dan endpoint) agar pemantauan lebih menyeluruh.

  • Menyempurnakan deteksi secara bertahap untuk menyeimbangkan akurasi (menangkap ancaman sebenarnya) dan efisiensi (mengurangi kesalahan deteksi atau false positive).

Saya ingin menambahkan ilustrasi yang bagus tentang cara mengembangkan konten deteksi dari Josh Day di https://blog.gigamon.com/2020/02/24/so-you-want-to-be-a-detection-engineer/👏

“A detection is made up of a subject, a method, and other attributes. The subject is what we are trying to detect. If my goal is to identify a piece of malware, then the malware is the subject. Alternatively, a behavior could be the subject. The method covers how I identify the subject. For example, I may consider high counts of subdomains for newly created second–level domains (2LDs) to be an indication of Domain Name Service (DNS) Command and Control (C2). The method is examining counts, while the subject is DNS C2. Finally, detections include other attributes (metadata) to add meaning to the detection. For example, I may map the detection rule to MITRE ATT&CK™ or some other taxonomy to provide context. I will probably assign the rule a severity score (the damage that can by caused if the observed action succeeds) and a confidence value (how well the rule identifies the behavior).”

Tantangan dalam Detection Engineering

Detection engineering adalah proses yang terus berjalan dan membutuhkan adaptasi terhadap metode serangan baru, penyempurnaan aturan deteksi, serta kerja sama antar tim keamanan. Detection engineering berperan penting dalam mengidentifikasi dan merespons ancaman siber, tetapi memiliki beberapa tantangan. Beberapa yang paling signifikan meliputi:

1. Menyeimbangkan Cakupan Deteksi dan False Positives

  • Terlalu banyak deteksi dapat membanjiri analis dengan peringatan dan menyebabkan kelelahan (alert fatigue).

  • Terlalu sedikit deteksi bisa membuat ancaman asli terlewat (false negatives).

  • Menemukan keseimbangan antara peringatan yang akurat dan cakupan deteksi yang luas sangat sulit.

2. Lanskap Ancaman yang Terus Berkembang dan Adaptif

  • Penyerang terus mengubah Tactics, Techniques, and Procedures (TTPs) mereka untuk menghindari deteksi.

  • Teknik seperti obfuscation, malware polymorphic, dan living-off-the-land attacks (LOTL) digunakan untuk menyamarkan aktivitas berbahaya agar terlihat normal.

  • Detection rules harus terus diperbarui agar tetap efektif terhadap ancaman terbaru.

3. Kualitas Data dan Inkonsistensi Log

  • Deteksi keamanan bergantung pada log berkualitas tinggi, tetapi sering kali data tidak lengkap, tidak konsisten, atau bahkan hilang.

  • Log dari cloud, IoT, dan lingkungan hybrid menciptakan visibilitas yang terfragmentasi, sehingga analisis menjadi lebih rumit.

  • Sumber log yang berbeda (SIEM, EDR, NDR, layanan cloud) memiliki format yang bervariasi, membuat normalisasi dan korelasi menjadi tantangan.

  • Penyimpanan dan pemrosesan data dalam jumlah besar bisa mahal dan kompleks.

4. Integrasi dengan Operasi Keamanan (SecOps)

  • Detection engineering harus dapat bekerja dengan lancar bersama Security Operations Center (SOC).

  • Kolaborasi antara detection engineers, threat hunters, dan analis SOC sangat penting untuk meningkatkan keamanan secara keseluruhan.

  • Terkadang ada konflik tujuan: detection engineering berfokus pada cakupan deteksi yang luas, sementara SecOps ingin mengurangi kebisingan peringatan dan mempercepat respons.

  • Detection rules yang kurang memiliki konteks operasional dapat membebani analis SecOps dengan banyak peringatan yang sulit ditindaklanjuti.

5. Kendala Sumber Daya dan Keahlian

  • Detection engineers yang terampil sangat dibutuhkan, tetapi jumlahnya masih terbatas.

  • Pengembangan detection rules yang berkualitas tinggi memerlukan pemahaman mendalam tentang keamanan siber, ilmu data, dan pemrograman.

  • Organisasi harus berinvestasi dalam pelatihan dan alat yang tepat agar dapat mengikuti perkembangan ancaman yang terus berubah.

Tantangan Detection Engineering (sumber: Gambar diambil dari https://blog.sekoia.io/detection-engineering-at-scale-one-step-closer-part-one/)

Hadirin sekalian…. Sambutlah: SecDataOps!!!

Data adalah tulang punggung operasional keamanan modern — tanpa data, Anda kehilangan visibilitas dalam SecOps. Namun, terlalu banyak data juga bisa menjadi masalah, membuat visibilitas yang seharusnya jelas justru tertutup.

Kita sudah membahas data engineering dan data pipeline sebelumnya. Sekarang waktunya memanfaatkan data tersebut dan membuka potensi penuh detection engineering dari data yang kita miliki. Dengan Platform SecDataOps, Anda akan mendapatkan insight, visibilitas, enrichment, augmentasi, dan konteks untuk SIEM Anda. Bahkan, sebagai bonus, implementasi SecDataOps yang baik bisa membantu mengurangi biaya lisensi SIEM atau Security Analytics. Menarik, bukan?

SecDataOps adalah fondasi yang menghubungkan dan mengoptimalkan seluruh aspek operasional keamanan modern. Konsep ini berfokus pada pengembangan data pipeline yang dirancang khusus untuk mengumpulkan, menstandarisasi, memperkaya, memberikan konteks, serta mendistribusikan data keamanan—memastikan bahwa informasi dalam skala besar tetap terkendali dan dapat ditindaklanjuti. Salah satu konsep utama dalam SecDataOps adalah modular pipeline design, yang memungkinkan tim keamanan dengan cepat menyusun dan menyesuaikan alur kerja data dengan menghubungkan berbagai komponen. Pendekatan fleksibel ini meningkatkan agilitas, mengoptimalkan penggunaan sumber daya, dan mengurangi ketergantungan pada platform SIEM yang kaku dan sulit dikelola.

Platform SecDataops (sumber: Gambar diambil dari https://www.tenzir.com)

Agar lebih memahami Platform SecDataOps, saya ingin mengutip dari artikel berikut https://www.detectionatscale.com/p/the-transition-from-monolithic-siems:

“Transitioning from a monolithic SIEM to one backed by a data lake requires a vastly different technology stack. While the originating data sources remain the same on endpoints or servers, the nature to which they are transformed, loaded, and queried is very different.

With the traditional monolithic search platforms, teams simply feed logs into native ingestion mechanism (Splunk’s heavy forwarder and Elastic’s Logstash), and the system indexes it for search. In data lakes, these pieces are more decoupled and becoming more interopable:

Data Routing: Ingestion pipelines to pull/push security logs and events from disparate sources into the data lake using a variety of protocols.

Transformation: Through ETL (Extract, Transform, Load) processes, security data is cleansed and reformatted to maintain consistency.

Storage: Utilize durable storage solutions to retain vast volumes of security data, ensuring scalability and data integrity.

Query Engine: Implement tools like Trino for querying capabilities that identify threats and anomalies.

Metadata: Cataloging systems annotate and classify security data within the data lake to enhance queries.

Real-time Analysis: Stream processing frameworks like Kafka or Spark for on-the-fly security data analysis.”

Kata kunci yang perlu diperhatikan dari pernyataan di atas adalah:

  • "Decoupled SIEM" → Memisahkan (decoupling) data lake, analitik, proses ingest, pemrosesan, dan retensi dari platform SIEM.

  • "Ingestion data pipeline" → Pipeline data dan rekayasa data (data engineering).

  • "Vast volume of security data" → Data lake untuk manajemen data dalam skala besar.

  • "Extract, Transform, Load (ETL) processes, security data is cleansed and reformatted" → Proses pengayaan, kontekstualisasi, dan augmentasi data SIEM (juga mengurangi biaya lisensi SIEM).

  • "Classify security data" → Memetakan data/telemetri ke dalam framework standar seperti OCSF, serta standarisasi logika deteksi menggunakan bahasa deteksi universal seperti Sigma.

  • "Streaming processing for on-the-fly security data analytics" → Strategi pemrosesan yang efisien untuk memastikan deteksi ancaman yang cepat dan efektif.

Berdasarkan kutipan dan kata kunci di atas, kini Anda mendapatkan gambaran besar tentang mengapa SecDataOps memiliki peran penting sebagai tulang punggung Modern SecOps, bukan?

Artikel Bersambung ke Part 2

Tentang Penulis

Digit Oktavianto. GCIH, GICSP, CEH, ECSA, ECIH, CHFI, CAST 612. CEI, IBM Qradar Security Associate

Digit Oktavianto, atau yang sering disapa Digit, adalah seorang pegiat cybersecurity , independent security researcher dan security architect di perusahaan PT. Mitra Integrasi Informatika. Beberapa pengalaman dan topik yang merupakan passion dari Digit Oktavianto antara lain: Cyber Security Operation Center , Threat Hunting , DFIR (Digital Forensic and Incident Response), Malware Analysis, Cyber Defense Operation, Threat Intelligence, OSINT, Incident Handling and Incident Response, Active Defense and Continuou s Monitoring, ICS/Scada Security

Last updated