Beyond RAG: Mengapa Agen Multi-Langkah Memecahkan Dilema Data Perusahaan

11

Bagi banyak perusahaan, janji akan wawasan berbasis AI menghadapi hambatan struktural. Meskipun Retrieval-Augmented Generation (RAG) telah menjadi standar untuk menghubungkan Large Language Model (LLM) ke data pribadi, hal ini semakin terbukti tidak memadai untuk pertanyaan bisnis yang kompleks dan nyata.

Penelitian baru dari Databricks menunjukkan bahwa batasannya bukan pada kecerdasan model itu sendiri, melainkan arsitektur yang digunakan untuk menanyakannya. Studi ini menyoroti perubahan penting: beralih dari pengambilan satu putaran ke alur kerja agen multi-langkah.

Masalah “Data Hibrid”.

Kebanyakan intelijen bisnis memerlukan menghubungkan dua dunia yang berbeda:
1. Data Terstruktur: Angka yang tepat, angka penjualan, dan tabel relasional (SQL).
2. Data Tidak Terstruktur: Ulasan pelanggan, makalah akademis, dan dokumen pendukung.

Sistem RAG standar dirancang untuk yang terakhir. Ia unggul dalam menemukan teks yang “terdengar seperti” kueri, namun kesulitan melakukan filter matematis yang tepat atau menggabungkan data dalam berbagai format.

“RAG berfungsi, namun tidak berskala,” kata Michael Bendersky, Direktur Riset di Databricks. “Jika Anda ingin memahami mengapa penjualan Anda menurun, Anda harus membantu agen melihat tabel dan melihat data penjualan. Saluran RAG Anda akan menjadi tidak kompeten dalam tugas itu.”

Arsitektur vs. Intelijen: Kesenjangan 21%.

Untuk membuktikan bahwa masalahnya terletak pada cara data diakses, bukan seberapa pintar modelnya, Databricks melakukan serangkaian pengujian menggunakan STaRK benchmark (mencakup produk Amazon, Microsoft Academic Graph, dan data biomedis).

Mereka membandingkan sistem RAG satu putaran yang berperforma tinggi dan canggih dengan pendekatan agen multi-langkah. Bahkan ketika menggunakan model pondasi yang jauh lebih kuat, sistem RAG putaran tunggal kalah dalam hal:
* 21% di domain akademik.
* 38% dalam domain biomedis.

Kesenjangan kinerja ini menunjukkan bahwa model yang paling “cerdas” sekalipun tidak dapat mengimbangi arsitektur pengambilan yang pada dasarnya tidak mampu menjembatani kesenjangan antara spreadsheet dan dokumen teks.

Cara Kerja “Agen Pengawas”.

Solusi Databricks, Agen Pengawas, beralih dari gagasan “pengambilan hibrid” (mencoba menggabungkan penyematan dan tabel) dan malah memperlakukan masalah sebagai orkestrasi alat. Agen berfungsi melalui tiga kemampuan inti:

  • Dekomposisi Alat Paralel: Daripada melakukan satu penelusuran besar-besaran, agen secara bersamaan memicu kueri SQL untuk angka dan penelusuran vektor untuk teks. Kemudian menganalisis hasil gabungan untuk membentuk jawaban yang koheren.
  • Koreksi Mandiri: Jika pencarian awal tidak membuahkan hasil—seperti mencari penulis tertentu dengan jumlah publikasi yang tepat—agen tidak akan menyerah. Ini memformulasi ulang kueri, melakukan SQL JOIN, dan memverifikasi hasilnya melalui pencarian kedua.
  • Konfigurasi Deklaratif: Tidak seperti pipeline tradisional yang mengharuskan teknisi untuk “meratakan” atau menormalkan data menjadi potongan teks, agen ini menggunakan deskripsi bahasa sederhana. Untuk menambahkan sumber data baru, seorang insinyur cukup menjelaskan datanya; agen belajar bagaimana menggunakannya.

Pergeseran dari Teknik ke Konfigurasi

Implikasinya terhadap rekayasa data sangatlah signifikan. Dalam pengaturan RAG tradisional, setiap sumber data baru memerlukan “saluran data” dalam jumlah besar—mengonversi JSON, menormalkan tabel, dan mengelola penyematan. Hal ini menciptakan hambatan yang tumbuh seiring dengan berkembangnya suatu perusahaan.

Pendekatan agen membalikkan model ini: “Bawa saja agen ke data.”

Poin Penting dalam Penerapan:

  • Skalabilitas: Model agen lebih berkelanjutan untuk mengembangkan kumpulan data karena menambahkan sumber adalah tugas konfigurasi, bukan tugas pengkodean.
  • Batas Kompleksitas: Meskipun ampuh, pendekatan ini berfungsi paling baik dengan 5 hingga 10 sumber data. Menghubungkan terlalu banyak sumber yang bertentangan sekaligus dapat menurunkan kecepatan dan keandalan.
  • Integritas Data: Meskipun agen dapat menavigasi berbagai format, agen tidak dapat memperbaiki “sampah masuk, sampah keluar”. Data sumber harus akurat secara faktual agar agen dapat efektif.

Kesimpulan

Transisi dari RAG ke agen multi-langkah mewakili evolusi mendasar dalam AI perusahaan: beralih dari sistem yang hanya menemukan informasi ke sistem yang dapat bernalar di berbagai ekosistem data. Dengan memperlakukan sumber data sebagai alat, bukan sekedar potongan teks, perusahaan akhirnya dapat mulai menjawab pertanyaan kompleks dan lintas fungsi yang mendorong keputusan bisnis.

Artikulli paraprakCNET Meluncurkan “Pilihan Rakyat” untuk Melakukan Crowdsource Headphone Terbaik tahun 2026