Red Hat AI Inference Server, AI Generatif untuk Berbagai Model dan Akselerator di Hybrid Cloud

TechnologyIndonesia.id – Red Hat, penyedia solusi open source terkemuka di dunia, merilis Red Hat AI Inference Server, satu langkah signifikan menuju demokratisasi AI generatif (gen AI) di seluruh hybrid cloud. Penawaran baru di dalam Red Hat AI, server inferensi kelas enterprise, ini lahir dari proyek komunitas vLLM yang kuat dan ditingkatkan berkat integrasi teknologi Neural Magic Red Hat.

Teknologi ini menawarkan kecepatan yang lebih tinggi, efisiensi akselerator, dan penghematan biaya untuk mewujudkan visi Red Hat menjalankan berbagai model gen AI di berbagai akselerator, di berbagai lingkungan cloud.

Dijalankan secara mandiri atau sebagai komponen terintegrasi dari Red Hat Enterprise Linux AI (RHEL AI) dan Red Hat OpenShift AI, platform canggih ini akan memberdayakan organisasi untuk menjalankan dan meningkatkan gen AI dalam produksi dengan lebih percaya diri.

Inferensi adalah mesin eksekusi AI yang sangat penting, di mana model-model yang sudah dilatih sebelumnya akan menerjemahkan data menjadi kenyataan. Inferensi adalah titik penting dalam interaksi pengguna, yang menuntut respons cepat dan akurat.

Ketika kompleksitas model AI semakin tinggi dan skala penerapannya dalam produksi makin besar, inferensi bisa menjadi hambatan yang signifikan, menghabiskan sumber daya hardware dan terancam melumpuhkan daya tanggap dan meningkatkan biaya operasional.

Server inferensi yang kuat bukan lagi sebuah kemewahan, namun sebuah kebutuhan untuk membuka potensi AI pada skala besar, menavigasi berbagai kompleksitas yang ada dengan lebih mudah.

Red Hat secara langsung menjawab tantangan-tantangan ini dengan Red Hat AI Inference Server – solusi inferensi terbuka yang dirancang untuk kinerja tinggi dan dilengkapi dengan kompresi model dan tools pengoptimalan terkemuka.

Inovasi ini memberdayakan organisasi untuk sepenuhnya memanfaatkan kekuatan transformatif gen AI dengan memberikan pengalaman pengguna yang jauh lebih responsif dan kebebasan yang tak tertandingi dalam memilih akselerator AI, model dan lingkungan IT.

Joe Fernandes, vice president dan general manager, AI Business Unit, Red Hat mengatakan bahwa Inferensi adalah tempat di mana janji-janji gen AI diwujudkan, di mana interaksi pengguna dipenuhi dengan respons yang cepat dan akurat oleh model yang tersedia, namun ini harus disampaikan dengan cara yang efektif dan hemat biaya.

Red Hat AI Inference Server ditujukan untuk memenuhi permintaan inferensi yang berkinerja tinggi dan responsif dalam skala besar sambil menjaga permintaan sumber daya tetap rendah, menyediakan lapisan inferensi umum yang mendukung model apa pun, berjalan di akselerator apa pun, di lingkungan apa pun.”

“Berkolaborasi dengan Red Hat, AMD menyajikan solusi yang out-of-the-box untuk menggerakkan AI generatif yang efisien di dalam perusahaan. Red Hat AI Inference Server yang didukung dengan GPU AMD Instinct™ melengkapi organisasi dengan kemampuan inferensi AI tingkat enterprise yang didorong oleh komunitas dan didukung sepenuhnya oleh akselerator hardware yang tervalidasi,” ujar Joe.

vLLM: Memperluas inovasi inferensi

Red Hat AI Inference Server dibangun berdasarkan proyek vLLM terkemuka di industri, yang dimulai oleh University of California, Berkeley pada pertengahan tahun 2023. Proyek komunitas ini menghadirkan inferensi gen AI dengan throughput tinggi, dukungan untuk konteks input yang besar, akselerasi model multi GPU, dukungan untuk batching berkelanjutan dan banyak lagi.

Dukungan luas vLLM untuk model yang tersedia secara umum – ditambah dengan day zero integration dari model-model tercanggih dan terkemuka seperti DeepSeek, Gemma, Llama, Llama Nemotron, Mistral, Phi, dan lainnya, serta model-model penalaran (reasoning model) kelas enterprise seperti Llama Nemotron – menempatkannya sebagai standar de facto untuk inovasi inferensi AI di masa depan.

Penyedia model tercanggih dan terkemuka semakin menggunakan vLLM, memperkuat peran pentingnya dalam membentuk masa depan gen AI.

Red Hat AI Inference Server

Red Hat AI Inference Server mengemas inovasi terdepan dari vLLM terdepan dan memadukannya ke dalam kemampuan kelas enterprise dari Red Hat AI Inference Server. Red Hat AI Inference Server tersedia sebagai penawaran terkontainerisasi secara mandiri atau sebagai bagian dari RHEL AI dan Red Hat OpenShift AI.

Di setiap lingkungan di mana ia diterapkan, Red Hat AI Inference Server memberikan pengguna distribusi vLLM yang diperkuat dan disupport sepenuhnya, termasuk:

– Tool kompresi LLM yang cerdas untuk mengurangi ukuran model AI, baik yang dasar (foundational) maupun yang sudah fine-tuned, meminimalkan penggunaan daya komputasi sekaligus menjaga dan berpotensi meningkatkan akurasi model.

– Repositori model yang dioptimalkan, yang dihosting dalam organisasi Red Hat AI di Hugging Face, menawarkan akses cepat ke kumpulan model AI terkemuka yang telah divalidasi dan dioptimalkan serta siap untuk langsung dijalankan, membantu mempercepat efisiensi hingga 2-4 x lipat tanpa mengorbankan akurasi model.

– Dukungan enterprise dan puluhan tahun keahlian Red Hat dalam mewujudkan proyek-proyek komunitas ke lingkungan produksi.

– Dukungan Pihak Ketiga untuk fleksibilitas yang lebih besar dalam penerapan, sehingga Red Hat AI Inference Server dapat dijalankan di platform yang bukan Red-Hat Linux dan Kubernetes sesuai dengan kebijakan dukungan pihak ketiga Red Hat.

Masa Depan AI

Masa depan AI harus ditentukan oleh peluang yang tak terbatas, tidak dibatasi oleh infrastruktur yang mengalami silo.

Red Hat melihat dalam waktu dekat organisasi dapat menggunakan model apa pun, di akselerator apa pun, di cloud apa pun, memberikan pengalaman pengguna yang luar biasa dan lebih konsisten tanpa biaya yang terlalu tinggi.

Untuk membuka potensi sesungguhnya dari investasi gen AI, perusahaan membutuhkan platform inferensi yang universal, sebuah standar untuk inovasi AI yang lebih mulus dan memiliki kinerja tinggi, baik saat ini maupun di tahun yang akan datang.

Sama seperti Red Hat yang memelopori perusahaan terbuka dengan mengubah Linux menjadi landasan IT modern, perusahaan sekarang siap merancang masa depan inferensi AI.

vLLM memiliki potensi sebagai landasan untuk inferensi gen AI standar. Red Hat berkomitmen membangun ekosistem yang berkembang bukan hanya di sekitar komunitas vLLM namun juga llm-d untuk inferensi terdistribusi dalam skala besar.

Visinya jelas: terlepas dari model AI, akselerator yang mendasarinya, atau lingkungan penerapannya, Red Hat bermaksud menjadikan vLLM sebagai standar terbuka yang definitif untuk inferensi di seluruh hybrid cloud yang baru.