Home Teknoloji OpenAI, yapay zekasının gizli talimatlarının perde arkasına bir bakış sunuyor

OpenAI, yapay zekasının gizli talimatlarının perde arkasına bir bakış sunuyor

16
0

ChatGPT gibi konuşmaya dayalı yapay zekanın neden “Üzgünüm, bunu yapamam” dediğini veya başka bir kibar ret cevabı verdiğini hiç merak ettiniz mi? OpenAI, ister marka kurallarına bağlı kalsın, isterse NSFW içeriği oluşturmayı reddetsin, kendi modellerinin etkileşim kurallarının ardındaki mantığa sınırlı bir bakış sunuyor.

Büyük dil modellerinin (LLM’ler) söyleyebilecekleri veya söyleyecekleri konusunda doğal olarak oluşan herhangi bir sınırı yoktur. Bu kadar çok yönlü olmalarının bir nedeni de budur, ama aynı zamanda halüsinasyon görmelerinin ve kolayca kandırılmalarının da nedeni budur.

Halkla etkileşime giren herhangi bir yapay zeka modelinin ne yapması ve yapmaması gerektiğine dair birkaç korkuluğa sahip olması gerekir, ancak bırakın bunları uygulamak bir yana, bunları tanımlamak şaşırtıcı derecede zor bir iştir.

Birisi yapay zekadan tanınmış bir kişi hakkında bir sürü yanlış iddia üretmesini isterse yapay zekanın bunu reddetmesi gerekir, değil mi? Peki ya kendileri de bir dedektör modeli için sentetik dezenformasyon veritabanı oluşturan bir yapay zeka geliştiricisiyse?

Birisi dizüstü bilgisayar tavsiyesi isterse; objektif olmalı, değil mi? Peki ya model, yalnızca kendi cihazlarıyla yanıt vermesini isteyen bir dizüstü bilgisayar üreticisi tarafından kullanılıyorsa?

Yapay zeka üreticilerinin hepsi bunun gibi açmazlarla yüzleşiyor ve tamamen normal istekleri reddetmelerine neden olmadan modellerini dizginlemek için etkili yöntemler arıyor. Ancak bunu tam olarak nasıl yaptıklarını nadiren paylaşıyorlar.

OpenAI, ChatGPT’yi ve diğer modelleri dolaylı olarak yöneten üst düzey kuralların bir koleksiyonu olan “model spesifikasyonu” adını verdiği şeyi yayınlayarak trendi biraz alt üst ediyor.

Meta düzeyde hedefler, bazı katı kurallar ve bazı genel davranış kuralları vardır; ancak açık olmak gerekirse, bunlar tam olarak modelin hazırlandığı şey değildir; OpenAI, bu kuralların doğal dilde tanımladığı şeyleri gerçekleştiren özel talimatlar geliştirmiş olacaktır.

Bir şirketin önceliklerini nasıl belirlediğine ve uç durumları nasıl ele aldığına ilginç bir bakış. Ve bunların nasıl sonuçlanabileceğine dair çok sayıda örnek var.

Örneğin OpenAI, geliştiricinin amacının temelde en yüksek yasa olduğunu açıkça belirtiyor. Yani GPT-4 çalıştıran bir sohbet robotunun bir sürümü, istendiğinde bir matematik probleminin cevabını sağlayabilir. Ancak eğer bu chatbot, geliştiricisi tarafından hiçbir zaman doğrudan bir yanıt vermemeye ayarlandıysa, bunun yerine çözüm üzerinde adım adım çalışmayı önerecektir:

Resim Kredisi: OpenAI

Konuşmaya dayalı bir arayüz, herhangi bir manipülasyon girişimini daha başlangıçta engellemek için onaylanmamış herhangi bir şey hakkında konuşmayı bile reddedebilir. Neden bir aşçı asistanının ABD’nin Vietnam Savaşı’na katılımı konusunda ağırlığını koymasına izin veresiniz ki? Neden bir müşteri hizmetleri sohbet robotu, devam eden erotik doğaüstü roman çalışmanıza yardımcı olmayı kabul etsin? Kapat şunu.

Ayrıca birinin adını ve telefon numarasını istemek gibi mahremiyet konularında da yapışkanlaşıyor. OpenAI’nin işaret ettiği gibi, bir belediye başkanı veya Kongre üyesi gibi kamuya mal olmuş bir şahsın iletişim bilgilerinin sağlanması gerekir, peki ya bölgedeki esnaflar? Bu muhtemelen sorun değil – peki ya belirli bir şirketin çalışanları veya bir siyasi partinin üyeleri? Muhtemelen değil.

Çizginin ne zaman ve nerede çizileceğini seçmek kolay değildir. Yapay zekanın ortaya çıkan politikaya uymasına neden olacak talimatları oluşturmak da değildir. Ve hiç şüphe yok ki, insanlar bu politikaları aşmayı öğrendikçe veya kazara açıklanmayan uç vakaları buldukça bu politikalar her zaman başarısız olacaktır.

OpenAI burada tam olarak kendini göstermiyor ancak kullanıcıların ve geliştiricilerin bu kuralların ve yönergelerin nasıl belirlendiğini ve neden, kapsamlı olmasa da açıkça ortaya konduğunu görmeleri yararlı olacaktır.

Kaynak

LEAVE A REPLY

Please enter your comment!
Please enter your name here