Home Teknoloji Apple, cihazda kullanılmak üzere sekiz küçük AI dil modelini yayınladı

Apple, cihazda kullanılmak üzere sekiz küçük AI dil modelini yayınladı

23
0

Getty Images

Yapay zeka dünyasında, “küçük dil modelleri” olarak adlandırılabilecek modellerin popülaritesi son zamanlarda artıyor çünkü bunlar, bulutta veri merkezi düzeyinde bilgisayarlar gerektirmek yerine yerel bir cihazda çalıştırılabiliyor. Çarşamba günü Apple, OpenELM adı verilen ve doğrudan akıllı telefonda çalıştırılabilecek kadar küçük, kaynakta kullanılabilen bir dizi küçük yapay zeka dil modelini tanıttı. Bunlar şimdilik çoğunlukla kavram kanıtlama araştırma modelleri, ancak Apple’ın gelecekteki cihaz içi yapay zeka tekliflerinin temelini oluşturabilirler.

Apple’ın toplu olarak “Açık Kaynak Verimli Dil Modelleri” anlamına gelen OpenELM olarak adlandırılan yeni yapay zeka modelleri, şu anda Hugging Face’te Apple Örnek Kod Lisansı kapsamında mevcuttur. Lisansta bazı kısıtlamalar olduğundan genel kabul gören “açık kaynak” tanımına uymayabilir ancak OpenELM’in kaynak kodu mevcuttur.

Salı günü, benzer bir şeyi başarmayı amaçlayan Microsoft’un Phi-3 modellerini ele aldık: yerel olarak çalışabilen küçük yapay zeka modellerinde yararlı düzeyde dil anlama ve işleme performansı. Phi-3-mini 3,8 milyar parametreye sahiptir, ancak Apple’ın OpenELM modellerinden bazıları çok daha küçüktür; sekiz farklı modelde 270 milyon ila 3 milyar parametre arasında değişmektedir.

Buna karşılık, Meta’nın Llama 3 ailesinde şimdiye kadar piyasaya sürülen en büyük model, 70 milyar parametre içeriyor (400 milyarlık versiyonu da yolda) ve OpenAI’nin 2020’deki GPT-3’ü 175 milyar parametreyle birlikte geliyor. Parametre sayımı, yapay zeka modeli kapasitesinin ve karmaşıklığının kaba bir ölçüsü olarak hizmet ediyor, ancak son araştırmalar, daha küçük yapay zeka dil modellerini, birkaç yıl önceki daha büyük modeller kadar yetenekli hale getirmeye odaklandı.

Sekiz OpenELM modelinin iki çeşidi vardır: dördü “önceden eğitilmiş” (temel olarak modelin ham, sonraki jetonlu versiyonu) ve dördü talimat ayarlı (talimat takibi için ince ayarlıdır, bu da yapay zeka asistanlarını geliştirmek için daha idealdir ve sohbet robotları):

Reklamcılık

OpenELM, 2048 jetonlu maksimum içerik penceresine sahiptir. Modeller, PILE’ın kopyaları kaldırılmış bir sürümü, RedPajama’nın bir alt kümesi ve Apple’ın toplamda yaklaşık 1,8 trilyon token veriye ulaştığını söylediği Dolma v1.6’nın bir alt kümesi olan, halka açık veri kümeleri RefinedWeb üzerinde eğitildi. Belirteçler, yapay zeka dil modelleri tarafından işlemek için kullanılan verilerin parçalanmış temsilleridir.

Apple, OpenELM yaklaşımının, parametreleri her katmana daha verimli bir şekilde tahsis eden, yalnızca hesaplama kaynaklarından tasarruf etmekle kalmayıp aynı zamanda daha az jetonla eğitilirken modelin performansını da artıran “katman bazında ölçeklendirme stratejisi” içerdiğini söylüyor. Apple’ın yayınlanan teknik incelemesine göre bu strateji, OpenELM’in Allen AI’nin OLMo 1B’sine (başka bir küçük dil modeli) göre doğrulukta yüzde 2,36’lık bir iyileşme elde etmesini sağlarken, aynı zamanda yarısı kadar ön eğitim jetonu gerektirdi.

Büyüt / Apple’ın OpenELM araştırma makalesinden alınan, OpenELM’i benzer sınıftaki diğer küçük yapay zeka dil modelleriyle karşılaştıran bir tablo.

Elma

Apple ayrıca OpenELM’yi eğitmek için kullandığı bir kütüphane olan CoreNet’in kodunu da yayınladı ve aynı zamanda ağırlıkların (sinir ağı dosyalarının) kopyalanmasına olanak tanıyan tekrarlanabilir eğitim tarifleri de içeriyordu; bu, şu ana kadar büyük bir teknoloji şirketi için alışılmadık bir durum. Apple’ın OpenELM makale özetinde belirttiği gibi şeffaflık şirket için temel bir hedeftir: “Büyük dil modellerinin tekrarlanabilirliği ve şeffaflığı, açık araştırmayı ilerletmek, sonuçların güvenilirliğini sağlamak ve veri ve model önyargılarına yönelik araştırmaları mümkün kılmak için çok önemlidir. potansiyel risklerin yanı sıra.”

Apple, kaynak kodunu, model ağırlıklarını ve eğitim materyallerini yayınlayarak “açık araştırma topluluğunu güçlendirmeyi ve zenginleştirmeyi” hedeflediğini söylüyor. Bununla birlikte, modeller kamuya açık veri kümeleri üzerinde eğitildiğinden, “bu modellerin kullanıcı istemlerine yanıt olarak hatalı, zararlı, önyargılı veya sakıncalı çıktılar üretme olasılığının mevcut olduğu” konusunda da uyarıda bulunuyor.

Apple, bu yeni AI dil modeli yeteneklerini henüz tüketici cihazlarına entegre etmemiş olsa da, yaklaşmakta olan iOS 18 güncellemesinin (Haziran ayında WWDC’de açıklanması bekleniyor) kullanıcıların daha güvenli olmasını sağlamak için cihaz içi işlemeyi kullanan yeni AI özelliklerini içerdiği söyleniyor. gizlilik – ancak şirket, Siri’ye gecikmiş bir destek sağlamak amacıyla daha karmaşık, cihaz dışı yapay zeka işlemlerini gerçekleştirmek için potansiyel olarak Google veya OpenAI’yi işe alabilir.

Kaynak

LEAVE A REPLY

Please enter your comment!
Please enter your name here