Yandex Öneri Sistemleri İçin Dünyanın En Büyük Veri Setini Yayınladı
Teknoloji Haberleri

Yandex, öneri sistemleri alanında araştırma ve geliştirmeyi küresel ölçekte ilerletmek amacıyla, şimdiye kadar kamuya açık olan dünyanın en büyük etkileşim veri setini erişime sundu. “Yambda (Yandex Music Billion-Interactions Dataset)” adı verilen bu açık veri seti, müzik akış servisi Yandex Music üzerinden 10 ay boyunca toplanan 4,79 milyar anonimleştirilmiş kullanıcı etkileşimini içeriyor.
Veri seti; dinleme, beğenme ve beğenmeme gibi kullanıcı davranışlarını, zaman damgalarıyla birlikte sunarken; öneri sistemlerinin geliştirilmesinde kritik rol oynayan ses katıştırmaları, organik etkileşim bilgileri ve önerilen içeriklerle kullanıcıların ilişkisini de kapsıyor.
Yambda, öneri sistemlerinin yalnızca müzik değil; e-ticaret, sosyal medya ve kısa video platformları gibi birçok alanda daha etkili hale gelmesine katkı sağlamayı hedefliyor. Veri seti, Spark, Hadoop, Pandas ve Polars gibi araçlarla uyumlu olan Apache Parquet formatında sunuluyor.
Yandex Öneri Sistemleri Başkanı Nikolai Savushkin, konuyla ilgili yaptığı açıklamada, “Yambda, araştırmacıların yenilikçi hipotezleri test etmelerine ve işletmelerin daha akıllı öneri sistemleri oluşturmalarına yardımcı oluyor. Sonuç olarak kullanıcılar da mükemmel şarkıyı, ürünü ya da hizmeti bularak bu gelişmeden faydalanıyor,” dedi.
Yambda Veri Setinin Öne Çıkan Özellikleri:
-
10 ay boyunca toplanmış 4,79 milyar etkileşim
-
1 milyon kullanıcı ve 9,39 milyon parça hakkında anonimleştirilmiş veri
-
Örtülü (dinleme) ve açık (beğenme, beğenmeme) geri bildirim türleri
-
“is_organic” işareti ile içeriğin öneri mi yoksa kullanıcı keşfi mi olduğunu ayırabilme
-
Zaman damgaları sayesinde kullanıcı davranışının zamana bağlı analizi
-
Ses katıştırmaları ile içerik benzerliği analizi
-
Apache Parquet formatında dağıtım
Farklı İhtiyaçlara Uygun 3 Sürüm
Yambda, farklı işlem gücü ve araştırma ihtiyaçlarını karşılamak üzere yaklaşık 5 milyar, 500 milyon ve 50 milyon etkinlik içeren üç ayrı sürümde Hugging Face platformu üzerinden indirilebilir durumda.
Akademi ve Sektör Arasındaki Boşluğu Kapatıyor
Büyük öneri sistemleri genellikle devasa veri kümelerine dayanıyor. Ancak ticari şirketlerin sahip olduğu bu veriler nadiren kamuya açık hale getiriliyor. Bu durum, akademide geliştirilen modellerin gerçek dünyada düşük performans göstermesine neden olabiliyor. Yandex, bu veri kıtlığını gidererek, araştırma ve sektör arasındaki boşluğu kapatmayı amaçlıyor.
Yambda veri seti, sınırlı veriye sahip girişimlerden, ileri seviye yapay zekâ laboratuvarlarına kadar geniş bir kitleye hitap ederek, öneri sistemleri teknolojisinde önemli bir sıçrama yaratmayı hedefliyor.
- KATEGORİLER:
- | Teknoloji Haberleri |
- | Yapay Zeka Haberleri |