Film Önerisi İçin Karma Bir Yaklaşım

Published by: 0

  1. Giriş

İşbirlikçi ve içeriğe dayalı filtreleme, kullanıcıların ilginç bulacağı yeni öğeleri öngören tavsiye veren sistemlerdeki ana yöntemlerdir.

Her yöntemin kendine özgü avantajları ve eksiklikleri vardır ve belirli durumlarda en iyi şekilde uygulanır. Hibrit yaklaşımlar performansı artırmak ve eksikliklerin üstesinden gelmek için her iki yöntemin öğelerini kullanır.

Elektronik platformlar üzerinden (İnternet gibi) elde edilebilecek geniş miktarda bilgi, alakasız bilgileri filtreleyen ve kullanıcının gereksinimlerini karşılayan içeriği seçen sistemler geliştirmeye çağırdı. Yukarıdaki süreci kolaylaştırmak için 90’lı yılların ortalarında ortaya çıkan önleyici sistemler ortaya çıktı ve “Çıktı olarak kişiselleştirilmiş öneriler üreten ya da kullanıcıyı olası seçeneklerden oluşan geniş bir alanda ilginç ya da faydalı nesnelere kişisel bir şekilde yönlendirme etkisi olan” [6] olan sistemler olarak tanımlanabilir. Kitaplar [15], TV programı [10, 16, 18, 27], şakalar [9], haber makaleleri [22] gibi alanlarda başarılı olduklarını kanıtladılar.

Bu şekilde tavsiye teknolojileri pazarlamacılara ve tedarikçilere ürünlerini daha etkili bir şekilde hedefleme konusunda eşi görülmemiş fırsatlar sunarken, izleyicilerin çok fazla alakasız mesajın neden olduğu reklam karmaşasını azaltır [14].

Öneri yöntemleri, daha önce değerlendirilen öğeler ve / veya öğe özelliklerine dayanarak, kullanıcıların gözlemlenmemiş öğelere olan ilgisine ilişkin tahminler yapmaya çalışır.

Her iki yöntem de avantajlar ve dezavantajlar sunmakta ve işbirlikçi ve içerik bazlı filtrelemeyi birleştiren ve her iki yöntemin de avantajlarından yararlanarak hibrit öneri yöntemlerine yönelik önemli bir araştırma çabasına ayrılmıştır (örneğin, [4, 6, 25]).

** Bu yazıda, içeriğe dayalı ya da işbirliğine dayalı filtreleme tahminini tetikleyen belirli parametrelerin izlenmesine dayanan içeriğe dayalı ve işbirlikçi filtrelemeyi birleştiren karma bir yaklaşım öneriyoruz.

İşbirlikçi ve içerik tabanlı filtreleme

İşbirlikçi filtrelemeyi kullanarak öneriler üretmek için, aktif kullanıcının (tahminin ifade ettiği kullanıcı), diğerleriyle benzerliklerini bir korelasyon ölçüsü (tipik olarak Pearson korelasyon katsayısı) kullanarak hesaplar. Daha sonra aktif kullanıcıya en çok benzeyen kullanıcıların grubu (mahalle) seçilir ve tahminler yapmak için irrasyonlar birleştirilir.

İçeriğe dayalı öneriler üretmek için, öğelerin bazı özellikler tarafından tanımlanması gerekir. Örneğin, kitap önerisi alanında, yazar, tür ve en sık kullanılan kelimeler özellik olarak işlev görebilir. Bu özellikleri çıkarmak için TF-IDF ve Bilgi Kazancı (IG) gibi metrikler sıklıkla kullanılır [2, 20]. Aktif kullanıcının derecelendirdiği öğeler, bir kullanıcı profili oluşturmak için kullanılır. Tüm derecelendirilmemiş ürünler bu profille karşılaştırılır ve en benzerleri aktif kullanıcıya sunulur.

İçeriğe dayalı öneri yöntemleri, öğeyi özelliklere göre tanımlamanın mümkün olduğu alanlarda uygulanabilir.

Buna karşılık, işbirlikçi filtreleme, derecelendirme yoluyla ifade edilen öznel “genel lezzet” kriterine dayanır ve bu nedenle, özelliklere yönelik analizini gerektirmeden her türlü içeriğe uygulanabilir.

Üstelik, içerik temelli öneriler çoğu zaman uzmanlaşmıştır çünkü sistem yalnızca daha önce sevilen öğelerin yelpazesi içindeki maddeleri önermeye meyillidir. Aksine, işbirlikçi filtreleme, kullanıcının göz önünde bulundurmadığı maddelerle ilgili beklenmeyen önerilerde bulunabilir.

2.2 Hibrit yaklaşımlar

Yukarıdaki tavsiye yöntemlerinin avantajlarından yararlanmak için, içerik esaslı ve işbirlikçi filtrelemenin [2, 7, 23, 25] kombinasyonları ile ilgili büyük çoğunlukta çeşitli hibrit yaklaşımlar önerilmiştir

Burke [6], hibridizasyon tekniklerini yedi sınıfa sınıflandırır: öneri yaklaşımlarının her birinin tahminleri yaptığı ve daha sonra tek bir tahmin haline getirilen tahminler yaptığı ağırlıklı; Belli kriterler karşılandığında tahminde bulunmak için öneri tekniklerinden birinin seçildiği yerin değiştirilmesi; tavsiye tekniklerinin her birinden tahminlerin kullanıcıya sunulduğu karışık; farklı öneri tekniklerinden gelen özelliklerle tek bir tahmin algoritmasının sağlandığı özellik kombinasyonu; bir öneri tekniğinin çıktısının bir başkası tarafından rafine edildiği kaskad; Bir öneri tekniğinden çıktının bir başkasına beslendiği ve bir öneri tekniğiyle üretilen tüm modelin bir başkası tarafından kullanıldığı meta-seviyenin artırılması.

Bilgi temelli süreç, insan bilgi mühendisliği çabasını gerektiren kaynak yoğun olmasına rağmen, kullanıcı derecelendirmelerinin tam yokluğunda bile önerilerde bulunabilir. Sistem bilinen ilgi profillerine sahip kullanıcı sayısını ve veri tabanındaki puanlanmış öğelerin sayısını izler. İki değişkenden herhangi biri sabit bir eşiğin altındaysa, bilgiye dayalı öneri kullanıcıya sunulur, aksi takdirde işbirlikçi yaklaşım uygulanır.

Etkin kullanıcıyla korelasyonu düşük olan kullanıcılar mahallesinde bulunuyorsa, tahmin doğruluğu olumsuz yönde etkilenir.

Eşik bazlı stratejinin belirlenmesinde, yüksek bir benzerlik eşik değeri, daha doğru bir tahmin yapılmasına yol açabilir, ancak nihai mahalle büyüklüğü (doğruluğu da etkiler), seçilen eşiğin üstünde korelasyonu olan kullanıcı sayısına bağlıdır.

İçerik tabanlı filtreleme, yalnızca aktif kullanıcının derecelendirmelerine bağlı olarak faaliyet gösterdiği için hedef öğeyi derecelendiren kullanıcı sayısından etkilenmez.

İşbirlikçi filtrelemenin, belirli kriterlerin karşılanması şartıyla içerik tabanlı filtrelemeden daha doğru olduğu ampirik olarak gösterilmiştir [1, 4]. Yukarıda tartışıldığı gibi, önemli etkiye sahip iki kriter, aktif kullanıcı tarafından mahalle büyüklüğü ve puanlanmış ürün sayısıdır.

3 MoRe sistemine genel bakış(web tabanlııdır. İşlemi hızlandırmak için içerik kısmı önceden hesaplanmaktadır. Öğe benzerlikleri yani

Daha spesifik olarak, yeni bir kullanıcı sisteme kayıt olur olmaz, sistemin öngörme işlemini başlatması için bir dizi derecelendirme sağlaması istenir (yeni kullanıcı sorunu).

MoRe sistemi, tanınmış MovieLens veri setinin (http: // www. Movielens.org) 6.040 orijinal MovieLens kullanıcısı tarafından yaklaşık 4.000 film için sağladığı bir milyon kullanıcı derecelendirmesini içeren bir versiyonunu kullanır. Her kullanıcı bire-beş derecelendirme ölçeğinde en az 20 filmi derecelendirmiştir ve kullanıcı derecelendirme matrisinin azlığı% 95.8’dir.

Öneriler yapmak için, işbirlikçi filtreleme derecelendirme matrisini kullanırken, içerik tabanlı öngörücü esas olarak film veri dosyalarını kullanır. Hibrit yöntemler, hem içerik tabanlı hem de ortak motorları kullanır

4 Öneri algoritmaları

4.1 Saf işbirlikçi filtreleme

İşbirlikçi filtreleme motorumuz, komşuluk temelli algoritmayı [22] üç aşamaya ayırır:

(a) aktif ve kalan kullanıcılar arasındaki benzerliklerin hesaplanması,

(b) mahalle gelişimi ve

(c) Komşuların hedef maddedeki derecelendirmelerinin ağırlıklı ortalamalarına dayanan tahminin hesaplanması.

İlk adım için, tipik olarak Pearson korelasyon katsayısı kullanılır (formül 1).

Bununla birlikte, MoRe uygulamasında, aşağıda formül 1’e eşdeğer olan formül 2’yi kullandık, ancak ortalama derecelendirme değerlerini hesaplamak zorunda olmadığından benzerlikleri daha hızlı hesaplar (n, X ve Y kullanıcıları tarafından sıkça derecelendirilen filmlerin sayısını temsil eder):

Yukarıdaki formüllerde, her iki kullanıcı da tüm filmleri aynı derecelendirmeye sahip olarak değerlendirmişse, sonucun “sıfıra böl” hatası olduğunu ve bu nedenle bu derecelendirmeleri olan kullanıcıları yoksaymaya karar verdiğimizi unutmayın.Ek olarak, genel olarak derecelendirilmiş n sayısı olan n / 50 anlamlı ağırlığını uygulayarak 50’den az derecelendirilmiş filme sahip olan komşuların katkısını değerlendiriyoruz [11].

4.2 Saf içerik tabanlı tahmin

İçerik temelli tahminde, tüm film katılımcılarını (oyuncular, yönetmenler, yazarlar ve yapımcılar), tür ve arsa sözcüklerini içeren özellikler olarak değerlendiriyoruz.

İki filmin benzerliğini hesaplamak için şu şekilde hesaplanan kosinüs benzerlik ölçüsünü kullanıyoruz:

İçeriğe dayalı ve işbirlikçi filtreleme tahminlerini birleştirmek için sayısal derecelendirmelerle ilgilendiğimiz için, Karypis [13] algoritmasını (ikili derecelendirme için tasarlanmıştır) aşağıdaki gibi genişletiyoruz: MaxSim, MinSim her biri için maksimum ve minimum benzerlikler olsun c ∈ C ile U arasındaki filmler ve Mi filminin U ile ayarlanan benzerliklerini Simi. Filmin sayısal tahmini Pri:

Şekil 5 İçeriğe dayalı filtreleme tahmin süreci

4.3 Hibrit öneri yöntemleri

Önerilen hibrit öneri yöntemi iki varyasyonda uygulanmaktadır. İkame adı verilen ilk yöntem, işbirlikçi filtrelemeyi ana tahmin yöntemi olarak kullanmayı ve işbirlikçi filtreleme tahminleri yapılamadığında içeriğe dayalı bir geçiş yapmayı amaçlar. İşbirlikçi filtrelemenin birincil yöntem olarak kullanılması, film alanındaki işbirlikçi filtrelemenin üstünlüğüne ve ampirik deneylere dayanır.

Anahtarlama olarak adlandırılan önerilen hibrid yaklaşımın ikinci varyasyonu, aktif kullanıcı için anahtarlama kriteri olarak mevcut derecelendirme sayısına dayanmaktadır. Etkin kullanıcı için az derecelendirme bulunduğunda, ortak bir filtreleme tahmini olumsuz etkilenir. Buna karşılık, içeriğe dayalı yöntem bu sorunu daha etkin bir şekilde ele almaktadır, çünkü tahminler az sayıda derecelendirmede bile üretilebilmektedir.

5 Deneysel değerlendirme

Deneysel değerlendirmenin amacı, hibrid algoritmanın iki versiyonunu birbirleriyle ve aynı zamanda baz algoritmalarıyla (işbirlikçi ve içerik tabanlı filtreleme) karşılaştırmaktır. Karşılaştırma, tahmin süresi, kapsam ve çalışma zamanı tahminleri için gereken gerçek zaman açısından gerçekleştirilir.

Tahmin doğruluğunu tahmin etmek için kullanılan değerlendirme ölçütleri Ortalama Mutlak Hata (MAE) ‘dir. Ortalama Mutlak Hata [24], sayısal kullanıcı derecelendirmelerini ve sayısal tahminleri kullanan sistemler için uygun bir hassasiyet ölçüsüdür.

Deneysel süreçte orijinal veri seti rastgele seçilen iki alt gruba ayrılır: mevcut her kullanıcının% 80’ini içeren bir eğitim seti ve bunların% 20’sini içeren bir test seti. Test setine ait derecelendirmeler sistem tarafından dikkate alınmaz ve sadece eğitim setinin kalan derecelendirmelerini kullanarak onlar için tahminler üretmeye çalışırız.

Saf işbirlikçi filtreleme yöntemi için MAE 0.7597 ve kapsama oranı% 98.34’tür. İşbirlikçi filtreleme yöntemi için MAE değeri (mahalle büyüklüğü kısıtlaması olmadan) 0,7654 ve ilgili kapsama alanı% 99,2’dir.

Saf içerik temelli öngörücü, işbirlikçi filtrelemeden önemli ölçüde farklı olan (p = 0.000) MAE değeri 0.9253’ü sunar. Kapsama oranı% 100’dür. çünkü içerik temelli tahminler, her film için tahminin her zaman üretilebilmesini sağlar

Naeve Bayes algoritmasının MAE = 1.2434 ile olan doğruluk bakımından düşük performans gösterdiğine dikkat edin.

Yedek Hibrit Öneri Yöntemi% 100 kapsama ulaşmak için tasarlanmıştır. Yöntemin MAE değeri 0.7501 olarak hesaplandı Anahtarlama Hibrit Tavsiye Yönteminin kapsamı% 98.8’dir, MAE ise 0.7702’dir

Sonuç

İşbirlikçi filtreleme, en doğru öneri yöntemlerinden biri olmaya devam etmektedir,

MoRe sistemi özellikle film önerileri için tasarlanmıştır, ancak işbirlikçi filtreleme motoru her türlü içerik için kullanılabilir. MoRe sisteminde uygulanan algoritmaların değerlendirilmesi, film alanındaki yukarıdaki sonuçları sınırlayan belirli bir veri setine dayanıyordu.

Bu yazı aşağıda belirtilmiş makalenin çeviri notlarından oluşmaktadır. Lekakos, George, and Petros Caravelas. “A hybrid approach for movie recommendation.” Multimedia tools and applications 36.1-2 (2008): 55-70.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir