Perkuliahan Lik Min

Wah sudah akhir bulan, waktunya ngeblog.

renang

Jadi hari jumat kemaren renang sama teman Perkuliahan Lik Min.
Entah dari mana awalnya Perkuliahan Lik Min ini.
Tapi setau sa kumpulan Linggar sama HMD ngeteh-ngeteh melepas penat dunia IT di warung Lik Min.

Saya waton nimbrung saja đŸ˜€
Sampai di Lik Min pun obrolan gak jauh jauh dari gosip startup, coding, security dan tetek bengek kerjaan kami sehari hari. Haha..

Kembali lagi ke bagian renang.
Pagi itu bareng bos @pujianto dan @linxlunx di hotel Matahari.
Janjiannya pun dadakan malam sebelumnya.
Di kolam renang muter tiga, empat kali trus mojok kungkum sambil ngobrol.
Topik obrolannya pun sama kayak di Lik Min.

Salah satu topik obrolan adalah curcol tipis-tipis.
Jadi sa lagi ada PR di tempat kerja.
Bagaimana membuat box produk yang relevan untuk sebuah artikel.
Contohnya seperti ini:

relevan

Artikel Lenovo, produknya pun masih bau-bau Lenovo.

Dengan harapan orang akan beli ketika produk relevan dengan artikel.

Tetapi ketika pada suatu artikel tampilannya adalah seperti ini:

tidak-relevan

Hahaha gak nyambung cuy.
Mungkin karena ada “Karya Anak Bangsa” jadi hasilnya gitu :v

Cara yang sa gunakan pake TF-IDF.
Term Frequency atau mengambil kata yang seringkali muncul.
Itu digunakan untuk query ke database produk dengan harapan diperoleh hasil yang relevan dengan artikel.
Untuk sebagian besar kasus hasilnya sudah lumayan.
Artikel kebanyakan fokus membahas topik tertentu.
Tapi pada beberapa artikel masih anomali.
Kayak di gambar tadi.

Dari obrolan di kolam terpikir untuk membuat Named Entity Recognition (NER)
NER digunakan untuk mendeteksi entitas seperti Person, Event dan Object yang ada di artikel.
Jadi biar bisa tau produk apa aja yang dibicarakan di sebuah artikel.
Nanti baru dicariin produknya buat dijualin.

Sekadar informasi buat yang mau main-main juga

Prosesnya yang shallow saja. (Kalau yang deep belum kebayang :P)
Yang eksplisit ada di text.
Langkanya adalah sbb:
#1 Memecah artikel mencari token. Token dapat berupa kata dan tanda baca.
#2 Mengenali kelas katanya.
#3 Mendeteksi entitas. Umumnya, entitas mempunyai kelas kata Noun atau Proper Noun.

Untuk kelas kata dapat menggunakan database KBBI:
http://kbbi.kemdikbud.go.id/
http://kbbi.web.id/
http://bahasa.cs.ui.ac.id/kbbi/kbbi.php
http://kateglo.com/

Untuk pengenal entitas dapat memanfaatkan database DBpedia:
http://id.dbpedia.org/wiki/

Pesannya

Be nice sama server sana soalnya kebanyakan di-throttle.
Siap siap njepat request-nya :v

Published by tediscript

Hard Coder

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

Create your website at WordPress.com
Get started
%d bloggers like this: