BAB 1
PENDAHULUAN
1.1 Latar Belakang
Banyak sekali penelitian yang telah dilakukan dalam bidang bahasa dan
teknologi, n amun tidak semua bahasa mampu diintegrasikan ke dalam semua
teknologi yang telah diciptakan karena setiap bahasa memiliki karakteristik masing-
masing. Berangkat dari pernyataan tersebut, jika setiap bahasa yan g ada di dunia
hendak diintegrasikan ke dalam teknologi, diperlukan penelitian yang terfokus pada
bahasa tersebut untuk menentukan algoritma dan aturan yang digunakan.
Bahasa Indonesia merup akan bahasa yang penting di wilayah Asia Tenggara.
Menurut Sneddon (2003:225), bahasa Indonesia menjadi bahasa nasional terpopuler
ke-4 di dunia dan negara tetangga lain. Hal tersebut menjadikan bahasa Indonesia
sebagai tema yang signifikan untuk dijadikan bahan penelitian.
Setiap bahasa mempun yai kaidah-kaidah tersendiri dan tidak lepas dari semua
aturan yang berlaku. Sehingga setiap pengguna bahasa tidak boleh menggunakan
bahasa yang salah karena hal tersebut akan merusak citra bah asa itu sendiri, namun
sering ditemukan penggunaan kata yang salah oleh masyarakat, sebagai contoh kata
dirubah yang seharusnya menggunak an kata diubah. Oleh karena itu, den gan
mempelajari morfologi suatu bahasa dapat menambah pengetahuan dan memahami
seluk-beluk pembentukan kata yang sesuai dengan kaid ah bahasa yang baik dan
benar secara gramatikal maupun semantik.
Maka dari itu dalam penelitian ini akan dibuat sebuah morphological
analyzer dan lemmatizer yang dalam penggunaanya d apat dimanfaatkan untuk
melihat bagaimana suatu kata terbentuk, apa saja kata dasarnya, dan apa saja
informasi linguistik yan g dikandung kata tersebut. Berdasarkan segala informasi
yang didapat pada morphological analyzer dan lemmatizer, diharapkan dapat
membantu mempelajari suatu kata dan proses pembentukannya serta bentuk dasar
dari suatu kata yang berimbuhan. Lebih jauh lagi morphological analyzer dan
lemmatizer dapat dijadikan referensi yang cukup baik untuk pengembangan search
engine dan machine translation, maupun perangkat-perangkat untuk pemrosesan
bahasa alami lainnya.
|
2
Untuk melanjutkan penelitian dalam bidang bahasa dan teknologi sep erti
search engine dan machine translation diperlukan sebuah morphological analyzer
sebagai landasan utamanya. Morphological analyzer berguna untuk menentukan
proses pembentukan kata-kata. Penelitian yang membahas tentang Morphological
analyzer antara lain jurnal yang dipublikasikan oleh Pisceldo, Mahendra, Manurung
dan Arka (2008), serta Larasati, Kubon, dan Zeman (2011).
Selain morphological analyzer yang berfungsi untuk mengetahui
pembentukan kata, lemmatizer berfungsi untuk mengetahui bentuk dasar dari suatu
kata berimbuhan. Penelitian mengenai lemmatizer ini sudah dilakukan oleh Asian,
Williams, dan Tahaghoghi (2005) serta Suhartono, Christiandy, Rolando (2014).
Berangkat dari latar belakang di atas, maka akan dikembangkan algoritma
untuk morphological analyzer dan lemmatizer yang memiliki performa lebih baik
dari hasil penelitian-penelitian sebelumnya dengan harapan dapat dicapai
morphological analyzer dan lemmatizer yang memiliki tingkat persentase
keberhasilan yang lebih tinggi, serta mampu menangani reduplikasi dan kata
gabungan.
1.2 Rumusan Masalah
Rumusan masalah dari penelitian kami adalah:
1. Belum ada penelitian dalam bidang natural language processing untuk
bahasa Indonesia yang menggabungkan morphological analyzer dengan
lemmatizer sekaligus dalam satu aplikasi.
2. Sampai saat ini, belum ada morphological analyzer yang mampu
menganalisis kata yang terdiri dari dua kata namun bergabun g ketika proses
afiksasi, seperti kata warga n egara ketika ditambahkan imbuhan menjadi
kewarganegaraan yan g merupakan satu kata saja.
3. Sampai saat ini, belum ada lemmatizer yang mampu mencari bentuk kata
dasar dari suatu kata gabung yang mengandung konfiks dan reduplikasi yang
mengandun g afiks, seperti kata kewarganegaraan
yang ketika dicari bentuk
dasarnya harusnya menjadi warga n egara, selain itu kata b erlapis-lapis
yang ketika dicari bentuk dasarn ya harusnya menjadi lapis.
|
3
1.3 Hipotesis
Hipotesis dari penelitian kami adalah :
1. H0 : Algoritma yang dikembangkan mampu menganalisa kata-kata dalam
bahasa Indonesia dengan baik, sehingga algoritma morphological
analyzer dapat membentuk kata produktif dan kata tidak produktif yang
sesuai atur an sebesar 80% dan untuk algoritma lemmatizer dapat
menemukan bentuk dasar dari kata berimbuhan sebesar 80%.
2. H1 : Algoritma yang dikembangkan tidak mampu menganalisa kata-kata
dalam bahasa Indon esia dengan baik, sehingga algoritma morphological
analyzer dapat membentuk kata produktif dan kata tidak produktif yang
sesuai aturan kurang dari 80% dan untuk algoritma lemmatizer dapat
menemukan bentuk dasar dari kata berimbuhan kurang dari 80%.
1.4 Ruang Lingkup
Untuk pembahasan yan g lebih fokus dan terarah, maka pembahasan akan
dibatasi dengan ruang lingkup sebagai berikut :
1. Pengujian data akan dilakukan dengan mengambil artikel dari koran dan
website. Artikel yang akan dianalisis diambil dari 13 jenis artikel meliputi
regional, nasional, politik, pemilu, edukasi, internasional, perjalanan,
ekonomi, olahraga, kesehatan, hiburan, otomotif, dan teknologi. Masing-
masing kategori akan diambil seban yak 1 artikel.
2. Kata-kata yang digunakan sebagai input han yalah kata-kata yang ada pada
Kamus Besar Bahasa Indonesia edisi ketiga yang terbit pada tahun 2005.
3. Kata ulang yang ditangani hanya kata ulang sempurna (tidak berubah bu nyi)
dan kata ulang sempurna berimbuhan.
4. Algoritma ini hanya menangani prefiks, sufiks, dan konfiks. Infiks tidak
ditangani karena kata-kata dalam bahasa Indonesia yang mengandung infiks
sudah ada di dalam Kamus Besar Bahasa Indonesia (Contoh : gerigi,
gemetar).
5. Penambahan imbuhan hanya berdasarkan kelas kata, tidak berdasarkan
semantik.
6. Hanya satu kata yang dapat diterima sebagai input-nya.
|
4
1.5 Tujuan dan Manfaat
1.5.1 Tujuan
Tujuan yang ingin dicapai dalam penelitian kami adala
mengembangkan
algoritma dalam morphological analyzer dan lemmatizer untuk
ahasa Indonesia
berbasis PHP.
1.5.2 Manfaat
1. Edukasi Bah asa
Penelitian ini akan memberikan keuntungan bagi dunia pendidikan.
Tidak hanya bagi masyarakat Indonesia, tapi juga bagi orang asing yang
ingin belajar bahasa Indonesia.
2. Peningkatan Performa Search Engine dan Machine Translation
Pembentukan kata dasar dari kata berimbuhan bisa meningkatkan
performa dari search engine dan machine translation, karena proses
pengambilan data dari database lebih mudah jika telah diketahui kata
dasarnya.
3. Penelitian
Memberi kontribusi dalam dunia penelitian, khususnya dalam
penelitian di bidang lematisasi dan analisa morfologi untuk bahasa Indonesia.
1.6 Metode Penelitian
Metode Penelitian yan g akan kami gunakan :
a. Analisis dan Peninjauan Literatur
Peninjauan literatur untuk menganalisa dan mengembangkan
algoritma dalam morphological analyzer dan lemmatizer.
b. Solusi Alternatif
Melakukan riset dan analisis mengenai state of the art dalam
morphological analyzer dan lemmatizer bahasa Indonesia untuk membuat
algoritma yang lebih efektif dan efisien dengan beberapa inovasi.
1.7 Sistema tika Penulisan
Penulisan skripsi kami dibagi menjadi menjadi lima bab dan isi dari masing-
masing bab diuraikan sebagai berikut :
|
5
a. BAB 1 Pendahuluan
Pada bab ini akan dibahas mengenai latar belakang pemilihan topik
skripsi, rumusan masalah, hipotesis, ruang lingkup pembahasan, tujuan dan
manfaat dari skripsi kami, metode penelitian yang digunakan serta
sistematika penulisan yang diterapkan.
b. BAB 2 Tinjauan Pustaka
Pada bab ini akan dipap arkan mengenai teori-teori yang kami gunakan
untuk menunjang dalam penyusunan skripsi kami, serta kami akan mengulas
hasil penelitian atau produk sebelumnya yang menjadi batu pijakan kami
dalam membuat skripsi kami.
c. BAB 3 Metodologi
Pada bab ini akan dibahas mengenai kerangk a berpikir dalam
penyusunan skripsi kami, metodologi untuk menyelesaikan masalah yang
dipaparkan dalam kerangka berpikir.
d. BAB 4 Hasil dan Pembahasan
Pada bab ini, kami akan memaparkan uji algoritma, serta evaluasi dari
aplikasi yang kami buat.
e. BAB 5 Simpulan dan Saran
Pada bab ini penulis ak an menarik kesimpulan dari hasil uji alg
ritma
serta evaluasi dari bab-bab sebelumnya dan memberika
saran u ntuk
pengembangan aplikasi sejenis yang telah dibuat sebelumny
maupun yang
akan dibuat.
|
6
|