2013200342IFBab2001

BAB 2

TINJAUAN PUSTAKA

2.1 Teori-Teori yang Digunakan

2.1.1 Bahasa Indonesia

Bahasa Indonesia merupakan bah asa yang penting

wilayah Asia Tenggara.

Menurut Sneddon (2003:225), meskipun bahasa Indone

tidak digunakan di seluruh

dunia, bahasa ini tetap menjadi bahasa nasional terpopul

ke-4 di dunia dan n egara

tetangga lainn ya.

2.1.1.1 Sifat Bahasa Indonesia

Menurut Tucker (2010:75) kebanyakan bahasa secara morfologi bisa

diklasifikasikan menjadi tiga kategori. Pengkategorian merupakan dasar dari bahasa

alami. Ketiga kategori itu disusun secara ascending. Kategori pertama yaitu

monosyllabic, terisolasi, atau bah asa radikal, seperti bahasa Cina atau Mandarin. Bahasa

dalam kategori ini tidak mampu mengakomodasikan segala bentuk perubahan kata

seperti penggunaan sufiks, prefiks, dan lain-lain.

Kategori kedua adalah agglutinating language, seperti bahasa Turki dan bahasa

Jepang. Agglutinating maksudnya kata-kata dalam sebuah kalimat bisa disisipkan dan

dilepas dengan bebas. Beberapa bisa diubah ke bentuk afiks atau berimbuhan, tetapi

tidak akan mengubah bentuk katan ya. Hal tersebut bisa dilekatkan dengan cara

diaglutinasi atau agglutinated. Tidak h anya afiks, tetapi kata-kata bisa dilekatkan dengan

yang lainnya. Tucker (2010:78) memberikan contoh seperti ini. Aulisariartorasuarpok

yang artinya “dia buru-buru pergi memancing” dalam bahasa Greenland. Kata

Aulisariartorasuarpok merupakan gabungan d ari kata aulisar yang artinya“untuk

memancing”, peartor yang artinya “sed ang melakukan”, pinnesuarpok yang artinya

“dengan cepat”. Konstruksi kata ini hanya memungkinkan dalam agglutinative language

tingkat tinggi.

Kategori terakhir adalah inflexional, organic, dan amalgamating language,

seperti Semitic dan keban yakan bahasa di negara-negara Eropa. Pada kategori ini, kata-

kata bisa berub ah bentuknya menjadi fungsi yang lebih spesifik dalam kalimat, seperti

irregular verb atau past particular dalam bahasa In ggris.

Bahasa Indonesia merupakan transisi antara agglutinating dan inflexional. Kata-

kata dalam bahasa Indonesia tidak bisa direkatkan seperti bahasa Greenland, tetapi bisa

direkatkan den gan beberapa afiks. Jika dalam agglutinative language tingkat tinggi

penambahan afiks tidak akan mempengaruhi bentuk kata, dalam bahasa Indonesia,

beberapa afiks akan mengubah bentuk kata. Hal ini merupakan karakteristik dari bahasa

inflexional. Jadi bahasa Indonesia mengandung inflexional d

agglutinative, tapi tidak

dalam bentuk ekstrim. Hal ini juga disebutkan oleh Tucker (2010:8

bahwa sebagian

besar bahasa Indo-Eropa dalam bentuk modern merupak

karakteristik semi-

infleksional.

2.1.1.2 Pentingnya Bahasa Indonesia di Dunia

Bahasa Indonesia telah menghadapi banyak masal

dan pengemban gan sosial-

politik sejak 1997. Gejolak tersebut menarik perhati

banyak oran g, termasuk dalam

bidang akademis seperti sejarah, politik, sosiolo

junalis, dan orang-orang

yang

memiliki minat dalam masalah internasional (Snedd

2003:1). Bahasa Indonesia

sebagai bahasa nasional erat kaitannya dengan sebu

bangsa dan merupakan cara yang

unik untuk mencerminkan suatu bangsa se

merupakan hal yang

menarik bagi dunia

internasional.

Meskipun bahasa Indonesia aslinya digun akan han

di Indonesia, namun tetap

menjadi salah satu bahasa dengan pembicara d

pengguna terbanyak di dunia

(Sneddon, 2003:1). Hal ini dikarenakan Indone

merupakan negara den gan populasi

terban yak ke-4 di dunia. Bahasa itu penting di ma

dunia bukan hanya karena

digunakan oleh banyak orang, tetapi juga kare

banyak aspek yang terbatas p ada

bangsa dan bahasan ya yang cukup signifikan unt

dunia, seperti halnya Indonesia

merupakan negara muslim terbesar di dun

2.1.2 Algoritma

Pengertian algoritma menurut Levitin (2012:3-4) adalah suatu u rutan instruksi

yang jelas untuk memecahkan masalah, yaitu untuk memperoleh output yang dip erlukan

untuk setiap input yang sah dalam jumlah waktu yang terbatas. Berikut adalah poin

penting dari algoritma:

a. Setiap langkah dari algoritma tidak boleh ambigu.

b. Wilayah input untuk algoritma yang bekerja harus ditentukan dengan hati-hati.

c. Algoritma yang sama dapat direpresentasikan dalam beberapa cara yang berbeda.

d. Ada beberapa algoritma untuk memecahkan masalah yang sama.

e. Algoritma untuk masalah yang sama d apat didasarkan p ada ide-ide yang sangat

berbeda dan dapat memecahkan masalah dengan kecepatan yang berbeda secara

dramatis.

Algoritma, menurut Edmonds (2008:1), merupakan prosedur langkah-langkah

yang dimulai dengan instansi input dan menghasilkan output yang sesuai. Hal ini

dijelaskan pada tingkat detail dan abstraksi paling cocok untuk dipahami manusia.

Sebaliknya, kode adalah implementasi dari algoritma yang

bisa dieksekusi oleh

komputer. Pseudocode berada di antara keduanya.

Menurut Cormen, Leiser son, Rivest, Stein (2009:5) secara informal, algoritma

adalah prosedur komputasi yang terdefinisi dengan baik yang mengambil beberap a nilai,

atau mengatu r nilai-nilai, sebagai input dan menghasilkan beberapa nilai, atau mengatur

nilai-nilai, sebagai output. Dengan demikian algoritma merupakan urutan langkah

komputasi yang mengubah input menjadi output.

Algoritma juga dap at diartikan sebagai alat untuk memecahkan masalah

komputer yang tidak jelas atau bahkan masalah komputer yang didefinisikan dengan

baik. Secara umum, pernyataan masalah menentukan hubungan antara data input dan

data output yang diinginkan. Algo ritma itu sendiri menjelaskan prosedur komputasi

spesifik untuk mencapai hubungan antara input dan output.

Sebagai contoh yaitu penyortiran sekelompok angka dalam urutan terkecil

hingga terbesar. Masalah ini seringkali ditemukan dalam kehidupan nyata dan

memberikan ‘fertile gro und’ untuk memperkenalkan berbagai jenis alat analisis dan

teknik perancangan standar. Secara formal, masalah

pen yortiran dapat didefinisikan

sebagai berikut:

Input: string angka n {a1, a2, …, an}.

Output: permutasi (re-ordering) {a’1, a’2, …, a’n} dari urutan input seperti ini

a’1 a’2 … a’n.

Sebagai contoh, diberikan urutan input (31, 41, 59, 26, 41, 58), algoritma

penyortiran menghasilkan urutan output (26, 31, 41, 41, 58, 59). Urutan input disebut

instansi masalah pen yortiran. Secara umum, instansi masalah terdiri dari input

(memenuhi kendala apapun yang dikenakan dalam pern yataan masalah) diperlukan

untuk menghitung solusi dari masalah ini.

Algoritma dikatakan benar jika, untuk setiap input berhenti den gan hasil output

yang ben ar. Dapat dikatakan, algoritma yang benar adalah algoritma yang dapat

mengatasi masalah komputasi. Algoritma yang salah adalah algoritma yang tidak

memberikan jawaban atau memberikan jawaban yang tidak tepat untuk beberapa atau

seluruh input. Tetapi perlu diingat bahwa algoritma yang salah terkadang

bergunasebagai acuan apabila sewaktu-waktu kesalahan-kesalahan yang ada bisa

diperbaiki. Serin g k ali, algoritma yang salah bisa digunakan kembali jika memiliki

performa yang lebih baik dibandingkan dengan rata-rata kesalahannya.

2.1.3 Artificial Intelligence

AI merupakan salah satu bidang terbaru dalam sains dan teknik. Pengembangan

AI benar-benar dimulai setelah Perang Dunia II. Bersamaan dengan biologi molekular,

AI disebutkan sebagai “b idang yan g san gat in gin digeluti” oleh p ara ilmuwan.

AI saat ini meliputi berbagai macam sub-bidang, mulai dari yang umum (belajar

dan berpersepsi) kepada hal yang spesifik, seperti bermain catur, membuktikan teorema

matematika, menulis puisi, mengend arai mobil di jalan ramai, dan mendiagnosis

penyakit. AI sangat berhubungan dengan pekerjaan intelektual. (Russell dan Norvig,

2010:1)

Pada dasarnya, banyak pandan gan serta pengertian men genai AI, dan secara

garis besar, menurut Russell dan Norvig (2010:1-2) definisi AI bisa terbagi menjadi

empat kategori, yaitu: Berpikir Manusiawi, Berpikir Rasional, Bertingkah Manusiawi,

dan Bertingkah Rasional.

1. Berpikir Manusiawi

Pada kategori ini, AI dijelaskan suatu usaha baru untuk dapat membuat komputer

dapat berpikir, suatu komputer yang memiliki pemikiran dan rasa, atau dengan

kata lain dapat juga disebut sebagai kegiatan mengadopsi cara berpikir manusia,

seperti pen gambilan keputusan, penyelesaian masalah, pembelajaran, dan

sebagainya.

2. Berpikir Rasional

Pada kategori ini, AI dijelaskan sebagai su atu studi melalui pemodelan

komputasi, dimana studi AI ini dapat membuat segala sesuatu mungkin untuk

dapat dipersepsikan dan memiliki alasan untuk dilakukan.

3. Bertingkah Manusiawi

Pada kategori ini, AI dijelaskan sebagai suatu seni untuk membuat mesin dapat

menampilkan fungsi yang membutuhkan kecerdasan ketika digunakan oleh

manusia.

4. Bertingkah Rasional

Pada kategori ini, AI dijelaskan sebagai st

tentang perancan gan agen-agen

kecerdasan dan AI terfokus pada perilaku cerdas.

Tabel 2.1 Definisi AI

Berpikir Manusiawi

Berpikir Rasional

“Upaya baru yang menarik untuk membuat

komputer berpikir … mesin dengan pikiran

dalam artian sesungguhnya dan literal.”

(Hau geland, 1985)

“Otomatisasi kegiatan yang dikaitkan

dengan pemikiran manusia, pengambilan

keputusan, pemecahan masalah,

pembelajaran …” (Hellman, 1978)

“Studi mengenai kemampuan mental

melalui penggunaan model komputasi.”

(Charniak dan McDermott, 1985)

“Studi mengenai komputasi yang

memungkinkan untuk melihat, berakal,

dan bertindak.” (Winston, 1992)

Bertingkah Manusiawi

Bertingkah Rasional

“Seni membuat mesin yang

melakukan

fungsi yan g dilakukan oleh manusia.”

(Kurzweil, 1990)

“Studi mengenai bagaimana membuat

komputer melakukan hal-hal yang pada

saat ini dilakukan lebih baik oleh manusia”

(Rich dan Knight, 1991)

“Kecerdasan komputasi adalah studi

mengenai perancangan agen cerdas.”

(Poole et al., 1998)

“AI berkaitan dengan perilaku cerdas

dalam artefak.” (Nilsson, 1998)

Tes Turing yang diajukan oleh Alan Turing pada tahun 1950, dirancang untuk

memberikan definisi dari AI. Sebuah komputer dianggap berhasil jika interogator

manusia setelah mangajukan pertan yaan tertulis, tidak dapat membedakan ap akah

tanggapan atau jawaban tertulis tersebut ber asal dari seseorang atau dari komputer.

Berdasarkan tes Turing, untuk memenuhi kriteria AI komputer perlu memiliki

kemampuan sebagai berikut:

a. Natural Language Processing / Pengolahan Bahasa Alami

Memungkinkan untuk berkomunikasi dengan sukses dalam bahasa

In ggris.

b. Knowledge Representation / Representasi Pengetahuan

Mampu menyimpan p engetahuan ataupun mendengar.

c. Automated Reasoning / Penalar an Otomatis

Mampu menggunakan informasi yan g tersimpan untuk menjawab

pertanyaan dan untuk menarik kesimpulan baru.

d. Machine Learning / Mesin Belajar

Mampu beradaptasi dengan keadaan baru dan untuk mendeteksi dan

ekstrapolasi sebuah pola.

2.1.3.1 Sejarah

Pada tahun 1950, Alan Turing menanyakan apakah sebuah mesin bisa berpikir.

Tidak lama sebelumnya, Turing telah memperkenalkan konsep dari mesin universal

abstrak (yang disebut Mesin Turing) yang sederhana dan mampu memecahkan semua

masalah matematika (dengan kompleksitas yan g sama). Hasil penelitian ini disebut Tes

Turing.

Pada tes Turin g, jika mesin membuat manusia berpikir bahwa mesin tersebut

adalah manusia, maka mesin tersebut lulus tes kecerdasan. Satu cara dalam tes Turing

adalah dengan berkomunikasi dengan agen lain melalui keyboard. Pertanyaan-

pertanyaan ditanyakan oleh pakar melalui teks tertulis, dan tanggap an diberikan melalui

terminal. Tes ini memberikan jalan untuk menentukan bahwa kecerdasan tersebut

merupakan AI. Dengan mempertimban gkan tugas tersebut, tidak han ya pakar yang

cerdas menguasai pengetahuan yang diperlukan untuk membuat sebuah

percakapan

cerdas, dan h al tersebut harus mampu untuk mengurai dan mengerti bahasa alami dan

menanggapi dengan bahasa alami. Pertan yaan tersebut dapat melibatkan kemampuan

pertimbangan (seperti pemecahan masalah), sehingga mesin yang mampu meniru

manusia dianggap sebuah prestasi (Jones, 2008:3)

Pada tahun 1956, Konferensi Dartmouth AI melibatkan beberapa orang dalam

riset AI, yaitu: John McCarthy, Marvin Minsky, Nathaniel Rochester, dan C laude

Shannon. Merek a dibawa untuk melakukan riset pada komputer, pemrosesan bahasa

alami, dan jaringan neuron.

Selain untuk menciptakan istilah AI dan melakukan riset besar dalam bidang AI,

McCarth y membuat bahasa pemrograman AI pertama yaitu LISP. (Jones, 2008: 5-6)

Pada tahun 1970, pengembangan AI terus berlanjut tetapi lebih terfokus.

Aplikasi yang memberikan harapan, seperti sistem pakar, naik sebagai salah satu kunci

pengembangan di era saat itu.

Salah satu sistem pakar pertama untuk menunjukkan kekuatan dari arsitektur

rule-based yang disebut MYCIN, dan dikemban gkan oleh Ted Shortliffe ya

mengikuti

penelitian ketika berada di Stanford pada tahun 1974. MYC

dioperasikan di bidang

diagnosis medis, dan menunjukkan repr esentasi pengetahuan d

kesimpulan.Kemudian

pada dekade ini, penelitian lainnya di Stanford oleh Bill Van Mel

yang membangun

arsitektur MYC IN dan berfungsi sebagai model untuk kerangka sist

pakar yang

digunakan hingga saat ini. (Jones, 2008:8)

2.1.3.2 Aplikasi AI

Menurut Russell dan Norvig (2010:28) ada beberapa aplikasi AI, seperti:

1. Robotika

Robot adalah perangkat mekanik yang dapat bertindak sendiri dan

menggantikan aktivitas manusia. Robot mampu menguran gi waktu dan proses

yang perlu dilakukan oleh manusia.

2. Pengenalan Suara

Pengenalan suara adalah kemampuan komputer untuk menganalisa suara

manusia dan mengintepretasikann ya dalam bentuk teks, yang biasa diketahui

sebagai “sp eech to text”.

3. Perencanaan dan Penjadwalan Otomatis

Kemampuan komputer untuk membuat rencana dan jadwal secara

otomatis.

4. Permainan Game

Komputer bisa diprogram untuk berprilaku seperti seorang pemain dalam

game, memungkinkan oran g untuk memainkan game yang membutuhkan

interaksi manusia tanpa manusia.

5. Memeran gi Spam

Memeran gi spam adalah kemampuan komputer untuk mengh apus pesan

yang diklasifikasikan sebagai spam secara otomatis.

6. Perencanaan Logistik

Melakukan perencanaan logistik dan penjadwalan untuk transportasi

otomatis.

7. Mesin Penerjemah

Mesin penerjemah adalah kemampuan komputer untuk menerjemahkan

dari satu bahasa ke bahasa lain.

2.1.4 Natural Language Processing

Menurut Pustejovsky dan Stubbs (2012:4), Natural Language Processing (NLP)

merupakan bidang dari ilmu komputer dan teknik yang telah dikembangkan dari stu

bahasa dan komputasi linguistik dalam bidang AI. Tujuan dari NLP adalah untuk

merancang dan membangun aplikasi yang memfasilitasi interaksi manusia dengan mesin

dan peran gkat lainnya melalui penggunaan bahasa natural. Beberapa area utama

penelitian pada bidang NLP, diantaranya:

1. Question Answering Systems

Question Answering Systems (QAS) atau dalam bahasa Indonesia yaitu

Sistem Tanya Jawab adalah kemampuan komputer untuk menjawab pertanyaan

yang diberikan oleh user. Dibandingkan memasukkan keyword ke dalam

browser pencarian, dengan QAS, user bisa langsung bertanya dalam bahasa

natural yang digunakannya, baik itu Inggris, Mandarin, ataupun Indonesia.

2. Summarization

Pembuatan ringkasan d ari sekumpulan konten dokumen atau e-mail.

Dengan menggunakan aplikasi ini, user bisa dibantu untuk mengubah dokumen

teks yang ke dalam bentuk slide presentasi.

3. Machine Translation

Produk yang dihasilkan adalah aplikasi yang dapat memahami bahasa

manusia dan menerjemahkannya ke dalam bahasa lain. Termasuk di dalamnya

adalah Google Translate yang apabila dicermati semakin membaik dalam

penerjemahan bahasa. Contoh lain lagi adalah BabelFish yang menerjemahkan

bahasa secara real time.

4. Speech Recognition

Bidang ini merupakan cabang ilmu NLP yang paling sulit. Proses

pemban gunan model pengenalanbahasa yang diucapkan bisa digunakan pada

telepon atau komputer sudah ban yak dikerjak an. Pengenalan ucapan yang sering

digunakan adalah berupa pertan yaan dan perintah.

5. Document Classification

Ini adalah salah satu area paling sukses dari NLP, di mana tugasnya

adalah untuk mengidentifikasi dalam kategori mana dokumen harus ditempatkan.

Hal ini sangat berguna pada aplikasi penyarin gan spam, klasifikasi artikel berita,

dan ulasan film.

2.1.4.1 Aspek Utama NLP

Berdasarkan Poole dan Mackworth (2010:520), pen gemban gan pemrosesan

bahasa natural memberikan kemungkinan interface

1. Syntax

Syntax menjelaskan bentuk dari bahasa. Biasa dispesifikasikan oleh

grammar. Bahasa alami jauh lebih rumit dibanding bahasa formal yang

digunakan untuk logika bahasa buatan dan program komputer.

2. Semantics

Semantic memberikan pengertian dari ungkapan dan kalimat suatu

bahasa. Meskipun teori semantic secara umum sudah ada, k etika membangun

sistem natural language understanding untuk aplikasi tertentu, maka akan

digunakan representasi yang paling sederhana.

3. Pragmatics

Komponen pragmatic menjelaskan bagaimana ungkapan berhubungan

dengan dunia.

2.1.5 Morfologi

Pengertian morfologi menurut Jurafsky dan Martin (2000:59-65) merupakan

pengetahuan mengenai pembentukan suatu kata dari unit-unit lebih kecil yang

mengandun g makna. Unit-unit terkecil dan mengandung makna itu sendiri disebut juga

morfem. Morfem dapat dibagi menjadi kata dasar dan imbuhan (afiks) yang selanjutnya

imbuhan itu dapat dibagi lagi menjadi prefiks, sufiks, dan kon fiks. Penggabungan k ata

imbuhan dan kata dasar disebut concatenative morphology. Dikarenakan penggabungan

tersebut akan menghasilkan suatu kata yang merupakan hasil penggabungan dua atau

lebih morfem yang dikonkatenasikan secara bersama-sama.

Proses morfologi dapat dibagi menjadi dua jenis menurut pembentukan kelas

kata yang dihasilkan. Dua jenis morfologi tersebut yaitu:

1. Morfologi Infleksional

Morfologi infleksional merupakan pemb entukan yang menghasilkan kata dengan

kelas kata yan g sama dengan kelas kata dari kata dasar pembentukn ya. Ciri-ciri

dari morfologi infleksional yaitu sistematis dalam artian polan ya teratur dan

memiliki maksud dan hasil yang jelas serta produktif dalam artian dapat

diterapkan pada semua kata dengan kelas kata yang sesuai. Contoh: “menulis”

yang merupakan

kata kerja dihasilkan dari kata dasar “tulis” yang juga

merupakan kata kerja.

2. Morfologi Derivasional

Morfologi derivasional merupakan pembentukan yang menghasilkan kata dengan

kelas kata yang berbeda den gan kelas kata dari kata dasar pembentuknya.

Kebalikan dari infleksional, morfologi derivasional ini justru memiliki ciri-ciri

tidak sistematis dan tidak produktif. Contoh: “penulis” yang merupakan kata

benda dihasilkan dari kata dasar “tulis” yang merupakan kata kerja.

Menurut Jurafsky dan Martin (2000:65), untuk membangun sebuah morphological

analyzer dibutuhkan:

1. Lexicon

Suatu daftar yang memuat semua kata dasar, imbuhan, dan semua informasi yang

dibutuhkan mengenai kata dasar dan imbuhan tersebut.

2. Morphotactics

Seluruh aturan yang mengatur urutan dan memodelkan penggabun gan morfem

dalam sebuah kata. Contoh: imbuhan meN- jika diletakkan di depan kata dasar

“makan” dari kelas kata kerja akan menghasilkan kata “memakan” yang

merupakan kata kerja. Aturan ini juga memastikan agar tidak menghasilkan kata

“makanme”.

3. Orthographics

Seluruh aturan pengejaan yang digunakan untuk bentuk perubah

yang terjadi

dalam kata, biasanya ketika morfem-morfem tersebut digabungk

Serin g juga

disebut morphophonemic. Contoh: imbuhan meN- digabungk

dengan kata

dasar “tulis” akan men gh asilkan kata “menulis”.

2.1.6 Pengertian B asis Data

Menurut Connolly d an Begg (2005:15) basis d ata merupak

suatu kumpulan

data dan deskripsi data yang saling terhubung satu sama la

secara logis dan dirancang

untuk memenuhi kebutuhan informasi dari suatu organisasi. Ba

data merup akan

entitas, atribut, dan hubungan logis antar entitas. Dengan ka

lain, basis data

menyimpan data yan g terkait secara lo gis.

2.1.6.1 Database Management System (DBMS)

Berdasarkan Connolly dan Begg (2005:16-17) DBMS adalah sistem peran gkat

lunak yang memungkinkan pengguna untuk mendefinisikan, membuat, memelihara, dan

mengontrol akses ke basis data. DBMS adalah perangkat lunak yang berinteraksi dengan

pengguna program aplikasi dan basis data. Biasan ya DBMS memberikan fasilitas

meliputi:

a. Data Definition Language (DDL)

Memungkinkan pengguna untuk menentukan tipe data dan struktur dan kendala

pada data yan g akan disimpan dalam basis data.

b. Data Manipulating Language (DML)

Memungkinkan pen ggu na untuk memasukkan, memperbaharui, menghapusm

dan mengambil data dari basis data. Memiliki sebuah pen yimpanan pusat untuk

semua data dan deskripsi data yang memungkinkan DML untuk memberikan

fasilitas penyelidikan data, disebut bahasa query. Query yang paling umum

digunakan adalah Structured Query Language (SQL).

c. Akses Kontrol ke Basis Data

i. Sistem keamanan, yang mencegah pen gguna yang tidak sah mengakses

basis data.

ii. Sistem integritas, yang mempertahankan konsistensi data yang tersimpan.

iii. Sistem kontrol konkurensi, yang memungkinkan berbagi akses basis data

secara bersamaan.

iv. Sistem kontrol pemulihan, yang mengembalikan basis data ke keadaan

yang konsisten sebelumn ya setelah terjadi kegagalan perangkat keras atau

perangkat lunak.

v. Katalog user-accessible, yang berisi deskripsi dar data dalam basis data.

2.1.6.2 MySQL

MySQL merupakan Relational Database Management System (RDBMS) yang

sangat cepat dan kuat. Basis data memungkinkan secara efisien untuk men yimpan,

mencari, mengurutkan, dan mengambil data. Kontrol server MySQL dapat men gakses

data untuk memastikan bahwa beberapa pengguna dapat bekerja secara bersamaan,

untuk memberikan akses cepat, dan untuk memastikan bahwa hanya penggun a yang

berwenang yang dapat memperoleh akses.

Oleh karena itu, MySQL adalah multiuser dan multithreaded server. MySQL

menggunakan Structured Query Language (SQL), standar bah asa query basis data.

MySQL tersedia untuk umum sejak tahun 1996 tetapi dibuat pada tahun 1979. (Welling

dan Thomson, 2008: 2-3).

Kompetitor utama MySQL adalah PostgreSQL, Microsoft SQL Server , dan

Oracle. Menurut Welling dan Thomson (200 8:4-6) MySQL mempunyai beberapa

kelebihan, yaitu:

1. Kinerja tinggi

Kecepatan MySQL tidak perlu diragukan lagi. Pada tahun 2002, eWeek

mengeluarkan perbandingan antara lima basis data aplikasi web. Hasil terbaik

didapatkan oleh MySQL dan kategori termahal adalah Oracle.

2. Biaya rendah

MySQL tersedia tanpa biaya dengan lisensi open source atau tersedia

dengan biaya murah untuk lisensi komersial. Dibutuhkan lisensi jik a ingin

mendistribusikan MySQL sebagai bagian dari aplikasi dan jika tidak aplikasi

berada di bawah lisensi open source. Jika aplikasi tidak ingin didistribusikan

maka tidak diperlukan membeli lisensi.

3. Mudah digunakan

Kebanyakan b asis data saat ini menggunakan SQL. Jika menggunakan

RDBMS lain, tidak akan menghadapi masalah untuk beradaptasi pada yang satu

ini. MySQL juga lebih mudah dalam pengaturannya dibanding beberapa produk

yang sama.

4. Portabilitas

MySQL bisa digunakan pada beberapa sistem Unix yang berb eda d engan

baik seperti pad a Microsoft Windows

5. Ketersediaan source cod e

Seperti PHP, source code MySQL bisa diperoleh dan dimodifikasi. Hal

ini tidak penting bagi sebagian besar pengguna, tetapi bisa memberikan

ketenangan pikiran yang baik, menjamin kelangsungan yan g akan datang, dan

memberikan pilihan saat keadaan darurat.

6. Ketersediaan dukungan

Tidak semua produk open source memiliki perusahaan induk yang

menawarkan dukungan, pelatihan, konsultasi, dan sertifikasi.

2.1.7 Hypertext Preprocessor (PHP)

Hypertext Preprocessor (PHP) adalah bahasa pemrograman server-sideyang

dirancang k husus untuk web. Dalam halaman HTML, dapat ditulis dengan kode PHP

yang akan dijalankan setiap kali halaman dikunjungi.Kode PHP tersebut akan

diinterpretasikan di web server dan menghasilkan HTML atau output lain yang dapat

dilihat oleh pengunjun g web.

PHP dibuat pada tahun 1994 dan awalnya merupakan kar ya satu orang yaitu

Rasmus Lerdorf. Kemudian hal ini diadopsi oleh orang-orang berbakat lainnya dan telah

melalui four major rewrite untuk menjadi seperti sekarang ini.

PHP adalah sebuah proyek open source, yang berarti

bisa mengakses ke source

code dan dapat digunakan, diubah, dan didistribusikan ulang tanpa biaya. PHP awalnya

diketahui sebagai Personal Home Pag e tetapi diubah sesuai d engan konvensi penamaan

rekursif GNU dan sekarang dikenal sebagai Hypertext Preprocessor. (Welling dan

Thomson, 2008:2-3).

Menurut Welling dan Thomson (2008:4-6) kelebihan menggunakan bahasa

pemrograman PHP, yaitu:

1. Kinerja tinggi

PHP sangat cepat, menggunakan server tunggal yang murah dan dapat

melayani jutaan hit per hari.

2. Skalabilitas

PHP sering mengacu sebagai arsitektur “shared-nothing”. Maksudnya

PHP secara efektif dan murah dapat menerapkan skala mendatar dengan

sejumlah besar server komoditas.

3. Integrasi basis data

PHP men yediakan kon eksi yang banyak ke berbagai sistem basis data.

Selain MySQL dapat terhubung secara langsung dengan basis data PostgreSQL,

Oracle, dbm, FilePro, DB2, Hyperwave, Informix, Inter Base, dan Sybase. PHP 5

juga memiliki built-ininterface SQL untuk flat file, disebut SQLite.

Menggunakan Open Database Connectivity Standard (ODBC), PHP

dapat terhubung ke basis data yan g menyediakan ODBC driver yang mencakup

produk Microsoft dan lain-lain. Selain libraries asli, PHP dilengkapi dengan

lapisan abstraksi akses basis data yang disebut PHP Database Objects (PDO),

yang memungkinkan akses yang konsisten dan meningkatkan keamanan kode.

4. Built-in Libraries

Karena PHP diran cang untuk digunak an pada web, maka PHP memiliki

banyak fungsi built-in untuk melakukan beberapa tugas web-relatedyan g

berguna. PHP dapat menghasilkan gambar dengan cepat, terhubung ke layanan

web dan layanan jarin gan lainn ya, mengurai XML, mengirim email, mengolah

cookies, menghasilkan dokumen den gan fo rmat PDF, dan semua itu hanya

memerlukan beberapa baris coding.

5. Biaya murah

PHP dapat diperoleh secara gratis. Bahasa pemrograman ini dap at

diunduh kapanpun dengan versi terbarunya di http://www.php.net tanpa

dikenakan biaya.

6. Mudah untuk dipelajari

Sintaksis dari PHP merupakan dasar dari bahasa pemrograman lainnya,

terutama bahasa C dan Perl. Jika sudah pernah menggunakan C atau Perl, atau

bahasa sep erti C++ atau Java, maka dengan segera akan dapat menggunakan

PHP.

7. Mendukung o rientasi objek

PHP versi 5 dirancang untuk mendukung fitur berorientasi objek. Mirip

dengan program pada Java atau C++, terdapat fitur seperti penurunan sifat,

atribut dan metode private dan protected, kelas abstrak, interface, constructor,

dan destructor. Bahkan terdapat juga fitur yang kurang umum seperti iterator.

Beberap a fungsi tersedia dalam PHP versi 3 dan 4, tetapi dukungan untk

orientasi objek pada versi 5 jauh lebih lengkap.

8. Portabilitas

PHP tersedia untuk banyak sistem operasi yan g berbeda-beda. PHP dapat

dijalankan di sistem operasi free Unix seperti Linux dan FreeBSD, dapat juga

dijalankan di versi Unix yang dikomersilkan seperti Solaris dan IR IX, OS X,

atau di Microsoft Windows yan g memiliki versi yan g berbeda-beda. Kode PHP

yang ditulis akan b ekerja tanpa perlu modifikasi pada sistem yan g berbeda.

9. Fleksibel

PHP memungkinkan untuk melakukan tugas-tugas sederhana dan mudah

beradaptasi terhadap aplikasi besar menggunakan framework berdasarkan

rancangan pola seperti M odel-View-Controller (MVC).

10. Ketersediaan source cod e

Source code dari PHP dapat diakses. Tidak sep erti produk yang komersial

yang men yembunyikan source code, jika ada yang ingin diubah atau

ditambahkan, maka d apat dilakukan secara bebas.

11. Ketersediaan dukungan dan dokumentasi

Dokumentasi dan komunitas PHP merupakan sumber daya yang matang

dan kaya dengan informasi untuk berbagi.

2.1.8 Hypertext Markup Language 5 (HTML5)

Menurut Clark, Studholme, Murphy, Manian (20 12:8) HTML5 merup akan salah

satu titik dalam sejarah panjang perkembangan HTML yang telah melewati berbagai

aspek dengan spesifikasi yan g berbeda. Walaup un berbed a, setiap spesifikasi HTML

memiliki satu kesamaan yan g paling mendasar, yaitu HTML meru pakan markup

language. HTML5 memiliki semua fitur yan g dimiliki oleh HTML4, dengan beb erapa

perubahan dan pengembangan. HTML5 juga memiliki banyak tambahan untuk membuat

web aplikasi yang dinamis dan membuat markup dengan kualitas yang lebih baik.

Adapun prinsip desain dari HTML5 menurut Clark, Studholme, Murphy, Manian

(2012:11) adalah sebagai berikut:

1. Memastikan dukungan untuk konten yang sudah ada

2. Mendegradasi fitur baru secara anggun di browser tua

3. Membuka jalan yang baru bagi pengembangan-pengembangan HTML

selanjutnya

4. Evolusi, bukan revolusi

2.1.9 Cascading Style Sheet (CSS)

Menurut Meyer (2006:1-3) Cascading Style Sheet (CSS) merupakan sebuah cara

untuk memberi pengaruh terhadap sebuah dokumen. Tentunya, CSS pada dasarnya tidak

berguna tanpa adan ya dokumen, karena CSS tidak memiliki konten untuk

dipresentasikan. Pastinya, definisi dari “dokumen” disini sangatlah luas. Sebagai contoh,

Mozilla dan beberapa browser terkait menggunak an CSS untuk mempengaruhi

presentasi dari brow ser yang digunakan. Namun , tanpa adanya konten pada browser

(button, textbox, windows, etc) maka CSS tidak perlu digunakan.

Pada tahun 1990-1993 (saat internet baru mulai dikenal oleh masyarakat), HTML

merupakan bahasa

yang cukup ramping. Ia terbentuk hampir seluruhnya oleh elemen

struktural yang berguna untuk mendeskripsikan paragraf, hyperlink, list, dan heading.

HTML tidak memiliki fungsi-fungsi seperti table, frames, atau lainnya yang berperan

penting dalam pembentukan halaman web.

Kemudian muncul Mosaic. Kemudian secara mendadak, World Wide Web

menjadi terkenal. Perpindahan antar satu dokumen ke dokumen lain tidak lebih sulit dari

mengarahkan kursor pada teks yang memiliki warna khusus atau bahkan gambar,

kemudian klik pada mouse.

Website menjadi terkenal dimanapun. Ada ban yak jurnal-jurnal pribadi, website

universitas, website perusahaan, dan lainn ya. Seiring bertambahnya jumlah website,

begitu juga dengan permintaan terhadap HTML baru yang dapat menjalankan fungsi

yang lebih spesifik. Pencipta mulai menginginkan HTML bisa membuat teks menjadi

tebal atau cetak mirin g. Namun pada saat itu HTML belum dapat menangani kasus

seperti itu.

Bertahun-tahun kemudian, muncullah HTML 3.2 dan HTML 4.0. HTML mulai

dapat menangani kasus-kasus yang lebih kompleks. Penggantian warna dan ukuran

tulisan, mengganti warna background dan image pada dokumen dan tabel, untuk

membuat tabel, dan membuat teks muncul-hilang mulai dapat ditangani HTML.

Namun masalah-masalah yang masih muncul dalam HTML adalah :

1. Halaman yang tidak terstruktur membuat penomor an konten menjadi sulit.

2. Struktur yang buruk membuat akses menjadi lebih sulit

3. Presentasi page yang lebih kompleks membutuhkan sesuatu struktur dari

dokumen pagar dapat ditampilkan den gan baik.

4. Markup yang terstruktur lebih mudah dikelola.

Kemudian muncul C SS dengan kelebihan :

1. Style yang lebih ban yak daripada HTML

2. Penggunaannya lebih mudah

3. Lebih mudah did esain mengikuti kein ginan prib adi

4. Cascadin g

5. Ukuran file yang lebih kecil sehingga membuka halaman web lebih cepat

2.1.10 Stemming

Menurut Kowalski (201 1:76), stemming adalah proses yang bertujuan untuk

mengurangi jumlah v ariasi dalam representasi dari sebuah konsep menjadi morfologi

standar atau representasi resmi. Resiko dari proses stemming adalah informasi dari suatu

konsep mungkin hilang dalam proses, sehingga akurasi atau presisi menurun, dan

mengurangi performa. Keuntungan dari proses stemming adalah untuk meningkatkan

kemampuan men gingat. Tujuan utama dari stemming adalah meningkatkan performa

dan menguran gi penggunaan sumber daya sistem, dengan men gur angi jumlah kata

unique yang seharusnya ditampung oleh sistem. Jadi, secara keseluruhan algoritma

stemming mengubah kata menjadi sebuah representasi morfologi standar yang disebut

stem.

2.1.11 Lemmatization

Lemmatization menurut Ingason, Helgadóttir, Loftsson, Rögnvaldsson (2008:1)

adalah proses men cari bentuk dasar atau lemma (bentuk kamus) suatu bentuk kata

tertentu. Proses ini mirip tapi tidak sama dengan proses stemming yang menghapus afiks

dari sebuah kata dan mengembalikan kata dasar . Lemmatization dan stemming adala

teknik normalisasi yang digunakan untuk menciptakan hubungan dan bentuk kata.

Nirenburg (2009:31) memperkuat teori ini dengan menjelaskan bahwa

lemmatization adalah proses yang ditujukan untuk normalisasi teks, sesuai hubungan

pasangan dari bentuknya berdasarkan lemma. No rmalisasi pada konteks ini merupakan

proses mengidentifikasi dan menghapus prefiks dan sufiks dari sebuah kata. Masalah

umum pada analisis morf ologi meliputi proses derivasi yang sangat berhubungan dengan

bahasa aglutinatif. Selain itu, bentuk dari kata prefiks dan sufiks mungkin memiliki

banyak interpretasi, jadi algoritma lemmatization harus menentukan konteks dari bentuk

katanya, yang menganalisis kemungkinan atau kesesuaian dengan konteks.

Manning, Raghavan, Schütze (2009:32) mengatakan bahwa tujuan stemming dan

lemmatization adalah untuk mengurangi bentuk infleksional dan terkadang bentuk

hubungan derivasi suatu kata pada bentuk umumnya. Sebagai contoh:

a. Input: “The bo y’s cars are different colors”

b. Transformation: am, is, are => be

c. Transformation: car, cars, car’s, cars’ => car

d. Result: “The boy car be differ color”

Namun tetap terdapat perbedaan diantara keduanya. Stemming mengacu pada

proses heuristik dengan memenggal ujung-ujung kata dengan harapan mencap ai tujuan

dengan benar. Lemmatization biasanya melakukan proses mengacu pada kosa kata dan

analisis morfologi kata, biasanya bertujuan untu k mengh apus akhiran infleksional saja

dan mengembalikan hasiln ya sesuai bentuk k ata dalam kamus atau lemma. Perbed aan

yang lain terletak pada bentuk derivasi. Metode stemming biasanya akan memotong

kata-kata derivasi yang bersangkutan, sedangkan lemmatization hanya menghapus

bentuk-bentuk infleksional dari sebuah lemma.

2.2 Penelitian-penelitian Terkait

2.2.1 Jurnal A Two-Level Morphological Analyzer for Indonesian Language

Berdasarkan dari jurnal A Two-Level Morphological Analyzer for Indonesian

Language (Pisceldo, Mahendra, Manurung, 2008), rancangan morphological analyzer

untuk Bahasa Indonesia disini dibagi menjadi dua komponen, yaitu aturan morphotactic

dan aturan morphophonemic. Aturan-aturan pad a tiap komponen biasanya diterapkan

secara parallel. Selain itu aturan ini dikombinasikan dengan kosa kata dalam untuk

melengkapi rancan gan.

Sebuah kata yang akan dianalisis, akan men gikuti jalurkosa kata aturan

morphotactic aturan morphophonemic surface. Sebelum hasil d

morphological

analyzer muncul pada surface, hasil tersebut akan mengikuti jal

kosa kata untuk

menentukan morfem yang sebenarn ya pada kata tersebut. Setelah mela

kosa kata, kata

tersebut akan dianalisis oleh aturan morphotactic d

morphophonemic. Apabila sudah

menyelesaikan proses dalam aturan morphotactic dan morphophonem

hasil analisis

dari morphological analyzer untuk kata tersebut akan disampaikan.

2.2.1.1.1 Rancangan Kosa Kata

Kosa kata disini disamakan dengan set kata dasar dari kata-kata dalam bahasa

Indon esia. Afiks tidak disimpan pada kosa kata karena n antinya akan diperhitungkan

untuk aturan morphotactic. Untuk rancangan awal, kosa kata dibagi menjadi empat kelas

yaitu verb, noun, adjective, dan ‘etc’, yang mencakup semua kata dasar, contohnya

pronoun, adverb, numb er, dan particles. Men gelompokkan kel

kata merupakan

penyederhanaan yang besar, dan menjadi salah satu yang diharapk

untuk direvisi pada

penelitian di masa depan.

2.2.1.1.2 Rancangan Tag

Rancangan tag menjadi sangat penting karena tag ak

mengantarkan informasi

linguistik yang terjadi pada sebuah kata yang dianalisis. Pa

penelitian ini, tag-tag yan g

akan dirancang dibagi menjadi tag normal dan tag speci

Tag normal bisa menjadi

output dengan komponen morphotactic tanpa kondisi apap

sementara tag special

hanya terjadi jika kata dasar yang terlibat berhubung

dengan penanda yang spesifik

pada kosa kata.

2.2.1.1.3 Aturan Morphotactic

Dalam perancangan morphological analyzer, aturan morphotactic merupakan

aturan yang krusial untuk memodelkan bagaimana dua atau lebih morfem bisa digabung.

Berdasarkan (Alwi, 2003), atur an morphotactic untuk bahasa Indonesia bisa

diklasifikasikan menjadi 13 kelas. Sepuluh dari kelas-kelas ini ditentukan berdasarkan

sufiks yang digabung dengan kosa kata, sementar a tiga lainnya adalah kasus reduplikasi.

Sepuluh kelas p ertama bisa diidentifikasi sebagai concatenative morphology sedangkan

tiga kelas lainnya nonconcatenative morphology.

Selama tingkat atu ran morphotactic, ada beberapa langkah yang harus diikuti

untuk menyelesaikan proses. Langkah tersebut termasuk penambahan prefix dan

preprefiks, penambahan sufiks dan proses akhir penambahan tag. Setelah menyelesaikan

semua langkah tersebut, selanjutnya pindah ke proses morphophonemic.

2.2.1.1.4 Aturan Morphophonemic

Seluruh aturan-aturan yang menjelaskan bagaimana dua atau lebih morfem bisa

digabung sudah dirancang dalam aturan morphotactic. Namun proses pen ggabungan ini

masih belum selesai, oleh sebab itu masih harus dijelaskan perubahan apa yang har

dilakukan setelah morfem-morfem tersebut bergabung. Untuk masalah ini, didefinisikan

aturan morphophonemic yang menentukan p erubahan fonetik yang terjadi.

Di Indonesia, aturan ini secara general bisa dibagi menjadi dua bagian. Bagian

pertama terdiri dari empat aturan yang memodelkan perubahan fonetik dalam kata dasar,

sedangkan bagian kedua terdiri dari tujuh aturan yang memodelkan perubahan fonetik

dalam afiks.

Setelah semua subproses dipakai oleh aturan-aturan dalam bagian pertama dan

bagian kedua secara paralel, kemudian seluruh proses morphophonemic selesai.

Rancan gan aturan morphophonemic untuk reduplikasi sangat mirip seperti di

afiksasi, karena pada dasarnya proses morphophonemic dalam reduplikasi terjadi pada

bagian afiksasi dari reduplikasi.

Namun, beberapa aturan tersebut, model proses morphophonemic yang mana

keduanya afiks dan kata dasar mengalami perubahan, harus direvisi untuk

memperhitungk an sifat aturan tersebut ketika diterapkan pada bentuk reduplikasi.

2.2.1.2 Implementasi

Pada morphological analyzer bahasa Indonesia ini mengimplementasikan xfst

dan lexc. Aturan morphotactic diimplementasikan dalam xfst kemudian aturan

morphophonemic diimplementasikan dalam lexc.

2.2.1.2.1 Implementasi Aturan Morphotactic

Aturan morphota ctic bisa diilustrasikan sebagai finite-state automata. Kata-kata

bahasa Indonesia yang valid, yaitu kata-kata yang dibentuk melalui proses

morphological diterima oleh automata, sebaliknya kata-kata yang invalid ditolak.

Dimulai dari Root, tiap state menjelaskan state selanjutnya yang memungkinkan

sambil menunjukkan (atau mengkonsumsi) simbol tertentu. Pada lexc, state-state ini

disebut kelas lanjutan. Seluruh kelas lanjutan dicapai dari Root menunjukkan prefiks dan

pre-prefiks. Perb edaan antara keduan ya ad alah diperlukan untuk mengodekan variasi

morfologi yan g memungkinkan yang mengandung dua prefiks, seperti memper-, diper-.

Dari sana kelas lanjutan selanjutnya adalah Stem, dimana akar kata diproses. Hal ini

kemudian diikuti oleh beberapa kelas yan g mewakili sufiks yang mungkin, tapi ada juga

kelas Redup1 dan Redup2 yang muncul sebelum dan sesudah sufiks. Fungsi keduanya

adalah untuk mengatasi reduplikasi. Terakhir, kelas TagEmit memproses seluruh tag-tag

yang belum ditangani dengan mendahului kelas.

Gambar 2.1 Ilustrasi Alur Proses

(Sumber: Pisceldo, Mahendra, Manurung. 2008:5)

Selama proses morphotactic ini, digunakan pen anda diakri

secara ekstensif,

fitur penting dari lexc yang mendekati kekuatan fitur struktur, ya

mamp u menentukan

batasan tertentu untuk memastikan bahwa hanya jalur yang va

dari jaringan d apat

dilalui. Satu keuntungan dari pendekatan ini ad alah pemeli

aan representasi compact

network. Ada tiga penanda diakritik yang digun akan: pengaturan pos

(@P.feat.val@),

diperlukan uji (@R.feat.val@), melarang uji (@D.feat.val

Menggunakan diakritik ini

dapat ditetapkan nilai-nilai dan kendala dari aspek-aspek terte

yang harus konsisten

sepanjang jalur.

2.2.1.2.2 Proses Reduplikasi

Morfologi Indonesia meliputi proses reduplikasi non-concatenative. Penanganan

ini dengan tata bahasa regular murni seperti yang diterapkan oleh finite state automoata

sangat sulit. Dengan demikian, digunakan fitur compile-replace pada xfst. Fitur ini

memungkinkan pengulangan sub-bahasa kompleks semaunya dengan men etapkan tanda

kurung “^[“ dan “^]” untuk menandai domain d ari reduplikasi. Kurung siku kanan juga

ditambah dengan ^2 untuk menunjukkan duplikasi, dengan demikian menjadi “^[“ dan

“^2^]”. Mengingat ini, xfst mengkompilasi dan memproses anotasi ini untuk

menghasilkan jaringan baru di

mana reduplikasi yang sesuai telah dilakukan. Contoh,

“^[ buku^2^]” akan dikompilasi menjadi bukubuku. Jadi idenya adalah untuk

memasukkan “^[” dan “^2^]” di tempat yang tepat. Karena berbagai jenis reduplikasi

dalam bahasa Indonesia, aturan reduplikasi dapat ditemukan pada bagian Redup

(pre)prefiks juga pada bagian Redup1 dan Redup2. Redup bagi

prefiksmengemisikan

pembukaan tand a kurung “^[” dan menetapkan penanda atau fl

yang tepat sebagai

pengingat bahwa kurung tutup diperlukan. Redup1 bertanggung jaw

untuk menutup

reduplikasi sebagian dan afiks, yaitu di mana akh iran tidak termas

dalam reduplikasi,

sementara Redup2 bertanggung jawab untuk menutup reduplik

penuh, yaitu di mana

sufiks merupakan bagian dari proses reduplikasi. Baik Redup1 d

Redup2 memeriksa

nilai flag REDUP yang diset oleh Redup prefiks.

2.2.1.2.3 Implementasi Aturan Morphophonemic

Full transducer menyusun aturan morphotactic dan morphophonemic. Sebagai

hasilnya, output dari implementasi aturan morphotactic berfungsi sebagai input untuk

implementasi aturan morphophonemic.

Implementasi aturan morphophonemic sedikit berbeda dengan implementasi

aturan morphotactic. Untuk aturan morphotactic ada beber apa langkah yang dapat

digambarkan sebagai aliran proses. Namun, pelaksanaan aturan morphophonemic

umumnya mengimplikasikan aturan itu sendiri. Setiap aturan didefinisikan sebagai

aturan pengganti yang akan berkolaborasi dengan aturan lain melalui komposisi atau

paralelisasi.

2.2.1.3 Evaluasi Jurnal A Two-Level Morphological Analyzer for Indonesian

Language

Untuk mengevaluasi sistem yang diterapkan, diuji melalui beberapa tes kasus

dalam bentuk kata-kata yang diambil dari Kamus Besar Bahasa Indonesia versi

elektronik. Pengujian implementasi dari aturan morphotactic d

morphophonemic

dilakukan secara terpisah. Untuk mengevaluasi kemampuan d

analyzer menerima

bentuk valid dan menolak bentuk invalid, dibutuhkan kombinasi

kasus morfem valid

maupun morfem invalid. Setelah mengeksekusi seluruh uji kas

diperoleh hasil yang

ditampilkan pada Tabel, yang menampilkan hasil uji kasus morphotac

dan Tabel yang

menampilkan hasil uji kasus morphophonemic. Pada kol

‘Analysis’ menampilkan

hasil uji kasus dimana bentuk kata bahasa Indon esia diberik

sebagai input, dan sistem

ditugaskan untuk parsing struktur morfologi. Sebagai cont

diberikan kata memukul,

sistem harus memberikan output pukul+Verb+AV. Di sisi la

kolom ‘Synthesis’

memperhatikan situasi sebaliknya, yaitu uji kasus dimana in

adalah string tag-tag

morfologi, dan sistem ditugaskan untuk menghasilkan bentuk infle

secara lengkap.

Tabel 2.2 Hasil Uji Kasus Morphotactic

(Sumber: Pisceldo, Mahendra, Manurung, 2008:8)

T abel 2.3 Hasil Uji Kasus Morphophonemic

(Sumber: Pisceldo, Mahendra, Manurung, 2008:8)

Hasil uji kasus diklasifikasikan menjadi tiga kategori. Kategori pertama

menunjukkan bahwa sistem menghasilkan tepatnya satu analisis atau sintesis yang b enar

untuk uji kasus valid, atau tidak menghasilkan apapun untuk uji kasus invalid. Kategori

kedua adalah ketika diberikan uji kasus valid, sistem menghasilkan beberapa jawaban,

salah satun ya adalah hasil yang diharapkan. Kategori terakhir terlihat saat sistem gagal

untuk menganalisis atau mensintesis uji kasus yang valid, atau salah menghasilkan

jawaban untuk uji kasus yang invalid. Dari table dapat diamati bahwa hasil analisis yang

lebih akurat daripada bentuk

sintesis, dimana sistem cenderung untuk menghasilkan

lebih dari satu hasil.

2.2.1.4 Hasil Jurnal A Two-Level Morphological Analyzer for Indonesi

Language

Hasil dari penelitian ini menyajikan sebuah morphologi

analyzer bahasa

Indon esia yang memb erikan analisis rinci dari proses afiks

menggunakan pendekatan

morfologi dua tingkat, yang diimplementasikan menggun akan x

dan lexc. Pendekatan

ini mampu menangani reduplikasi, proses morfol

non-concatenative. Evaluasi

menunjukkan bahwa implementasi umumnya mampu unt

meng-encodeaturan dari

berbagai proses morfologi.

2.2.2 Jurnal Indonesia Morphology Tool (MorphInd) Towards an Indonesian Corpus

Berdasarkan dari jurnal dari (Larasati, Kubo n, dan Zeman, 2011) ini dijelaskan

tentang finite state morphology tool yang kuat untuk bahasa Indonesia atau bisa

disingkat MorphInd. Penelitian ini menjelaskan mengenai analisis morphological dan

lematisasi dari kata-kata yang diberikan supaya bisa diproses lebih jauh.

2.2.2.1 Perancangan Alat

MorphInd dirancang untuk menangani empat isu yakni kategorisasi lexical yang

dangkal, analisis yang tidak dispesifikan, aturan morphosyntactic serta lisensi software.

MorphInd men ghasilkan analisis yang hanya mencakup fenomena-fenomena morfologi,

syntax-nya tidak ditan gani, namun kelu arannya bisa digunakan

untuk fungsi-fungsi

Natural Language Processing lainnya. MorphInd menganalisa tanda-tanda sebagai

unigrams dan tidak memperhitungkan tanda-tanda yang bersebelahan. MorphInd tidak

mengembalikan fungsi – fungsi yan g berhubungan den g

sintaksis dalam analisanya,

walaupun beberapa fun gsi dengan mudah dikenal oleh kata-k

atau klitik. Sebagai

contoh, kita tidak bisa menandai ‘subjek’ dari suatu kali

dimana kata tersebut dapat

dikenali dengan proklitik yang sudah umum yang menempel

sebuah kata k erja,

namun kenyataannya bahwa kata tersebut memiliki prolitik k

ganti yang disimpan

untuk analisis.

2.2.2.1.1 Perancangan Tagset dan Kategori Leksikal

Morph Ind membagi lek sikal menjadi 17 kategori. Kate

ri-kategori tersebut

pada dasarnya adalah ‘ Noun’, ‘Verb’, ‘Adjective’ seperti

dalam IndMA (mengacu

pada jurnal sebelum ini), dan kategori

‘etc’ dipecah l

menjadi beb erapa kategori

seperti ‘Preposition’ dan ‘Modal’ dimana sebagian besar kateg

ini merupakan kelas

kata tertutup yang sangat mudah untuk didaftarkan secara manual.

Morph Ind juga memiliki tagset yang berjaringan, terinpirasi d

tagset PENN

Treebank dan mengadaptasinya ke dalam morfologi baha

Indonesia. Tagset tersebut

juga mengambil konsep tag posisional dari Prague Dependen

Treebank tagset untuk

menangani sebagian besar perilaku bahasa yang terjadi secara bersamaan

kata dasar.

2.2.2.1.2 Analisis Format

Morph Ind memutuskan untuk membuat output dalam bent

morfem yang

tersegmentasi, dimana hal tersebut akan menunjukkan bagaima

morfem tersebut

dibentuk. Hal ini akan membuat output lebih tepat dan lebih tid

ambigu dalam proses

generasi. Bentuk kata dasar disegmentasi ke morfemn

masing-masing. Lemma diikuti

oleh tag lemma, yang berkorespondensi dalam posisi perta

tag pembentukan kata,

dan dapat dibedakan den gan huruf kecil. Tag lemma da

berb eda dari posisi pertama

dari token yang sama, hal ini disebabkan karena derivasi.

2.2.2.1.3 Morphosyntactic dan Morphoponemic

Bahasa Indonesia bukan merupakan bahasa yang terinfleksi seperti bahasa

Slavia, meskipun demikian beberapa morfem yang membawa fitur-fitur bahasa seperti

konjugasi kata kerja untuk menandai kata aktif dan pasif. Bahasa Indonesia adalah

bahasa yang agak aglutinatif jika dibandingkan dengan bahasa Tu

atau Finlandia

dimana perbandingan morfem per kata lebih tinggi. Ada bebera

subjek atau objek

yang bisa direpresentasikan sebagai klitik (proklitik ataupun enklitik).

2.2.2.2 Evaluasi Jurnal Indonesia Morphology Tool (MorphIn

Towards an

Indonesian Corpus

MorphInd dan IndMA dijalankan ke beberapa tulisan ya

telah dikumpulkan

untuk mengukur cakupannya. Ada dua jenis tes yaitu T5K yang terd

dari 5000 kalimat

dan T10K yang terdiri dari 10000 kalimat. Terdapat 9 set T5K d

terdapat 4 set T10K.

Kalimat-kalimat tersebut diambil secara acak tanpa perubah

dari kalimat yang telah

diambil tersebut.

MorphInd terdiri dari 3954 entri kata yang dibagi menjadi

kategori. IndMA

dibuat ulang dengan entri kata yang sama dengan Morph I

agar hasilnya bisa

dibandingkan. Adapun tabel lexical entri d ari MorphInd d

IndMA adalah sebagai

berikut :

Tabel 2.4 MorphInd Lexical Entries

(Sumber: Larasati, Kubo n, Zeman, 2011:10)

MorphInd gagal untuk melampaui performa IndMA dalam cakupan yang unik

karena jumlah entri lexical sangat berbeda dan entri lexical MorphInd tidak mengandung

kata benda dan kata asing. Namun, d engan pilihan yang baik dari entri lexical, dengan

memilih lemma yan g paling sering digunakan dan pali

produktif, caku pan MorphInd

secara keseluruhan akan lebih besar daripada IndMA. Hal

disebabkan karena

Morph Ind meliputi klitik, alternasi angka, dan tambahan parti

morfem yang tidak

dicakup dalam IndMA. Hal ini bisa dilihat dari ha

MorphInd dan IndMA, dimana

Morph Ind memiliki cakupan lebih baik dengan entri lexical yang sama.

2.2.2.3 Kesimpulan Jurnal Indonesia Morphology Tool (MorphInd) Towards an

Indonesian Corpus

Morph Ind membuat informasi morfologikal dalam format output n ya menjadi

segmentasi morfemik, posisi lemma morfem, kategori lexical, dan fitur-fitur

morphological. MorphInd memberikan cakupan yan g lebih b

jika dibandingkan

dengan IndMA.

2.2.3 Jurnal Stemming Indonesian: A Confix-Stripping Approach

Berdasarkan jurnal Stemming Indonesian: A Confix-Stripping Approach

(Adriani, Asian, Nazief, Tahaghoghi, Williams, 2007) dijelaskan bahwa pada tahun

2005, Asian, Williams, dan Tahaghogi berusaha meningkatkan akurasi NAZIEF (1996),

karena pendekeatan dan akurasi stemming untuk bahasa Indonesia pada NAZIEF

merupakan yang terbaik. Berdasarkan analisis mereka, kesalahan yang terdapat pada

NAZIEF sebagian besar disebabkan oleh beberapa aspek: non-root dalam kamus, kamus

tidak lengkap, dan kata ditulis dengan tanda penghubun g kata, sedangkan sisanya

disebabkan oleh aturan yang tidak efektif dan urutan aturan. Pada 2007, Adriani, dkk.

berkolaborasi untuk membuat paper yang menyampaikan “Confix-Stripp ing Stemmer”,

memperbaiki versi dari NAZIEF. Aturan modifikasi dan perubahan algoritma yang

adalah sebagai berikut:

1. Input pertama-tama diperiksa dalam kamus. Jika input ditemukan dalam kamus,

maka input dikembalikan sebagai lemma.

2. Sufiks infleksional partikel (-kah, -lah, -tah, -pun) akan dihapus dari input, dan

sisanya akan disimpan dalam variable string (CURRENT_WORD), lalu cek

dalam kamus. Jika kata ditemukan, proses akan berhenti.

3. Sufiks infleksional kata ganti kepemilikan (-ku, -mu, -nya) akan dihapus dari

CURRENT_WORD, lalu dicek dalam k amus. Jika kata ditemukan, proses akan

berhenti.

4. Sufiks derivasi (-i, -kan,

-an) akan dihapus dari CURRENT_WOR D, lalu dicek

dalam kamus. Jika kata ditemukan, proses akan berhenti.

5. Pada tahap ini berfokus pada pen ghapusan prefiks derivasi (beN-, di-, ke-, meN-,

peN-, se-, teN-) dari CURRENT_WORD. Tahap ini terjadi rekursif karena

morfologi prefiks derivasi bahasa Indonesia akan terhambat. Beberapa prefiks

(di-, ke-, se-) dianggap sederhan a, karena pada praktiknya tidak mengubah

lemma. Sebaliknya, prefiks lainnya (beN-, meN-, peN-, teN-) mengubah lemma,

dan berbeda dengan huruf pertama pada lemma. Perubahan tersebutdicantumkan

dalam tabel di bawah.

Tabel 2.5 Perubahan Prefiks

(Sumber: Adriani, Asian, Nazief, Tahaghoghi, Williams, 2007:13)

Ada beberapa kondisi terminasi untuk tahap ini:

1. Penghapusan prefiks dan afiks tercantum dalam tabel pasangan afiks

valid di bawah

2. Prefiks dihapus secara langsung setara dengan penghapusan prefiks

sebelumnya

3. Batas rekursif untuk tah ap ini sebanyak tiga kali

Tabel 2.6 Pasangan Prefiks dan Afiks yang Tidak Bisa Dikombinasi

(Sumber: Adriani, Asian, Nazief, Tahaghoghi, Williams, 2007:6)

Penghapusan prefiks ak an direkam, dan CURRENT_WORD akan dicek dalam

kamus. Jika CURRENT_WORD tidak terdapat

di dalam kamus dan kondisi

terminasi meyakinkan, maka tahap 5 akan diulang dengan CURRENT_WORD

sebagai input.

6. Jika CURRENT_WORD tetap tidak ditemukan pada tahap 5, maka tabel 2.5

akan memeriksa apakah recoding memungkinkan. Pada aturan yang ditetapkan,

ada beberapa aturan yang menyimpan lebih dari satu output. Gunakan aturan 17

sebagai mengV memiliki dua output: meng-V atau meng-kV. Pada tahap 5,

output pertama (sebelah kiri) akan selalu dipilih pertama dan ini akan

menyebabkan kesalahan. Recoding dilakukan untuk mengembalikan jenis

kesalahan dengan kembali ke tahap sebelum tahap 5 dimana pemilihan output ini

terjadi dan seb agai gantinya memilih output lain.

7. Jika CURRENT_WORD masih tetap tidak ditemukan dalam kamus, maka input

diawal akan dik embalikan.

Untuk mengatasi penyebab kesalahan besar seperti disebutkan di atas (yaitu non-

root dalam pencarian kamus, kamus tidak lengkap, kata-kata yang ditulis dengan

kata penghubung), Adriani menyarankan tiga pen dekatan:

1. Meningkatkan kualitas kamus dengan menggunakan sumber kamus yang

berbeda dan membandingkan tingkat akurasinya dengan kamus sebelumnya.

2. Menambahkan aturan tambahan untuk mengatasi kata yan g ditulis dengan tanda

penghubung yang men gandung reduplikasi (seperti, “bulir-bulir”) kemudian

akan dipotong menjadi “bulir”. Hal ini juga berlaku untuk kata dengan tanda

penghubung den gan afiks (seperti, “seindah-indahnya”), afiks akan dihapus

pertama dan kemudian diperiksa apakah pasangan kata tersebut dapat dipotong.

3. Modifikasi aturan prefiks dan sufiks:

a. Aturan perubahan prefiks (“ter-“, “pe-“, “mem-”, dan “meng-”) dimana

sudah dicantumkan pada tabel 2.5 di atas. Lebih rincinya aturan nomor 9

dan 33 ditambahkan dan aturan nomor 12 dan 16 dimodifikasi dari aturan

sebelumnya.

b. Penghapusan prefiks akan dilakukan sebelum penghapusan sufiks jika

diberikan kata pasangan afiks seperti pada berikut ini:

i. “be-“ and “-lah”

ii. “be-“ and –an”

iii. “me-“ and “-i”

iv. “di-“ and “-i”

v. “pe-“ and “-i”

vi. “ter-“ and “-i”

Dibandingkan dengan NAZIEF dengan dataset yang sama, modifikasi NAZIEF

mencapai tingkat akurasi 2-3% lebih tinggi (kurang lebih 95%).

2.2.4 Jurnal Lemmatization Technique in Bahasa: Indonesian Language

Berdasarkan jurnal Lemmatization Technique in Bahasa Indonesian Language

(Suhartono, Christiandy, Rolando, 2014) dijelaskan mengenai teknik pencarian bentuk

kata dasar

dari kata berimbuhan menggunakan teknik lemmatization yang merupakan

pengembangan dari tekn ik stemming yang sudah pernah diteliti oleh Adriani, Asian,

Nazief, Tahaghoghi, dan Williams (2007) yang juga merupakan pengembangan dari

penelitian sebelumnya oleh Asian, Williams, Tahaghoghi (2005).

2.2.4.1 Algoritma

Algoritma lemmatization dikembangkan b erdasarkan state of the art, Enhanced

Confix Stripping Stemmer (selanjutnya disebut ECS). Penelitian ini tidak bertujuan

untuk mengembangkan ECS, karena memiliki maksud dan tujuan yan g berb eda.

Sebaliknya, algoritma lemmatization bertujuan untuk memodifikasi ECS agar sesuai

dengan konsep lemmatization. Namun, terdapat kesamaan dalam beberapa p roses,

misalnya penghapusan afiks untuk memperoleh bentuk lemma. Diharapkan algoritma

lemmatization mampu menangani b eberapa kasus yang tidak berjalan sempurna pada

ECS.

Algoritma lemmatization meliputi beberapa proses:

A. Pencarian Kamus. Proses ini memeriksa apakah kata tersebut terdapat dalam

kamus. Jika pencarian berhasil maka algoritma akan berhenti dan lemma akan

dikembalikan sebagai hasil.

B. Rule Precedence. Proses ini dilakukan untuk menentukan urutan eksekusi proses

lain. Ada beberapa kombinasi prefiks-sufiks yan g bisa dihasilkan lebih cepat dan

lebih akurat, jika pen gh apusan prefiks dijalankan

sebelum penghapusan sufiks.

Berikut adalah kombinasi aturan-aturan yang terdapat pada rule precedence:

1. be- dan –an

2. me- dan –i

3. di- dan -i

4. pe- dan -i

5. te- dan –i

Jika kata input yan g dimasukkan terdapat kombinasi pasangan prefiks-sufiks

yang sesuai dengan aturan, maka urutan eksekusi akan menjadi penghapusan

prefiks derivasi, recoding, penghapusan sufiks infleksional, dan penghapusan

sufiks derivasi. Sebaliknya, jika pasangan afiks tidak terdapat pada kata input

yang diberikan, maka urutan yan g akan diek sekusi terlebih dahulu adalah

penghapusan sufiks infleksional dan penghapusan sufiks derivasi.

C. Penghapusan Sufiks Infleksional. Sufiks infleksional memiliki dua tipe sufiks,

partikel {‘-lah’, ’-kah’, ’-tah’, dan ‘-pun’} dan k ata ganti kepemilikan {‘-ku’, ’-

mu’, ’-nya’}. Struktur bahasa Indonesia menyatakan b ahwa partikel selalu

ditambahkan pad a sufiks terakhir sebuah kata. Jadi proses ini akan menghapus

sufiks partikel terlebih dahulu sebelum menghapus sufiks kata ganti kepemilikan.

D. Penghapusan Sufiks Derivasi. Proses ini akan menghapus sufiks derivasi {-in -

kan,-an} dari kata yang diberikan. Sufiks derivasi selalu ditambahkan pada kata

sebelum sufiks inflek sional. Jadi proses ini selalu dieksekusi setelah

penghapusan sufiks infleksional.

E. Penghapusan Prefiks Derivasi. Prefiks derivasi terdapat dua jenis, biasa {‘di-‘,

‘ke-’, ‘se-‘} d an komp leks {‘me-‘, ‘be-’, ‘pe-’, ‘te-’}. Prefiks biasa tidak

memerlukan aturan apapun dan tidak mengubah ketika ditambahkan pada kata,

yang berarti proses penghapusan dilakukan secara langsung ketika terdapat

prefiks biasa. Di sisi lain, perubahan prefiks kompleks mengubah kata ketika

ditambahkan. Bahasa Indonesia memungkinkan kombinasi prefiks derivasi pada

sebuah kata. Namun terdapat kendala yang membatasi kemungkinan kombinasi.

Kombinasi yang memungkinkan adalah:

1. ‘di-’, diikuti oleh tipe prefiks ‘pe-’, atau ‘be- ’, contoh “diperlakukan” dan

“diberlakukan”

2. ‘ke-’, diikuti oleh tipe prefiks ‘be-’, atau ‘te-’, contoh “kebersamaan” dan

“keterlambatan”

3. ‘be-’, diikuti oleh tipe prefiks ‘pe-’, contoh “berpengalaman”

4. ‘me-’, diikuti oleh tipe prefiks ‘pe-’, ‘te-’, atau ‘be-’, contoh

“mempersulit”, “menertawakan”, dan “membelajarkan”

5. ‘pe-’, diikuti oleh tipe prefiks ‘be-’, contoh “pemberhentian” dan

pengecualian “penertawaan”

Algoritma lemmatization akan menghapus sampai tiga prefiks d an tiga sufiks,

sementara tiga sufiks terdiri dari tipe sufiks derivasi, kata ganti kepemilikan, dan

sufiks partikel mengikuti aturan kombinasi di atas. Oleh karena itu, proses ini

berulang sampai tiga kali iterasi. Pada akhir setiap iterasi, kata pada saat itu

dilakukan pencarian kamus untuk mencegah overstemming. Penghentian juga

terjadi ketika prefiks saat ini diidentifikasi sudah dihapus pada iterasi

sebelumnya atau kata mengandung konfiks yang dilarang. Berikut adalah aturan

konfiks yang dilarang dalam bahasa Indonesia:

Tabel 2.7 Konfiks yang Dilarang dalam Bahasa Indonesia

Prefiks Sufiks

be- -i

di- -an

ke- -i, -kan

me- -an

se- -i, -kan

te- -an

F. Recoding. Ketika proses penghapusan afiks masih gagal ketika dilakukan

pencarian kamus, masih ada kemungkinan bahwa proses pen ghapusan tidak

mengubah kata yang sesuai. Contoh, kata “menanya” diubah menjadi “nanya”

tidak ditemukan setelah dilakukan pencarian kamus. Hal ini terjadi karena

berasal dari kata “tan ya”. Namun juga terdapat kasus dimana huruf pertama

lemma adalah ‘n’, misalnya “nama” dalam kata “menamai”. Tujuan dari

recoding adalah menjalankan segala macam transformasi yang memungkinkan.

Hal ini dicapai dengan merekam jalur alternatif transformasi. Ambuk aturan satu

misalnya, ada dua kemungkinan output. Pada penghapusan afiks, output yang

dipilih akan selalu yang kiri. Namun ketika proses ini dijalankan, cek algoritma

apakah ada jalur alternative yang direkam ketika menghapus afiks, dan kemudian

menggantikan transformasi saat ini dengan alternatif.

G. Backtracking Sufiks. Proses ini dikerjakan setelah pen gh apusan afiks dan

recodinggagal. Pada setiap langkah, proses penghapusan prefiks, dan

recodingdilakukan. Pertama, prefiks yang telah dihapus akan disambungkan

dengan kata, maka penghapusan prefiks dan recoding dilakukan. Jika hasil

pencarian kamus gagal, prefiks akan disambungkan kembali dan sufiks derivasi

juga akan disambungkan kembali. Jika hasilnya masih gagal, pasang kembali

prefiks, sufiks derivasi, dan kata ganti kepemilikan. Jika hasiln ya masih gagal,

langkah terakhir adalah pasang kembali partikel. Ada kasus tertentu, ketika

sufiks derivasi yang dihapus adalah “-kan”, maka ‘k’ akan dipasang terlebih

dahulu. Jika hasilnya gagal, maka ‘-an’ juga akan ditempel kembali

H. Mengembalikan Kata Asli (direpresentasikan sebagai X)

Maksud dari proses ini adalah proses lemmatization tidak berhasil menemukan

bentuk lemma.

I. Mengembalika Lemma (direpresentasikan sebagai Y)

Maksud dari proses ini adalah proses lemmatization berhasil menemukan bentuk

lemma dari kata yang diberikan.

Gambar 2.2 Flowchart Algoritma Lemmatization

(Sumber: Suhartono, Christiandy, Rolando. 2014:4)

Data yang diformat berisi 57.261 kata valid dengan rata-rata 6,68 karakter per

kata, dan 7.829 kata valid yang unique. Data disimpan dalam tabel MySQL untuk

mempermudah proses pengujian. Dalam menganalisis data uji, ada beberapa batasan

supaya poses lemmatization berhasil, mempertimbangkan kesalahan, dan kasus tertentu

yang berada diluar jangkauan algoritma saat ini. Lemmatization dianggap berhasil, jik

lemma dihasilkan secara benar dari kata input. Ada beberapa kasus yang ketika lemma

yang dihasilkan tidak benar, maka akan masu k kategori error. Kasus-kasus diluar

jangkauan mempertimbangkan invalid dan tidak memenuhi syarat, maka keduanya tidak

dianggap gagal ataupun berhasil. B erikut adalah kasus diluar jangkauan tersebut:

1. Kata Benda Baku dan Singkatan, termasuk nama orang, nama tempat, atau

nama perusahaan (Microsoft, Bandung, PT.KAI, dll.). Alasan utama k ata benda

baku dan singk atan berada di luar jangkauan, k arena tidak terdapat dalam Kamus

Besar Bahasa Indonesia.

2. Kata Asing, maksudnya adalah kata lain di luar bahasa Indonesia. Kata Asing

juga tidak terdapat di dalam Kamus Besar Bahasa Indonesia.

3. Infiks¸ adalah afiks yang terdapat di dalam sebuah kata. Sebagai contoh, infiks ‘-

er-’ untuk “gigi” yang menghasilkan “gerigi”. Kata yang mengandung infiks

sudah termasuk ke dalam lemma. Oleh kar ena itu, prosedur pen ghapusan infiks

tidak didukung oleh algoritma ini.

4. Kata Tidak Standar dan Pengimbuhan Kata Tidak Standar, maksudnya

kata-kata yan g tidak did efinisikan dalam Kamus Besar Bahasa Indonesia, atau

kata-kata slang, dan afiks. Beberapa contoh kata-kata seperti “nggak”, “gu e”,

“bukain” dengan ‘-in’ sebagai sufiks.

Kesalahan lemmatization bisa diklasifikasikan menjadi beberapa kategori:

1. Overlemmatized: Istilah ini sama dengan overstemming. Penghapusan afiks

dilakukan terlalu banyak atau ekstensif, sehin gga lemma yang dihasilkan tidak

seperti yang diharapkan. Sebagai contoh dalam kasus overstemming ECS. Kata

“penyidikan” menjadi “sidi”, di mana kata yang benar seharusn ya menjadi

“sidik”.

2. Underlemmatized: Istilah ini sama dengan understemming. Penghapusan afiks

dilakukan terlalu sedikit, sehingga lemma yang dihasilkan tidak seperti yang

diharapkan. Pada kasus ECS, kata “mengalami” menjadi “alami” di mana kata

yang benar seharusn ya menjadi “alam”.

3. Kesalahan Aturan: Pada kasus ini, afiks yang dihapus tidak benar karena

ketidakefektifan atau kesalahan aturan. Sebagai cont

“mengatakan” mungkin

bisa menjadi “katak”, dengan men ghapus sufiks ‘-an’, dan prefiks ‘meng-

2.2.4.2 Hasil dan Evaluasi Jurnal Lemmatization Techniq

in Bahasa: Indonesian

Language

Algoritma pada penelitian ini diimplementasikan pa

aplikasi web sederhana,

dibuat menggunakan PHP, dan untuk database menggunak

MySQL. Pen gujian

algoritma ini menggunakan 25 artikel dalam 10 kategori yan g diam

dari Kompas.com.

Hasilnya dapat dilihat pada table berikut:

Tabel 2.8 Hasil Uji untuk Kata Non-unique

(Sumber: Suhartono, Christiandy, Rolando, 2014:7)

Tabel 2.9 Hasil Uji untuk Kata Unique

(Sumber: Suhartono, Christiandy, Rolando, 2014:8)

Dimana ‘T’ merupakan total data yang diuji, ‘V’ merupakan perhitungan uji data

valid, ‘S’ merupakan jumlah data uji lemmatization yang berhasil, ‘E’ merupakan

jumlah data uji yang gagal atau error, dan ‘P’ merupakan presentase tingkat presisi.

Dilihat pada hasil pada tabel, bisa ditarik kesimpulan bahwa algoritma

lemmatization bisa beker ja den gan baik p ada bahasa Indonesia.

2.2.4.3 Kesimpulan Jurnal Lemmatization Technique in Bahasa: Indonesian

Language

Berdasarkan hasil uji, penelitian menggunakan metode lemmatization ini

mencapai persentase presisi yang cukup tinggi yaitu kurang lebih 99%. Meskipun masih

ada beb erapa yang tidak akurat, namun hasil penelitian ini masih cukup layak untuk

diimplementasikan pada morphological analysis, grammar analyzer, dan aplikasi bahasa

lainnya dalam konteks bahasa Indonesia. Adapun beberapa saran untuk perbaikan p ada

penilitian selanjutnya:

1. Meningkatkan algoritma dengan beberapa kata-kata pengecualian. Tidak semua

kata dalam bahasa Indonesia bisa mengikuti aturan-aturan. Terkadang, beb erapa

pengecualian perlu dilakukan karena konteks kata dan bahasa transisi.

2. Meningkatkan algoritma supaya bisa menerima kalimat sebagai input, karena

untuk saat ini hanya bisa menerima sebuah kata sebagai input.

3. Gunakan metode lemmatization ini sebagai dasar untuk membuat algoritma

morphological analyzer, karena metode in i merupak an kunci untuk

mengaktualisasikan berbagai aplikasi yang berguna

4. Meningkatkan algoritma untuk mengatasi kata u lang, kata dengan infiks, kata

benda baku, singkatan, dan kata asing atau serapan.