Tulisan ini merupakan lanjutan dari 2 tulisan sebelumnya yang mengulas skripsi yang terdapat pada www.iirc.ipb.ac.id. skripsi kali ini yang di ulas adalah skripsi dari mahasiswa ipb pada tahun 2009 yaitu Indra Juniawan yang berjudul Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis. skripsi tersebut bisa di akses di alamat http://iirc.ipb.ac.id/jspui/handle/123456789/13007.
Skripsi tersebut bertujuan untuk menganalisis kinerja MCA dalan klasifikasi dokumen dan pengaruh perlakuan praproses pada hasil klasifikasi. latar belakang dari penelitian tersebut adalah proses klasifikasi dokumen dengan jumlah banyak membutuhkan biaya dan waktu yang lama. sehingga dengan permasalahan tersebut dibutuhkan
sebelum proses klasifikasi, dokumen terlebih dahulu melalui 4 tahap praproses data. yang pertama parsing, yaitu teks dalam setiap dokumen dipilah menjadi sekumpulan token. tahap kedua adalah pembuangan stop word, yaitu semua kata yang ada di dalam stoplist dibuang. tahap yang ketiga stemming, yaitu proses untuk menentukan kata dasar dari sebuah kata. Sedangkan tahap terakhir dari praproses adalah gabungan dari tahap kedua dan tahap ketiga.
Setelah praproses, setiap dokumen akan direpresentasikan ke dalam bentuk vektor kemudian dibagi menjadi data latih dan data uji. Pada setiap kelas, dokumen dari data latih akan dihitung komponen minornya menggunakan MCA dan hasilnya adalah sebuah vektor baris MCA. Kemudian proses klasifikasi dilakukan dengan cara menghitung vektor proyeksi dari vektor dokumen terhadap setiap vektor yang ada.