- Published
Preprocessing in NLP
- Published
- Gaudhiwaa Hendrasto
Daftar Isi
Natural Language Processing
Natural Language Processing (NLP) adalah cabang Kecerdasan Buatan yang berhubungan dengan teks. Chatbot, analisis sentimen, ringkasan teks, pengenalan suara, deteksi spam, rekomendasi konten, pembuatan teks, dan terjemahan adalah contoh dari NLP. Jadi, proyek apa pun yang berhubungan dengan teks disebut NLP 🎯
Preprocessing
Preprocessing adalah langkah di mana Anda memodifikasi karakteristik teks. Alasan Anda harus melakukan preprocessing adalah karena Anda perlu membersihkan data 🧹 sebelum menjadi masukan untuk model Anda. Kita tahu bahwa kualitas data sangat penting untuk mencapai akurasi model terbaik dan efisiensi waktu. Lihat langkah-langkah preprocessing pada penjelasan berikut.
Catatan: Sebelum Anda membaca preprocessing di bawah ini, Anda harus tahu bahwa tidak semua langkah preprocessing harus Anda gunakan. Hal ini relatif berdasarkan tujuan proyek Anda. Sebagai contoh, preprocessing pada analisis sentimen mungkin berbeda dengan pembuatan teks. Tekniknya bisa saja sama, tetapi urutan preprocessingnya berbeda. Jadi tidak ada solusi ONE-SIZE-FIT-ALL untuk langkah-langkah preprocessing. Semakin sering Anda mengerjakan proyek NLP, Anda juga akan membangun insting sendiri tentang teknik apa yang harus digunakan untuk mencapai tujuan proyek.
Normalisasi: Menghapus atau mengonversi data yang tidak relevan dalam teks.
Normalisasi bisa berupa case-folding (huruf kecil), menghapus tautan, menghapus tanda baca, dll. Tujuan melakukan normalisasi adalah untuk membersihkan data dengan menghapus atau mengonversi data yang tidak relevan dalam teks. Proses ini membantu dalam menstandarisasi teks, membuatnya lebih mudah untuk pemrosesan teks selanjutnya.
text normalisasi The cats are running and jumping quickly https://www.google.com/ cat running jumping quickly He enjoys swimming in the pool every morning. enjoys swimming pool every morning #$@%^ They are playing soccer in the park. playing soccer park She loves to read books before bedtime. love read book bedtime We were watching a movie when the power went out. watching movie power went Menghapus Stop Words: Menghapus kata-kata umum dalam kalimat yang kurang informatif.
Kata-kata umum yang kurang informatif dalam teks, yang dikenal sebagai "Stop Words", seringkali tidak relevan dan menimbulkan gangguan dalam analisis teks. Ini adalah daftar stop words 👉 list of stopwords
text menghapus stop words the cats are running and jumping quickly cat running jumping quickly he enjoys swimming in the pool every morning enjoys swimming pool every morning they are playing soccer in the park playing soccer park she loves to read books before bedtime love read book bedtime we were watching a movie when the power went out watching movie power went Tokenisasi: Memecah teks berdasarkan spasi
Tokenisasi adalah memecah teks berdasarkan spasi menjadi satu kata tunggal (unigram). Langkah ini wajib dilakukan sebelum Anda melanjutkan ke langkah berikutnya (stemming atau lemmatization).
text tokenisasi cat running jumping quickly [cats, running, jumping, quickly] enjoys swimming pool every morning [enjoys, swimming, pool, every, morning] playing soccer park [playing, soccer, park] love read book bedtime [loves, read, books, bedtime] watching movie power went [watching, movie, power, went] Stemming: Mengonversi semua kata ke bentuk dasarnya.
Stemming mengurangi kata-kata ke bentuk akarnya, yang membantu mengurangi dimensi. Namun, seringkali tidak menghasilkan kata yang sebenarnya.
text stemming [cats, running, jumping, quickly] cat run jump quickli [enjoys, swimming, pool, every, morning] enjoy swim pool everi morn [playing, soccer, park] play soccer park [loves, read, books, bedtime] love read book bedtim [watching, movie, power, went] watch movi power went Lemmatization: Mengonversi semua kata ke bentuk dasarnya, berdasarkan kamus.
Lemmatization mirip dengan stemming tetapi menggunakan kamus untuk menggantikan kata dengan bentuk dasarnya. Proses ini lebih akurat tetapi memakan waktu lebih lama daripada stemming.
text lemmatization [cats, running, jumping, quickly] cat running jumping quickly [enjoys, swimming, pool, every, morning] enjoys swimming pool every morning [playing, soccer, park] playing soccer park [loves, read, books, bedtime] love read book bedtime [watching, movie, power, went] watching movie power went Catatan: Anda dapat memilih untuk menggunakan stemming atau lemmatization. Pilih stemming ketika kecepatan dan kesederhanaan diperlukan, dan bentuk kata yang tepat kurang kritis. Pilih lemmatization ketika akurasi dan keterbacaan penting, dan konteks serta bagian dari ucapan perlu dipertahankan (misalnya, analisis sentimen, terjemahan mesin).
Saya menyediakan preprocessing di sini ⭐ Colab: Preprocessing. Anda dapat menggunakan preprocessing ini secara berulang untuk proyek-proyek Anda. Saya menyediakan teks dalam bahasa Indonesia dan Inggris untuk stemming dan lemma.