Pemodelan topik - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pemodelan topik

Anda dapat menggunakan Amazon Comprehend untuk memeriksa isi kumpulan dokumen untuk menentukan tema umum. Misalnya, Anda dapat memberikan Amazon Comprehend koleksi artikel berita, dan itu akan menentukan subjek, seperti olahraga, politik, atau hiburan. Teks dalam dokumen tidak perlu dianotasi.

Amazon Comprehend menggunakan model pembelajaran berbasis alokasi dirichlet Latent untuk menentukan topik dalam satu set dokumen. Ini memeriksa setiap dokumen untuk menentukan konteks dan makna sebuah kata. Kumpulan kata yang sering termasuk dalam konteks yang sama di seluruh set dokumen membentuk topik.

Sebuah kata dikaitkan dengan topik dalam dokumen berdasarkan seberapa umum topik itu dalam dokumen dan seberapa besar afinitas topik tersebut terhadap kata tersebut. Kata yang sama dapat dikaitkan dengan topik yang berbeda dalam dokumen yang berbeda berdasarkan distribusi topik dalam dokumen tertentu.

Misalnya, kata “glukosa” dalam sebuah artikel yang berbicara terutama tentang olahraga dapat ditugaskan ke topik “olahraga,” sedangkan kata yang sama dalam artikel tentang “obat” akan ditugaskan ke topik “obat.”

Setiap kata yang terkait dengan topik diberi bobot yang menunjukkan seberapa banyak kata membantu menentukan topik. Bobot adalah indikasi berapa kali kata muncul dalam topik dibandingkan dengan kata lain dalam topik, di seluruh kumpulan dokumen.

Untuk hasil yang paling akurat, Anda harus menyediakan Amazon Comprehend dengan korpus terbesar yang mungkin untuk dikerjakan. Untuk hasil terbaik:

  • Anda harus menggunakan setidaknya 1.000 dokumen di setiap pekerjaan pemodelan topik.

  • Setiap dokumen harus memiliki panjang minimal 3 kalimat.

  • Jika dokumen sebagian besar terdiri dari data numerik, Anda harus menghapusnya dari korpus.

Pemodelan topik adalah proses asinkron. Anda mengirimkan daftar dokumen Anda ke Amazon Comprehend dari bucket Amazon S3 menggunakan operasi. StartTopicsDetectionJob Tanggapan dikirim ke ember Amazon S3. Anda dapat mengonfigurasi bucket input dan output. Dapatkan daftar pekerjaan pemodelan topik yang telah Anda kirimkan menggunakan ListTopicsDetectionJobsoperasi dan lihat informasi tentang pekerjaan yang menggunakan DescribeTopicsDetectionJoboperasi. Konten yang dikirimkan ke bucket Amazon S3 mungkin berisi konten pelanggan. Untuk informasi selengkapnya tentang menghapus data sensitif, lihat Bagaimana Cara Mengosongkan Bucket S3? atau Bagaimana Saya Menghapus Bucket S3? .

Dokumen harus dalam file teks berformat UTF-8. Anda dapat mengirimkan dokumen Anda dengan dua cara. Tabel berikut menunjukkan opsi.

format Deskripsi
Satu dokumen per file Setiap file berisi satu dokumen masukan. Ini yang terbaik untuk koleksi dokumen besar.
Satu dokumen per baris

Input adalah satu file. Setiap baris dalam file dianggap sebagai dokumen. Ini terbaik untuk dokumen pendek, seperti posting media sosial.

Setiap baris harus diakhiri dengan umpan baris (LF,\n), carriage return (CR,\ r), atau keduanya (CRLF,\ r\n). Pemisah garis Unicode (u+2028) tidak dapat digunakan untuk mengakhiri garis.

Untuk informasi selengkapnya, lihat tipe data InputDataConfig.

Setelah Amazon Comprehend memproses koleksi dokumen Anda, ia mengembalikan arsip terkompresi yang berisi dua file, dan file. topic-terms.csv doc-topics.csv Untuk informasi selengkapnya tentang file output, lihat OutputDataConfig.

File keluaran pertamatopic-terms.csv,, adalah daftar topik dalam koleksi. Untuk setiap topik, daftar tersebut mencakup, secara default, istilah teratas berdasarkan topik sesuai dengan bobotnya. Misalnya, jika Anda memberi Amazon Comprehend koleksi artikel surat kabar, mungkin akan mengembalikan yang berikut untuk menjelaskan dua topik pertama dalam koleksi:

Topik Jangka Waktu Berat Badan
000 team 0,118533
000 gim 0,106072
000 pemain 0.031625
000 musim 0.023633
000 pementasan 0.021118
000 yard 0,024454
000 pelatih 0.016012
000 pertandingan 0.016191
000 sepak bola 0,015049
000 quarterback 0,014239
001 cangkir 0.205236
001 makanan 0.040686
001 menit 0.036062
001 tambahkan 0.029697
001 sendok makan 0.028789
001 minyak 0,021254
001 lada 0.022205
001 sendok teh 0.020040
001 anggur 0.016588
001 gula 0,015101

Bobot mewakili distribusi probabilitas atas kata-kata dalam topik tertentu. Karena Amazon Comprehend hanya mengembalikan 10 kata teratas untuk setiap topik, bobotnya tidak akan berjumlah 1,0. Dalam kasus yang jarang terjadi di mana ada kurang dari 10 kata dalam suatu topik, bobotnya akan berjumlah 1,0.

Kata-kata diurutkan berdasarkan kekuatan diskriminatif mereka dengan melihat kemunculannya di semua topik. Biasanya ini sama dengan beratnya, tetapi dalam beberapa kasus, seperti kata “bermain” dan “halaman” dalam tabel, ini menghasilkan urutan yang tidak sama dengan beratnya.

Anda dapat menentukan jumlah topik yang akan dikembalikan. Misalnya, jika Anda meminta Amazon Comprehend untuk mengembalikan 25 topik, ia mengembalikan 25 topik paling menonjol dalam koleksi. Amazon Comprehend dapat mendeteksi hingga 100 topik dalam satu koleksi. Pilih jumlah topik berdasarkan pengetahuan Anda tentang domain. Mungkin perlu beberapa eksperimen untuk sampai pada nomor yang benar.

File kedua,doc-topics.csv, mencantumkan dokumen yang terkait dengan topik dan proporsi dokumen yang berkaitan dengan topik tersebut. Jika Anda ONE_DOC_PER_FILE menentukan dokumen diidentifikasi dengan nama file. Jika Anda ONE_DOC_PER_LINE menentukan dokumen diidentifikasi oleh nama file dan nomor baris 0 diindeks dalam file. Misalnya, Amazon Comprehend mungkin mengembalikan yang berikut ini untuk kumpulan dokumen yang dikirimkan dengan satu dokumen per file:

Dokumen Topik Proporsi
sampel-doc1 000 0,999330137
sampel-doc2 000 0,998532187
sampel-doc3 000 0.998384574
...    
Sampel-docn 000 3.57E-04

Amazon Comprehend menggunakan informasi dari Lemmatzation Lists Dataset oleh MBM, yang tersedia di sini di bawah Open database license (ODbL) v1.0.