Pemodelan topik

Anda dapat menggunakan Amazon Comprehend untuk memeriksa isi kumpulan dokumen untuk menentukan tema umum. Misalnya, Anda dapat memberikan Amazon Comprehend koleksi artikel berita, dan itu akan menentukan subjek, seperti olahraga, politik, atau hiburan. Teks dalam dokumen tidak perlu dianotasi.

Amazon Comprehend menggunakan model pembelajaran berbasis alokasi dirichlet Latent untuk menentukan topik dalam satu set dokumen. Ini memeriksa setiap dokumen untuk menentukan konteks dan makna sebuah kata. Kumpulan kata yang sering termasuk dalam konteks yang sama di seluruh set dokumen membentuk topik.

Sebuah kata dikaitkan dengan topik dalam dokumen berdasarkan seberapa umum topik itu dalam dokumen dan seberapa besar afinitas topik tersebut terhadap kata tersebut. Kata yang sama dapat dikaitkan dengan topik yang berbeda dalam dokumen yang berbeda berdasarkan distribusi topik dalam dokumen tertentu.

Misalnya, kata “glukosa” dalam sebuah artikel yang berbicara terutama tentang olahraga dapat ditugaskan ke topik “olahraga,” sedangkan kata yang sama dalam artikel tentang “obat” akan ditugaskan ke topik “obat.”

Setiap kata yang terkait dengan topik diberi bobot yang menunjukkan seberapa banyak kata membantu menentukan topik. Bobot adalah indikasi berapa kali kata muncul dalam topik dibandingkan dengan kata lain dalam topik, di seluruh kumpulan dokumen.

Untuk hasil yang paling akurat, Anda harus menyediakan Amazon Comprehend dengan korpus terbesar yang mungkin untuk dikerjakan. Untuk hasil terbaik:

Anda harus menggunakan setidaknya 1.000 dokumen di setiap pekerjaan pemodelan topik.
Setiap dokumen harus memiliki panjang minimal 3 kalimat.
Jika dokumen sebagian besar terdiri dari data numerik, Anda harus menghapusnya dari korpus.

Pemodelan topik adalah proses asynchronous. Anda mengirimkan daftar dokumen Anda ke Amazon Comprehend dari bucket Amazon S3 menggunakan operasi. StartTopicsDetectionJob Tanggapan dikirim ke bucket Amazon S3. Anda dapat mengonfigurasi bucket input dan output. Dapatkan daftar pekerjaan pemodelan topik yang telah Anda kirimkan menggunakan ListTopicsDetectionJobsoperasi dan lihat informasi tentang pekerjaan yang menggunakan DescribeTopicsDetectionJoboperasi. Konten yang dikirimkan ke bucket Amazon S3 mungkin berisi konten pelanggan. Untuk informasi selengkapnya tentang menghapus data sensitif, lihat Bagaimana Cara Mengosongkan Bucket S3? atau Bagaimana Cara Menghapus Bucket S3? .

Dokumen harus dalam file teks berformat UTF-8. Anda dapat mengirimkan dokumen Anda dengan dua cara. Tabel berikut menunjukkan opsi.

Format	Deskripsi
Satu dokumen per file	Setiap file berisi satu dokumen masukan. Ini yang terbaik untuk koleksi dokumen besar.
Satu dokumen per baris	Input adalah satu file. Setiap baris dalam file dianggap sebagai dokumen. Ini terbaik untuk dokumen pendek, seperti posting media sosial. Setiap baris harus diakhiri dengan umpan baris (LF,\n), carriage return (CR,\ r), atau keduanya (CRLF,\ r\n). Pemisah garis Unicode (u+2028) tidak dapat digunakan untuk mengakhiri garis.

Format

Deskripsi

Satu dokumen per file

Setiap file berisi satu dokumen masukan. Ini yang terbaik untuk koleksi dokumen besar.

Satu dokumen per baris

Input adalah satu file. Setiap baris dalam file dianggap sebagai dokumen. Ini terbaik untuk dokumen pendek, seperti posting media sosial.

Setiap baris harus diakhiri dengan umpan baris (LF,\n), carriage return (CR,\ r), atau keduanya (CRLF,\ r\n). Pemisah garis Unicode (u+2028) tidak dapat digunakan untuk mengakhiri garis.

Untuk informasi selengkapnya, lihat tipe data InputDataConfig.

Setelah Amazon Comprehend memproses koleksi dokumen Anda, ia mengembalikan arsip terkompresi yang berisi dua file, dan file. topic-terms.csv doc-topics.csv Untuk informasi selengkapnya tentang file keluaran, lihat OutputDataConfig.

File keluaran pertamatopic-terms.csv,, adalah daftar topik dalam koleksi. Untuk setiap topik, daftar tersebut mencakup, secara default, istilah teratas berdasarkan topik sesuai dengan bobotnya. Misalnya, jika Anda memberi Amazon Comprehend koleksi artikel surat kabar, mungkin akan mengembalikan yang berikut untuk menjelaskan dua topik pertama dalam koleksi:

Topik	Jangka Waktu	Berat Badan
000	team	0,118533
000	gim	0,106072
000	pemain	0.031625
000	musim	0.023633
000	pementasan	0.021118
000	yard	0,024454
000	pelatih	0.016012
000	pertandingan	0.016191
000	sepak bola	0,015049
000	quarterback	0,014239
001	cangkir	0.205236
001	makanan	0.040686
001	menit	0.036062
001	tambahkan	0.029697
001	sendok makan	0.028789
001	minyak	0.021254
001	lada	0.022205
001	sendok teh	0.020040
001	anggur	0.016588
001	gula	0,015101

Bobot mewakili distribusi probabilitas atas kata-kata dalam topik tertentu. Karena Amazon Comprehend hanya mengembalikan 10 kata teratas untuk setiap topik, bobotnya tidak akan berjumlah 1,0. Dalam kasus yang jarang terjadi di mana ada kurang dari 10 kata dalam suatu topik, bobotnya akan berjumlah 1,0.

Kata-kata diurutkan berdasarkan kekuatan diskriminatif mereka dengan melihat kemunculannya di semua topik. Biasanya ini sama dengan beratnya, tetapi dalam beberapa kasus, seperti kata “bermain” dan “halaman” dalam tabel, ini menghasilkan urutan yang tidak sama dengan beratnya.

Anda dapat menentukan jumlah topik yang akan dikembalikan. Misalnya, jika Anda meminta Amazon Comprehend untuk mengembalikan 25 topik, ia mengembalikan 25 topik paling menonjol dalam koleksi. Amazon Comprehend dapat Amazon Comprehend dapat Amazon Comprehend mendeteksi hingga 100 topik dalam sebuah koleksi. Pilih jumlah topik berdasarkan pengetahuan Anda tentang domain. Mungkin perlu beberapa eksperimen untuk sampai pada nomor yang benar.

File kedua,doc-topics.csv, mencantumkan dokumen yang terkait dengan topik dan proporsi dokumen yang berkaitan dengan topik tersebut. Jika Anda ONE_DOC_PER_FILE menentukan dokumen diidentifikasi dengan nama file. Jika Anda ONE_DOC_PER_LINE menentukan dokumen diidentifikasi oleh nama file dan nomor baris 0 diindeks dalam file. Misalnya, Amazon Comprehend mungkin mengembalikan yang berikut ini untuk kumpulan dokumen yang dikirimkan dengan satu dokumen per file:

Dokumen	Topik	Proporsi
sampel-doc1	000	0,999330137
sampel-doc2	000	0,998532187
sampel-doc3	000	0.998384574
...
Sampel-Docn	000	3.57E-04

Amazon Comprehend menggunakan informasi dari Lemmatzation Lists Dataset oleh MBM, yang tersedia di sini di bawah lisensi database Terbuka (L) v1.0. ODb

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Amazon Comprehend Kustom

Mode pemrosesan dokumen