Pada tahun 1914, berita terbesar di surat kabar di seluruh AS adalah perang dunia yang baru-baru ini pecah di Eropa dengan tanda tanya besar apakah AS akan ambil bagian. Cerita yang sama mendominasi surat kabar Amerika pada tahun 1915, 1917 dan 1918. Namun pada tahun 1916, cerita lain menarik perhatian masyarakat Amerika, cerita yang kurang dikenal saat ini.
Pada tahun itu, Angkatan Darat AS memasuki Meksiko untuk mengejar pasukan paramiliter Meksiko yang menyerang kota Columbus di New Mexico. Tujuannya adalah untuk menangkap pemimpin pasukan, Pancho Villa, yang akhirnya melarikan diri setelah memimpin tarian gembira pasukan Amerika selama beberapa bulan. Bagi surat kabar, episode tersebut menyajikan kisah-kisah menarik yang membuat Perang Dunia 1 tersingkir dari halaman depan.
Sangat mudah untuk membayangkan bahwa analisis surat kabar semacam ini mudah dilakukan oleh para sarjana. Bagaimanapun, surat kabar yang berusia lebih dari 72 tahun adalah bagian dari catatan publik dan dapat diakses melalui Perpustakaan Kongres. Memang benar, proyek Chronicleling America terdiri dari lebih dari 20 juta pindaian surat kabar bersejarah, beberapa di antaranya berasal dari abad ke-17, bersama dengan versi digital dari teks yang diuraikan oleh perangkat lunak pengenalan karakter optik.
Berita utama
Namun kumpulan data ini jauh dari memuaskan. Ternyata perangkat lunak pengenalan karakter optik tidak mengenali tata letak surat kabar atau membedakan furnitur halaman seperti judul, byline, keterangan, dan iklan dari cerita itu sendiri. Hal ini mengacak sebagian besar teks digital sehingga sulit dibaca atau dianalisis dengan alat digital. Akibatnya, tugas yang tampaknya sederhana, yaitu memilih berita terbesar di masa lalu, hampir mustahil dilakukan.
Setidaknya, hal itu terjadi hingga Melissa Dell dari Universitas Harvard di Cambridge dan rekan-rekannya ikut terlibat. Kelompok ini telah menciptakan algoritma pembelajaran mendalam yang mendeteksi tata letak surat kabar dan mengenali perbedaan antara jenis teks. Kemudian menggunakan pengenalan karakter optik untuk membaca cerita sambil memberi label dengan jelas pada judul, byline, dan keterangan serta mengabaikan iklan.
Hasilnya adalah kumpulan data baru bernama American Stories yang terdiri dari lebih dari satu miliar artikel berita. Artikel-artikel ini memberikan jendela unik ke zaman yang berbeda, menyoroti sifat kehidupan di seluruh Amerika sebelum tahun 1925 dan kehidupan para leluhur. “Dataset American Stories yang dihasilkan dapat digunakan untuk mencapai pemahaman yang lebih baik tentang sejarah bahasa Inggris dan pengetahuan sejarah dunia,” kata Dell dan rekannya.
Tim menerapkan database dengan menggunakannya untuk menemukan kumpulan cerita. “Kami menunjukkan bagaimana artikel dapat dikelompokkan menjadi berita, dengan artikel berbeda yang merupakan bagian dari berita yang sama yang dikelompokkan menjadi satu,” kata tim tersebut.
Mereka kemudian memilih kelompok cerita terbesar setiap tahunnya dan secara manual membaca sampel cerita dari setiap kelompok untuk mengonfirmasi topik tersebut. Itu menghasilkan daftar berita terbesar setiap tahun dari tahun 1885 hingga 1920, termasuk tahun 1916 ketika Pancho Villa mendominasi berita utama.
Terobosan ini membuka jalan bagi era baru keilmuan sejarah. Baik untuk menjelaskan dinamika politik atau kehidupan sehari-hari, kumpulan data American Stories memberdayakan penyelidikan baru yang berani berdasarkan data mengenai tahun-tahun pembentukan negara ini. Mengintegrasikan komputasi modern dengan sumber-sumber primer yang tak ternilai menjanjikan pemahaman baru yang menarik tentang masa lalu.
Jelas sekali bahwa basis data baru ini dapat menjelaskan peristiwa-peristiwa sejarah, isu-isu sosial dan tren budaya serta cara pandang terhadap peristiwa-peristiwa tersebut pada saat itu. Namun tim menunjukkan berbagai kemungkinan baru. Misalnya, peneliti dapat menggunakan kumpulan data untuk mempelajari representasi berbagai kelompok di media dari waktu ke waktu, melacak perubahan dalam bahasa, nada, dan pokok bahasan. Kumpulan data ini juga dapat digunakan untuk mempelajari sejarah perburuhan dan perjuangan kelas pekerja.
Bahasa Kuno
Penulis juga menyoroti aplikasi yang tidak boleh digunakan oleh database. Mereka menunjukkan bahwa database tersebut mencerminkan sikap dan bias historis dan berisi istilah-istilah kuno serta bahasa yang sekarang dianggap menyinggung. Jadi menggunakan database ini untuk melatih model generatif akan meningkatkan bahaya model tersebut mengambil bias yang sama. “Karena alasan ini, kami merekomendasikan untuk tidak menggunakan American Stories untuk melatih model generatif,” kata Dell dan rekannya.
“Sebaliknya, American Stories dapat digunakan untuk berbagai macam aplikasi, mulai dari menjelaskan pertanyaan-pertanyaan ilmu sosial hingga melatih model bahasa yang berorientasi sejarah hingga menjelajahi dunia dan sejarah keluarga,” mereka menyimpulkan.
Ini adalah karya menarik yang memberikan wawasan tentang potensi teknik digital terkini yang canggih untuk menyediakan sumber informasi yang lebih akurat dan andal untuk mempelajari masa lalu dan memahami masa kini.
Referensi: Cerita Amerika: Kumpulan Data Teks Terstruktur Berskala Besar dari Surat Kabar Bersejarah AS : arxiv.org/abs/2308.12477
Cerita ini disiapkan dengan bantuan claude.ai