Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are oleh Seth Stephens-Davidowitz

Berikut ini adalah kutipan-kutipan yang saya kumpulkan dari buku Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are oleh Seth Stephens-Davidowitz.

Tanpa harus membacanya semua, Anda mendapatkan hal-hal yang menurut saya menarik dan terpenting.

Saya membaca buku-buku yang saya kutip ini dalam kurun waktu 11 – 12 tahun. Ada 3100 buku di perpustakaan saya. Membaca kutipan-kutipan ini menghemat waktu Anda 10x lipat.

Selamat membaca.

Chandra Natadipurba

===

NEW YORK TIMES BESTSELLER

SETH STEPHENS-DAVIDOWITZ

EVERYBODY

LIES

BIG DATA DAN APA YANG

DIUNGKAPKAN INTERNET TENTANG

SIAPA KITA SESUNGGUHNYA

Diterbitkan pertama kali oleh

Penerbit PT Gramedia Pustaka Utama

Anggota IKAPI, Jakarta 2018

ISBN 978-602-06-1209-6

(hlm.26)

BAGIAN I

DATA, BESAR DAN KECIL

BAB 1

NALURI YANG KELIRU

Pada pokoknya, ilmu data adalah tentang upaya menemukan pola-pola dan meramalkan bagaimana suatu variable akan memengaruhi variabel lain.

(hlm.29)

Banyak jargon teknis yang digunakan, seperti uji Kolmogorov-Smirnov, dengan arti yang saya sendiri sudah lupa. (itu cara menentukan apakah suatu model cocok dengan data).

(hlm.30)

Kadang pengalaman kita belum cukup untuk dapat menghasilkan keputusan yang semata naluriah.

(hlm.32)

Mempunyai kelompok teman yang sama, menurut para peneliti, adalah predictor yang kuat bahwa suatu hubungan tidak akan bertahan lama.

Nenek mungkin terjerumus ke salah satu perangkap kognitif: kita cenderung membesar-besarkan relevansi pengalaman kita sendiri. dalam kosakata ilmuwan data, kita menimbang data kita dan memberi bobot terlalu besar pada satu poin data tertentu: kita sendiri.

Ketika mengandalkan naluri, kita juga bisa terlena oleh pesona mendasar manusia terhadap hal-hal yang dramatis. Kita cenderung menilai secara berlebihan prevalensi sesuatu yang menghasilkan kisah yang mudah diingat. Sebagai contoh, ketika ditanyai dalam suatu survey, orang secara konsisten menyebut tornado sebagai faktor yang lebih mungkin menyebabkan kematian daripada asma. Dalam kenyataan, asma tujuh puluh kali lebih berpeluang menyebabkan kematian. Kematian karena asma tidak menonjol dan tidak sampai menjadi berita. Tak demikian halnya dengan kematian karena tornado.

(hlm.35)

Data menunjukkan bahwa seseorang memiliki peluang yang jauh lebih besar untuk bergabung dengan NBA jika dilahirkan di wilayah yang Makmur. Seorang anak kulit hiam yang lahir di salah satu wilayah  paling Makmur di Amerika Serikat, misalnya, lebih dari dua kali lipat kemungkinannya diterima di NBA daripada seorang anak kulit hitam yang terlahir di salah satu wilayah paling miskin. Bagi anak kulit putih, keunggulan terlahir di salah satu wilayah paling kaya disbanding anak yang terlahir di salah satu wilayah paling miskin adalah 60%.

Ini berarti, bertolak belakang dengan kearifan konvensional, mereka yang berlatar belakang miskin sesungguhnya tidak banyak terwakili di NBA.

(hlm.36)

Dalam makalah karya dua pakar ekonomi, Roland Fryer dan Steven Levitt, dinyatakan bahwa nama depan orang kulit hitam menunjukkan latar belakang sosial ekonominya. Fryer dan Levitt mempelajari akta kelahiran di California pada 1980-an dan menemukan bahwa, di antara warga Amerika keturunan Afrika, ibu tunggal yang miskin dan tidak berpendidikan cenderung memberi anak-anak mereka nama yang berbeda dibandingkan pasangan orangtua yang berpendidikan dan berasal dari kelas menengah.

(hlm.37)

Namun, ketiganya mendukung cerita yang sama. Status sosial ekonomi yang lebih baik setara dengan peluang yang lebih besar untuk masuk NBA. Dengan kata lain, kearifan konvensional salah.

Mengapa, misalnya, pemuda-pemuda kelas menengah relatif lebih berpeluang dalam bola basket dibandingkan pemuda-pemuda miskin?

Pertama, karena orang miskin cenderun berumur lebih pendek.

(hlm.38)

Itulah sebabnya rata-rata penduduk di negara maju saat ini sepuluh sentimeter lebih tinggi daripada satu setengah abad silam.

(Tinggi rata-rata pemain NBA sekitar dua meter, tinggi rata-rata pria Amerika sekitar 173 sentimeter.)

Terlihat bahwa di antara laki-laki yang memiliki tinggi kurang dari 180 sentimeter, hanya satu dari dua juta orang yang berhasil masuk NBA. Di antara mereka yang memiliki tinggi lebih dari 210 sentimeter, menurut perkiraan saya dan lain-lain, sekitar satu dari lima orang berhasil masuk NBA.

(hlm.39)

Alasan kedua mengapa anak-anak dengan latar belakang yang keras mungkin harus berjuang keras untuk bisa masuk NBA adalah mereka kadang tidak memiliki keterampilan sosial tertentu.

(hlm.41)

Semua itu diajarkan oleh orangtua saya.

(hlm.46)

BAGIAN II

KEDAHSYATAN BIG DATA

BAB 2

APAKAH FREUD BENAR?

Proper terkenal dengan penyataannya bahwa teori-teori Freud tidak dapat diuji. Tidak ada acara untuk menguji apakah teori-teori itu benar atau salah.

(hlm.46)

Tidak ada cara untuk menguji teori Freud.

Sekarang ada.

(hlm.47)

Pisang adalah buah paling umumkedua yang muncul dalam mimpi. Namun, pisang juga buah paling umum kedua yang kita konsumsi.

Secara keseluruhan, menggunakan analisis regresi (metode yang memungkinkan ilmuwan sosial memilah-milah dampak sejumlah faktor sekaligus) terhadap semua buah dan sayuran, saya mendapati bahwa panganan yang berbentuk atau dibentuk seperti lingga tidak memberinya peluang yang lebih besar untuk muncul dalam mimpi bila dibandingkan dengan yang diduga berdasarkan popularitasnya. Teori Freud yang ini dapat diuji. Dan, setidaknya menurut telaah saya terhadap data, keliru.

(hlm.49)

Dengan kata lain, orang-orang yang membuat kesalahan seperti “penistrian“, “sexurity”, dan “cocks” tidak harus memiliki hubungan antara kesalahan dan hal-hal yang tabu, termasuk teori tentang pikiran ketika orang mengungkapkan hasrat-hsrat tersembunyi mereka melalui kesalahan. Salah tulis dapat dijelaskan sepenuhnya berdasarkan frekuensi tulis biasa.

Teori Freud bahwa kesalahan mengungkapkan pikiran bawah sadar kita ternyata dapat dibuktikan salah dan menurut analisis saya terhadap data, teori itu salah.

(hlm.50)

Jadi, yang banyak untuk pencarian bernuansa inses oleh kaum perempuan adalah adegan yang menampilkan ayah dan putrinya.

Dia membuat hipotesis tentang Hasrat yang hampir universal pada kanak-kanak untuk berhubungan seks dengan orangtua yang berbeda jenis, yang belakangan dikekang.

(hlm.51)

Sekarang saya mengaku dengan risiko mengecewakan Herr Freud bahwa ini bukan pencarian yang terbilang umum: hanya beberapa ribu orang per tahun di Amerika Serikat yang mengaku memiliki ketertarikan pada ibu mereka.

Laki-laki usia 18-24 tahun paling sering mencari perempuan yang bekerja sebagai pengasuh bayi. Demikian pula laki-laki usia 25-64 tahun. Demikian pula laki-laki usia 65 tahun ke atas. Dan bagi laki-laki dalam setiap kelompok usia, guru dan pemandu sorak ada di urutan keempat terbanyak. Jelas bahwa pengalaman masa kecil memainkan peran cukup besar dalam fantasi laki-laki dewasa.

(hlm.52)

Ingat, kami pernah mengatakan bahwa memiliki tumpukan data yang makin menggunung tidak dengan sendirinya membuat wawasan kita bertambah.

(hlm.53)

Menawarkan jenis-jenis data yang baru adalah kedahsyatan pertama big data.

Data pornografi dan data pencarian Google tidak hanya baru; data ini jujur.

Big data memungkinkan kita akhirnya melihat apa yang sesungguhnya orang inginkan dan perbuat, bukan apa yang katanya mereka inginkan dan perbuat. Menyediakan data yan jujur adalah kedahsyatan kedua big data.

(hlm.54)

Memungkinkan kita memutuskan perhatian pada subhimpunan kecil adalah kedahsyatan ketiga big data.

(hlm.56)

BAB 3

MEMBAYANGKAN DATA

DENGAN CARA BARU

Ketika perusahaan-perusahaan membelanjakan jutaan dolar untuk memotong satu milidetik dari lama aliran informasi, barangkali Anda merasa heran mengapa pemerintah memerlukan waktu begitu lama untuk menghitung angka pengangguran.

Mengingat pemerintah dalam waktu dekat ini jelas tidak akan melakukan percepatan, adakah cara untuk setidaknya mendapatkan taksiran kasar tentang angka pengangguran secara lebih cepat?

(hlm.58)

Pencarian paling banyak selama periode itu dan sungguh di luar dugaan adalah “Slutload”. Betul, pencarian yang paling sering adalah situs pornografi. Sepintas ini mungkin terkesan aneh, tapi orang yang menganggur agaknya memiliki banyak sekali waktu.

(hlm.59)

Akan tetapi, secara umum saya menemukan bahwa perpaduan antara pencarian-pencarian yang terkait dengan pengalihan perhatian dapat melacak angka pengangguran dan akan menjadi bagian dari model terbaik untuk meramalkannya.

(hlm.61)

Kalau banyak orang berpikir bahwa tautan paling penting untuk “Bill Clinton“ adalah situs web resminya, ini barangkali situs web yang paling banyak dicari oleh orang yang ingin tahu tentang “Bill Clinton“.

Tautan-tautan seperti ini adalah data yang bahkan tidak diperhitungkan oleh mesin-mesin pencari lain, dan tautan-tautan itu sangat prediktif tentang informasi yang paling berguna tentang suatu topik. Yang pokok disini adalah bahwa Google tidak mendominasi pencarian semata-mata dengan menghimpun lebih banyak data daripada semua yang lain. Mereka melakukannya dengan menemukan tipe data yang lebih baik.

(hlm.68)

TUBUH SEBAGAI DATA

Dia mendapati bahwa ukuran jantung, khususnya bilik kiri, adalah prediktor utama kesuksesan seekor kuda, satu-satunya variabel yang paling penting. Organ lain yang juga penting adalah limpa kuda dengan limpa kecil tidak pernah menang.

(hlm.70)

Data itu menyerukan bahwa No. 25 adalah satu dari seratus ribu, atau bahkan satu dari sejuta kuda.

(hlm.71)

Urusan Seder adalah dalam hal prediksi, bukan memberikan penjelasan. Dan, dalam hal prediksi, Anda hanya perlu tahu bahwa sesuatu berhasil, bukan mengapa demikian.

(hlm.72)

Alasan di balik hubungan tersebut tidak penting. Namun, hubungan itu sendiri penting.

(hlm.73)

Bila sasaran Anda adalah meramalkan masa dpan wine mana yang akan memberikan rasa yang lezat, produk-produk apa yang akan terjual, kuda-kuda mana yang akan berlari kencang Anda tidak perlu khawatir tentang mengapa model Anda berhasil sesuai harapan. Dapatkan saja angka yang tepat. Itulah pelajaran kedua dari kisah kuda Jeff Seder.

(hlm.80)

KATA SEBAGAI DATA

Seorang perempuan kemungkinan tertarik kepada seorang laki-laki ketika dia bicara tentang dirinya sendiri. Ternyata, bagi seorang laki-laki yang sedang mencari jodoh, kata paling indah yang bisa Anda dengar dari mulut seorang perempuan barangkali adalah “aku“: itu tanda bahwa perempuan tersebut merasa nyaman.

(hlm.87)

Ilmuwan data Facebook menunjukkan kemungkinan yang sangat menarik. Mereka bisa memperkirakan Gross National Happiness suatu negara setiap hari. Jika yang ditulis orang-orangnya dalam status mereka cenderung positif, berarti hari itu negara bersangkutan dapat dianggap sedang Bahagia. Jika status yang ditulis cenderung negative, hari itu negara bersangkutan diasumsikan sedang berkabung.

(hlm.92)

Jadi, mana yang cenderung dibagikan, artikel positif atau negatif? Artikel positif. Sebagaimana disimpulkan oleh keduanya, “Konten lebih mungkin menjadi viral ketika sifatnya lebih positif.“

(hlm.95)

Surat kabar paling liberal, menurut ukuran ini, ternyata Philadelphia Daily News; yang paling konservatif adalah Billing Gazette dari Montana.

Dengan kata lain, bukti menunjukan dengan kuat bahwa surat kabar cenderung menyajikan apa yang diinginkan oleh khalayak pembaca mereka.

(hlm.96)

Ternyata, makalah Gentzkow dan Shapiro mengatakan bahwa yang berperan bukanlah motivasi utama pemilik media. Sebaliknya, para pemilik pers Amerika utamanya memberikan apa yang diinginkan oleh massa agar mereka bisa bertambah kaya.

Gentzkow dan Shapiro menemukan bahwa surat kabar Amerika condong ke kiri. Rata-rata surat kabar, berdasarkan kata-kata yang digunakan, lebih mirip dengan orang Partai Demokrat di Kongres daripada orang Partai Republik di Kongres.

(hlm.99)

GAMBAR SEBAGAI DATA

Mereka mendapatkan informasi itu dari foto-foto yang diambil oleh satelit Angkatan Udara Amerika Serikat yang mengelilingi bumi empat belas kali dalam sehari.

(hlm.100)

Cahaya malam menurun tajam di Indonesia selama krisis keuangan Asia 1998.

(hlm.101)

Premise menjual informasi ini kepada bank-bank atau Lembaga keuangan bukan bank selain bekerja sama dengan World Bank.

(hlm.108)

BAB 4

SERUM KEBENARAN

DIGITAL

Orang tidak memiliki insentif untuk menyampaikan kebenaran pada survei.

(hlm.131)

KEBENARAN TENTANG BENCI DAN PRASANGKA

Uji itu telah secara konsisten menunjukkan bahwa kebanyakan orang memerlukan waktu beberapa milidetik lebih lama untuk mengasosiasikan wajah kulit hitam dengan kata-kata positif, seperti “good“, daripada kata-kata negatif, seperti “awful“. Ketika dihadapkan pada wajah kulit putih, pola itu terbalik.

(hlm.132)

Dengan kala lain, wilayah-wilayah yang dalam temuan saya pencarian-pencarian yang paling rasis adalah tempat warga kulit hitam menerima upah yang rendah.

(hlm.133)

Orangtua dua setengah kali lebih mungkin bertanya “Is my son gifted?“ daripada “Is my daughter gifted?” Orangtua menunjukkan bias serupa ketika menggunakan frasa-frasa lain terkait dengan kecerdasan sehingga mereka mungkin menghindar dari menyuarakan dengan lantang, misalnya, “Is my son a genius

(hlm.136)

Negara bagian dengan anggota terbanyak per kapita adalah Montana, Alaska, dan Idaho. Negara-negara bagian ini cenderung memiliki penduduk yang sebagian besar kulit putih.

(hlm.141)

KEBENARAN TENTANG INTERNET

Dengan kata lain, Anda lebih mungkin bertemu orang dengan pandangan berlawanan di ajang daring daripada luring.

Mengapa internet tidak tersegregasi? Ada dua factor yang membatasi segregasi politik di internet.

Pertama, yang agak mengejutkan, industri pemberitaan internet didominasi oleh sejumlah kecil situs yang massif.

Alasan kedua internet tidak tersegrasi adalah banyak orang dengan pandangan politik yang kuat mengunjungi situs-situs dengan sudut pandangn yang berlawanan, hanya untuk marah dan mengeluarkan bantahan.

Dengan kata lain, Facebook memapar kita ke hubungan sosial yang lemah kenalan di SMA, sepupu jauh, temannya temannya teman, dan semacam itu. Mereka adalah orang-orang yang tidak akan pernah bermain boling atau melakukan pesta berbeku bersama kita.

(hlm.144)

KEBENARAN TENTANG PENGANIAYAAN ANAK DAN ABORSI

Jumlah pencarian seperti ini melonjak selama Resesi Besar, yang bersesuaian dengan angka pengangguran.

(hlm.146)

Ketika aborsi resmi sulit didapatkan, perempuan mencari cara-cara yang melanggar hukum.

(hlm.148)

KEBENARAN TENTANG TEMAN FACEBOOK ANDA

Di media sosial, seperti dalam survei, Anda tidak mempunyai insentif untuk menyampaikan kebenaran.

(hlm.149)

Namun, di Facebook, ada kira-kira 1,5 juta orang yang menyukai Atlantic atau membahas artikel Atlatic pada profil mereka. Hanya sekitar 50rb orang yang menyukai Enquirer atau membahas isinya.

Like di Facebook 27 Atlantic untuk setiap 1 National Enquirer

(hlm.150)

Video pornografi paling populer sepanjang masa barangkali “Great Body, Great Sex, Great Blowjob.“ Video ini telah ditonton lebih dari 80 juta kali.

(hlm.151)

KEBENARAN TENTANG PELANGGAN ANDA

Pada dini hari 5 September 2006, Facebook meluncurkan pembaruan besar-besaran pada halaman utamanya. Versi-versi awal Facebook hanya memungkinkan pengguna mengklik proful teman-teman mereka untuk mengetahui apa yang sedang mereka kerjakan. Situs web itu, yang dianggap sebagai kesuksesan besar, kala itu memiliki 9,4 juta pengguna.

(hlm.152)

Zuckerberg mempunyai akses ke serum kebenaran digital: jumlah orang yang mengeklik dan berkunjung ke Facebook.

Zuckerberg pada dasarnya tahu bahwa orang menyukai News Feed, tak peduli apa yang mereka katakan dalam grup.

(hlm.153)

Dalam buku Zero to One, Peter Thiel, salah seorang investor awal Facebook, mengatakan bahwa bisnis-bisnis besar dibangun berlandaskan rahasia, entah rahasia terkait dengan alam atau rahasia terkait dengan manusia.

Thiel mendefinisikan “rahasia tentang orang“ sebagai “hal-hal yang tidak diketahui tentang diri sendiri atau hal-hal yang disembunyikan orang karena tidak ingin orang lain mengetahuinnya.“ Dengan kata lain, binsnis macam ini dibangun di atas kebohongan orang.

(hlm.154)

Orang bisa mengaku marah, mereka bisa mengumumkan bahwa sesuatu buruk, tapi mereka tetap membuka situs itu.

(hlm.156)

“Algoritma mengenal Anda dengan lebih baik ketimbang Anda mengenal diri sendiri.“

(hlm.157)

DAPATKAH KITA MENANGANI KEBENARAN?

Ada banyak pertanyaan dangkal dan remeh dalam pikiran orang lain.

(hlm.166)

BAB 5

MEMERIKSA LEBIH

MENDETAIL

Sekali lagi melihat bahwa tahun terpenting dalam hidup seseorang, dengan tujuan mengukuhkan kesukaannya pada tim bisbol ketika dewasa, adalah ketika usianya sekitar delapan tahun.

(hlm.167)

“Siapa pun yang di bawah usia 30 tahun, dan bukan liberal, dia tidak punya hati; dan siapa pun yang di atas usia 30 tahun, dan bukan konservatif, dia tidak punya otak.”

Ghitza dan Gelman menggunakan data survei selama enam puluh tahun, memanfaatkan lebih dari 300 ribu pengamatan terhadap preferensi dalam pemilu. Mereka menemukan, berlawanan dengan pernyataan Churchill, bahwa remaja kadang condong ke liberal dan kadang condong ke konservatif. Begitu pula orang usia paruh baya dan lansia.

(hlm.168)

Dengan semua data ini, para peneliti bisa menentukan usia paling penting untuk mengembangkan pandangan politik seseorang: usia delapan belas belas tahun.

(hlm.171)

APA YANG SESUNGGUHNYA TERJADI DI DAERAH DAN KOTA KITA?

Pertimbangkan pertanyaan ini: apakah Amerika adalah negeri kesempatan? Apakah Anda punya kesempatan untuk menjadi kaya bila orangtua Anda tidak kaya?

(hlm.172)

PELUANG ANAK ORANG MISKIN MENJADI KAYA (DI NEGARA BAGIAN TERTENTU DI AMERIKA SERIKAT)

San Jose, CA 12,9

(hlm.173)

Dan, betul, pindah ke kota yang tepat saat usia pertumbuhan menghasilkan perbedaan signifikan.

(hlm.174)

Perempuan Amerika yang berada di 1% teratas dalam pendapatan rata-rata hidup sepuluh tahun lebih lama daripada perempuan Amerika yang berada di 1% terbawah dalam pendapatan. Bagi laki-laki, perbedaan itu lima belas tahun.

(hlm.175)

APA YANG MEMBUAT ORANG MISKIN DI SUATU KOTA HIDUP JAUH LEBIH LAMA?

Kota itu memiliki tingkat religiositas yang tinggi.

Kota itu memiliki tingkat polusi yang rendah.

Kota itu memiliki persentase penduduk yang ditanggung oleh asuransi kesehatan yang lebih tinggi.

Banyak orang kaya tinggal di kota itu.

(hlm.175)

Perilaku yang menular agaknya ikut mendorong sebagian di antaranya.

(hlm.177)

Motivator utama pembohongan pajak dalam hal ini adalah informasi.

Kebanyakan wajib pajak yang adalah pekerja mandiri dengan satu anak tidak tahu bahwa angka ajaib untuk mendapatkan tunjangan ebsar dari pemerintah adalah 9.000 dolar. Namun, tinggal di dekat orang yang mungkin mengetahuinnya entah tetangga atau konsultan pajak secara dramatis meningkatkan peluang mereka untuk mengetahuinya.

(hlm.179)

Kira-kira satu dari 748 baby boomer yang lahir di Suffolk Country, Massacusetts, yang menjadi lokasi Boston, berhasil masuk Wikipedia. Di beberapa wilayah lain, tingkat kesuksesannya dua puluh kali lebih rendah.

Pertama, dan yang membuat saya terkejut, banyak di anatar wilayah ini yang meliputi kota dengan lembaga pendidikan tinggi yang tergolong besar.

(hlm.181)

Atribut kedua yang paling mungkin membuat penduduk asli wilayah itu sukses adalah keberadaan kota besar di sana.

(hlm.183)

Bagaimana dengan variabel yang tidak berpengaruh terhadap kesuksesan? Salah satu yang sunguh mengejutkan adalah seberapa banyak dana yang disediakan oleh suatu negara bagian untuk Pendidikan.

(hlm.191)

BAGAIMANA KITA MENGISI MENIT DAN JAM YANG KITA MILIKI

Angka-angka pencarian untuk “weather”, “prayer”, dan “news” memuncak sebelum pukul 05.30, bukti bahwa kebanyakan orang bangun jauh lebih pagi daripada saya.

(hlm.192)

Data menunjukkan bahwa jam-jam antara pukul 02.00 dan 04.00 dini hari merupakan waktu terbaik untuk pertanyaan-pertanyaan besar: Apa makna kesadaran? Apakah kehendak bebas itu ada? Adakah kehidupan di planet-planet lain? Popularitas pertanyaan-pertanyaan lewat tengah malam ini mungkin, antara lain, akibat penggunaan narkoba. Angka pencarian untuk “how to roll a joint” memuncak antara pukul 01.00 dan 02.00 dini hari.

(hlm.193)

Film-film sarat kekerasan berpeluang membuat orang-orang agresif tidak berada di jalanan.

(hlm.197)

KEMBARAN YANG MEMBAYANGI KITA

Pencarian kembaran, metode paling baik yang pernah dipakai untuk memprediksi performa pemain bisbol, mengatakan bahwa Boston harus bersabar Ortiz. Dan Boston sungguh bersabar dengan slugger mereka yang menua ini. Pada 2010, angka rata-rata Ortiz naik menjadi 0,270. Dia mencetak 32 home run, dan menjadi anggota tim All-Star.

(hlm.201)

“Diagnosis itu apa?” tanya Kohane. “Diagnosis sesungguhnya pernyataan bahwa Anda memiliki sifat-sifat yang pernah ditemukan dalam populasi hasil kajian sebelumnya. Ketika membuat diagnosis bahwa Anda terkena serangan jantung, maaf, saya mengatakan Anda mempunyai patofisiologi seperti yang pernah saya jumpai pada orang lain yang berarti Anda mengalami serangan jantung.”

Diagnosis, pada dasarnya, adalah cara primitive untuk melakukan pencarian kembaran.

(hlm.202)

Sebagai contoh, dia yakin menciptakan himpunan data lengkap tentang bagan tinggi dan berat anak serta penyakit-penyakit yang mungkin menyerang mereka saja sudah revolusioner bagi dokter spesialis penyakit anak.

(hlm.206)

BAB 6

SELURUH DUNIA

ADALAH LABORATORIUM

Atau mungkin ada factor independent yang sama-sama menjadi penyebab kebiasaan minum sedikit alcohol dan kesehatan yang baik. Barangkali menghabiskan banyak waktu bersama teman membuat orang minum sedikit alkohol sekaligus membuat orang sehat. Ilmuwan sosial menyebutnya omitted-variable bias.

Kalau begitu, bagaimana kita bisa menegakkan dengan tepat prinsip sebab-akibat? Standar emasnya adalah eksperimen acak yang terkendali.

Ketika dipilih secara acak, eksperimen menggunakan kontrol adalah bukti yang paling bisa dipercaya dalam bidang apa pun.

(hlm.207)

Jika guru dibayar, tingkat kemangkiran turun sampai setengahnya. Performa ujian para siswa juga meningkat cukup besar, dengan pengaruh terbesar dialami oleh siswa perempuan.

(hlm.208)

HAL-IKHWAL UJI A/B

Inilah kedahsyatan keempat big data: big data membuat eksperimen acak, yang dapat menemukan hasil sebab-akibat yang sesungguhnya, dapat dikerjakan secara jauh lebih mudah kapan saja, di mana saja, Selama Anda terhubung dengan internet. Pada era big data, seluruh dunia adalah laboratorium.

(hlm.209)

Pada 2011, insyinyur Google melakukan tujuh ribu uji A/B. Dan angka itu terus naik.

Facebook sekarang melakukan seribu uji A/B setiap hari, yang berarti sejumlah kecil insinyur di Facebook memulai lebih banyak eksperimen acak terkontrol dalam sehari dibandingkan seluruh industri farmasi dalam setahun.

(hlm.211)

Yang menang adalah gambar keluarga Obama dan tombol “Learn More”.

(hlm.215)

Pelajaran dari uji A/B, secara umum, adalah jangan mudah percaya pada pelajaran-pelajaran yang umum.

(hlm.216)

Lalu bagaimana Anda dapat menemukan otak-atik kecil yang menghasilkan keuntungan berlimpah?

(hlm.217)

KETAGIHAN TERATAS YANG DILAPORKAN KE GOOGLE,2016

(hlm.222)

EKSPERIMEN-EKSPERIMEN ALAMI YANG KEJAM NAMUN MENCERAHKAN

Film rata-rata dalam sampel kami membayar sekitar 3 juta dolar untuk satu slot iklan di Super Bowl. Mereka mendapat kenaikan penjualan tiket 8,3 juta dolar, laba atas investasi 2,8 dibanding 1.

(hlm.229)

Tidak sampai 5% dari mereka yang ikut ujian berhasil masuk Stuy.

(hlm.230)

Milan Kundera, penulis kelahiran Czech, mempunyai pandangan yang penuh makna tentang hal ini dalam novelnya, The Unbearable Lightness of Being: “Hidup manusia hanya berlangsung satu kali, dan alasan kita tikda bisa menentukan mana di antara keputusan-keputusan kita yang baik dan mana yang buruk adalah karena pada suatu situasi, kita hanya bisa membuat satu keputusan; kita tidak dianugerahi kehidupan kedua, ketiga, atau keempat untuk membandingkan berbagai keputusan.”

(hlm.232)

Dalam kenyataan, kategori eksperimen alami ini yang menggunakan ambang batas numeris tajam begitu dahsyat sehingga mendapatkan nama tersendiri di kalangan para ekonom: diskontinuitas regresi.

(hlm.233)

Hasilnya? Para ekonom mendapati bahwa narapidana yang diputuskan ditahan di kondisi yang lebih keras lebih mungkin melakukan kejahatan lagi setelah bebas. Kondisi penjara yang keras lebih mungkin melakukan kejahatan lagi setelah bebas. Kondisi penjara yang keras, alih-alih menjauhkan mereka dari kejahatan, malah menggmbleng dan menjadikan mereka lebih kejam begitu kembali ke dunia luar.

Apa pengaruh bersekolah di Stuyvesant High School? Nihil. Tidak ada. Nol. Kosong.

(hlm.234)

Orang beradaptasi dengan pengalaman masing-masing, dan orang yang akan sukses menemukan keuntungan dalam situasi apa pun. Faktor-faktor yang membuat Anda sukses adalah bakat dan semangat Anda.

(hlm.243)

BAGIAN III

BIG DATA:

TANGANI DENGAN HATI-HATI

BAB 7

BIG DATA,

BIG SCHMATA?

APA YANG TIDAK BISA DILAKUKANNYA

“Rasisme, penelantaran anak, aborsi,” katanya, “Tak bisakah kau menghasilkan uang dari keahlianmu ini?”

(hlm.245)

KUTUKAN DIMENSIONALITAS

Salah satu dimensi itu Koin 391, dalam hal ini memiliki kemungkinan untuk beruntung. Kurangi jumlah variabel hanya melontar seratus koin maka peluang Anda untuk mendapatkan satu di antarannya sebagai koin keberuntungan akan jauh lebih kecil. Tambahkan jumlah pengamatan cobalah meramalkan perilaku S&P Index selama dua puluh tahun maka koin-koin berjuang keras untuk bisa mengimbanginya.

(hlm.246)

Masalah mendasar adalah mereka menguji terlalu banyak hal. Dan jika Anda menguji cukup banyak hal, hanya berdasarkan peluang acak, satu di antarannya akan signifikan secara statistik.

(hlm.247)

Dia menemukan perbedaan yang sangat mengejutkan dalam DNA kedua kelompok itu. Perbedaannya terletak di satu sudtut kecil kromosom 6, gen yang tidak begitu jelas tapi berkuasa, yang digunakan dalam metabolisme otak. Satu versi gen ini, disebut IGF2r, dua kali lebih umum pada anak-anak genius.

Tidak. Beberapa tahun setelah kajian awalnya, Plomin memperoleh akses ke sampel lain yang juga mencakup DNA dan skor IQ. Kali ini, IGF2r tidak berkorelasi dengan IQ. Plomin ini tanda ilmuwan yang baik menarik pernyataan terdahulunya.

(hlm.248)

Genom manusia, seperti yang sekarang diketahui oleh ilmuwan, berbeda dalam jutaan cara. Sederhananya, gen yang harus diuji terlalu banyak.

Kalau Anda menguji cukup banyak cuitan untuk melihat apakah cuitan-cuitan itu berkorelasi dengan pasar saham, Anda akan menemukan satu yang berkorelasi hanya karena kebetulan. Kalua Anda menguji cukup banyak varian genetis untuk melihat korelasinnya dengan IQ, Anda akan menemukan satu yang berkorelasi hanya karena kebetulan.

(hlm.249)

Yang menjadi keterbatasan besar adalah pencarian-pencarian ini tidak memberitahu kita apakah seseorang tertarik untuk membeli atau menjual saham.

(hlm.251)

PENEKANAN BERLEBIHAN PADA APA YANG DAPAT DIUKUR

Dia lupa alasan seseorang menginginkan nilai yang lebih tinggi olahraga, bukan memakaikan pedometer pada putri yang sedang senang berjalan-jalan.

(hlm.254)

Big data dan data kecil saling melengkapi.

(hlm.257)

BAB 8

LEBIH BANYAK DATA,

LEBIH BANYAK MASALAH?

APA YANG TIDAK BOLEH

KITA PERBUAT?

BAHAYA PERUSAHAAN YANG TERLALU BERKUASA

Debt-free                     after-tax                       graduate

Lower interest rate       minimum payment

God                             will pay                                    hospital

Promise                       thank you

(hlm.258)

Secara keseluruhan, menurut para peneliti, memberikan rencana terperinci tentang bagaimana seseorang bisa melakukan pembayaran dan menyebutkan komitmen yang dia pegang di masa lalu merupakan bukti bahwa seseorang akan melunasi pinjaman.

(hlm.259)

Dunia yang berjalan dengan cara seperti dystopia, dunia yang penuh dengan hal buruk.

(hlm.263)

Setelah membandingkan ulasan itu dengan data penjualan di negara bagian Washington, dia mendapati bintang lebih sedikit di Yelp akan membuat pendapatan restoran turun dari 5 sampai 9%.

(hlm.266)

BAHAYA PEMERINTAH YANG TERLALU BERKUASA

“Pikiran tentang bunuh diri adalah penghiburan yang besar: dengan cara ini, seseorang bisa melewati malam-malam yang gelap?”

(hlm.270)

KESIMPULAN

BERAPA BANYAK

ORANG YANG

MEMBACA BUKU

SAMPAI TUNTAS?

Ilmu sosial sedang menjadi ilmu yang nyata. Dan ilmu baru yang nyata ini siap meningkatkan kehidupan kita.

Sebaliknya, ketika ahli ilmu sosial paling terkenal di dunia bicara, Popper merasa dia sedang mendengarkan sekumpulan jargon yang berlebihan.

(hlm.271)

Ilmu fisika berhasil menemukan hukum-hukum sederhana yang berlaku sepanjang waktu dan di semua tempat.

(hlm.272)

Pelan-pelan, kita akan tiba pada pemahaman pikiran manusia dan masyarakat.

(hlm.274)

Murid yang diajari pecahan lewat game mendapat nilai lebih buruk daripada mereka yang belajar pecahan lewat cara standar.

(hlm.278)

Saya ingin menggali dalam bergunung-gunung data untuk mencaritahu bagaimana dunia sesungguhnya bekerja. Saya memutuskan untuk mengikuti jejak Levitt dan meraih gelar doktor dalam ilmu ekonomi.

Banyak sekali yang telah berubah dalam rentang waktu dua belas tahun. Beberapa kajian Levitt ternyata mengandung kekeliruan. Levitt mengatakan hal-hal yang secara politik salah tentang pemanasan global. Freakonomics telah ditinggalkan oleh kalangan intelektual.

(hlm.281)

Sebaliknya, hanya sekitar 7% yang membaca tuntas karya agung ekonom peraih Hadiah Nobel Daniel Kahneman, Thingking Fast and Slow. Kurang dari 3%, menurut taksiran metodologi yang kasar ini, membaca tuntas karya ekonom Thomas Piketty yang banyak dibahas dan dipuji, Capital in the 21st Century. Dengan kata lain, orang cenderung tidak menyelesaikan membaca karya tulis para ekonom.

Dengan mengikuti data, apa yang benar-benar orang lakukan,bukan apa yang mereka katakan.

Big data mengatakan kepada saya, terlalu sedikit di antara Anda yang masih membaca buku ini.

(hlm.287)

CATATAN

PENDAHULUAN

2. Alexandre Mas dan Enrico Moretti, “Racial Bias in the 2008 Presidential Election”, American Economic Review 99, no.2 (2009).

(hlm.288)

9. makalah ini akhirnya diterbitkan sebagai Seth Stephens-Davidowitz, “The Cost of Racial Animus on a Black Candidate: Evidence Using Google Search Data“, Journal of Public Economics 118 (2014).

(hlm.289)

21. Hal R. Varian, “Big Data: New Tricks for Econometrics”, Journal of Economic Perspectives 28, no.2 (2014).

(hlm.295)

BAB 3: MEMBAYANGKAN DATA DENGAN CARA BARU

57. Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski, and Larry Brilliant, “Detecting Influenza Epidemics Using Search Engine Query Data”, Nature 457, no.  7232 (2009).  Deficiencies in the original model are discussed in David Lazer, Ryan Kennedy, Gary King, and Alessandro Vespignani, “The Parable of Google Flu: Traps in Big Data Analysis”, Science 343, no.  6176 (2014).  The corrected model is presented in Shihao Yang, Mauricio Santillana, and SC Kou, “Accurate Estimation of Influenza Epidemics Using Google Search Data Via ARGO”, Proceedings of the National Academy of Sciences 112, no. 47 (2015).

(hlm.296)

70. Sharad Goel, Jake M.Hofman, Sebastien Lahaie, David M.Pennock, dan Dunncan J.Watts, “Predicting Consumer Behavior with Web Search,” Proceedings of the National Academy of Sciences 107, no.41 (2010).

(hlm.306)

BAB 5: MEMERIKSA LEBIH MENDETAIL

176. Raj Chetty, John Friedman, dan Emmanuel Saez, “Using Differences in Knowledge Across Neighborhoods to Uncover the Impacts of the EITC on Earnings”, American Economic Review 103, no.7 (2013).

189. Craig Anderson, dkk., “The Influence of Media Violence on Youth,” Psychological Science in the Public Interest 4 (2003).

190. Gordon Dahl dan Stefano DellaVigna, “Does Movie Violence Increase Violent Crime?“ Quarterly Journal of Economics 124, no.2 (2009).

(hlm.313)

BAB 7: BIG DATA, BIG SCHMATA? APA YANG TIDAK BISA DILAKUKANNYA

245. Johan Bollen, Huina Mao, dan Xiaojun Zeng, “Twitter Mood Predicts the Stock Market”, Journal of Computational Science 2 no. 1 (2011)

248. “Most Reported Genetic Associations with General Intelligence Are Probably False Positives”, Psychological Science (2012).

(hlm.314)

251. Brian A. Jacob dan Steven D.Levitt, “Rotten Apples: An Investigation oft he Prevalence and Predictors of Teacher Cheating,“ Quarterly Journal of Economics 118, no.3 (2003).

Artikel Terkait

Faktor Faktor yang Memprediksi Bisnis yang Berhasil

Thank You for Being Late oleh Thomas Friedman

Key Management Model 60 Model Manajemen yang Perlu Diketahui Setiap Manajer oleh Marcel Van Assen, Gerben van den Berg & Paul Pietersma

You cannot copy content of this page

error: Content is protected !!